发展数据产业,应重视供需匹配

文|孟天广

大数据是生成式人工智能技术革新的基础要素。

近期发布的《国务院关于深入实施“人工智能+”行动的意见》(以下简称《意见》)提及“加强数据供给创新”,并从高质量数据集建设、数据产权和版权制度、加强数据供给激励、产业生态建设四方面予以回应。

在我看来,相关措施落地将有助于激发数据供给活力。同时,也需挖掘数据需求侧的潜力,实现数据发展的供需匹配及平衡。

人工智能应用加速,呼唤高质量数据

不管是通用模型开发,还是专用模型开发,抑或人工智能的社会化应用,都离不开数据要素的支持。

一是通用模型的研发,比如DeepSeek、ChatGPT等基础模型的训练和迭代都离不开海量多源数据的获取和利用。

二是从人工智能的社会化、产业化应用来看,特定行业需要进行专有模型开发,如法律行业等行业垂类大模型。而专用模型开发的前提是建设大量高质量数据集,如特定行业的专用语料库、数据库、知识库等。

三是人工智能应用过程需要和社会的价值规范、法律规则、伦理道德等进行对齐(让大模型的输出内容、推理过程和决策逻辑,与人类社会的价值观保持一致),这一过程也需大量高质量标注数据。

近年来,我国政府加快推进数据要素治理体系建设,形成了分类推进数据开发利用的总体思路,出台了多个政策文件,以公共数据和企业数据开发利用为突破口,加速推动数据要素价值释放,取得了突出成效。

当然,面对生成式人工智能创新发展的迫切需求,数据供给层面仍存在若干需要改进之处。

通用模型开发过程中仍存在数据孤岛问题,部分数据处于不交换、不共享、不开放的状态。很多大模型公司自建数据集、依赖自有数据开发模型,导致通用模型开发受到数据类型、维度和体量的限制。

用于专用模型研发的高质量数据集,譬如行业性、场景化专用数据库、语料库,目前仍然存在供给不充分、质量参差不齐等挑战。随着人工智能产业化、社会化应用落地的加速,这一部分的需求也在持续增加。

数据流通交易和价值释放不充分。现阶段我国已经积累了丰富的数据资源,也形成了数据要素治理框架,但数据要素价值释放的商业模式、产业生态仍亟须探索和拓展,尤其是如何有效激发数据持有、加工使用和产品经营主体的积极性和创造性仍需机制创新。

多措并举,激发数据供给积极性

高质量数据集的规模和质量直接决定了数据集的应用价值。如何有效建设高质量数据集,成为当前关注重点。

在我看来,一是加强政策引导,培育数据要素型企业,围绕数据要素的全流程加工,深度挖掘培育新型经营主体,尤其要大力支持服务多元应用场景的中小微企业,激发数据要素型企业建设高质量数据集的积极性。

二是大力发展数据标注产业。数据标注是将原始数据转化为可识别、可训练、可计算的关键环节,使原本非标数据转化为可流通的数据产品,这正是构建高质量数据集的关键路径。

三是加快发展智能数据标注生态。模型性能的提升与标注数据质量正相关,这种依赖关系随着模型复杂度的增加而愈发显著。智能数据标注快速发展将会带来数据标注效率和质量的极大提升。

数据产权和版权制度也是当前产业界关注的热点。

从数据产权来看,数据二十条(指《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》)提出数据资源持有权、数据加工使用权、数据产品经营权三权分置的产权运行机制。数据资源持有权是数据要素深度加工、流动交易和开发利用的前提,有必要在体制机制上理清数据持有权的界定规则、认定条件和利用机制,进而激励数据持有者通过市场机制释放数据价值。

涉及版权制度,生成式人工智能的兴起使得知识型数据的价值得到极大提升。版权、知识产权、学术文献、标准规范等均是典型的知识型数据,此类数据的利用要兼顾开放利用和保护创新。

当前数据要素价值释放主要通过两种方式,即传统的供需磋商定价和较为简便易用的成本核算。数据供给激励方面,《意见》提及“探索基于价值贡献度的数据成本补偿、收益分成等方式”,和数据二十条确定的“谁投入、谁贡献、谁受益”原则一脉相承,有助于提高企业参与数据要素市场的积极性,推动数据产品和服务多样化供给。

明确需求侧诉求,实现数据供需匹配

需要看到的是,数据供给发力之外,数据需求侧也需发力。当前,数据产业发展存在供需不匹配情况,其核心在于数据需求不清晰、开发不充分、匹配不精准。因此,供应侧发力加快数据产业发展的同时,需求侧也应发力。

一是精准供给政策组合。相关部门应进行大量调查研究,切实了解行业需求、应用场景和供需关系,释放需求侧动力倒逼高质量数据集建设,实现数据供需匹配。

二是释放政策红利。面向不同规模、场景和领域的数据要素型企业,提供政策、人才和资本等精细化政策扶持,发挥行业龙头企业、平台企业创新引领作用,培育大量的中小微企业释放市场需求。

三是构建数据产业生态。以数据要素作为核心资源,将数据要素型企业与制造业、农业、服务业、金融业等多行业企业串联起来,形成数据+产业链、产品链、价值链,持续完善生态构建,推动数据价值释放。

四是提炼典型商业模式。无论是数据要素型企业还是人工智能企业,当下迫切需要凝练成熟的商业模式。让市场来检验数据产品、服务乃至大模型产品的经济价值和商业模型,才能推动产业可持续发展。

(本文作者系清华大学数字政府与治理研究院副院长、教授,由本刊记者郑雪采访整理)

顶部