本刊记者 郑雪
当你在高速路上开启自动驾驶模式,车辆为何能精准判断变道超车时机?
这是因为它“看懂”了车道线,或者更准确地说,是学习了车道线的专业数据集,读懂了车道线实际含义。
这背后,数据标注——这位AI的“老师”功不可没。数据标注,就是给文本、语音、图片、视频等各种各样的数据“打标签”。标注后的数据可以被AI或机器学习理解。
近期,国家数据局陆续发布了涉数据标注相关的典型案例,小众的数据标注产业也逐渐走入公众视野。数据标注如何支撑智能时代?它的未来又将驶向何方?
产业朝着智能迈进
2016年,秦子雄大学毕业,第一份工作便是数据标注的质量检验。如今,他已成为海天瑞声的高级项目经理,负责自动驾驶图像类数据标注。海天瑞声是AI数据行业首家也是唯一一家主板上市公司。
项目正式启动前,秦子雄都要上手标注数据。以标注车道线数据为例,他向记者演示了一帧(张)车道线数据标注的全过程:在这帧图片中,他需要找到车道线,人工画线标注出来。这些标注后的车道线数据经整理后形成数据集,成为AI学习现实路况的“教材”。
在他看来,数据标注在业内已经火了很久,只是现在才逐渐被公众了解。
《2025高质量数据集发展研究报告》显示,我国数据标注相关产业产值超83亿元。数据标注产业的繁荣与人工智能热潮紧密相连。“高质量的标注数据是AI模型的‘教材’,直接影响着AI的准确性和可靠性。”海天瑞声董事会秘书张哲接受本刊记者采访时说。
如果用一个词总结数据标注产业发展趋势,那便是智能。这一趋势的背后,既有AI发展对海量优质数据的需求,也有传统人工标注模式效率低下、成本高昂的考量。
秦子雄日常工作所用的多模态数据智能标注与管理平台,正是数据标注产业迈向智能的体现。该平台由海天瑞声研制,支持视频、图片、音频、文本等数据标注,含有自研数据处理工具千余个、算法模型200余种。此外,该平台还可实现数据“采集—清洗—标注—质检—训练—回流”的全生命周期管理。
随着平台智能水平提升,越来越多的人能够高效协同地参与到数据标注之中。“借助平台,我们200多人的团队,和40余万来自各行业的数据工程师,共同参与到成千上万个项目之中。”张哲说。
“我们标注的数据更精细”
医学领域的研究同样需要数据标注。设想一个医学项目:研究肌肉的流失对于身体和寿命的影响。项目的首要任务起点,便是将人体腹部的肌肉数据标注出来。
然而,标注腹部肌肉数据并不简单。以国外医疗影像数据标注软件为例,一例肌肉数据标注需要耗时120个小时。假设一个医生每天最多标注2小时,至少需要两个月才能完成一例数据的标注,而此类研究需要标注百例数据。
“肌肉由纤维组成,而纤维之间有空隙。医生需要把纤维一根一根补出来。”东软集团研究院副院长、东软智能医疗科技研究院副院长彭成宝解释耗时长的原因。
上述难题,最终由彭成宝所在团队解决,其研发的东软飞标医学影像标注平台(以下简称“飞标平台”)立大功。该平台支持完整的数据标注流程,还内置了150余种医学影像预标注算法。
凭借飞标平台的预标注算法,肌肉标注效率从最开始的3~4小时,到只用几分钟,效率大幅提升。所谓预标注算法,就是医生人工标出部分肌肉数据后,平台利用相关数据,训练出专用于肌肉数据标注的算法。算法标注的数据会由医生最终确认,算法也会根据每次实时更新的数据不断优化,数据标注效率由此持续提升。
“与国外软件相比,飞标平台能把肌肉的空隙状态进行标注,更加精细。”专家团队如此评价。
更让彭成宝自豪的是,由业内心血管影像专家编写的“主动脉夹层CT血管成像标注专家共识”,在标注工具部分提及了飞标平台。
政策发力,谋划差异化竞争
规模化、高质效的数据供给成为AI时代的刚需。针对这一关键需求,政策层面也在持续发力。
为汇聚数据资源、提升数据质量、盘活数据要素价值,探索数据标注产业高质量发展的科学路径,2024年,国家数据局部署了7个承担数据标注基地建设任务的城市;同年12月,《关于促进数据标注产业高质量发展的实施意见》正式出台,提及“建设一批成效明显、特色鲜明的数据标注基地”,为数据标注基地发展指明方向。
各基地也在积极谋划发展,结合实际情况,培育差异化竞争力。
比如,湖南长沙有着丰富的音视频等行业数据资源,立下了建设“全球高质量音视频文创数据特色开发基地”的目标;山西大同计划打造以数字文旅和智慧能源等行业多模态数据为特色的数据标注产业基地;辽宁沈阳凭借丰富的工业软件应用场景、研发试验平台和载体,聚焦高端装备、汽车制造等核心产业,汇集装备制造领域典型数据,构建生产监控、设备运行、质量控制等数据集。
“我们结合沈阳产业现状和相关基础,重点选取工业制造、现代农业、交通运输、医疗健康等9个重点区域特色行业构建高质量数据集,明确具体应用场景和典型案例方向。”沈阳市数据局相关负责人告诉记者。
截至目前,沈阳基地已形成36个行业高质量数据集并应用于41个大模型。全市数据标注从业人员11600余人,拉动数据标注产业规模约20.4亿元。
省级层面,在辽宁省数据局举办的全省数据标注基地建设推进会上,相关企业达成合作意向,签约金额超2亿元。据悉,辽宁省数据局还将制定《辽宁省数据标注产业创新发展行动计划》,加快推动全省数据标注产业发展。
“我们会加强产业生态共育。鼓励数据标注产业链上下游合作,促进大模型技术持续优化升级,推动人工智能产业全面发展壮大。”上述负责人充满信心。