数据之于大模型,犹如石油之于汽车。原油需经复杂过程炼化成汽油才能供汽车使用,同理,海量原始数据也需经过“炼化”形成高质量数据集,才能助力大模型的精准跃升。
近日,国家数据局局长刘烈宏指出,今年上半年,全国各地已建设高质量数据集超过了3.5万个,总体量超过400PB。他呼吁全社会强化数据要素的价值认同,加快价值共创,共同培育“为优质数据买单”的共识。
“随着大模型和人工智能技术快速演进,人工智能产业范式从‘以模型为中心’转向‘以数据为中心’。”北京市人民政府副秘书长(兼)、北京市政务服务和数据管理局党组书记、局长沈彬华撰文表示,高质量数据集已经成为人工智能能力提升和场景落地的关键支撑。
掣肘AI发展的“数据困境”
当前大模型技术发展迅猛,在算法趋同、算力普惠的竞争环境中,高质量数据集正在成为AI训练、质量升级和打造差异化大模型的护城河。
“我们面临着目标定位模糊化、实施路径碎片化与技术底座薄弱化等挑战。”谈及高质量数据集建设现状,一位从事数据标注公司的负责人指出,许多企业、机构面临着“数据不完善、不知道需要什么数据集、如何建设数据集、怎样评估数据集质量”等难题,制约了AI应用高效落地。
在数字时代,数据资源与数据资产之间存在着本质的区别,“一大串无序的数字与代码只是原始数据,按逻辑组织成有序信息才成为数据资源,而数据资源需进一步加工、量化,梳理为能带来经济效益的数据才成为数据资产。”专业人士如是说。
2025年8月,中国信息通信研究院联合多家机构发布的《人工智能高质量数据集建设指南》(以下简称《指南》),试图为业界提供一套具有实操性的方法论。
《指南》中指出高质量数据集具备“三高”特征:高价值应用、高知识密度、高技术含量,正是这些特征使得高质量数据集成为模型性能跃升的核心要素。
百川智能资深算法专家李飞认为,数据是模型能力进步的重要要素,尤其在医疗等专业领域,优质数据的获取是模型建设的核心要务。“权威统一的标准有助于促进各领域专业数据的健康流通,这对模型企业大有益处。”
《指南》给予了医疗、工业、金融、智能驾驶等12大行业高质量数据集建设指导建议。值得注意的是,不同行业对高质量数据集的需求存在着显著的差异。
在医疗行业,数据的采集和标注需要深厚的专业背景和业务经验,具有更高的行业壁垒。李飞强调,“医疗行业强调数据脱敏与隐私保护、专家参与的标注共识和多模态数据,如影像、病理、文本等融合。”《指南》中强调,应构建“专家共识标注机制”,要求三级医院的副主任以上医师参与数据标注质量控制,确保医学知识的准确性和一致性。
有汽车智能驾驶领域公司相关负责人则表示,“智能驾驶领域更加注重长尾场景(CornerCases)、多传感器融合标注和仿真数据生成。”
“生态共建”高质量数据集建设的创新模式
随着AI进入“行业深耕”阶段,高质量数据集建设不再只是技术问题,更是战略问题。《指南》的发布为行业高质量数据集建设提供了系统指导,但真正落地还需要产、学、研、用各方的协同努力。
“技术进步很快,对‘高质量’数据的定义也日新月异,把数据转换成生产力,需要行业和技术两方面配合才高效。”李飞强调。
高质量数据集的建设离不开多方协同机制,例如医疗行业数据建设面临多元主体、多层监管和敏感性高的特点,李飞指出,“当前医疗数据集中在医院内部、获取难度大,合规和责任边界难以把握,单一机构难以独立推动高质量数据的建设。”
《指南》的发布,迈出了关键的一步,为各方在“政产学研医”协作框架下明确合作路径和合规要求提供了参考。结合合理的激励机制,这将有助于推动高质量数据的生产与流通,实现数据建设的良性与可持续发展。
高质量数据价值实现模式也在不断创新。上海、天津、安徽等地正在试点“数据语料作价入股”模式,引导企业将高质量数据集折算为股权投入新企业。
中伦律师事务所王祺律师表示,“‘数据语料作价入股’模式为数据要素提供了数据交易市场外的价值证明的新通路。王祺律师强调,“数据合规是数据市场发展的应有之意,只有合规收集、使用、保护、交易的数据才是真正有价值、安全、被市场认可的数据。”
随着人工智能大模型应用从初步探索迈向更为复杂、智能的高阶阶段,对高质量数据集的规模、多样性、时效性以及处理速度的要求将会快速增长。国家政策的持续推动和行业实践的不断深入,高质量数据集体系为人工智能产业发展提供坚实的数据基石。
当前数据要素对经济发展的贡献开始显现,“数据要素价值释放的时代才刚刚开始。”那些能够率先系统化布局高质量数据集建设的企业和行业,将在新一轮人工智能竞争中占据制高点。