
1. AI发展的数据基础与挑战
现代主流AI基本基于机器学习和深度学习模型,从数据中“学习”模式和规律,数据常被比喻为AI的燃料或血液。进入大模型时代,基于自监督学习的预训练范式降低了数据利用中的人工标注依赖,促进了数据、模型参数与算力的协同发展。人们据此总结出规模定律,即大语言模型的性能与模型参数量、训练数据量、计算量存在平滑的幂律关系。
不过,下一步AI发展面临巨大的数据挑战,其中“数据枯竭”被讨论最多。因为AI训练利用的是人类积累的“库存”数据,如互联网数据、维基百科、图书和经典文献等。虽然人类社会每年新增大量数据,但高质量数据的线性增长难以匹配AI的超线性发展预期。根据EpochAI测算,语言模型的训练将在2026年到2032年间耗尽人类公开的文本数据。
AI的发展面临数据数量与覆盖度、数据质量两个维度的挑战,且在AI开发与应用的各个环节、场景都存在这些挑战,如预训练阶段的数据枯竭和互联网数据质量问题、后训练和对齐阶段高质量标注数据的短缺等。
2. 应对数据挑战的方向
2.1 数据扩增方法一:收集和整理散落数据
对于人类社会积累的数据,“数据枯竭”意味着公开的、未被产权保护的文本化数据被快速消耗,但人类社会和人脑中仍有大量未开发的数据与知识空间。
首先,各行各业有海量不公开的数据,如电商平台、医疗领域、制造业、科研领域等的数据。这些数据以“数据孤岛”形式存在,虽可通过RAG等方式发挥局部价值,但难以汇聚成大规模训练语料。科学界的“发表偏差”导致大量未被共享的失败实验数据未被利用,而这些数据对AI有学习价值。AI专家已探索技术手段释放这些数据的潜力,如联邦学习和差分隐私技术,但还需要制度与机制设计。可探索自下而上的市场化路径和自上而下的政府或行业监管者统一安排路径。
其次,人类大脑中有尚未数据化的认知资产,如复杂决策背后的思维轨迹和专家的隐性知识。缺乏这些数据,AI难以学到可迁移的推理能力。思维轨迹和隐性知识的数据化虽成本高、难度大,但可能成为未来AI能力提升的关键来源。
第三,对人类已积累的知识进行治理、提高质量很重要。互联网信息质量良莠不齐,AI训练易受低质量数据影响。因此,需要围绕提升数据和知识质量开展工作,包括数据清洗、建立溯源和版本控制机制、构建高置信度数据集等。
2.2 数据扩增方法二:利用机器智能
除挖掘人类社会积累的数据和人脑中的认知外,还可利用AI自身体系挖掘和生成数据。
首先是合成数据,重点讨论基于机器学习模型和仿真环境生成的合成数据。用教师模型的高质量输出训练学生模型,即“知识蒸馏”,前沿大模型训练中,上一代模型的合成数据也可发挥作用。如用模型自身的“高质量子集”训练新模型,以及智能驾驶训练借助合成数据生成罕见事故场景。但AI在合成数据中不能凭空创造新知识,而是对原始数据进行提纯、配比和加工。
其次是让AI通过强化学习拓展数据。Alpha Zero在棋类上通过自对弈超越人类棋手,说明在规则明确、反馈清晰的封闭环境中,AI可通过自生成数据逼近或突破人类经验上限。在开放任务上,以DeepSeek - R1为代表的“思维链强化学习”推理模型可自动产出高质量思维轨迹。具身智能领域可通过仿真环境和真实世界训练产生高价值新生数据。
第三是发展AI的主动学习,让模型自己决定学什么、向谁问什么。在数据标注昂贵的场景下,可提高标注样本的信息密度。从长远看,主动学习、强化学习和具身智能结合,有望让AI转变为主动学习者。
3. AI时代数据领域的机会
AI下一阶段的发展很大程度取决于数据。一方面,数据在规模和质量上遇到新天花板,缓解瓶颈、提升数据有效供给的方案有巨大经济价值,AI竞争焦点可能转向数据。另一方面,算力和基础模型产业门槛高,而数据分散在各行业和场景,不同企业都有机会通过建设数据资产等形成护城河。
政府也需扮演关键角色,在适合自上而下的领域搭建共享平台和制度框架,在适合市场机制的领域给创新留出空间。中国大语言模型训练依赖互联网数据,但在其他类型数据上有潜在优势,若完善数据法规等,数据有望成为本土AI发展和竞争的重要支点。那么,如何更好地挖掘和利用数据,推动AI持续发展呢?
1285

被折叠的 条评论
为什么被折叠?



