中国工业报记者 曹雅丽
科学数据是人工智能发展的‘稳定器’和‘加速器’,当前已进入关键时期,挑战与机遇并存。”4月21日,国新办举行“新征程上的奋斗者”中外记者见面会上,中国科学院计算机网络信息中心副主任周园春在回答记者提问时,就科学数据在人工智能发展中的作用以及面临的机遇挑战作出深入解读。
周园春表示,相比海量的互联网数据,科学数据具有严谨的系统化观测和科学的实验,具有高可信、可溯源以及物理逻辑自洽的特点。基于这个特点,科学数据对人工智能发展具有两重角色。一是“稳定器”,科学数据能够为大模型提供符合自然规律的原则性知识,这样的知识能够降低大模型“胡说乱编”,也是支撑构建一个可信、安全、符合自然规律的AI基石。二是“加速器”。科学数据是驱动科研范式变革的重要引擎,从蛋白质结构预测、新材料创新,这些带有标注的高质量科学数据能够支持大模型对未来进行预测,缩短研发周期,加速研发效率。
从科学数据的挑战与机遇来看,当前科学数据赋能人工智能发展已进入关键时期,挑战与机遇并存。
首先看挑战,高质量科学数据获取难。 高质量科学数据是人工智能发展的核心与基石,但其获取难度较大。这类数据主要来源于高水平大科学装置、长期野外观测与调查等手段,获取后还需科研人员投入大量精力进行加工处理,才能用于模型训练。
“不过,挑战之中也蕴含着机遇。大模型反哺数据生产。大模型技术的发展,恰恰为高质量科学数据的获取与加工提供了新的技术手段和方法。这正推动科学数据与人工智能实现‘双向奔赴’。”他指出。
再看第二个挑战,大模型可解释性面临瓶颈。人们不仅希望知道结果,更希望“知其然,亦知其所以然”。当前,科学数据在产生过程中普遍缺乏唯一标识或编码,如同每个人没有“数字身份证”。数据一旦进入大模型训练,就难以实现可溯源、可关联,导致数据追踪链条断裂,版权追溯、权属确定、溯源机制难以落地,大模型预训练时也无法有效追踪数据来源。
破解这一难题的关键在于源头赋码。他指出,如果在数据产生源头就赋予唯一编码,并对后续加工处理后的数据产品也进行赋码,同时建立前后连接关系,就能形成清晰的数据赋能大模型路径。基于这一可追溯链条,可以追踪人工智能在推理过程中的每一步逻辑,从而显著提升大模型及人工智能结果的透明性与可解释性。
客户端
媒体矩阵
企业邮箱