中国工业报记者 曹雅丽
在人工智能技术迅猛发展的今天,如何构建完全自主可控的通用人工智能生态体系?如何应对大模型“幻觉数据”带来的信息污染风险?2025年全国两会召开之际,全国人大代表、科大讯飞董事长刘庆峰提出了一系列前瞻性建议,从国产算力平台的自主创新到数据治理的技术突破,为行业高质量发展建言献策。
“2025年,我最希望推动完全自主可控的通用人工智能生态体系建设。”刘庆峰说,在自主可控平台上发展通用底座大模型并达到全球顶尖水平,特别是在国计民生相关重点领域对标并实现超越,对我国在未来全球人工智能产业竞争中掌握主动权、赢得战略优势至关重要。
目前,我国主流大模型在算法创新方面已与美国并跑,部分领域实现领跑,在算力领域也正加速追赶。
刘庆峰表示,以科大讯飞3月3日升级的星火X1为例,作为当前唯一采用全国产算力训练的深度推理大模型,星火X1以70B参数量实现了在数学能力上全面对标DeepSeekR1(参数量671B)和OpenAIo1,且在中文数学的各项任务中实现领先。基于星火X1的星火医疗大模型X1,在诊断推荐、健康咨询等医学任务上效果大幅超过了GPT-4o以及DeepSeekR1,已应用在讯飞晓医APP上。
记者了解到,在国产算力的软硬件协同方面,2月28日科大讯飞联合华为发布的最新版星火一体机,支持讯飞星火及DeepSeek双引擎,在教育、医疗、司法、政务等领域成功落地应用,且在全栈国产化平台上实现推理性能提升40%,其DeepSeek满血版推理性能相对主流开源方案提升20%。
“用更少的算力,更小的尺寸,达到业界一流效果。”刘庆峰指出,讯飞星火大模型创新实践表明,基于国产算力底座开展大模型训练和算法创新是可行的,构建真正基于国产算力软硬件协同的生态体系恰逢其时。
但由于国产算力软件生态基础薄弱,算子库、工具链、开源训练框架及开发平台等配套工具尚不完善,除讯飞星火外,其他全民可下载的大模型均基于英伟达卡训练,若不能加快解决国产自主可控人工智能产业生态薄弱、适配困难等问题,无异于“在别人地基上建高楼”。
对此,刘庆峰认为,我国亟需加快推进基于国产算力底座的大模型研发创新、场景应用、生态开放全链发展。他建议,加快构建国产算力平台上的自主可控大模型及产业生态。
鼓励基于自主可控国产算力平台的大模型研发和应用:对做国产算力芯片的企业和使用国产芯片训练大模型的企业给予资金专项支持,在国家公共算力上给予资源倾斜,加速基于国产算力的大模型算法创新;鼓励央国企优先采购基于国产算力平台研发的全栈自主可控大模型;优先推广基于全栈自主可控大模型的行业垂直应用。
构建数据资源充分共享机制:依托中国广泛的AI应用场景,积极推广大模型在产业应用领域的应用,并形成数据飞轮,让中国率先获得AI产业落地红利;
专项支持基于国产算力平台的生态体系建设:鼓励依托自主可控算力底座建立的大模型开发者生态发展和开源社区建设,专项支持加快形成国产大模型生态体系和工具链,加速我国自主可控人工智能产业生态发展。
此外,人工智能技术正向社会各领域渗透,刘庆峰还关注到“AI幻觉”带来的数据污染及其对社会的负面影响。
中国互联网络信息中心(CNNIC)发布的《生成式人工智能应用发展报告(2024)》显示:我国生成式人工智能产品的用户规模已达2.49亿人,占整体人口的17.7%。用户规模的快速增长背后,潜藏风险也被放大:生成式人工智能存在幻觉,特别是深度推理模型的逻辑自洽性提升,使得AI生成内容真假难辨。带有算法偏差的虚假信息会被新一代AI系统循环学习,形成“数据污染-算法吸收-再污染”的恶性循环。
“而普通民众对AI技术原理及生成机制的认知和理解不足,极易将算法输出的‘幻觉数据’误判为真实可信信息。”刘庆峰说。
当大模型生成的“幻觉数据”充斥互联网信息生态时,不仅会削弱公众信任,还可能影响社会稳定。
为此,刘庆峰建议预防大模型生成“幻觉数据”充斥互联网带来的危害,从技术研发和管理机制上构建可信的信息环境。
“构建安全可信数据标签体系,提升内容可靠性:建立安全可信、动态更新的信源和数据知识库,对不同类型数据的可信度和危害程度建立标签体系,降低人工智能幻觉出现概率,提升生成内容可靠性。”刘庆峰建议。
此外,研发AIGC幻觉治理技术和平台,定期清理幻觉数据:研究幻觉自动分析的技术和软件平台,开展幻觉自动分析、AIGC深度鉴伪、虚假信息检测、有害内容识别以及互联网传播溯源,由中央网信办、国家数据局等部门定期清理幻觉数据,为公众提供AIGC幻觉信息检测工具与服务。
请输入验证码