数智 正文
我国全自研高速网络产品打破国外垄断,夯实“人工智能+”算力基石
来源: 中国工业新闻网 2026-03-17 15:52
分享到:

算力是人工智能的“大脑”,支撑海量数据训练和复杂模型运行。当前算力“大脑”的重大挑战是低延迟和高吞吐量,高速网络是解决这一挑战的主要路径。

3月12日,中科曙光宣布实现国产高端原生RDMA(远程直接内存访问)技术重大突破,正式发布首款全栈自研400G无损高速网络——scaleFabric。该产品基于原生RDMA架构,从底层的112G SerDes IP、硬件设备到上层的管理软件实现100%自研,填补了国内数据中心高速网络领域的空白。

中国工程院院士邬贺铨在发布会上表示,高速网络作为算力基础设施的核心关键技术,长期被国外技术垄断,成为算力产业发展的核心瓶颈之一,其自主可控性直接关系到国家算力基础设施的安全与发展质量。中科曙光高级副总裁李斌说,(算力集群)从万卡到十万卡,最核心的技术突破不在计算节点,而在互联系统。

近年来,人工智能大模型的发展可谓日新月异,万亿级参数规模大模型已经不断面世,带来算力需求的不断提升,万卡级智算集群乃至更大规模的算力集群走向规模化部署。要发挥大规模超算系统、智算系统的最佳性能,算力、存储、网络三大要素须协调有效运行。

在大模型的大规模分布式训练中,网络通信耗时占比已达到30-50%,网络性能直接影响算力系统的整体效率。这意味着大规模算力系统需要网络同时具备超低延迟、超高带宽与无损传输能力,而RDMA高速网络正是智算集群的“算力大动脉”。

RDMA网络已成为大规模智算集群的基本需求,凭借零丢包、高带宽、低延迟等特征,可极大提升通信效率。目前,RDMA在国内外已形成三大技术路线,分别是InfiniBand(IB,一种高性能计算和数据中心网络架构)、RoCE(RDMA over Converged Ethernet)和iWARP(Internet Wide Area RDMA Protocol)。

其中,InfiniBand凭借低时延与原生无损传输能力,在全球顶级超算与AI集群中被广泛采用。根据TOP500榜单,目前全球约60%的高性能计算系统采用InfiniBand网络架构。

然而,从高速SerDes(一种显著提升数据吞吐量的技术) IP、核心芯片到IB网卡、IB交换机等设备,InfiniBand相关产业链基本被海外厂商垄断,封闭且成本高昂。要竞逐人工智能,必占据算力高地,自主高性能RDMA网络是其中必须攻克的“堡垒”。

新发布的中科曙光scaleFabric是国内首款原生无损RDMA高速网络,面向超大规模智算集群设计,从核心关键IP、交换芯片、网卡到交换机、驱动与管理软件均实现自主研发,构建起从硬件到软件的完整技术体系。其中,硬件主要包括scaleFabric400单口标准网卡、scaleFabric400 1U 80口液冷交换机、scaleFabric400 2U 80口的风冷交换机。

中科曙光高速网络互联产品部总工程师万伟介绍,scaleFabric的核心是两颗高速网络芯片,即scaleFabric400网卡芯片与caleFabric400交换芯片,两颗芯片均采用自研112G开阔的高速SerDes IP。

从发布会现场了解的产品信息来看,scaleFabric全面对标英伟达NDR(400G InfiniBand),部分指标实现赶超。例如,与英伟达NDR相比,交换机端口密度提升25%,网卡最大QP(Queue Pair,队列对,通信基本单元)数支持提升100%,单子网(一种网络部署方式,不涉及路由,设备间直接通信)互连规模是传统IB的2.33倍,可轻松支持最大11.4万卡集群部署,同时网络总成本可降低30%。

这意味着,国产高速网络已与英伟达NDR比肩。性能对标,但更具性价比。而在实践验证、产业生态、用户迁移方面,scaleFabric已渐次展开。

在实际应用中,scaleFabric目前已部署于位于郑州的国家超算互联网核心节点,支撑三套万卡级scaleX智算集群上线运行,总规模达3万卡。运行数据显示,该网络系统稳定运行,可支持跨POD组网(通常指含多个机柜的一个‌物理部署单元‌,多个 POD可横向扩展形成超大规模集群)及大规模并行训练任务,为国产原生无损RDMA网络在高端智算基础设施中的应用提供了实践验证。

在产业生态方面,发布会上正式成立光合组织高性能计算专委会AIDC高速网络工作组,发布高速网络生态合作计划,主要包含三大工作,一是标准建设,联合国内合作伙伴建立相关标准;二是技术开放,打造生态适配底座,让更多用户使用,打磨产品;三是联合更多科研力量,以产业模式推动发展。

在用户迁移方面,万伟指出,scaleFabric提供原生接口,可以全面兼容各种通信库,无缝兼容各种HPC和AI的应用,各种大模型训练可以在不改代码的情况下直接迁移到scaleFabric系统上来,可以做到应用无感。

2019年英伟达完成对Mellanox(迈络思)收购,掌握了全球大部分InfiniBand市场,构建了InfiniBand从芯片到通信库的完整闭环生态,但在同时,InfiniBand有自己的协议、标准组织,这是开放的。中科曙光的策略,就是在继承InfiniBand开放性的基础上,从产品、技术、商业模式等层面全面开放,“反其道而行”。

中国科学院计算技术研究所研究员王展表示,科学智能发展到现在,缺乏一个底层计算系统的支撑,需要计算芯片、互联芯片,推动真正的科学发展。现在及未来将能在曙光的产品里进一步做科学研究上的优化。

科大讯飞股份有限公司AI工程院智算基础设施架构师鲍中帅说,科大讯飞坚持开放协作、自主创新之路,将与中科曙光一起协同破局,加速人工智能在千行百业落地应用。  

北京科技大学计算机与通信工程学院的储根深介绍,通过运行最新的流体模拟、辐照材料分子动力学和物理模拟软件,感受到scaleFabric的性能和稳定性,没有遇到性能抖动等任何网络方面的问题。

当下,中国人工智能已从科技攻关走向场景落地,从“关键变量”成为经济高质量发展的“强劲增量”。刚刚发布的“十五五”规划”提出了“新基建”五大方向,全国一体化算力网排在首位。《“人工智能+制造”专项行动实施意见》提出要“强化人工智能算力供给”。

scaleFabric为代表的国产原生RDMA在超大规模智算集群中的落地应用,表明这一技术路线正逐步走向成熟,国产高性能网络产业生态也正在加速形成,以“技术自觉”补齐了我国智算基础设施中的关键一环,夯实了“人工智能+”算力基石。

“期待在IB的技术路线能实现技术上的国产化替代。”李斌说。

【编辑:龚忻】