我国全自研高速网络产品打破国外垄断，夯实“人工智能+”算力基石

来源: 中国工业新闻网 2026-03-17 15:52

分享到：

算力是人工智能的“大脑”，支撑海量数据训练和复杂模型运行。当前算力“大脑”的重大挑战是低延迟和高吞吐量，高速网络是解决这一挑战的主要路径。

3月12日，中科曙光宣布实现国产高端原生RDMA（远程直接内存访问）技术重大突破，正式发布首款全栈自研400G无损高速网络——scaleFabric。该产品基于原生RDMA架构，从底层的112G SerDes IP、硬件设备到上层的管理软件实现100%自研，填补了国内数据中心高速网络领域的空白。

中国工程院院士邬贺铨在发布会上表示，高速网络作为算力基础设施的核心关键技术，长期被国外技术垄断，成为算力产业发展的核心瓶颈之一，其自主可控性直接关系到国家算力基础设施的安全与发展质量。中科曙光高级副总裁李斌说，（算力集群）从万卡到十万卡，最核心的技术突破不在计算节点，而在互联系统。

近年来，人工智能大模型的发展可谓日新月异，万亿级参数规模大模型已经不断面世，带来算力需求的不断提升，万卡级智算集群乃至更大规模的算力集群走向规模化部署。要发挥大规模超算系统、智算系统的最佳性能，算力、存储、网络三大要素须协调有效运行。

在大模型的大规模分布式训练中，网络通信耗时占比已达到30-50%，网络性能直接影响算力系统的整体效率。这意味着大规模算力系统需要网络同时具备超低延迟、超高带宽与无损传输能力，而RDMA高速网络正是智算集群的“算力大动脉”。

RDMA网络已成为大规模智算集群的基本需求，凭借零丢包、高带宽、低延迟等特征，可极大提升通信效率。目前，RDMA在国内外已形成三大技术路线，分别是InfiniBand（IB，一种高性能计算和数据中心网络架构）、RoCE（RDMA over Converged Ethernet）和iWARP（Internet Wide Area RDMA Protocol）。

其中，InfiniBand凭借低时延与原生无损传输能力，在全球顶级超算与AI集群中被广泛采用。根据TOP500榜单，目前全球约60%的高性能计算系统采用InfiniBand网络架构。

然而，从高速SerDes（一种显著提升数据吞吐量的技术） IP、核心芯片到IB网卡、IB交换机等设备，InfiniBand相关产业链基本被海外厂商垄断，封闭且成本高昂。要竞逐人工智能，必占据算力高地，自主高性能RDMA网络是其中必须攻克的“堡垒”。

新发布的中科曙光scaleFabric是国内首款原生无损RDMA高速网络，面向超大规模智算集群设计，从核心关键IP、交换芯片、网卡到交换机、驱动与管理软件均实现自主研发，构建起从硬件到软件的完整技术体系。其中，硬件主要包括scaleFabric400单口标准网卡、scaleFabric400 1U 80口液冷交换机、scaleFabric400 2U 80口的风冷交换机。

中科曙光高速网络互联产品部总工程师万伟介绍，scaleFabric的核心是两颗高速网络芯片，即scaleFabric400网卡芯片与caleFabric400交换芯片，两颗芯片均采用自研的112G开阔的高速SerDes IP。

从发布会现场了解的产品信息来看，scaleFabric全面对标英伟达NDR（400G InfiniBand），部分指标实现赶超。例如，与英伟达NDR相比，交换机端口密度提升25%，网卡最大QP（Queue Pair，队列对，通信基本单元）数支持提升100%，单子网（一种网络部署方式，不涉及路由，设备间直接通信）互连规模是传统IB的2.33倍，可轻松支持最大11.4万卡集群部署，同时网络总成本可降低30%。

这意味着，国产高速网络已与英伟达NDR比肩。性能对标，但更具性价比。而在实践验证、产业生态、用户迁移方面，scaleFabric已渐次展开。

在实际应用中，scaleFabric目前已部署于位于郑州的国家超算互联网核心节点，支撑三套万卡级scaleX智算集群上线运行，总规模达3万卡。运行数据显示，该网络系统稳定运行，可支持跨POD组网（通常指含多个机柜的一个‌物理部署单元‌，多个 POD可横向扩展形成超大规模集群）及大规模并行训练任务，为国产原生无损RDMA网络在高端智算基础设施中的应用提供了实践验证。

在产业生态方面，发布会上正式成立光合组织高性能计算专委会AIDC高速网络工作组，发布高速网络生态合作计划，主要包含三大工作，一是标准建设，联合国内合作伙伴建立相关标准；二是技术开放，打造生态适配底座，让更多用户使用，打磨产品；三是联合更多科研力量，以产业模式推动发展。

在用户迁移方面，万伟指出，scaleFabric提供原生接口，可以全面兼容各种通信库，无缝兼容各种HPC和AI的应用，各种大模型训练可以在不改代码的情况下直接迁移到scaleFabric系统上来，可以做到应用无感。

2019年英伟达完成对Mellanox（迈络思）收购，掌握了全球大部分InfiniBand市场，构建了InfiniBand从芯片到通信库的完整闭环生态，但在同时，InfiniBand有自己的协议、标准组织，这是开放的。中科曙光的策略，就是在继承InfiniBand开放性的基础上，从产品、技术、商业模式等层面全面开放，“反其道而行”。

中国科学院计算技术研究所研究员王展表示，科学智能发展到现在，缺乏一个底层计算系统的支撑，需要计算芯片、互联芯片，推动真正的科学发展。现在及未来将能在曙光的产品里进一步做科学研究上的优化。

科大讯飞股份有限公司AI工程院智算基础设施架构师鲍中帅说，科大讯飞坚持开放协作、自主创新之路，将与中科曙光一起协同破局，加速人工智能在千行百业落地应用。

北京科技大学计算机与通信工程学院的储根深介绍，通过运行最新的流体模拟、辐照材料分子动力学和物理模拟软件，感受到scaleFabric的性能和稳定性，没有遇到性能抖动等任何网络方面的问题。

当下，中国人工智能已从科技攻关走向场景落地，从“关键变量”成为经济高质量发展的“强劲增量”。刚刚发布的“十五五”规划”提出了“新基建”五大方向，全国一体化算力网排在首位。《“人工智能+制造”专项行动实施意见》提出要“强化人工智能算力供给”。

以scaleFabric为代表的国产原生RDMA在超大规模智算集群中的落地应用，表明这一技术路线正逐步走向成熟，国产高性能网络产业生态也正在加速形成，以“技术自觉”补齐了我国智算基础设施中的关键一环，夯实了“人工智能+”算力基石。

“期待在IB的技术路线能实现技术上的国产化替代。”李斌说。

【编辑：龚忻】

登录中国工业报新闻网

登录中国工业新闻网

找回密码