国产IB路线突围：以自主创新重塑AI基础设施的万卡时代新格局

发布时间：2026-03-17 13:10 来源：快讯作者：江紫萱

近年来，随着人工智能大模型训练规模从千卡迈向万卡甚至十万卡，算力集群的互联网络正从幕后走向台前，成为决定系统效能的核心要素。过去，行业普遍认为GPU数量是制约训练效率的关键，但实践表明，当计算节点突破万卡规模后，节点间的数据通信延迟与带宽瓶颈，往往导致算力利用率不足50%，部分极端场景下通信开销甚至占据总训练时间的半壁江山。这种“算力黑洞”现象，迫使全球AI基础设施领域掀起一场关于高速互联技术的革命。

传统上，InfiniBand架构凭借低延迟、高带宽的优势，长期主导高性能计算互联市场，全球超60%的超级计算机采用该技术。然而，当AI训练迈入十万卡时代，其设计缺陷逐渐暴露：单子网规模受地址空间限制难以突破五万卡，且产业链高度依赖海外厂商，从高速SerDes IP到交换芯片均被少数企业垄断。这种技术封锁与规模瓶颈的双重压力，倒逼国内探索自主可控的RDMA网络技术路径。

以中科曙光研发的scaleFabric为例，这条被业界称为“国产IB”的技术路线，选择从底层芯片到软件栈全栈自研。其核心芯片包括400G RDMA网卡与高性能交换芯片，均基于自主研发的112G SerDes技术，实现单端口带宽397Gbps、端到端延迟0.9微秒的硬指标，达到国际主流NDR InfiniBand水平。更关键的是，通过重构网络地址编码与路由体系，scaleFabric将单子网规模扩展至11万卡，较传统架构提升2.3倍，为未来更大规模集群预留了技术空间。

在郑州万卡集群项目中，这套国产网络展现了惊人的工程能力。从设备进场到训练任务启动仅用30小时，较传统方案缩短70%部署周期。其秘密在于自动化运维体系：通过数字孪生技术实时映射物理网络状态，结合主动压测与集中版本管理，将链路校准、参数调优等繁琐工作转化为标准化流程。这种“交付难度曲线压平”的突破，让运维团队得以同时管理多个万卡集群，彻底改变了AI基础设施的工程实践范式。

针对AI训练特有的通信模式，scaleFabric创新性地提出iLossless智能无损网络与SuperTunnel通信优化体系。在辐照材料分子动力学模拟等场景中，万卡集群并行效率维持在80%-86%；堆芯流体力学测试中，通信开销从50%压缩至10%，彻底解决了传统以太网方案在大规模场景下的拥塞风暴问题。更值得关注的是其“可定义网络”能力——通过开放硬件接口与协议栈，系统可针对自动驾驶、科研超算等场景，动态分配存储I/O与计算同步带宽，实现算力、存储与网络的深度协同。

这场互联网络革命的影响远超技术层面。当算力、存储与网络三大子系统均实现自主可控后，中国AI基础设施正从“替代进口”转向“重构边界”。例如，传统集群设计受限于InfiniBand的五万卡规模上限，而国产方案将这一边界推至11万卡，为区域级乃至跨中心AI集群铺平道路。在产业生态层面，自主标准正推动形成开放互联规范，使不同厂商的芯片、服务器与存储系统能够在统一框架下协同演进，避免整个产业受制于单一封闭协议。

目前，国产RDMA网络已在国内多个智算中心落地，其高密度端口、低组网成本与灵活扩展性，正在重塑AI基础设施的成本结构与工程模式。随着下一代交换芯片研发提速，中国正以scaleFabric为支点，定义符合自身产业需求的技术标准。这条路径或许不同于西方传统方案，但正如某架构师所言：“技术攀登的终点是相同的，区别在于我们选择用自己的方式翻越算力巅峰。”

更多>同类内容