曙光scaleFabric破局AI算力网络掣肘,开启国产智算“满血”新时代

   发布时间:2026-03-14 01:02 作者:朱天宇

在人工智能算力竞争日益激烈的当下,如何让中国自主研发的算力系统高效运行于本土网络环境,成为产业界关注的焦点。近日,中科曙光推出的首款原生无损RDMA高速网络scaleFabric,为破解这一难题提供了创新方案。这款全栈自研的网络架构,通过重构底层通信机制,实现了AI集群性能的突破性提升,标志着国产算力基础设施迈入全新阶段。

传统AI集群建设中,网络性能往往成为制约整体效率的关键瓶颈。以万卡规模集群为例,其通信需求堪比超大型城市的交通系统,而现有技术方案存在明显缺陷:基于以太网的RoCE方案需通过复杂流控机制模拟无损环境,导致部署周期长达数月且运维成本高昂;海外IB方案虽性能优异,但面临供应链风险与成本压力。这种技术困境,使得多数企业难以充分发挥算力潜力。

scaleFabric的创新之处在于其"原生无损"设计理念。该方案从物理层到协议栈实现全栈自主创新,采用112G PAM4高速Serdes技术,构建了包含交换芯片、网卡芯片及智能管理平台的完整技术体系。其核心的信用流控机制,通过预先确认接收端缓冲区空间,从根本上消除了数据丢包风险。这种设计使网络通信从"被动应对拥塞"转变为"主动预防拥塞",为AI训练提供了稳定可靠的通信保障。

在郑州国家超算互联网核心节点的实战部署中,scaleFabric展现了惊人的效率优势。三套万卡集群仅用36小时即完成网络调试,相比传统RoCE方案数月的部署周期,效率提升达数十倍。这种突破源于其集中管控架构:子网管理系统可在3分钟内自动完成全网拓扑发现与路由计算,实现"一键部署"。对于运维人员而言,系统提供的数字孪生可视化界面与智能故障诊断功能,将复杂网络管理转化为标准化操作流程。

成本效益分析显示,scaleFabric在多个维度实现优化。通过高密度交换芯片设计,其组网密度较同类产品提升25%,使得同等规模集群所需硬件数量减少,综合网络成本降低约30%。更关键的是,其"即插即用"特性消除了对专业运维团队的依赖,将隐性成本转化为可量化的系统效能提升。实测数据显示,在工业仿真等并行计算场景中,该方案可使算力利用率提升20%以上,达到国际主流产品性能水平的96%-105%。

这款国产网络方案的突破性不仅体现在技术指标,更在于其开放的生态建设理念。中科曙光牵头成立的"AIDC高速网络工作组",已汇聚十余家软硬件合作伙伴,共同推进场景化解决方案开发。scaleFabric原生兼容IB应用生态,支持PyTorch等主流框架无缝迁移,为科研机构与企业用户提供了灵活的技术选择。在中国科学院计算技术研究所的测试中,该方案在单QP通信性能等关键指标上达到国际领先水平,特别在国产CPU适配方面展现出独特优势。

当前,AI发展正从训练阶段向推理阶段延伸,对智算基础设施提出更高要求。科大讯飞在郑州超算节点的实践表明,scaleFabric支撑的单机柜640卡集成方案,可有效满足超大规模智算需求。这种技术突破正在推动产业生态变革,随着自主网络标准的制定与优化,中国AI算力正逐步摆脱对单一技术路线的依赖,走出一条开放协作的自主发展道路。

 
 
更多>同类内容
全站最新
热门内容
本栏最新