阿里云UPN512技术架构白皮书:应对AI网络挑战,引领xPU扩展系统新方向

   发布时间:2025-10-12 01:18 作者:顾青青

阿里云网络基础设施团队近日发布了一份技术白皮书,深入探讨了超高性能网络(UPN512)的技术架构。该架构旨在应对人工智能(AI)基础设施网络发展过程中,xPU扩展网络面临的诸多挑战,为构建兼具大规模、高性能、高可靠、低成本及可扩展性的xPU扩展系统提供切实可行的解决方案。

白皮书指出,随着AI领域大模型训练与推理对计算和内存需求的急剧增长,AI集群必须通过高性能网络实现扩展。当前,MoE架构、训推一体化以及xPU规模的持续扩大等趋势,对网络性能提出了全新且更高的要求。在现有的xPU扩展系统中,铜互连技术因成本低廉且稳定而被广泛应用,然而其传输距离有限,在高密度机架设计方面存在复杂度高、可靠性差以及扩展性受限等问题。相比之下,光互连技术成为实现更大规模网络扩展的必然选择,但也面临着成本高、可靠性不足以及高带宽通信下计算开销大的挑战。

针对上述问题,白皮书详细介绍了阿里云UPN512架构的整体概况。UPN512继承了高性能网络(HPN)的扩展网络设计原则,以“大规模、高性能、高可靠、低成本、可扩展”为核心目标,采用了高基数以太网、LPO/NPO光互连以及单层交换设计。与HPN相比,UPN512在GPU带宽、互连协议和互连规模上存在显著差异,并且能够与HPN共同组成高性能系统。

在系统设计及关键组件方面,白皮书进行了深入阐述。系统架构上,通过对比AI机架紧密耦合铜互连的优缺点,重点介绍了UPN512的单层光解耦系统。该系统采用全光互连技术,突破了距离限制,支持1K规模域,解耦设计有效降低了系统复杂度,提升了可靠性与灵活性。在光互连方面,分析了可插拔光模块、高密度带宽光互连方案,并对比了LPO与NPO的适用场景、成本及稳定性,指出二者互为补充,可根据实际需求选择。通信语义上,UPN512基于ETH+协议定义了三种低延迟通信语义,以满足不同数据传输需求。在网络内计算方面,通过在网络设备内执行计算,加速集体通信,优化了对称与非对称集体通信流程,从而提升了数据传输效率,降低了计算资源消耗。

这份白皮书为AI基础设施中xPU扩展系统的发展指明了清晰的技术架构方向,提供了具有实践价值的参考,对于推动高性能网络技术在AI领域的广泛应用具有重要意义。

 
 
更多>同类内容
全站最新
热门内容
本栏最新