算网协同优化,构建高效高稳超万卡智算集群

发布时间:2024-09-26

随着AI技术的突破性进展,大模型与智能算力的紧密结合正加速推动各行各业从“+AI”向“AI+”转型迈进,全面重构经济社会的生产流程和生活方式。在通用人工智能AGI目标和Scaling Law的驱动下,大模型快速迭代演进,参数规模从百亿、千亿向万亿、十万亿级别不断跃进。GPT-4拥有1.8万亿参数,完成一次训练需要在2万多张A100上训练大约90天,万卡智算集群已成为支撑主流大模型训练的基础设施标配。国际国内头部互联网企业、通信运营商、大型AI科创企业等均已建成或规划建设万卡和超万卡智算集群,以应对超大模型训练对智能算力资源的巨量需求。

智算集群规模的线性提升无法直接带来集群有效算力的线性提升,如何提升集群线性率是衡量超万卡集群性能的重要指标。集群线性率或有效算力有多个影响因素,主要涉及单张GPU卡的性能、GPU卡间的互联带宽和互联拓扑、集群网络互联方案、以及集群的稳定性和故障恢复能力等方面。中兴通讯全栈智算解决方案通过从节点算效、集群规模及并行效率、集群稳定性这几个方面进行深度优化,全面提升集群算效和可靠性,助力客户打造高效、高稳的超万卡智算集群。

构建超节点,突破传统单机8卡算力限制

大模型并行训练时,PP(流水线并行)跨节点会导致大量资源空泡,GPU利用率低,增加节点内GPU数量,提升TP(张量并行)规模,可有效抑制空泡。MoE架构的盛行也带来了大量All-to-All通信,带来大量机间通信流量,通信时延剧增,导致大量GPU闲置。因此,为了满足超万亿参数模型的高效训练需求,超节点意义重大,超节点内GPU规模突破传统单机8卡的限制,互联效率高,可有效减少PP带来的资源空泡和MoE专家并行带来的大量GPU闲置,实现性能跃迁。

鉴于大部分芯片厂家的机内GPU互联采用Full mesh架构,从而带来算力规模和扩展能力的限制,超节点的构建需要重点考虑节点内算力的可扩展性、互联协议的开放性,以及互联带宽容量等方面。中兴通讯在业界率先提出了OLink开放交换互联标准,并自研了大容量交换芯片,实现节点内GPU之间高速交换互联,有效提升节点内GPU规模和互联带宽。据悉,中兴通讯将推出基于OLink标准的新旗舰AI服务器,机内16个GPU通过自研交换芯片互联,未来还会推出算力规模更大的超节点,实现GPU持续Scale up。

扩大集群规模,提升节点间互联效率

超万卡集群网络包括参数面、样本面、业务面和管理面网络。其中,参数面网络用于AI算力节点之间的参数交换,样本面网络用于AI算力节点与存储节点之间的数据访存,参数面和样本面均需要具备高带宽、低时延、零丢包的无损网络能力。面向不同的AI算力节点和存储节点规模,无损网络的构建通常采用Fat-Tree组网,交换机上下行带宽1:1无收敛,智算集群规模越大,对交换机的交换容量、端口数的要求就越高。中兴通讯推出自研的盒式交换机和框式交换机以及多种容量的交换芯片,支持各个型号的交换机产品灵活组网搭配,可搭建百卡、千卡、超万卡任意规模的智算中心网络,灵活满足100GE、200GE、400GE组网需求。

在节点间互联效率方面,中兴通讯推出创新的智能全局负载均衡方案(IGLB),从整网视角集中计算最优转发路径,把网络负载均衡效率调至最佳;同时基于端网协同拥塞控制技术(ENCC),大幅降低流量拥塞调整时间,有效提升了大规模智算集群的通信互联效率。

训前预防,训中监控,确保智算集群高稳运行

超万卡智算集群中GPU卡、光模块等器件数量成千上万,器件运行前的失效概率、运行中的故障概率变高,故障定位难度大,集群的稳定可靠直接关系到训练作业的连续性和执行效率。如果频繁出现故障或故障处理不及时都会导致模型训练受阻、作业进度延迟,从而造成资源浪费和成本增加。超万卡智算集群的运维以训练作业保障为核心,训前启动集中化自动化的健康检查,包括模型压测、集合通信检测、硬件模块快检等,确保上线资源0失效;训中全域监控,支持故障预警、智能分析定位,故障恢复后支持从断点处快速恢复训练,全方位保障训练作业长稳可靠运行。

   中兴通讯在智算领域砥砺前行,持续深化技术研发和探索孵化创新应用,助力运营商和行业用户打造业界领先的AI算力底座和智慧平台,赋能全社会产业AI+转型升级。