中兴通讯陈新宇：算力高速互联，超节点开启AI进阶新篇章

发布时间：2024-09-25

在2024中国国际北京通信展期间，中兴通讯副总裁陈新宇介绍了中兴通讯在超节点方案的最新突破，彰显了中兴通讯在算力和网络技术上的强大创新能力。

中兴通讯副总裁陈新宇

随着人工智能技术的飞速发展，AI大模型的参数规模正以超越摩尔定律的速度急剧扩张。在此背景下，探索如何在超大规模智算集群中实现GPU之间的高速互联，从而显著提高GPU的利用率，已成为行业面临的重要挑战。

中兴通讯凭借其在算力和网络技术领域的深厚积累，推出了更先进的超节点方案。陈新宇在介绍时强调：“我们的超节点方案能够实现更多GPU之间的高速互联，为大模型的训练提供了强有力的支撑。”

大模型驱动，超节点成为AI进阶的必然选择

AI大模型的迅猛发展对计算能力提出了前所未有的挑战。为应对这一需求，企业纷纷构建智算集群，并引入并行计算技术，以加速模型训练。然而，尽管并行计算提升了整体计算效率，它也带来了同步开销和通信延迟的问题。陈新宇指出：“在万亿参数规模的模型训练中，跨机并行在带来计算效率提升的同时，也带来了新的问题——空泡现象。” 具体来说，模型在不同GPU和服务器间进行数据传输时，GPU因等待无法充分利用，导致计算过程中出现‘空泡’，从而影响了模型训练的整体效率。他进一步解释，混合专家模型（MoE）引入专家并行训练，进一步加剧了通信带宽和时延问题，使得GPU空转时间显著增加，成为大模型训练中的技术瓶颈。

为了应对这一问题，中兴通讯推出超节点解决方案。陈新宇解释道：“在单个节点内增加GPU的数量，能够显著减少跨节点的通信量，进而大幅提升GPU的利用率。”由于机内带宽通常远高于跨机带宽，因此，增加单机内的GPU数量，充分利用机内带宽，是降低GPU空转比例的关键。

突破算力拓展瓶颈，OLink助力构建超节点

随着大模型训练对算力需求的不断提升，传统的机内点对点Full Mesh互联架构逐渐暴露出其扩展性不足的弊端。Full Mesh架构虽然能够提供高带宽和低延迟的通信能力，但其扩展能力有限，尤其是在GPU数量增加时，点对点的通信方式难以实现线性扩展。通常，Full Mesh架构最多只能支持单机8张GPU卡，这大大限制了大模型的训练效率。

为了构建超节点，中兴通讯创新性地推出了OLink交换技术。通过这种技术，GPU之间的通信从传统的点对点互联模式转向交换互联模式，显著提升了单机的扩展性和通信带宽，突破单机8卡的限制。陈新宇强调：“通过OLink技术，可以打造更大规模的高带宽域(HBD)，从而大幅提升集群算力。”通过OLink高速交换，还可以将高带宽域从机内拓展到机间，从而实现更高的扩展性，能够支持16卡以上的扩展。这种线性扩展能力，为构建更高密度的超节点奠定了坚实基础。

开放互联，构建多元化智算生态

当前，GPU互联私有总线协议的封闭性已成为多厂家芯片兼容的主要障碍，限制了硬件系统的扩展性，并增加了技术升级和维护的难度。为克服这一局限，中兴通讯在其OLink技术中采用了开放标准。

陈新宇强调：“我们的OLink标准是开放的，它不仅促进了多厂家生态的繁荣，还为企业提供了更加灵活的选择。”这一技术开放性为行业带来了更大的灵活性和可持续性，有助于推动智算技术的多元化发展。

在未来的规划中，机内和机间将统一采用OLink交换高速互联，通过OLink互联协议和交换芯片，提供端到端的GPU高速互联方案。这不仅简化了智算集群的组网复杂度，还有效提升了整个系统的扩展能力和性能，使得AI模型训练和推理变得更加高效。

智算未来，超节点加速AI落地

在AI技术变革的浪潮中，中兴通讯凭借其在智算和网络领域的创新技术，正加速推动AI技术在各行业的应用落地。其新一代超节点方案在硬件架构上实现了重大突破，展现出极高的开放性和兼容性，能够在各种场景中广泛应用，促进AI技术的普及和行业发展。

陈新宇强调：“通过持续的技术创新，我们将引领AI产业迈向更高效、开放的智算未来，为行业带来更多的发展机遇。”

此次采访，展现了中兴通讯在智算架构优化方面的深度研究与技术创新。未来，随着AI模型参数的不断增长和应用场景的不断扩展，中兴通讯将继续通过技术创新，助力各行各业实现数字化转型和智能化升级。

中兴通讯陈新宇：算力高速互联，超节点开启AI进阶新篇章

5G

NFV

虚拟化

TECS

SDN

网络切片

DevOps

MANO

VNF

云基础设施

MANO

ICT硬件

集成

VNF

云基础设施

MANO

多接入边缘计算

集成