发布时间:2024-10-12
在最近举行的中国移动合作伙伴大会上,中兴通讯副总裁陈新宇展示了公司最新推出的新互联AI服务器。这款服务器突破单节点算力瓶颈,旨在应对AI大模型训练中的通信带宽和时延挑战,并在算力提升和扩展性方面展现了领先的技术创新。以下是陈新宇与记者之间的深度对话。
记者:中兴通讯最近推出了新互联AI服务器。首先,请您谈谈中兴通讯为什么要推出这款服务器?这对AI大模型训练有何意义?
陈新宇:在人工智能领域,大型模型的参数规模正在以惊人的速度扩张,其增长速度呈指数级上升,这对计算能力提出了前所未有的挑战。传统的计算架构已无法满足这些不断增长的需求,尤其是在进行跨节点并行训练时,通信带宽和延迟问题变得尤为严峻。中兴通讯针对这一挑战推出了新互联AI服务器,其设计理念是通过增加单节点内GPU的数量和优化内部通信带宽,有效减轻跨节点通信的瓶颈,从而显著提高大模型训练的效率。
记者: 中兴通讯的新互联AI服务器在哪些方面实现了创新?能否详细阐述其设计理念与传统服务器的区别?
陈新宇:相比于传统服务器,我们的新互联AI服务器在计算密度和网络带宽上实现了显著创新。该AI服务器的GPU互连带宽高达800GB/s,支持高达16卡的扩展能力,相较于传统的8卡服务器,其计算能力翻倍,为大模型训练提供了强大的支持。同时,它采用模块化设计,使升级变得极为简便,客户无需更换整个服务器主机,只需将现有的8卡GPU模块替换为16卡GPU模块。此外,我们的GPU模块设计遵循OCP UBB2.0标准,确保系统的兼容性和未来的扩展性。此外,我们还提供整机柜扩展、一体化交付及智能运维等综合解决方案,旨在帮助客户提升运维效率并降低总体拥有成本。
记者: 能否为我们解释一下“新互联”技术的核心理念?它如何促进AI大模型训练效率的提升?
陈新宇:“新互联”技术的核心理念在于突破传统GPU服务器的通信限制,通过高带宽域(HBD)解决大模型训练中面临的网络带宽和时延问题。当前,国内的GPU服务器通常采用点对点Full Mesh互联架构,虽然能够提供高带宽和低延迟,但其扩展性受限,特别是在大模型训练中,最多只能支持单机8张GPU卡。为满足超大规模参数模型的训练需求,我们创新推出了OLink交换技术,实现GPU之间的高速互联。这种“新互联”技术将GPU的通信模式从点对点互联升级为交换互联,显著提升了系统的扩展性,同时有效降低了GPU之间的通信延迟。通过OLink技术,我们可以在单个节点内支持16张以上的GPU扩展,并且能够进一步扩展到机间互联,打造更大规模的高带宽域,为构建更高密度的超节点奠定了坚实的基础。
记者:在GPU互联领域,开放标准的重要性日益凸显。您如何看待OLink技术采用开放标准对行业发展的影响?
陈新宇:传统的GPU互联总线协议由于封闭性,限制了不同厂商设备之间的兼容性,增加了技术升级和维护的难度。中兴通讯的OLink技术基于开放标准,促进了多厂商生态的共建,企业可以更加灵活地选择硬件设备和技术方案,提升系统扩展性和灵活性。通过OLink互联协议和大容量交换芯片,我们实现了机内及机间的统一高速互联,简化了智算集群的组网复杂度,提升了系统扩展能力和性能,使AI模型训练更加高效。开放的OLink总线协议有助于不同厂商设备的无缝接入,推动了智算领域的多样化发展,并为企业在大模型训练中提供了更高的性价比。
记者: 中兴通讯推出的新互联AI服务器适用于哪些行业或应用场景?
陈新宇: 新互联AI服务器设计初衷是为了满足多行业对高性能AI计算的需求。它不仅适用于电信运营商,还广泛适用于互联网企业、政府机构、科研院所,以及任何需要进行大模型训练和推理的场景。在处理千卡、万卡级别的大规模集群计算任务时,新互联AI服务器能够提供强大的算力支持,满足市场对AI计算能力不断增长的需求。展望未来,我们将继续扩大超节点的规模,并推出更多基于OLink技术的创新产品,以推动AI技术的产业化和广泛应用。
通过本次采访,我们看到中兴通讯的新互联AI服务器不仅在硬件架构上实现了突破,同时在软件与工程能力方面展现出卓越的创新潜力。中兴通讯正以其创新的技术实力,为AI的未来开辟新的道路。随着技术的持续进步和市场的日益成熟,新互联AI服务器将解锁智算新境界,为各行各业带来更高效、更智能的智算体验,推动AI技术向更深层次的应用发展,加速数智化转型的步伐。