发布时间:2024-07-08
中兴通讯产品规划首席科学家王卫斌在2024 WAIC的AI创新生态论坛发表了题为《AI进阶,开启极智算网新未来》的演讲,阐述了中兴通讯在智算领域的核心理念和战略布局。
王卫斌强调,近一年来,全球大模型和生成式AI技术突破层出不穷,智能计算的发展进入快车道,AI将从1.0进阶到2.0。相较于AI 1.0,从技术上看,AI 2.0阶段的大模型将从千亿进化到万亿甚至数十万亿,与此对应,AI基础设施从千卡集群发展到了万卡甚至超万卡集群,同时也在探索异构集群和长距互联集群的可行性。但是,谈及AI 2.0更多地是指构建AI产业开放生态和商业成功所面临的新挑战,包括:从单纯的大模型训练竞赛向模型推理应用落地、使能千行百业的转变;从性能优先、价格昂贵的集群系统向性价比优先、人人用得起的普惠算力转变;从多而不强、自成一体的碎片化封闭生态向取长补短、多方协同的开放创新生态转变。
面对AI进阶新挑战,王卫斌表示中兴通讯将坚持开放解耦原则,通过“开放基座、以网强算、训推并举、多方合作”的核心理念与产业链合作伙伴共同构建一个开放的智算生态。
首先是构建一个开放的“智算基座”,与主流GPU厂商紧密合作,提供高性能和多样化的算力解决方案。该方案不仅实现了“换芯不换座”的目标,还可以让用户根据不同场景选择合适算力,加速AI算力的创新,实现共赢的商业生态。
其次是基于“以网强算”理念打造高效超万卡集群。针对单卡算力受限和机内卡间互联瓶颈引入了Olink开放交换互联的创新突破,这不仅推动了机内通信从点对点全网状互联向交换互联的转变,还支持单机更大规模的GPU部署。针对超大规模GPU服务器带宽和拥塞瓶颈,推出超万卡星云网络高速互联技术,通过大容量交换和400G接口及IGLB全局流控技术实现超万卡互联和端网协同,极大提升了集群算力的使用效率。
再次是采取“训推并举”策略,支持异构GPU混池训练,避免了对单一算力的依赖。在推理方面,支持多场景、多规格的推理卡,实现了推理任务的智能分发,为不同的推理任务选择了性价比最高的推理卡。此外,通过提供迁移工具,支持训练和推理在不同场景GPU之间的快速迁移,进一步降低了推理成本。
最后是积极推进“多方合作”,催熟AI产业生态。中兴通讯与业界主流厂家合作,共同打造ZTE Cloud AI开放实验室,实现多厂商互操作性测试、系统集成、创新方案验证和技术标准化;同时与多家业界主流模型合作,构建多场景系列化AI应用一体机,集成了开放模型仓库和多场景应用,支持多模型入驻模型和应用灵活适配。这使得最终客户可以根据自己的需求,灵活选择不同模型,打造场景化应用。
王卫斌表示,未来AI技术和产业将持续进阶迭代,中兴通讯始终秉持开放共赢的理念,携手合作伙伴共同构建多元化智算发展新生态,共赢AI新未来。