发布时间:2024-05-17
2024年5月16日,中兴通讯产品规划首席科学家王卫斌在浙江宁波举办的2024世界电信和信息社会日大会智算融合创新发展论坛上发表了题为《构建开放解耦的电信级智算基础设施》的演讲,阐述了中兴通讯在电信级智算基础设施领域的创新成果和战略布局。
中兴通讯产品规划首席科学家王卫斌发言
王卫斌强调,智算基础设施是“Al+”时代的动力引擎,对于推动全行业智能化转型至关重要。面对大模型参数规模的快速增长,构建千卡乃至超万卡级别的xLSC(Large Scale Cluster)智算集群成为智算基础设施发展的必然选择。
中兴通讯提出Al Booster电信级智算基础设施解决方案,旨在应对xLSC千卡万卡智算集群在高效、开放、高稳、易维等方面的挑战,以支撑大模型发展和GenAI广泛应用。
在“高效”方面,王卫斌表示,提升单机算力密度是构建LSC (Large Scale Cluster) /vLSC (Very Large ScaleCluster)大规模算力集群的基石。中兴通讯采用了交换架构互联和大TP(>8)技术,有效构建千卡/万卡规模智算基础设施。同时,异构并行调度技术是uLSC(Ultra Large ScaleCluster)超大规模算力集群的,通过CoHC(Cluster of Heterogeneous Compute) 异构算力集群和CoDC(Cluster of Data Center)跨DC集群混池训练实现向十万卡智算基础设施的演进。
在“开放”方面,王卫斌强调,开放的技术生态才能构建共赢的商业生态,端到端开放解耦智算方案是产业良性发展的关键。为此,中兴通讯提出了“三解耦一协同”的主张,即软硬解耦、训推解耦、模型应用解耦和算网协同。AI Booster的eMIG跨平台模型迁移套件,提供包括精度对齐、算子对齐、代码迁移和性能优化等工具,可大大减少模型迁移时间。
在“高稳”方面,AI Booster引入多级故障检测、冗余Bypass、实时分布式缓存等技术,通过WLET(WorkLoad Elastic Training)弹性训练支持千卡无感自动断点续训,实现了超大规模集群的周级长稳训练,大大减少了训练回滚时间。
在“易维“方面,Al Booster用Al管理AI,实现了智算基础设施的高效运维。通过全局可视化和管控动化,Al Booster大大提高了运维效率。跨层端到端设计、脚本自动生成、跨层拓扑实时还原等功能,使得运维工作更加简化和高效。
王卫斌表示,中兴通讯致力于构建高效、开放、高稳、易维的电信级智算基础设施,以促进大模型和GenAI的普及与发展。中兴通讯将通过持续创新和开放合作,繁荣智算产业生态,筑路数字经济,推动AI+新质生产力的发展。