微信扫码
添加专属顾问
我要投稿
视频地址:
https://www.bilibili.com/video/BV1ompzeXEcx/
随着大模型的增长和摩尔定律放缓硬件性能的提升速度减慢,增加了对更高效网络设计和超大规模DC的需求。
当前基于Clos网络的架构(如常用的rail-optimized架构)提供any-to-any全连接,但由于LLM训练网络通信模式的稀疏性,即大部分GPU对之间不需要直接通信,这种通信模式与传统DC网络设计的any-to-any特性不匹配,导致资源利用不充分及大规模部署时的成本和功耗问题。
HB domain通常指的是一个局部的、高带宽的网络环境,其中包含若干GPU。这个域内的GPU通过专用高速网络互连技术(如NVIDIA的NVLink或AMD的Infinity Fabric)连接,以支持高数据传输速率。
通常具有高带宽、低延迟等特点。一般涉及大量的数据传输,如TP中的操作需要在参与同一并行任务的GPU之间快速同步数据。
NIC domain则是指跨越多个HB domains的更广泛的网络环境。在NIC域中不同的HB domains通过NIC接口+标准的网络技术(如以太网、InfiniBand等)连接。
通常具有良好的扩展性、网络负载拓扑灵活性及低成本效益等特点。一般需跨不同HB domain通信,如DP 和 PP操作等。
在NIC域内,大多数通信发生在同一个轨道内的GPU对之间,而不是跨越不同的轨道。同时提出分层集体通信算法。
这里Rail-轨道是指在具有同一个GPU ID的GPU集合。 K个rail也就表示1个HB域中几个GPU。
通过将相同ID的GPU连接到相同leaf交换机,Rail-only网络确保了这些GPU之间的最低延迟。
vs
注:这里rail交换机等同clos网络中的leaf交换机,具体拓扑上的差异参考PPT 5/17。
Rail-only网络设计
去除了传统Clos网络架构中spine交换机,仅保留leaf layer和连接GPU的轨道。结构上区别如上图所示,更多网络拓扑可参考分布式Infra中大模型高效训练综述一文,如下图所示。
路由策略
在Rail-only网络中,通过HB域转发数据来实现不同rail间的通信,这种转发策略虽增加了一定的带宽开销,但由于HB域的高带宽,这种开销对整体性能的影响很小。
故障容错
讨论了GPU平台异常及单GPU异常,在发生故障时,通过重新配置网络或迁移任务到健康的GPU来恢复服务。
性能评估
通过分析不同规模大小GPT模型,在不同GPU集群配置下的训练迭代时间,来评估rai-only网络性能,并使用硬件FLOPs利用率(HFU)指标验证准确性。如下图所示,对于GPT-1T模型rail-only网络的HFU与真实值的误差仅为1.8%。
最优HB域大小
分析了HB域大小对迭代时间的影响,发现随着HB域大小的增加,迭代时间减少。如GPT-1T模型在HB域大小为256时,与理想情况下的迭代时间差距仅为0.9%。
HB域大小和网络带宽影响
无论是增加HB(高带宽)域的带宽还是网络带宽,迭代时间都会减少。
当per-GPU的带宽从2.4 Tbps增加到9.6 Tbps时,对于K=8的配置,迭代时间平均改善了8.0%。对于K=256的配置,可以提高13.3%。
大的HB域对网络带宽的提升更为明显。将带宽从100 Gbps增加到400 Gbps,对于K=8的配置,可以带来35.9%的性能提升,但对于K=256的配置,提升仅为8.0%。
batch size对网络设计的影响
分析了不同batch size对迭代时间性能的影响。当batch size从256增加到4096时,K=256配置的相对性能从95%提高到99%。
成本和功耗分析
对比了Rail-only网络设计与传统Rail-optimized GPU集群在成本和功耗方面的差异。
对于32768个GPU的集群,Rail-only设计相比传统设计在成本上节省了38%至77%,在功耗上节省了37%至75%。
对于65536个GPU的集群,即使在spine交换机的 radix 为64,Rail-only设计也能实现与现有设计相当的性能,同时减少了成本和功耗。
会议分享PPT如下:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-09
实测|Perplexity最新AI浏览器产品Comet,真正的agent全家桶!
2025-09-09
让大模型更懂用户,算法工程师的成长升级之旅
2025-09-09
多智能体自主规划模式性能提升:五大精准策略详解
2025-09-09
nano banana 文生图模型有哪些具体的应用场景?
2025-09-09
Claude Code:极简架构 + 万字提示词 = 最强开发者智能体?
2025-09-09
测试用例还能自动跑?揭秘 AI 测试平台的新功能
2025-09-09
20个进入实用阶段的AI应用场景(设备工程业篇)
2025-09-09
听得清,识得准,语音识别模型Qwen3-ASR-Flash来了!
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-12
2025-06-19
2025-06-13
2025-06-15
2025-07-29
2025-08-19
2025-09-09
2025-09-09
2025-09-08
2025-09-08
2025-09-07
2025-09-06
2025-09-03
2025-09-03