微信扫码
添加专属顾问
为什么要建设10万卡集群,这里不说了,反正人家都在建,当前AI公司第一梯队的门票是3.2万卡集群,明年第一梯队的门票可能会提升到10万卡(H100)集群。
一个10万张H100构成的AI集群功耗约为150MW,资本开支超过40亿美金(300亿人民币),每年耗能1.59 TWh(1.59 * 10e9千瓦时)。如果按0.078美元/kWh的标准费率测算,每年电费就得1.24亿美金。
算力瓶颈的背后,有着“能源”和“工程能力”这两座大山。
一个由10万块H100构成的集群所需的功率约为150MW。而迄今为止最大的美国国家超级计算机El Capitan只需要30MW的功率,只有其1/5。
这150MW具体可以分为H100 Server内部的功耗,以及H100 Server外部的配套设备功耗。
H100 Server内部,每块GPU自身功耗约为700W,为每块GPU配套的CPU、NIC(Network Interface Card)、PSU(Power Supply Units)大约需要575W的功耗。
H100 Server外部,AI集群还囊括了存储服务器、网络交换机、光收发器等许多其他设备,约占总功耗的10%。
目前世界上还没有任何一座数据中心有能力部署150MW的AI集群。X.AI 甚至将田纳西州孟菲斯市的一家旧工厂改造成了数据中心。
这些AI集群通过光通信进行互联,而光通信的成本与传输距离成正比。
多模 SR 和 AOC收发器的最长传输距离约为50米。
长距离单模DR和FR收发器的传输距离为500米~2000米,但其成本是前者的2.5倍。
园区级 800G 相干光收发器的传输距离可以超过2000米,但成本要高出10倍以上。
目前要在一个数据中心内集中提供150MW功率是相当困难的,因此网络拓扑结构的设计变得尤为重要。
对于大规模H100集群,需要增加更多层交换机,光学设备的成本也会变得非常昂贵。不同的网络拓扑结构会带来截然不同的资本开支。
每栋数据中心大楼可以称为一个计算岛(compute island),里面包含多个“计算仓”(compute pod),这些计算仓之间用廉价的铜缆或者多模互联。随后多个“计算岛”(compute island)之间通过长距离的单模光通信进行互联。
由于数据并行相对的通信量比较少,因此,可以跑在不同 计算岛之间:
在这个微软开发集群中,每个机架支持高达40kW的功率密度,每个机架容纳四个H100节点。
目前,这个拥有10万+节点的集群的4栋建筑中,有3栋已经建成(3个计算岛),每个计算岛约 1000~1100个机柜,每个计算岛约 50MW的功耗;
要深入理解网络拓扑结构,首先要搞懂3种不同类型的并行设计方法,即数据并行、张量并行、流水线并行。
数据并行(Data Parallelism)
数据并行是最简单的并行形式,每块GPU都拥有模型权重的完整副本,并接受不同的训练数据子集。
这种并行方式的通信要求最低,因为GPU之间只需要传递梯度数据。
但是,数据并行要求每块GPU都有足够的内存来存储整个模型的权重。这对于像 GPT-4 这样拥有1.8万亿参数的模型而言,意味着高达10.8 TB的内存占用。
张量并行(Tensor Parallelism)
为了克服数据并行带来的内存限制,人们发明了张量并行技术。
张量并行将模型每一层的工作和权重分布在多个GPU上,通常沿着隐藏维度进行分割。这意味着每个GPU只处理模型的一部分,而不是整个模型。
在张量并行中,GPU之间需要频繁通信,以交换中间计算结果,从外面看起来就像是一块巨型GPU一样。因此,张量并行需要高带宽和低延迟的网络连接。
通过张量并行,可以有效减少每块GPU的内存要求。比如使用8个张量并行等级进行NVLink连接时,每块GPU使用的内存可以减少8倍。
流水线并行(Pipeline Parallelism)
另一个克服GPU内存限制的方法是流水线并行技术。
流水线并行的核心思想是将模型的不同层分配给不同的GPU,每块GPU只负责一部分层的计算。
当一块GPU完成层的前向、反向传播运算后,可以将中间结果传递给下一块GPU,自己则可以立即开始计算下一个数据批次。
使用流水线并行技术可以减少每个GPU所需的内存容量,因为每个GPU只存储模型的一部分层。
但它增加了GPU之间的通信量,每个GPU完成计算后,需要将数据传递给下一个GPU,这就要求有高效的网络连接来支持数据的快速传输。
流水线并行对通信量的要求很高,但没有张量并行那么高。
3D并行(3D Parallelism)
为了最大限度提高模型FLOP利用率(MFU),Hyperscaler通常会将三种并行技术结合起来,形成 3D 并行。
具体做法如下:首先在H100 Server内的GPU之间使用张量并行,然后在同一个计算岛内的节点之间使用流水线并行,最后在不同计算岛之间使用数据并行。
网络架构
进行网络拓扑设计时需要同时考虑到所用的并行化方案。
GPU部署有多种网络,包括前端网络、后端网络和扩展网络(NVLink),每个网络中运行不同的并行方案。
对于张量并行的带宽要求而言, NVLink网络可能是唯一足够快的网络。后端网络通常可以轻松处理大多数其他类型的并行,但如果存在「收敛比」,通常只能采用数据并行。
当前建设10万张H100的超级AI算力集群,可以选择的网络方案主要有三种,分别是Broadcom Tomahawk 5,Nvidia Infiniband,以及Nvidia Spectrum-X。下面我们来详细比较这三种方案的优劣。
InfiniBand
InfiniBand的优势在于,以太网并不支持SHARP网络内缩减。
而SHARP能将每个GPU需要进行的发送和写入次数减少2倍,因此它的理论网络带宽也增加了2倍。
但InfiniBand NDR Quantum-2交换机只有64个400G端口,而每个Spectrum-X以太网的SN5600交换机有128个400G端口,Broadcom的Tomahawk 5交换机ASIC也支持128个400G端口。
由于Quantum-2交换机的端口容量较低,在一个拥有10万节点的集群中,完全互联的GPU数量最多只能达到65,536个H100。
不过,下一代InfiniBand交换机——Quantum-X800,将通过144个800G端口解决这个问题,但从「144」这个数字可以看出,这是为NVL72和NVL36系统设计的,不太可能在B200或B100集群中广泛使用。
Spectrum-X
Spectrum-X的主要优势在于其得到了NVIDIA库如NCCL的一级支持——老黄会将你推到他们新产品线的首批客户队列中。
相比之下,如果你使用的是Tomahawk 5芯片,就需要大量的内部工程努力来优化网络以实现最大吞吐量。
然而,如果采用Spectrum-X,就必须加价购买Nvidia LinkX产品线中的收发器,因为其他收发器可能无法正常工作或者通不过英伟达的验证。
此外,英伟达在第一代400G Spectrum-X中,使用了Bluefield-3来代替ConnectX-7作为临时解决方案。(ConnectX-8预计能够与800G Spectrum-X完美配合)
在超大规模的数据中心中,Bluefield-3和ConnectX-7的价格差异约为300美元ASP,但前者要多耗电50瓦。因此,每个节点需要额外的400瓦功率,降低了整体训练服务器的「每皮焦尔智能度」。
现在,将Spectrum-X放入数据中心需要额外的5MW功率来部署10万个GPU,而使用相同网络架构的Broadcom Tomahawk 5则不需要。
Tomahawk 5
为了避免给英伟达支付高昂的费用,许多客户选择部署基于Broadcom Tomahawk 5的交换机。
每个基于Tomahawk 5的交换机与Spectrum-X SN5600交换机一样,拥有128个400G端口,如果公司有优秀的网络工程师,可以实现类似的性能。此外,你可以从任何供应商购买通用的收发器和铜缆,并进行混合使用。
大多数客户直接与ODM合作,如Celestica的交换机,以及与Innolight和Eoptolink的收发器。
基于交换机和通用收发器的成本,Tomahawk 5相比Nvidia InfiniBand便宜得多,相比Nvidia Spectrum-X也更具成本效益。
不幸的是,你需要足够的工程能力来为Tomahawk 5修补和优化NCCL通信集群。毕竟,虽然后者开箱即用,但仅针对Nvidia Spectrum-X和Nvidia InfiniBand进行了优化。
好消息是,如果你有40亿美元用于10万个集群,就应该也有足够的工程能力来修补NCCL并进行优化。
当然,软件开发是困难的,但Semianalysis认为,每个超大规模数据中心都会进行这些优化并抛弃InfiniBand。
为了提高可维护性并增加铜缆网络(<3米)和多模网络(<50米)的使用,一些客户选择放弃英伟达推荐的轨道优化设计(rail optimized design),转而采用中间架设计(Middle of Rack design)。
轨道优化是一种技术,可让每台H100服务器连接到8个不同的叶交换机(而不是全部连接到同一个机架中的交换机),这样每个GPU只需跳一次交换机就能与更远的GPU通信,提高全对全集体通信(all-to-all collective communication)性能。
比如在混合专家(MoE)并行中,就大量使用了全对全集体通信。
轨道优化设计的缺点则是,必须连接到不同距离的不同叶交换机,而不是将一个机架中间的交换机靠近服务器中的所有8个GPU。
当交换机位于同一机架时,可以使用无源直连电缆(DAC)和有源电缆(AEC),但在轨道优化设计中,交换机不一定位于同一机架,因此必须使用光学器件。
此外,叶交换机到骨架交换机的距离可能大于50米,因此必须使用单模光收发器。
如果采用非轨道优化设计,则可以用廉价的直连铜缆取代连接GPU和叶交换机的98304个光纤收发器,从而使您 GPU链路中铜缆占比达到 25-33% 。
与光缆相比, DAC铜缆运行温度更低、耗电更少、成本更低,且可靠性更高,因此这种设计就减少了网络链路间歇性瘫痪和故障,而这正是所有使用光学器件的高速互连所面临的主要问题。
在使用DAC铜缆时,Quantum-2IB骨架交换机的耗电量为747瓦。使用多模光纤收发器时,功耗会增加到1500瓦。
此外,轨道优化设计的初始布线对于数据中心技术人员来说非常耗时,因为每个链路的两端距离长达50米,而且不在同一个机架上。
而在中间机架设计中,叶交换机与连接到叶交换机的所有GPU位于同一机架上,甚至设计完成之前,可以在集成工厂测试计算节点到叶交换机的链路,因为所有链路都在同一个机架上。
如下图所示为常见的三层Fat-Tree 拓扑(SuperSpine-Spine-Leaf),可以将两层的 Spine-Leaf 看做一个 Pod。
由于 Spine Switch 还有一半的 Port 要连接 SuperSpine Switch,相应 Group 的数目要减半,一个 Pod 有 64 个 Spine Switch,对应 8 个 Group。因此,一个 Pod 有 64 个 Leaf Switch。
有了多个 Pod,可以进一步构建 64 个 SuperSpine Fabric,每一个 Fabric 要与不同 Pod 中的 Spine Switch 实现全互联。这里以 8 个 Pod 为例,将 8 个 Pod 里的第 i 个 Spine Switch 与 Fabric i 中的 SuperSpine Switch 实现 Full Mesh,这里有 8 个 Pod,因此一个 Fabric 中只需要 4 个 128 Port 的 SuperSpine Switch 即可。
以上配置 8 个 Pod 对应:
总的 GPU:4096*8=32768
SuperSpine Switch:64*4=256
Spine Switch:64*8=512
Leaf Switch:64*8=512
总的 Switch:256+512+512=1280
总的光模块数:1280*128+32768=196608
实际上理论最多可以支持 128 个 Pod,对应的设备数为:
GPU:4096*128=524288=2*(128/2)^3
SuperSpine Switch:64*64=4096=(128/2)^2
Spine Switch:64*128=8192=2*(128/2)^2
Leaf Switch:64*128=8192=2*(128/2)^2
总的 Switch:4096+8192+8192=20480=5*(128/2)^2
万卡集群依次扩展3个类似的pod即可。
由于当前的模型训练都是同步进行,可靠性就成为了巨型集群最重要的运行问题之一。最常见的可靠性问题包括GPU HBM ECC错误、GPU驱动器卡死、光纤收发器故障、网卡过热等。
为了保持较短的平均故障恢复时间,数据中心必须在现场保留热备用节点和冷备用组件。发生故障时,最好的办法不是直接停止训练,而是换上已经开启的备用节点继续训练。
事实上,大部分服务器宕机的情况都可以通过重启修复,但有些时候则需要技术人员对设备进行现场诊断和更换。
在最好的情况下,数据中心技术人员只需几个小时就能修复损坏的GPU服务器,但很多情况下,损坏的节点可能需要几天时间才能重新投入使用。
在训练模型时,需要经常将检查点存储到到CPU内存或SSD持久化存储, 以防出现HBM ECC等错误。发生错误时,必须重新加载模型和优化器的权重,再继续训练。
容错训练技术可用于提供用户级应用驱动方法,以处理GPU和网络故障。
遗憾的是,频繁地备份检查点和容错训练技术会损害系统的整体MFU,因为集群需要不断暂停,将当前权重保存到持久存储或CPU内存中。
此外,通常每100次迭代才保存一次检查点,这意味着每次重新加载时你最多会丢失99步有用的工作。在一个10万卡集群上,如果每次迭代耗时2秒,那么在第99次迭代失败时,最多会损失229个GPU日的工作。
故障恢复的另一种方法是让备用节点通过后端结构从其他GPU进行 RDMA复制。后端GPU的速度约为400Gbps, 每个 GPU有80GB的HBM内存,因此复制权重大约需要1.6秒。
采用这种方法,最多只能损失1个步骤(因为更多GPU HBM将拥有最新的权重副本),因此只需2.3个GPU日的计算时间,再加上从其他GPU HBM内存RDMA复制权重的1.85个GPU日。
大多数领先的人工智能实验室都采用了这一技术,但许多小型公司仍坚持使用繁重、缓慢、低效的技术,即从检查点重新启动处理所有故障。通过内存重构实现故障恢复可为大型训练运行的MFU提升好几个百分点。
网络故障方面,最常见问题之一是Infiniband/RoCE链路故障。由于收发器数量较多,即使每个网卡到最底层交换机链路的平均故障率为5年,在一个全新的、正常运行的集群上发生第一次作业故障也只需要26.28分钟。
如果不通过内存重建进行故障恢复,那么在10万卡的GPU集群中,由于光纤故障而重新启动运行所花费的时间,将比模型实质进行计算所花费的时间更多。
由于每个GPU都直接连接到ConnectX-7网卡(通过PCIe交换机),在网络架构层面没有容错能力,因此故障必须在用户训练代码中处理,增加了代码库的复杂性。
这是当前英伟达和AMD的GPU网络结构的主要挑战之一,即使一个网卡故障,该GPU无法与其他GPU通信。
由于大语言模型(LLM)在节点内使用张量并行,如果一个网卡、一个收发器或一个GPU故障,整个服务器就会宕机。
目前有很多工作正在进行,以使网络可重配置,减少节点的脆弱性。这项工作至关重要,因为现状意味着整个GB200 NVL72仅因一个GPU或光学故障就会宕机。
显然,一个价值数百万美元的72 GPU机架宕机比一个价值几十万美元的8 GPU服务器宕机更具灾难性。
英伟达已经注意到这个重大问题,并增加了一个专用的RAS(可靠性、可用性和可维护性)引擎。
其中,RAS引擎通过分析芯片级数据,如温度、恢复的ECC重试次数、时钟速度、电压等指标,来预测芯片可能的故障并提醒数据中心技术人员。
这将使技术人员能够进行主动维护,例如使用更高的风扇速度配置来保持可靠性,并在以后的维护窗口期中将服务器从运行队列中撤出进行进一步的物理检查。
此外,在开始训练任务之前,每个芯片的RAS引擎将执行全面的自检,例如运行已知结果的矩阵乘法以检测静默数据损坏(SDC)。
每10万个H100集群的总资本支出约为40亿美元,但具体金额会因所选择的网络类型而有所不同。
具体来说,可以分为四种(原文中是7:1,实际上应该是8:1?):
1. 4层InfiniBand网络,包含32,768个GPU集群,轨道优化,7:1收敛比
2. 3层Spectrum X网络,包含32,768个GPU集群,轨道优化,7:1收敛比
3. 3层InfiniBand网络,包含24,576个GPU集群,非轨道优化,用于前端网络的集群间连接
4. 3层Broadcom Tomahawk 5以太网网络,包含32,768个GPU集群,轨道优化,7:1收敛比
可以看到,选项1比其他选项贵了1.3到1.6倍;选项2虽然提供了更大的集群、更高的集群间带宽和相似的成本,但需要更多的电力;而选项3则会严重降低并行方案的灵活性。
综上,基于Broadcom Tomahawk 5的32k集群,搭配7:1的收敛比是最具成本效益的选项,这也是多家公司选择构建类似网络的原因。
(5)平面布局
最后,在集群的设计上,还需要优化机架布局。
从图中可以看到,有些行的叶交换机并不在同一排,这其实是为了优化使用50米多模光纤。
因为如果将多模收发器放在行的末端,中间的主干交换机将超出距离范围。
使用轨道优化的Spectrum-X / Tomahawk 5的32k集群平面图(预计至少需要需要 80*60m平面空间)
在这个微软开发集群中,每个机架支持高达40kW的功率密度,每个机架容纳四个H100节点。
目前,这个拥有10万+节点的集群的4栋建筑中,有3栋已经建成(3个计算岛),每个计算岛约 1000~1100个机柜,每个计算岛约 50MW的功耗;
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-03
开发者转向 AI 应用工程,真正要迁移的是工程判断力
2026-07-02
不改一行代码,看透 AI Agent 的每一次调用
2026-07-02
AI 不缺智商缺纪律:一场 Harness 工程化实践
2026-07-02
天工 3.2 重磅升级:Skywork Tags 上线,给 Agent 一张工牌,邀其加入你的工作群聊
2026-07-02
Context Infra 会是 AI 领域的下一个热点
2026-07-01
一文了解|SkillScan 智能体技能安全扫描最佳实践
2026-07-01
协作的逆向演进:从 Agent 逻辑重构团队管理
2026-07-01
港科大郭毅可谈Agentic AI时代的核心命题:人机共生,人不可能退场
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-05
2026-04-14
2026-04-24
2026-04-22
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。