2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

DeepSeek时代:关于AI服务器的技术思考(PCIe篇)

发布日期:2025-03-05 07:53:17 浏览次数: 3861
作者:企业存储技术

微信搜一搜,关注“企业存储技术”

推荐语

探索AI服务器技术新动态,深入了解DeepSeek时代GPU连接方式与PCIe技术。

核心内容:
1. GPU连接方式对比:PCIe与UBB的性能差异
2. PCIe Switch的价值与电源散热设计要点
3. 深度解析AI服务器中CPU与GPU的协同工作与技术要求

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


刚过去的一个周末,IT新闻基本上又被DeepSeek刷屏了。从春节到现在,加班的同行朋友是不是比以前多了?

GPU连接方式:PCIe还是UBB?

上图是一款4U 8卡(或单宽16卡)的AI服务器,支持可以4卡互连的NVIDIA H200 NVL GPU。其实XE7745这个机型我在《风冷、液冷GPU服务器密度提升 - PowerEdge 17G整机架预览 (2)》中已有过简单介绍;我还在《3U 8卡:对AI推理服务器意味着什么?》中实物讨论过另一款接近的服务器——Lenovo SR675 V3。

凭借在GPU卡顶部的4-way NVLink bridge,4块H200 NVL的显存能够“打通”,141GB x 4=564GB。此时8卡机可以当作2个节点,如果用FP8精度跑LLAMA 3 405B这种规模的大模型推理,应该是挺合适的。    

 

但随着DeepSeek V3/R1 671B模型的开源,以及人们对全量参数的崇拜,上述配置想“满血”推理就不够完美了,除非量化到int4。似乎只有像H20、MI308等UBB模组,具备GPU高速全互连的AI服务器才是好马配好鞍?

扩展阅读:《解锁DeepSeek-R1 671B FP8推理性能:5,921 token/s @ AMD MI300X    

当然大家也知道H200等有些AI芯片是禁售的,我只是拿它从技术角度举个例子。而我认为这个思路,对NVIDIA以外的PCIe AI加速卡(包括国产)也能做个参考?

毕竟大模型参数的提高,显存/内存容量是一个很重要的门槛。另外像《DeepSeek-R1 671B最小化部署实验:CPU+192GB内存》这种拿CPU做低成本推理的尝试,容量够了带宽又会比较敏感。

伴随着DeepSeek不断对外的开源&分享,更高效的推理方案可能并不一定要在单机显存中全部容纳671B参数,而是用多台主机组成的“超节点”分工协作。在这方面我还研究有限,下面先简单截取2张论文里训练架构的图片。然后还是重点讨论我的本行——服务器硬件。

注意:上面描述的是MoE LLM训练(下一代PCIe架构),而当前DeepSeek官方说法是“DeepSeek V3 和 R1 的所有服务均使用 H800 GPU”。

上图显示的双卡NVLINK,有点像DeepSeek早先就拥有的硬件A100?无论未来是什么样的卡间互连技术,在大规模集群中还是要依靠IB或者高速以太网。另一方面,随着Qwen、DeepSeek蒸馏模型质量的提高,更多的用户拿70B、32B乃至更小参数的模型也完全够用,因此PCIe AI服务器仍然大有可为。

4颗144 lane PCIe Switch的价值

PowerEdge XE7745的重点就是支持8块双宽600W PCIe AI加速卡,或者16块单宽75W的——比如NVIDIA L4。

上面是Dell官方文档里的架构图,但我想说这个示意并不完全准确或者说完整,我会在下文中逐渐剖析这一点。另外我们也能从这里先了解到一些信息:

-每颗CPU通过2颗PCIe Switch,各自连接2个GPU;

-网卡和NVMe SSD都连接到PCIe Switch上,这样它们即可以被CPU使用,也能直连GPU,支持RDMA远程内存访问或者GPUDirect Storage这样的用途。

作为一款4U服务器,XE7745具备比3U更多的扩展空间,比如跟下图所示的SR675 V3简单比较:

SR675 V3也是基于AMD EPYC平台,该机型是用2颗PCIe Switch来连接8块GPU卡,做不到GPU与网卡之间的1:1配比。我认为对于AI推理用途,这款3U 8卡机型更适合跑单机而不是拼多节点集群,当然多台之间用Nginx跑负载均衡并发是ok的。

    

Dell XE7745使用了4颗Broadcom 144 lane PCIe Switch,显然成本更高。这也又一次让我想起了OCP(Meta)的Grand Teton机型。

Grand Teton有一个专门的Switch tray。XE7745实际上也是分成了2个Tray,集成度比Grand Teton要高一些。上面有些可以参考的我先列一下:

4x PEX89144 PCIe 5.0 Switch,一共提供:

-8x上行PCIe 5.0 x16到CPU;

-8x下行PCIe 5.0 x16到8个OCP NIC 3.0网卡;(XE7745支持8块网卡是PCIe AIC形态的)

-16x下行PCIe 5.0 x4到NVMe SSD;(XE7745支持8个SSD,这里不算BOSS盘)

-8x 下行PCIe 5.0 x16到GPU/AI加速器。(XE7745最多支持16个GPU/AI卡)


Dell XE7745设计不完全一样很正常,下面是Grand Teton用于训练配置的架构图:    

我在以前的文章中还列出过Grand Teton用于推理的配置——主要是去掉了连接在PCIe Switch上的网卡。而这次我介绍的XE7745,可以说是兼具2种用途支持的。

电源3200+9600W、CPU/GPU散热区域隔离

XE7745前面的12个风扇,都是主要针对GPU/AI加速卡的。上面有8个E3.S SSD,以及BOSS系统盘位。本地存储容量是个可选项吧,像人家DeepSeek/幻方不就开源了3FS存储集群的文件系统嘛。    

这里有一个要点:4U机箱的最上面1U部分是CPU(主板)单元;而下面3U部分是GPU模块(其中还有别的扩展卡)。上下2个Tray散热也隔离了。

8个3200W电源模块,最上方的1和2是用于CPU Tray的1+1冗余,而位于下方的3-8模块则是3+3冗余,为GPU等提供最多9600W输出。应对GPU突发功耗啥的,这里的裕量还是不小吧。

从某种程度上来说,XE7745的主板是可以通用于多个机型的设计。这一点后面我列出更多图片大家就更好理解。这里先简单看看布局,包括CPU散热器和风扇啥的都跟1U服务器一样。

500W CPU + 600W PCIe GPU,自然要配最高等级(HPR)的风扇。

I/O不妥协:24个满血PCIe 5.0 x16插槽

XE7745目前正式支持的内存频率为6000 MT/s,2.3TB最大容量对应24条96GB。不过也说明了未来将支持单条128GB,以及6400 MT/s的内存频率。

使用4颗144 lane PCIe Switch的另一个好处是,如果插16张单宽GPU/AI加速卡,仍然可以保持每块卡PCIe x16的带宽。

把顶部1U的CPU+主板模块拆下后,PCIe Switch底板上能看到4颗主要散热片,以及支持GPU等扩展卡的若干PCIe插槽。

为了说明CPU+主板 与 GPU+PCIe Switch模块之间的连接关系,上图就是需要插线的PCIe连接器位置。

不难看出XE7745的主板(HPM board)符合OCP标准的DC-MHS尺寸,每颗CPU一共引出64个PCIe lane到GPU所在的底板。其中一个连接器就是复用了OCP NIC网卡的槽位——说明这块主板的通用性吧。

扩展阅读:《Xeon 6和EPYC 9005推动双节点模块化服务器增长

豪华散热器取巧达成“1U”双CPU 500W

看看CPU散热器的尺寸和热管数量

还记得我之前写的《风冷散热极限:1U/2U服务器CPU 500/600W+可行性分析》吗?XE7745似乎是做到了在1U空间内支持2颗AMD EPYC 9965/9975 500W CPU,还是35进风温度。不过有一点,GPU和别的PCIe卡都甩到下面的3U空间里,所以算是占了这点便宜吧:)    

不过H200 NVL的600W TDP毕竟是发热太多了,所以如果配满它环境温度限制就降到30

原则上只能用被动散热GPU,因为卡的安装方向…

还有一点,XE7745的散热气流是从前到后,不过上图大家也看出GPU卡安装的方向了吧。只能是数据中心专用的被动散热加速卡,或者那些把4090(D)等散热器改成被动的才有可能支持。涡轮卡的散热出风口可是反的哦

这一点,我觉得要怪只能怪600W GPU 8卡的散热不好搞:)因为之前在“AMD Advancing AI中国解决方案峰会”上,也看到过不少PCIe加速卡槽位在机箱尾部的服务器机型。    

Dell的硬件品质还是比较讲究的,PCIe Switch底板也是一个Tray,能以模块化形式从机箱中拆装。

除了前端的16个PCIe槽位之外,后面标着1-8数字的可以用于网卡等,也都是全速PCIe 5.0 x16。

PCIe Switch to CPU上行链路:为何有一点不对称?    

思考题:挨着画在一起的PCIe Switch,2个芯片之间有没有做互连呢?欢迎大家在下面留言讨论。

上图我把XE7745的最大扩展性补在里面了。每个PCIe Switch的下行设备可以包括:2-4个GPU/AI加速卡、最多2块网卡等;NVMe SSD一共支持8个,有可能分布在4个PCIe Switch上,也可能集中连接到2个?

唯一不对称的一点设计?是PCIe Switch上行到CPU的连接。由于DPU(OCP网卡)是直接连到CPU,所以最左边的PCIe Switch 1应该只有1条Gen5 x16上行链路到CPU,另外3颗PCIe Switch都是双x16 PCIe上行的。

其实,我认为这一点在设计上是有可能规避的。如果按照上图,每4个NVMe SSD都连到一颗PCIe Switch的话,另外2个Switch不是正好有能力连DPU,同时不牺牲到CPU的32 lane上行链路吗?

不过,现实中的不完美应该有他存在的道理。前面我也提到过,XE7745主板是通用的模块化设计,当前能做到这样已经不错了。    

另外一个小问题:为什么NVMe SSD写的Gen4 x4?用下图来回答吧:

PCIe Gen4连接SSD的情况,应该是这个小板还不支持Gen5的原因吧?8个E3.S SSD,是通过4块这样一转二的热插拔模块来连接的。

GPU服务器对CPU的要求

GPU服务器用什么CPU更合适,这个不见得有唯一的标准答案。我只分享一点自己的观点:

下图截自DeepSeek/幻方在2019年的博客文章《3FS优化 02 | 客户端内存使用优化》。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅