DeepSeek时代：关于AI服务器的技术思考（PCIe篇）

发布日期：2025-03-05 07:53:17 浏览次数： 3861

作者：企业存储技术

微信搜一搜，关注“企业存储技术”

刚过去的一个周末，IT新闻基本上又被DeepSeek刷屏了。从春节到现在，加班的同行朋友是不是比以前多了？

GPU连接方式：PCIe还是UBB？

上图是一款4U 8卡（或单宽16卡）的AI服务器，支持可以4卡互连的NVIDIA H200 NVL GPU。其实XE7745这个机型我在《风冷、液冷GPU服务器密度提升 - PowerEdge 17G整机架预览 (2)》中已有过简单介绍；我还在《3U 8卡：对AI推理服务器意味着什么？》中实物讨论过另一款接近的服务器——Lenovo SR675 V3。

凭借在GPU卡顶部的4-way NVLink bridge，4块H200 NVL的显存能够“打通”，141GB x 4=564GB。此时8卡机可以当作2个节点，如果用FP8精度跑LLAMA 3 405B这种规模的大模型推理，应该是挺合适的。

但随着DeepSeek V3/R1 671B模型的开源，以及人们对全量参数的崇拜，上述配置想“满血”推理就不够完美了，除非量化到int4。似乎只有像H20、MI308等UBB模组，具备GPU高速全互连的AI服务器才是好马配好鞍？

扩展阅读：《解锁DeepSeek-R1 671B FP8推理性能：5,921 token/s @ AMD MI300X》

当然大家也知道H200等有些AI芯片是禁售的，我只是拿它从技术角度举个例子。而我认为这个思路，对NVIDIA以外的PCIe AI加速卡（包括国产）也能做个参考？

毕竟大模型参数的提高，显存/内存容量是一个很重要的门槛。另外像《DeepSeek-R1 671B最小化部署实验：CPU+192GB内存》这种拿CPU做低成本推理的尝试，容量够了带宽又会比较敏感。

伴随着DeepSeek不断对外的开源&分享，更高效的推理方案可能并不一定要在单机显存中全部容纳671B参数，而是用多台主机组成的“超节点”分工协作。在这方面我还研究有限，下面先简单截取2张论文里训练架构的图片。然后还是重点讨论我的本行——服务器硬件。

注意：上面描述的是MoE LLM训练（下一代PCIe架构），而当前DeepSeek官方说法是“DeepSeek V3 和 R1 的所有服务均使用 H800 GPU”。

上图显示的双卡NVLINK，有点像DeepSeek早先就拥有的硬件A100？无论未来是什么样的卡间互连技术，在大规模集群中还是要依靠IB或者高速以太网。另一方面，随着Qwen、DeepSeek蒸馏模型质量的提高，更多的用户拿70B、32B乃至更小参数的模型也完全够用，因此PCIe AI服务器仍然大有可为。

4颗144 lane PCIe Switch的价值

PowerEdge XE7745的重点就是支持8块双宽600W PCIe AI加速卡，或者16块单宽75W的——比如NVIDIA L4。

上面是Dell官方文档里的架构图，但我想说这个示意并不完全准确或者说完整，我会在下文中逐渐剖析这一点。另外我们也能从这里先了解到一些信息：

-每颗CPU通过2颗PCIe Switch，各自连接2个GPU；

-网卡和NVMe SSD都连接到PCIe Switch上，这样它们即可以被CPU使用，也能直连GPU，支持RDMA远程内存访问或者GPUDirect Storage这样的用途。

作为一款4U服务器，XE7745具备比3U更多的扩展空间，比如跟下图所示的SR675 V3简单比较：

SR675 V3也是基于AMD EPYC平台，该机型是用2颗PCIe Switch来连接8块GPU卡，做不到GPU与网卡之间的1:1配比。我认为对于AI推理用途，这款3U 8卡机型更适合跑单机而不是拼多节点集群，当然多台之间用Nginx跑负载均衡并发是ok的。

Dell XE7745使用了4颗Broadcom 144 lane PCIe Switch，显然成本更高。这也又一次让我想起了OCP（Meta）的Grand Teton机型。

Grand Teton有一个专门的Switch tray。XE7745实际上也是分成了2个Tray，集成度比Grand Teton要高一些。上面有些可以参考的我先列一下：

4x PEX89144 PCIe 5.0 Switch，一共提供：

-8x上行PCIe 5.0 x16到CPU；

-8x下行PCIe 5.0 x16到8个OCP NIC 3.0网卡；（XE7745支持8块网卡是PCIe AIC形态的）

-16x下行PCIe 5.0 x4到NVMe SSD；（XE7745支持8个SSD，这里不算BOSS盘）

-8x 下行PCIe 5.0 x16到GPU/AI加速器。（XE7745最多支持16个GPU/AI卡）

Dell XE7745设计不完全一样很正常，下面是Grand Teton用于训练配置的架构图：

我在以前的文章中还列出过Grand Teton用于推理的配置——主要是去掉了连接在PCIe Switch上的网卡。而这次我介绍的XE7745，可以说是兼具2种用途支持的。

电源3200+9600W、CPU/GPU散热区域隔离

XE7745前面的12个风扇，都是主要针对GPU/AI加速卡的。上面有8个E3.S SSD，以及BOSS系统盘位。本地存储容量是个可选项吧，像人家DeepSeek/幻方不就开源了3FS存储集群的文件系统嘛。

这里有一个要点：4U机箱的最上面1U部分是CPU（主板）单元；而下面3U部分是GPU模块（其中还有别的扩展卡）。上下2个Tray散热也隔离了。

8个3200W电源模块，最上方的1和2是用于CPU Tray的1+1冗余，而位于下方的3-8模块则是3+3冗余，为GPU等提供最多9600W输出。应对GPU突发功耗啥的，这里的裕量还是不小吧。

从某种程度上来说，XE7745的主板是可以通用于多个机型的设计。这一点后面我列出更多图片大家就更好理解。这里先简单看看布局，包括CPU散热器和风扇啥的都跟1U服务器一样。

500W CPU + 600W PCIe GPU，自然要配最高等级（HPR）的风扇。

I/O不妥协：24个满血PCIe 5.0 x16插槽

XE7745目前正式支持的内存频率为6000 MT/s，2.3TB最大容量对应24条96GB。不过也说明了未来将支持单条128GB，以及6400 MT/s的内存频率。

使用4颗144 lane PCIe Switch的另一个好处是，如果插16张单宽GPU/AI加速卡，仍然可以保持每块卡PCIe x16的带宽。

把顶部1U的CPU+主板模块拆下后，PCIe Switch底板上能看到4颗主要散热片，以及支持GPU等扩展卡的若干PCIe插槽。

为了说明CPU+主板与 GPU+PCIe Switch模块之间的连接关系，上图就是需要插线的PCIe连接器位置。

不难看出XE7745的主板（HPM board）符合OCP标准的DC-MHS尺寸，每颗CPU一共引出64个PCIe lane到GPU所在的底板。其中一个连接器就是复用了OCP NIC网卡的槽位——说明这块主板的通用性吧。

扩展阅读：《Xeon 6和EPYC 9005推动双节点模块化服务器增长》

豪华散热器取巧达成“1U”双CPU 500W

看看CPU散热器的尺寸和热管数量

还记得我之前写的《风冷散热极限：1U/2U服务器CPU 500/600W+可行性分析》吗？XE7745似乎是做到了在1U空间内支持2颗AMD EPYC 9965/9975 500W CPU，还是35℃进风温度。不过有一点，GPU和别的PCIe卡都甩到下面的3U空间里，所以算是占了这点便宜吧：）

不过H200 NVL的600W TDP毕竟是发热太多了，所以如果配满它环境温度限制就降到30℃。

原则上只能用被动散热GPU，因为卡的安装方向…

还有一点，XE7745的散热气流是从前到后，不过上图大家也看出GPU卡安装的方向了吧。只能是数据中心专用的被动散热加速卡，或者那些把4090（D）等散热器改成被动的才有可能支持。涡轮卡的散热出风口可是反的哦。

这一点，我觉得要怪只能怪600W GPU 8卡的散热不好搞：）因为之前在“AMD Advancing AI中国解决方案峰会”上，也看到过不少PCIe加速卡槽位在机箱尾部的服务器机型。

Dell的硬件品质还是比较讲究的，PCIe Switch底板也是一个Tray，能以模块化形式从机箱中拆装。

除了前端的16个PCIe槽位之外，后面标着1-8数字的可以用于网卡等，也都是全速PCIe 5.0 x16。

PCIe Switch to CPU上行链路：为何有一点不对称？

思考题：挨着画在一起的PCIe Switch，2个芯片之间有没有做互连呢？欢迎大家在下面留言讨论。

上图我把XE7745的最大扩展性补在里面了。每个PCIe Switch的下行设备可以包括：2-4个GPU/AI加速卡、最多2块网卡等；NVMe SSD一共支持8个，有可能分布在4个PCIe Switch上，也可能集中连接到2个？

唯一不对称的一点设计？是PCIe Switch上行到CPU的连接。由于DPU（OCP网卡）是直接连到CPU，所以最左边的PCIe Switch 1应该只有1条Gen5 x16上行链路到CPU，另外3颗PCIe Switch都是双x16 PCIe上行的。

其实，我认为这一点在设计上是有可能规避的。如果按照上图，每4个NVMe SSD都连到一颗PCIe Switch的话，另外2个Switch不是正好有能力连DPU，同时不牺牲到CPU的32 lane上行链路吗？

不过，现实中的不完美应该有他存在的道理。前面我也提到过，XE7745主板是通用的模块化设计，当前能做到这样已经不错了。

另外一个小问题：为什么NVMe SSD写的Gen4 x4？用下图来回答吧：

PCIe Gen4连接SSD的情况，应该是这个小板还不支持Gen5的原因吧？8个E3.S SSD，是通过4块这样一转二的热插拔模块来连接的。

GPU服务器对CPU的要求

GPU服务器用什么CPU更合适，这个不见得有唯一的标准答案。我只分享一点自己的观点：

下图截自DeepSeek/幻方在2019年的博客文章《3FS优化 02 | 客户端内存使用优化》。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-30

我把 Codex 装进了 Pi 5 Max：一块 Android 开发板，开始自己参与 AI 相框开发

2026-06-24

讯飞办公本用一键式龙虾部署，终结“只记不查”的资产浪费

2026-06-22

我把吃灰的 Kindle 用起来了：给 AI 桌宠加一块电子墨水屏

2026-05-31

英特尔AI PC专区：专治本地模型跑不动、智能体做不出、新模型不会用

2026-05-18

Android 迎来 Gemini-Intelligence，手机要开始替你干活了

2026-05-18

OpenAI秘密矩阵曝光！你的所有设备，被Codex连成一台超级电脑

2026-05-15

苹果不卷AI了：iOS 27要让第三方模型"竞标"进系统

2026-05-13

安卓彻底变了！Gemini接管所有屏幕，苹果连影子都没追上

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

扣子2.5，开启全新 Agent World！

2026-04-07

给 OpenClaw 做硬件没前途，但给上下文系统做，是值得的

2026-04-02

把大模型装进手机后，这6件事可以离线完成

2026-04-11

刚刚，OpenAI 手机曝光！2028 年量产

2026-04-27

乐鑫龙虾 ESP-Claw 来了！聊天就能开发智能设备

2026-04-21

CardputerZero：可以装在口袋里的树莓派 Linux 电脑！

2026-04-20

我把树莓派5变成了AI程序员，它写的代码比我还强？

2026-04-12

探索树莓派和本地 AI 智能体、机器人技术与 2026 年自动化未来！

2026-05-09

安卓彻底变了！Gemini接管所有屏幕，苹果连影子都没追上

2026-05-13

龙虾退烧后，荣耀给它造了一个宇宙

2026-05-07

大家都在问

我把树莓派5变成了AI程序员，它写的代码比我还强？

2026-04-12

All in AI后，手机正在被“反噬”？

2026-03-19

2个小时的英伟达 GTC 都在这了，但我好像再也兴奋不起来了？

2026-03-17

笔与屏：AI硬件为何分化出两条路？

2026-02-17

在树莓派CM0上部署 Clawdbot 真的有那么神奇吗？

2026-01-29

英伟达让机器人闪念决策：Fast-ThinkAct如何让AI思考速度快9倍还更聪明？

2026-01-22

豆包手机之后，AI 手机还需要什么？

2026-01-06

怎么都在做“智慧笔”？

2026-01-04

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw