我要投稿

DeepSeek开源DeepEP: 高效的专家并行通信库

发布日期：2025-02-26 07:41:17 浏览次数： 2236

作者：跳动的数据

微信搜一搜，关注“跳动的数据”

DeepEP 是一个专为混合专家（Mixture-of-Experts, MoE）和专家并行（Expert Parallelism, EP）设计的通信库。它提供了高吞吐、低延迟的全交换（all-to-all）GPU核心（kernels），即MoE的调度（dispatch）与合并（combine）操作，并支持FP8等低精度运算。

为适配DeepSeek-V3论文中提出的组限门控（group-limited gating）算法，提供了一组针对非对称域带宽转发优化的核心，例如将数据从NVLink域转发至RDMA域。这些核心具有高吞吐特性，适用于训练和推理预填充（prefilling）任务，同时支持流多处理器（Streaming Multiprocessors, SM）数量调控。

针对延迟敏感的推理解码场景，DeepEP包含一组基于纯RDMA的低延迟核心，以最小化通信延迟。此外，该库还引入了基于钩子（hook）的通信-计算重叠方法，此方法无需占用任何SM资源。

DeepEP主要解决MoE模型在分布式训练和推理中的通信瓶颈问题，通过优化数据传输和资源调度，实现“降本增效”。

高效的全对全通信（All-to-All）：支持节点内（NVLink）和节点间（RDMA）的高带宽通信，优化数据在不同专家子网络间的快速交换。

动态资源调控：基于群组限制门控算法（group-limited gating），动态分配GPU计算单元（SM）数量，任务多时增加资源，任务少时降低功耗，减少资源浪费。支持低精度运算：原生支持FP8格式，减少内存占用并加速计算，适用于大规模分布式训练

性能

常规内核（支持NVLink与RDMA转发）

我们在H800（NVLink最大带宽约160 GB/s）上测试了常规内核的性能，每台设备均配备CX7 InfiniBand 400 Gb/s RDMA网卡（最大带宽约50 GB/s）。测试遵循DeepSeek-V3/R1的预训练配置（每批次4096个令牌，隐藏层维度7168，前4组选择，前8位专家激活，采用FP8调度与BF16合并）。

低延迟内核（纯RDMA支持）

我们在H800上测试了低延迟内核的性能，每台设备均配备CX7 InfiniBand 400 Gb/s RDMA网卡（最大带宽约50 GB/s）。测试遵循DeepSeek-V3/R1的典型生产环境配置（每批次128个令牌，隐藏层维度7168，前8位专家激活，采用FP8调度与BF16合并）。

normal

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-23

智谱GLM-4.7：更强的代码，更好的美学

2025-12-22

Notesnook：一款完全开源、以隐私为核心的笔记应用

2025-12-22

一文彻底看懂 Google 最新开源 A2UI 协议：如何让 AI Agent “说出UI” ？

2025-12-22

火线解析MiniMax招股书！全球领先大模型成本只有OpenAI 1%，果然拳怕少壮

2025-12-21

Benotes：一款功能强大、易于安装和使用的开源笔记与书签一体化应用

2025-12-21

告别每月 AI 订阅费！这款开源笔记内置 Ollama，让你的电脑变身第二大脑

2025-12-20

开口跪！这款开源TTS让AI说话带“情绪”，还能多语言克隆！

2025-12-20

ollama v0.13.5 发布详解：新模型接入、引擎升级与工具能力增强

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

DeepSeek又开源，这次是OCR模型！附论文解读！

2025-10-20

发现一个超神的Github开源OCR项目，国产多模态杀疯了

2025-10-27

MiniMax悄悄发布M2，8%价格打出Claude级性能

2025-10-27

如愿以偿！Qwen3-VL再开源30B-A3B，附实测！

2025-10-03

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

让白宫“破防”的阿里千问，我替你们测了...

2025-11-17

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

DeepSeek-V3.2-Exp开源，附论文细节解读！

2025-09-29

最强开源0.9B级OCR模型！PaddleOCR-VL本地一键部署，私密性拉满【喂饭级教程】

2025-11-07

大家都在问

一文彻底看懂 Google 最新开源 A2UI 协议：如何让 AI Agent “说出UI” ？

2025-12-22

我们为什么选择 Spring AI 开发智能体，而不是 Dify？

2025-11-12

开源安全审核模型终极PK：Qwen3Guard、OpenAI-SafeGuard、Llama4-Guard谁才是王者？

2025-11-10

DeepSeek-OCR到底厉害在哪？

2025-11-03

n8n如何调用最近爆火的deepseek OCR？

2025-10-29

小红书入局AI智能体开源DeepAgent，在计划什么更新？

2025-10-28

埃森哲的大裁员，向市场发出了什么信号？

2025-10-13

DeepSeek-V3.2背后的国产算子编程语言TileLang是什么？如何保持性能领先的同时减少6倍代码量？

2025-09-29

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： [email protected]

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部