微信扫码
添加专属顾问
我要投稿
DeepSeek开源MoE通信库DeepEP,高效并行处理的革命性突破! 核心内容: 1. DeepEP:首个MoE模型训练和推理的EP通信库 2. 高效All-to-All通信、支持NVLink/RDMA、原生FP8数据分发 3. 优化计算核心、灵活资源调度,实现计算通信高效重叠
上周五,DeepSeek 发推说本周将是开源周(OpenSourceWeek),并将连续开源五个软件库。
昨天,他们开源了第一个代码库 ——FlashMLA。这是一款用于 Hopper GPU 的高效型 MLA 解码核,仅用了 24 小时就达到了接近 8k 的 star 量(详情请参见《刚刚,DeepSeek 开源 FlashMLA,推理加速核心技术,Star 量飞涨中》)。
今天 DeepSeek 继续开源底层架构的创新,今天开源的项目是首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP。
在分布式系统中(如多 GPU 训练环境),所有处理单元之间需要高效地传递数据。在 MoE 中,这点尤为重要,因为不同「专家」需要频繁交换信息。并且 MoE 模型容易在「专家并行」中出现负载不均衡,导致每个「专家」分到的算力不均,不重要的「专家」难以发挥应有的性能。
此次开源的 DeepEP 做到了:
1. 高效优化的 All-to-All 通信
2. 支持 NVLink 和 RDMA 的节点内 / 跨节点通信
3. 训练及推理预填充阶段的高吞吐量计算核心
4. 推理解码阶段的低延迟计算核心
5. 原生支持 FP8 数据分发
6. 灵活控制 GPU 资源,实现计算与通信的高效重叠
高效通信减少了数据传输的瓶颈,计算核心的优化提升了处理速度,灵活的资源调度让计算和通信不互相等待。
MLA 和 MoE 架构改进可以说是 DeepSeek 的两大重要创新点。昨天是对 MLA 解码内核的优化,今天就公开了另一张王牌 MoE 如何高效通信和并行处理,DeepSeek 可真是太 Open 了!
为了极致性能,DeepSeek 发现并使用了一个未记录在文档中的 PTX 指令:ld.global.nc.L1::no_allocate.L2::256B。这个指令会导致一个未定义的行为:使用非一致性只读 PTX 修饰符「.nc」访问易变的 GPU 内存。但在 Hopper 架构上,通过「.L1::no_allocate」已测试确保了正确性,且性能会大幅提升。如果你发现内核在某些其他平台上不 work,你可以在 setup.py 中添加 DISABLE_AGGRESSIVE_PTX_INSTRS=1 来禁用此功能,或提交 issue。
为了在你的集群上获得更好的性能,DeepSeek 建议运行所有测试并使用最佳的自动调优配置。默认配置是针对 DeepSeek 内部集群优化的。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-06
AI时代,我们为何重写规则引擎?—— QLExpress4 重构之路
2025-11-06
锦秋基金创始合伙人杨洁揭秘:AI投资三大方向与AI创业者机遇——现场解答最真实的三大创业焦虑
2025-11-05
LLaMA Factory 安装与配置指南:在 Ubuntu 上快速搭建大模型微调平台
2025-11-05
TinyAI :全栈式轻量级 AI 框架
2025-11-04
百灵大模型 Ling 和 Ring 系列首发支持 SGLang-JAX 推理引擎
2025-11-04
首个国产开源AI原生后端,不再写后端,AI就是全栈工程师。
2025-11-04
DeepCode: 用多智能体架构重新定义代码生成
2025-11-04
AI Infra:POINTS-Reader,腾讯开源的文档解析和OCR工具
2025-08-20
2025-09-07
2025-08-20
2025-08-26
2025-08-22
2025-09-06
2025-10-20
2025-08-22
2025-09-08
2025-08-12
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08