2026年4月29日 周三晚上19:30,来了解“企业AI训练师:从个人提效到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

一文读懂DeepSeek V4:1.6万亿参数、百万上下文、华为芯片

发布日期:2026-04-24 12:49:20 浏览次数: 1812
作者:腾讯科技

微信搜一搜,关注“腾讯科技”

推荐语

DeepSeek V4震撼发布:1.6万亿参数、百万上下文,推理成本大幅降低,国产AI迎来新突破!

核心内容:
1. V4系列两大MoE模型的技术参数与成本优势
2. 三档推理强度的差异化性能表现
3. 与GPT-5.4等国际模型的基准测试对比

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

4月24日消息,DeepSeek V4预览版官宣上线

根据DeepSeek的官方介绍,V4系列包含两个MoE模型:DeepSeek-V4-Pro总参数1.6T、激活参数49B,DeepSeek-V4-Flash总参数 284B、激活参数13B,两者均原生支持100万token上下文。

在1M上下文设置下,V4-Pro的单token推理FLOPs只有V3.2的27%,KV Cache只有10%;V4-Flash更极端,分别压到10%和7%。DeepSeek自己给这代模型的定位是preview version,官方在报告中明确表示,V4的能力水平仍落后GPT-5.4和Gemini-3.1-Pro,发展轨迹大约滞后前沿闭源模型3至6个月

换句话,V4预览版是把长上下文成本重构为下一阶段test-time scaling和长程任务铺路的基础设施发布没有强调能力上跨越升级


01 

两款模型、三档推理:V4预览版到底是什么?

根据DeepSeek的官方介绍,V4系列包含两个MoE模型:DeepSeek-V4-Pro总参数1.6T、激活参数49B,DeepSeek-V4-Flash总参数284B、激活参数13B,两者均原生支持100万token 上下文。

真正值得关注的是成本曲线。

在1M token的上下文设置下,V4-Pro的单token推理FLOPs 只有V3.2的27%,KV Cache只有 10%;V4-Flash更极端,分别压到10%和7%。换句话说,上下文从V3.2的128K扩到V4的1M,理论上放大了近8倍,但单token算力需求反而下降了。

API价格沿袭了DeepSeek一贯的“打穿底”思路。V4-Pro每百万token输入1元(缓存命中)或 12元(缓存未命中),输出24元;V4-Flash分别为0.2元、1元、2元。

每款模型都提供三档推理强度:Non-think(直出)、Think High(常规深度思考)、Think Max(在 system prompt 里注入强指令、把上下文和输出长度拉满)。

Max模式是为了榨出模型的能力上限——V4-Pro-Max在HLE测试中从Think High的34.5分升到 37.7分,Apex Shortlist 测试从85.5升到90.2,代价是输出token翻倍。

根据DeepSeek披露的详细基准测试数据,在知识与推理类测试中,DeepSeek-V4-Pro-Max 在Apex Shortlist(90.2%)和 Codeforces(Rating 3206)两项硬核推理 / 编程任务中拔得头筹,展现了极强的逻辑与算法能力;而 Gemini-3.1-Pro-High在 SimpleQA Verified(75.6%)中领先,Claude 和GPT则在各项目中互有胜负,整体差距不大。 

在智能体能力相关的测试中,四款模型在SWE Verified任务上打成平手(均达到80.6%),但 DeepSeek在Terminal Bench 2.0(67.9%)和Toolathlon(51.8%)两项任务上同样表现突出,体现了在复杂指令执行与工具调用场景下的优势。

DeepSeek表示,相比前代模型,DeepSeek-V4-Pro的Agent能力显著增强。

“使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。”

DeepSeek官方强调,基于丰富的世界知识:V4-Pro在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1——Gemini-3.1-Pro-High在MMLU-Pro(91.0)、SimpleQA-Verified(75.6%)、GPQA Diamond(94.3%)等通用知识问答中领先

另外,在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩,DeepSeek将其称之为“世界级的推理性能”。

定位为经济性模型的V4 Flash在世界知识储备方面比DeepSeek-V4-Pro稍逊一筹,但也展现出了接近的推理能力。而由于模型参数和激活更小,相较之下V4-Flash能够提供更加快捷、经济的API服务。

在Agent测评中,DeepSeek-V4-Flash在简单任务上与DeepSeek-V4-Pro旗鼓相当,但在高难度任务上仍有差距。


02 

重写注意力机制“先压缩再挑着看”

V4最核心的技术改动在注意力层。

传统Transformer的注意力机制,每个token要和前面所token都算一遍相似度。上下文从10万拉到100万,计算量增长的不是10倍,是100倍这是长上下文一直跑不起来的根本原因。

V4的做法是把注意力拆成两种,交替叠用。

一种叫CSA(压缩稀疏注意力)它先把每4个token的KV缓存合并成一条摘要,再让每个query只在这些摘要里挑出最相关的top-k条去算注意力。相当于既压缩了要看的内容,又只挑值得看的去算。

另一种叫HCA(重压缩注意力)它的压缩率更激进每128个token合并成一条,但对剩下的摘要做稠密注意力不做稀疏挑选。

两种交替叠起来,再加一个滑动窗口分支处理离得近的token之间的细节依赖。这是一套粗粒度+细粒度、稀疏+稠密的组合拳。

把这套方案和DeepSeek过去两年的技术脉络连起来看,变化就清晰了:V2、V3走的是参数稀疏化——总参数很大,但每token只激活一小部分专家;V4在此之外又开了一条上下文稀疏化的路——KV压缩、top-k选择、分层压缩率。

这是DeepSeek第一次把稀疏化的刀动到Transformer的核心结构里。

除了注意力层,V4还有两处此前版本没动过的改造。一是把传统残差连接升级为mHC(流形约束超连接),通过数学约束让深层网络的前向和反向传播更稳定;二是用Muon优化器替代大部分模块原本用的AdamW,收敛更快、训练更稳。这是DeepSeek第一次同时动Transformer的注意力、残差、优化器这三处核心结构。

DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化


03 

后训练换范式:把一堆专家“蒸馏”成一个模型?

比架构改动更值得注意的是后训练方法的切换。

V3.2用的是RL一次性用强化学习优化多个目标。V4换成了分化再统一的两步走:

第一步,针对数学、代码、Agent、指令跟随等不同领域,每个领域单独训练一个专家模型。这些专家先用该领域的高质量数据做监督微调,再用GRPO算法做强化学习,每个专家都在自己的细分赛道上跑到最优。

第二步,用一种叫On-Policy Distillation(OPD,在策略蒸馏的方法,把十多个领域专家合成回一个统一的学生模型。学生自己生成回答,然后对每个回答,去匹配最懂这个问题的专家的输出分布,通过logit级对齐把能力吸收进来。

你可以讲这种做法理解为把一堆尖子生蒸馏

这套流程的工程难度在于:同时加载十多个万亿参数级的教师模型做在线推理不现实。DeepSeek的做法是把所有教师权重统一卸载到分布式存储,只缓存每个教师最后一层的hidden state,训练时按教师索引排序样本,保证任意时刻GPU显存里只驻留一个teacherhead

换个说法,V4的能力不再靠一个模型从头学,而是先让不同专家在自己的赛道跑到顶,再把它们收编进同一套权重里。这种思路绕开了传统混合 RL容易导致的能力互相干扰问题。


04 

Agent能力优化

DeepSeek-V4针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流的Agent产品进行了适配和优化,在代码任务、文档生成任务等方面表现均有提升。

DeepSeek自述V4-Pro的Agent能力“优于Sonnet 4.5,交付质量接近Opus 4.5非思考模式,但仍与Opus 4.6思考模式存在一定差距”。

值得注意的是,V4在Agent方向做了几处专项优化:后训练阶段把Agent作为与数学、代码并列的独立专家方向单独训练;工具调用格式从JSON换成带特殊token的XML结构,用来降低转义错误;跨轮次推理痕迹在工具调用场景下完整保留,不再像V3.2那样每轮清空;此外DeepSeek自建了一套名为DSec的沙箱平台,单集群可并发管理数十万个沙箱实例,用来支撑Agent强化学习训练和评测。

下图为V4-Pro在Agent框架下生成的PPT内页示例:


05 

昇腾在等V4,V4也在等昇腾

比起技术本身,V4这次发布更受关注的还有与华为昇腾的协同。

V4技术报告第3.1节专门写了一句:我们在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度EP专家并行)方案。这是DeepSeek官方第一次在正式文档把华为昇腾和英伟达并列写进硬件验证清单。

报告同时披露,V4的MoE专家权重和稀疏注意力索引器都采用FP4精度FP4(mxFP4恰好是华为3月发布的昇腾950PR芯片的原生支持精度。

华为官网后续在全联接大会 2025 的主题演讲中确认,昇腾950系列新增支持 MXFP4 等低精度格式,其中950PR面向Prefill和推荐场景,并采用华为自研 HiBL 1.0,容量128GB,带宽1.6TB/s

另外面向训练场景的950DT计划今年四季度推出。

DeepSeek文章表示预计下半年昇腾950超节点批量上市并部署之后,Pro版本的价格也会大幅度下调。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询