微信扫码
添加专属顾问
我要投稿
DeepSeek-V4震撼发布!百万级上下文处理能力+推理成本骤降90%,国产AI再创开源模型新高度。 核心内容: 1. 性能突破:1.6万亿参数模型在知识、推理、编程等任务全面超越开源竞品 2. 技术创新:独创混合注意力机制实现百万token高效处理 3. 成本优势:推理计算量仅为前代27%,大幅降低使用门槛
百万token一口气读完,推理成本暴降90%,国产AI又放大招了
今天AI圈又炸锅了。DeepSeek放出了V4系列模型的预览版,看完技术报告我只想说一句:这也太卷了吧!
1.6万亿参数的巨无霸(激活490亿)、一口气处理100万token的上下文、推理计算量只有上一代的27%……这些数字背后,到底意味着什么?
官方同时放出了技术报告,今天用大白话,把这份官方80多页的技术报告给大家盘一盘。
原文地址:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
先看这张表
如果给大模型排个“高考成绩”,DeepSeek-V4-Pro-Max在知识、推理、编程、长文本等多个科目上,已经全面碾压了之前的开源模型。甚至在编程竞赛Codeforces上,它的水平能排进人类选手的前23名。
跟闭源大佬们比呢?知识类任务还差Gemini-3.1-Pro一点,但推理能力已经非常接近。而且DeepSeek-V4-Flash这个“小杯”版本,参数只有284亿激活,成本极低,推理效果却能媲美GPT-5.2。
简单说:开源最强,闭源可战。
你可能听说过“100万上下文”——就是一次能塞进三部《三体》那么多字。以前很多模型也能做到,但代价是慢、贵、吃显存。
DeepSeek-V4这次玩出了新花样。
传统的注意力机制,处理长文本时计算量像坐火箭一样往上窜(O(n²)复杂度)。DeepSeek-V4搞了一套 “混合注意力” 架构,核心思路就两个字:压缩。
具体有两招:
这两种注意力层交替使用,再加上滑动窗口、注意力下沉等技巧,结果就是:
在100万token的情况下,DeepSeek-V4-Pro的计算量只有上一代V3.2的27%,KV缓存只有10%!
这意味着什么呢?以前跑100万token的推理,又慢又贵;现在普通显卡也能轻松跑起来。 长文本终于从“实验室玩具”变成了“日常工具”。
在MRCR(大海捞针)测试中,128K以内几乎完美,到100万token时虽然有所下降,但仍然比Gemini-3.1-Pro强。
在更贴近真实场景的CorpusQA上,也是全面领先。
除了注意力机制,V4还在好几个地方动了刀。
以前残差连接就是简单的“x + F(x)”。V4用了流形约束超连接(mHC),相当于给信息通道加了一个“稳压器”,防止深层网络信号爆炸或消失。训练更稳,效果更好。
Muon是最近很火的新优化器,DeepSeek把它用在了大部分参数上,收敛速度比AdamW快,训练更稳定。还自己魔改了一套混合牛顿-舒尔茨迭代,让正交化更高效。
训练万亿参数模型,最怕“梯度爆炸”导致loss突然飙升。DeepSeek发现罪魁祸首是MoE层的路由机制。他们搞了个“提前路由”:用上一步的旧参数提前算好路由结果,避免梯度震荡。再加上SwiGLU截断(把线性部分限制在[-10,10]),几乎消灭了loss尖峰。
为了让模型跑得更快,DeepSeek在工程上卷到了头发丝。
预训练数据超过32T token,比V3更多更优。特别强化了代码、数学、长文档、多语言。还引入了Agentic数据,让模型学会用工具、调用API。
分词器沿用V3的128K词表,新增了一些特殊token。文档打包时用了样本级注意力掩码,减少截断。
预训练出来的模型像个“通才”,但还不够好用。DeepSeek后训练走了两条路:
针对数学、编程、智能体、指令跟随等不同领域,分别做监督微调 + 强化学习。强化学习用的是GRPO(Group Relative Policy Optimization),不靠人工标注奖励模型,而是让模型自己当裁判(生成式奖励模型)。
有意思的是,他们训练了三种“思考模式”:
多个专才模型怎么合并成一个全能模型?DeepSeek用了**“同策略蒸馏”**:让学生模型(全能版)自己生成问题,然后学习每个专才老师的输出分布(反向KL散度)。这样同一个问题,数学部分学数学老师,编程部分学编程老师,各取所长。
最终效果:一个模型,多面手。
跟Gemini-3.1-Pro比,DeepSeek-V4-Pro在功能性写作上62.7%胜率,创意写作上60%指令遵循胜率、77.5%质量胜率。用户反馈:Gemini有时“太有自己的风格”,不听话;V4更尊重用户要求。
但在超高难度指令和多轮写作上,还是略输Claude Opus 4.5。
在30个高级专业任务上(金融、教育、法律等),跟Claude Opus 4.6比,DeepSeek-V4-Pro-Max 63%非败率,在任务完成度和内容质量上尤其突出。但格式美观度、总结能力还有提升空间。
在内部研发任务(PyTorch、CUDA、Rust、C++)上,V4-Pro-Max的通过率高达77%,比Claude Sonnet 4.5(67%)高,接近Opus 4.5(73%)和Opus 4.6思考版(80%)。内部开发者调查:91%的人愿意把它作为主力编码模型。
DeepSeek-V4系列,用更聪明的注意力压缩和极致的工程优化,把百万token从“能跑”变成了“好用”。开源模型首次在推理和长文本上逼近闭源顶级水平。
虽然架构有点复杂(为了求稳,堆了不少已验证的trick),训练稳定性原理还没完全搞清,但这不妨碍它成为目前开源LLM的新标杆。
模型权重已经开源:
https://huggingface.co/collections/deepseek-ai/deepseek-v4
最后一句:本文基于DeepSeek-V4预览版技术报告解读,具体性能以实际评测为准。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-24
阿里云 AI 网关支持 DeepSeek V4
2026-04-24
一手实测 DeepSeek V4,代码能力真的很强
2026-04-24
Deepseek V4终于发布,但它留下的5道主观题还没有答案
2026-04-24
DeepSeek-V4 预览版:迈入百万上下文普惠时代
2026-04-23
DeepSeek V4发布前,罗福莉亮剑!小米最强大模型MiMo-V2.5深夜突袭
2026-04-23
腾讯开源Cube Sandbox:60毫秒冷启动的AI沙盒运行时
2026-04-22
百度把Nano Banana塞进4090,疯了?
2026-04-21
Kimi K2.6 开源了!还附送了 300 个 Agent 员工?
2026-01-30
2026-01-27
2026-01-29
2026-01-27
2026-01-28
2026-01-26
2026-03-30
2026-04-03
2026-03-23
2026-01-26
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
2026-03-17
2026-03-13
2026-03-02