我要投稿

一手实测 DeepSeek V4，代码能力真的很强

发布日期：2026-04-24 15:17:08 浏览次数： 2423

作者：卜寒兮AI

微信搜一搜，关注“卜寒兮AI”

千呼万唤，DeepSeek V4 终于来了。

这次发布日期终于不是假期前最后一天了，给足了打工人们面子。

我在第一时间测试了deepseek-v4-pro的代码能力，方式是接入 Claude Code。

1、第一个是生成复古风格的网页。

prompt如下：

Mimic 1990s print magazine aesthetics. Title in serif font like Playfair Display, body in monospace like IBM Plex Mono. Magazine-style multi-column grid with uneven column widths. Large titles offset left beyond the viewport to suggest print bleed. Images with sepia(0.2) filter and noise overlay. Page transitions mimicking page-turn effects. Navigation styled as a magazine table of contents, each item numbered 01/02/03, numbers enlarge on hover. Footer designed as a magazine colophon with a fake ISSN number. Paper texture background.

下面是DeepSeek v4 pro给出的成果：

需要说明的是这个prompt本身并没有约束所设计的网页的内容，但是由于我在工作目录下放了DeepSeek V4的技术报告（DeepSeek_V4.pdf）。然后它自动读取了pdf文档，生成了介绍它自己的网页。

技术报告地址：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

还有一点没想到的是它把论文中的原图嵌入到了生成的网页中。

2、生成一个3D塔防游戏。

prompt如下：

Build a 3D tower defense game. Use 3D rendering with a modern, visually striking scene featuring diverse tower types and enemy varieties. Players place towers to stop enemies with varying speed, durability, and attack patterns; towers have different upgrade paths. Include dynamic backgrounds and attack effects like explosions and flames. Support level mode with increasing difficulty across multiple stages and enemy waves. Use Three.js or Babylon.js for smooth 3D rendering with optimized performance. Provide pause, resume, restart controls with score and health displays.

这个任务综合难度较高，涵盖 3D 渲染、游戏逻辑（敌人/塔/升级路径）、粒子特效、关卡系统、性能优化等多个方向，属于代码能力的压力测试了。

效果如下：

基本上实现了95%的功能：

• 3D 场景：地面、路径砖块、网格线、树木岩石装饰、阴影、雾效、ACES 色调映射
• 4 种塔各自的 3D 模型（箭塔有弩顶、冰塔有旋转水晶、火焰塔有粒子动画）
• 5 种敌人模型 + 血条（Canvas 纹理 Sprite）完整的战斗系统：寻敌优先级、弹道飞行、溅射伤害、减速/灼烧/冻结状态、燃烧致死
• 粒子特效：爆炸、冰碎、火焰、敌人死亡碎片、塔放置金粉
• 轨道摄像机（拖拽旋转、滚轮缩放）、暂停/2 倍速、重开
• 全部 UI：顶部状态栏、底部塔选择、右侧升级面板、波次公告、Game Over/Victory 覆盖层
• 快捷键：1-4 选塔、Space 暂停、G 开波、Esc 取消

不过这个任务DeepSeek v4 pro花了25分钟完成。

3、鹈鹕骑自行车。

请你用 SVG 画一只骑自行车的鹈鹕，并生成 SVG 代码。

这个属于“老题”了，考察模型对 SVG 图形生成的综合能力，涉及复杂对象组合（动物 + 机械结构）和空间关系处理。

DeepSeek v4 pro完成的没有大问题。

4、阿尔忒弥斯II号绕月飞行任务模拟动画

prompt：

生成一个模拟阿尔忒弥斯2号(Artemis II)绕月飞行任务的动态模拟动画，要支持基础的交互功能，视觉上科技感十足。
 
- visual_style: 赛博朋克HUD风格（霓虹青/紫、扫描线、发光网格、全息感）
- perspective: 3D准透视轨道视图（地球在左、月球在右、轨迹弧线）
- interactions: 时间轴拖动到任意任务阶段, 阶段跳转按钮（发射/TLI/自由返回/月球飞掠/再入）, 点击飞船查看实时遥测数据（速度、距离、燃料）, 悬浮/点击关键事件标记查看说明, 切换相机视角（轨道图/飞船/月球）, 显示/隐藏轨迹历史轨迹, 宇航员名单与任务徽章
- data_density: 重度：完整任务控制中心（遥测、系统状态、通讯、事件日志、小地图）
- mission_phases: 发射与入轨（SLS从肯尼迪发射）, 地球轨道检查（绕地一圈多）, 跨月注入 TLI, 前往月球巡航（约4天）, 月球飞掠（最近点约10400km）, 自由返回轨迹, 返回巡航, 再入与海上溅落
- ambient: 需要：星空背景、粒子尾迹、发光效果、细微动画循环
- language: 中英双语（标签英文、说明中文）

Deepseek v4 pro的表现如下，这个任务的完成度就查了不少，比如播放按钮无效，不能自己播放动画，只能手动拖动进度条。还有日志细节之类的也不好。

这个任务我之前用claude试过，用的claude opus 4.7模型，

就这个case来说，能看的出来 deepseek v4 pro 跟顶级的opus 4.7还是有差距的。不过这一点，官方在发布中说的很诚恳：

目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型，据评测反馈使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。

几个case测下来，第一感受是v4-pro的思考过程非常扎实，还会自己验证结果，agentic能力肯定是比之前提升了不少。不过效率上明显感觉慢下来了。

另外，v4 pro比之前贵了不少，输出价格来到了24元/百万tokens。

上面几个任务的花费情况：

接下来简单过一遍模型信息。

这次发布了什么？

一共两个模型，分别是DeepSeek-v4-Pro和DeepSeek-V4-Flash:

模型	总参数	激活参数	精度
DeepSeek-V4-Pro	1.6T	49B	FP4+FP8混合
DeepSeek-V4-Flash	284B	13B	FP4+FP8混合

两个模型都有3中思考模式：Non-think（快速）、Think High（有限推理）、Think Max（全力推理）。

最值得关注的几点

1、一是长上下文效率。

对比 DeepSeek-V3.2，在 1M 上下文窗口场景下：

• V4-Pro 推理 FLOPs 为 27%，KV cache 仅 10%
• V4-Flash 更激进：推理 FLOPs是 10%，KV cache 7%

靠的是两个新注意力机制的交替排列：CSA（先把 KV entries 按窗口压缩，再做稀疏 top-k 选择）和 HCA（更大压缩率，不做稀疏，直接 dense attention）。

此外还引入了 mHC替代残差连接，约束层间信号传播为非扩张映射，以及Muon 优化器，比 AdamW 收敛更快。

2、二是 post-training 上有个重要变化。V3.2 用的是混合rl，V4 把它整个换成了 On-policy distillation。流程是：先针对数学、代码、Agent、指令跟随等领域各自训练独立专家模型（sft + GRPO rl），再用 10+ 个专家做多老师蒸馏，统一进一个学生模型。OPD 用反向 KL 散度，做全词表 logit 蒸馏而非常见的 token 级近似，梯度方差更小，训练更稳。

3、训练数据：V4-Flash 32T tokens，V4-Pro 33T tokens。

4、横向性能上。

• 代码能力这次是真强。LiveCodeBench V4-Pro-Max 93.5，Gemini-3.1-Pro High 91.7，Opus-4.6 Max 88.8。Codeforces Rating 3206，GPT-5.4 3168，Gemini 3052。

• 数学推理（IMOAnswerBench、）到了第一梯队，但和最强的差距还在。
• 知识类差距是有的。SimpleQA-Verified 57.9 vs Gemini-3.1-Pro 的 75.6，差了 18 %。技术报告里 DeepSeek 自己说落后 Gemini 3-6 个月，说明这个差距他们也没有好的解法，参数记忆的问题架构创新帮不了太多。
• 长上下文超过了 Gemini，但和 Claude 系列还有距离。
• Agentic能力大体持平，SWE-Verified 上 V4-Pro 和 Gemini 都是 80.6，Opus-4.6 以 80.8 微弱领先。
• V4-Flash。推理任务给足 budget 之后能接近 Pro-Max（LiveCodeBench 91.6 vs 93.5），但知识密集任务上就明显弱了，不过参数了在那摆着呢。

最后，一如DeepSeek之前的模型——压缩成本，相比于benchmark刷新了多少，v4更重要的意义也是在架构层面，继续借助架构的创新把长上下文推理成本压下来。是解锁下一代 test-time scaling 的前提条件。

开源生态有了这个基础，能做的事会不一样。