微信扫码
添加专属顾问
我要投稿
DeepSeek V4 代码能力惊艳实测,复古网页与3D游戏一键生成! 核心内容: 1. 复古风格网页自动生成,智能读取PDF内容 2. 3D塔防游戏从零构建展示 3. 实际测试中展现的独特AI编码能力
千呼万唤,DeepSeek V4 终于来了。
这次发布日期终于不是假期前最后一天了,给足了打工人们面子。
我在第一时间测试了deepseek-v4-pro的代码能力,方式是接入 Claude Code。
prompt如下:
Mimic 1990s print magazine aesthetics. Title in serif font like Playfair Display, body in monospace like IBM Plex Mono. Magazine-style multi-column grid with uneven column widths. Large titles offset left beyond the viewport to suggest print bleed. Images with sepia(0.2) filter and noise overlay. Page transitions mimicking page-turn effects. Navigation styled as a magazine table of contents, each item numbered 01/02/03, numbers enlarge on hover. Footer designed as a magazine colophon with a fake ISSN number. Paper texture background.
下面是DeepSeek v4 pro给出的成果:
需要说明的是这个prompt本身并没有约束所设计的网页的内容,但是由于我在工作目录下放了DeepSeek V4的技术报告(DeepSeek_V4.pdf)。然后它自动读取了pdf文档,生成了介绍它自己的网页。
技术报告地址:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
还有一点没想到的是它把论文中的原图嵌入到了生成的网页中。
prompt如下:
Build a 3D tower defense game. Use 3D rendering with a modern, visually striking scene featuring diverse tower types and enemy varieties. Players place towers to stop enemies with varying speed, durability, and attack patterns; towers have different upgrade paths. Include dynamic backgrounds and attack effects like explosions and flames. Support level mode with increasing difficulty across multiple stages and enemy waves. Use Three.js or Babylon.js for smooth 3D rendering with optimized performance. Provide pause, resume, restart controls with score and health displays.
这个任务综合难度较高,涵盖 3D 渲染、游戏逻辑(敌人/塔/升级路径)、粒子特效、关卡系统、性能优化等多个方向,属于代码能力的压力测试了。
效果如下:
基本上实现了95%的功能:
不过这个任务DeepSeek v4 pro花了25分钟完成。
请你用 SVG 画一只骑自行车的鹈鹕,并生成 SVG 代码。
这个属于“老题”了,考察模型对 SVG 图形生成的综合能力,涉及复杂对象组合(动物 + 机械结构)和空间关系处理。
DeepSeek v4 pro完成的没有大问题。
prompt:
Deepseek v4 pro的表现如下,这个任务的完成度就查了不少,比如播放按钮无效,不能自己播放动画,只能手动拖动进度条。还有日志细节之类的也不好。
这个任务我之前用claude试过,用的claude opus 4.7模型,
就这个case来说,能看的出来 deepseek v4 pro 跟顶级的opus 4.7还是有差距的。不过这一点,官方在发布中说的很诚恳:
目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型,据评测反馈使用体验优于 Sonnet 4.5,交付质量接近 Opus 4.6 非思考模式,但仍与 Opus 4.6 思考模式存在一定差距。
几个case测下来,第一感受是v4-pro的思考过程非常扎实,还会自己验证结果,agentic能力肯定是比之前提升了不少。不过效率上明显感觉慢下来了。
另外,v4 pro比之前贵了不少,输出价格来到了24元/百万tokens。
上面几个任务的花费情况:
接下来简单过一遍模型信息。
一共两个模型,分别是DeepSeek-v4-Pro和DeepSeek-V4-Flash:
两个模型都有3中思考模式:Non-think(快速)、Think High(有限推理)、Think Max(全力推理)。
1、一是长上下文效率。
对比 DeepSeek-V3.2,在 1M 上下文窗口场景下:
靠的是两个新注意力机制的交替排列:CSA(先把 KV entries 按窗口压缩,再做稀疏 top-k 选择)和 HCA(更大压缩率,不做稀疏,直接 dense attention)。
此外还引入了 mHC替代残差连接,约束层间信号传播为非扩张映射,以及Muon 优化器,比 AdamW 收敛更快。
2、二是 post-training 上有个重要变化。V3.2 用的是混合rl,V4 把它整个换成了 On-policy distillation。流程是:先针对数学、代码、Agent、指令跟随等领域各自训练独立专家模型(sft + GRPO rl),再用 10+ 个专家做多老师蒸馏,统一进一个学生模型。OPD 用反向 KL 散度,做全词表 logit 蒸馏而非常见的 token 级近似,梯度方差更小,训练更稳。
3、训练数据:V4-Flash 32T tokens,V4-Pro 33T tokens。
4、横向性能上。
最后,一如DeepSeek之前的模型——压缩成本,相比于benchmark刷新了多少,v4更重要的意义也是在架构层面,继续借助架构的创新把长上下文推理成本压下来。是解锁下一代 test-time scaling 的前提条件。
开源生态有了这个基础,能做的事会不一样。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-24
阿里云 AI 网关支持 DeepSeek V4
2026-04-24
DeepSeek-V4 终于来了!1M上下文,开源模型新王登基
2026-04-24
Deepseek V4终于发布,但它留下的5道主观题还没有答案
2026-04-24
DeepSeek-V4 预览版:迈入百万上下文普惠时代
2026-04-23
DeepSeek V4发布前,罗福莉亮剑!小米最强大模型MiMo-V2.5深夜突袭
2026-04-23
腾讯开源Cube Sandbox:60毫秒冷启动的AI沙盒运行时
2026-04-22
百度把Nano Banana塞进4090,疯了?
2026-04-21
Kimi K2.6 开源了!还附送了 300 个 Agent 员工?
2026-01-30
2026-01-27
2026-01-29
2026-01-27
2026-01-28
2026-03-30
2026-01-26
2026-04-03
2026-03-23
2026-01-26
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
2026-03-17
2026-03-13
2026-03-02