DeepSeek 再蒸新模型：这次选的是 Qwen3 和 Gemma4！Llama 这次上不了桌

发布日期：2026-06-29 20:07:25 浏览次数： 1509

作者：AI打工人小伊

微信搜一搜，关注“AI打工人小伊”

这两天，DeepSeek 在 HuggingFace 又更新了一堆东西，包括 DSpark，还有一堆“新模型”。

很多人第一反应可能是：DeepSeek 又发新模型了？

但这次最值得看的，恰恰不是“新模型”。DeepSeek 这次没有换一个更大的大脑。

它做的是另一件事：给大模型装了一个“加速外挂”。

更有意思的是，这个外挂不只给 DeepSeek 自己用，还适配到了 Qwen、Gemma 这些开源模型上。

这件事如果单独看，只是一次推理加速更新。

但如果和 R1 发布时的动作放在一起看，就很有意思了。

R1 发布时，DeepSeek 不只是开源了自己的 reasoning 模型，还把 R1 的推理能力蒸馏到了 Qwen 和 Llama 上。

这一次，DeepSeek 又把推理加速能力，适配到了 Qwen 和 Gemma 上。（再见 Llama）

• 一次是让别人的模型更聪明。
• 一次是让别人的模型更快。

所以这件事更像是 DeepSeek 开源策略的一次升级：

不只是开源模型，而是开源让模型变强、变快、变便宜的方法。

这次不是换大脑，是换发动机

DeepSeek 这次发布的新论文叫 DSpark。

名字很技术，但它解决的问题非常朴素：

大模型已经够聪明了，但回答能不能更快一点？
大模型正常生成文本，是一个 token 一个 token 往外吐。

你可以把它理解成：老板自己亲自写材料。

每个字都要自己想，自己写，自己确认。

当然稳，但慢。

推测解码的思路是：

找一个小一点的 draft model，也就是草稿模型，先提前写一段。

然后大模型再来批改。

写对的，直接通过。

写错的，从错误位置重写。

最后拍板的还是大模型，所以答案质量不变，但速度可能会明显提升。

这就是 speculative decoding，推测解码。

说白了：

不是让老板变聪明，而是让老板不要再亲自写每一个字。

DSpark 真正想解决的，是“怎么聪明地偷懒”

推测解码不是 DeepSeek 第一个提出的。

难点在于：

草稿模型怎么写，才既快又准？

这次 DeepSeek 把 DSpark、DFlash、Eagle3 放在一起发布，其实就是在回答这个问题。

Eagle3 像一个谨慎的高级助理。

它跟着大模型的思路一步一步写，质量比较稳，接受率高，但问题是：它自己也慢。

DFlash 像一个手速很快的实习生。

它不一句一句写，而是一次甩出一整段草稿，速度很快，但后面的内容容易越来越飘。

DSpark 更像是两者之间的折中升级。

它先并行生成一批 token，保住速度；

再用一个轻量的顺序模块，补一下 token 之间的依赖关系，提升草稿质量。

简单说就是：先让实习生快速写一版。

再让一个小组长提前润一遍。最后再交给老板批改。

所以 DSpark 想要的是：

既要 DFlash 的快，也要 Eagle3 的稳。

这还不够。

真实线上服务里，还有一个更现实的问题：服务器不是永远空着的。

如果 GPU 很忙，你还把一堆不靠谱的草稿 token 全部丢给大模型验证，那就是浪费算力。

所以 DSpark 又加了一个置信度调度。

置信度高，就多验证几个。

置信度低，就少验证几个。

服务器闲，就多赌一点。

服务器忙，就稳一点。

这就是 DSpark 这篇论文真正工程化的地方。

它不是只在实验室里追求一个漂亮速度数字。

它关心的是生产环境里的延迟、吞吐、GPU 利用率和服务稳定性。

这也是为什么我觉得这次动作，比“又发一个新模型”更值得看。

关键不是 DSpark，而是 DeepSeek 的第二次外溢

如果只看 DSpark，你会觉得这是一次推理优化。

但如果把它和 R1-Distill 放在一起，就能看到 DeepSeek 更大的策略。

R1 发布时，DeepSeek 做过一次很重要的外溢：

它把自己的 reasoning 能力蒸馏到了 Qwen 和 Llama 上。

这意味着什么？

Qwen 和 Llama 不是 DeepSeek 的模型。

但 DeepSeek 用 R1 生成的数据，让这些模型学到了一部分 R1 的推理方式。

那一次，DeepSeek 外溢的是“能力”。

这一次，DSpark / DeepSpec 外溢的是“效率”。

它把推理加速方案放出来，并且适配 Qwen3、Gemma4 这些开源模型。

所以这条线就很清楚了：

R1-Distill 是能力外溢。

DSpark 是效率外溢。

前者让别人的模型更聪明。

后者让别人的模型更快。

这才是 DeepSeek 这次最值得琢磨的地方。

它并不是只想让大家用 DeepSeek 的模型。

它更像是在做一件更底层的事：

把 DeepSeek 的技术路线，变成整个开源模型生态的增强层。

开源模型只是第一层，开源“改造方法”才是更狠的一层

过去大家理解开源模型，主要是：

把权重放出来。

社区下载、部署、微调、量化。

这当然重要。

但 DeepSeek 现在做的事情，比单纯开源权重更进一步。

R1 时代，它开源的是：怎么把大模型的推理能力，迁移到小模型上。

DSpark 时代，它开源的是：怎么把大模型的推理过程，变得更快、更便宜、更适合上线服务。

这就不是“给你一个模型”了。

而是：

给你一套改造模型的方法。

这件事的意义在于，DeepSeek 不只是参与开源生态。

它正在影响开源生态怎么训练、怎么蒸馏、怎么加速、怎么部署。

这就像过去很多公司开源的是一个产品。

但更厉害的公司，开源的是一套工作流、一套标准、一套方法论。

产品可以被替代。

方法论一旦被社区采用，就会变成生态入口。

所以 DeepSeek 这次真正值得讨论的问题不是：

DSpark 到底能快多少？

而是：

DeepSeek 是在扶开源生态，还是在重新定义开源生态的入口？

企业 AI 最后不是败给智商，而是败给账单和等待时间

这件事对企业 AI 尤其重要。

普通用户可能只会感觉：模型回复快了一点。

但企业真正关心的是另一组问题：高并发能不能撑住？延迟能不能接受？推理成本能不能打平？部署和运维能不能可控？

• 一个客服 Agent，如果每轮要等十几秒，体验就会崩。
• 一个合同审查系统，如果每次分析都很贵，就很难大规模铺开。
• 一个内部知识问答，如果几百人同时用就排队，那就很难从 Demo 走向生产。

所以企业 AI 的落地，最后常常不是败给模型智商。

而是败给账单和等待时间。

这也是 DSpark 这种技术真正值得关注的地方。

它不是为了让模型在榜单上再多涨几分。

它解决的是：

同样的模型，能不能服务更多用户？
同样的 GPU，能不能吐出更多 token？
同样的效果，能不能用更低成本跑起来？

这才是 AI 应用规模化的底层问题。

DeepSeek 的路线，越来越不像单纯的模型公司

过去大家看 DeepSeek，最关注的是模型能力。

R1 开始证明它能做 reasoning。

V 系列证明它能做更强的基础模型和长上下文。

但现在，DSpark / DeepSpec 又补上了推理工程这一层。

训练、蒸馏、加速、部署、生态适配。

这几件事拼在一起，DeepSeek 的画像就变了。

它不只是想做一个模型供应商。

它更像是在往开源 AI 基础设施公司靠。

这条路很聪明。

因为模型能力会被追赶。

单个 benchmark 会被刷新。

但如果你的方法、框架、工具链，被越来越多开发者和模型生态采用，你拿到的就不只是一次模型发布的流量。

而是长期的技术话语权。

所以这次 DeepSeek 没发新模型，反而更值得看。

因为模型公司最性感的时刻，当然是发布一个更强的新模型。

但真正决定行业格局的，往往是那些不那么性感的东西：

推理速度。
单位成本。
部署框架。
生态兼容。
服务稳定性。

这些东西听起来不如“新模型”刺激。

但它们决定了 AI 能不能真的跑进生产环境。

写在最后

大模型行业正在从“谁更聪明”，走向“谁更跑得起”。

前两年，大家讨论的是：

谁的参数更大？

谁的 benchmark 更高？

谁更接近 GPT-4？

但接下来，企业真正会问的是：

谁的延迟更低？

谁的成本更便宜？

谁的吞吐更稳定？

谁能在有限算力下服务更多用户？

DeepSeek 这次没有换一个更大的大脑。

它只是让大脑说话更快了一点。

但这件事可能比又发一个新模型更重要。

因为 AI 进入生产环境之后，最稀缺的从来不只是智商。

还有速度、成本、吞吐和稳定性。

一句话总结：

R1-Distill 是让开源模型学会 DeepSeek 的思考方式。

DSpark / DeepSpec 是让开源模型学会 DeepSeek 的加速方式。

前者迁移能力。

后者迁移效率。

这才是 DeepSeek 最值得警惕的地方。

它不只是在开源模型。

它开始开源“让模型变强、变快、变便宜的方法”。

所以问题来了：

DeepSeek 这是在扶开源生态，还是在重新定义开源生态的入口？

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-29

8G 内存足以，最适合 NAS 的本地「多模态模型」，极空间+MiniCPM

2026-06-29

腾讯刚开源了个好东西：BrowserSkill 让 AI Agent 直接用你的浏览器

2026-06-29

WeKnora详解（一）：腾讯开源的 LLM 知识框架，5 分钟跑通你的第一个问答机器人

2026-06-29

腾讯WeKnora开源详解（四）：企业治理与开发者工具

2026-06-28

BrowserBC：克隆人类点击，让一次网页操作转化为所有Agent的能力

2026-06-27

腾讯混元发布 PhoneBuddy：4B 开源手机 Agent，在 AndroidWorld 上超越 Gemini3.1 Pro

2026-06-27

本地部署 Gemma 4 26B QAT 实践记录

2026-06-26

Higress v2.2.3 发布：AI Gateway 能力增强，Gateway API 及其推理扩展持续打磨

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

Agent终于有了自己的邮箱！腾讯Agently Mail详解

2026-06-22

炸裂！Seedance 2.0 免费用！全网第一只接入的开源龙虾，效果离谱

2026-04-02

Claude 的金融 Skills 开源了

2026-05-10

Ollama 换引擎，苹果 M5 封神了

2026-05-06

Qwen3.7来了，全球排名第13，国内第一

2026-05-20

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw