我要投稿

Deepseek V4终于发布，但它留下的5道主观题还没有答案

发布日期：2026-04-24 11:52:41 浏览次数： 2342

作者：智能涌现

微信搜一搜，关注“智能涌现”

靴子终于落地。

被调侃“Next Week”近3个月的DeepSeek V4，终于显露真身。

1.6T的最大参数量、1M的上下文窗口、针对Agent的性能优化，以及基于MoE（混合专家模型）和稀疏注意力机制DSA，降低计算和显存需求——这些曾被外界纷纷猜测的参数和性能，随着V4的官宣，一锤定音。

姗姗来迟的原由，与V4将训练框架从英伟达迁移到华为昇腾上有关，也与DeepSeek内部的决策变动有关。我们得知，2025年年中，DeepSeek曾面临一次较为严重的训练失败。

“当时，DeepSeek面临重新适配芯片的问题。”一名知情者提到，“内部有关训练方向的意见也不完全统一。梁文峰提出了一些自己的要求，但在执行层面很难折中。”

不过，与外界关于“新模型支持多模态生成和理解”的猜测不同，V4依然是个语言模型。暂缓多模态生成的训练策略，主要源于算力和现金的掣肘。

多名知情者告诉《智能涌现》，DeepSeek的对外融资窗口，是2026年4月中旬打开的。内部的导火索，是DeepSeek需要更多资金支持，训练参数规模更大的模型，同时，留住和招纳更多的顶级人才。

“1.6T的参数量与OpenAI、Anthropic等顶级厂商的模型相比，并不具有绝对的竞争力。”一名从业者对我们提到，很快，国内也有模型厂商，将发布3T参数规模的模型。

在人才侧，随着郭达雅（DeepSeek R1核心作者）、王炳宣（DeepSeek LLM核心作者）等人才被字节、腾讯等大厂挖走，DeepSeek需要一笔大额融资稳定军心、招兵买马。

而转向开放融资的外部导火索，几名业内人士猜测，与腾讯的投资态度有关。在开发融资前，梁文峰和马化腾曾有关注独家注资有过几次商谈。但两名相关人士透露，给腾讯20%股份的条件，没有得到梁文峰的同意。

R1发布以来，一个明显的转变是：DeepSeek从一个偏非营利的、理想主义的技术乌托邦，被迫快速转向一家重视产品、商业化的务实公司。

2026年4月8日，DeepSeek App改版，上线支持复杂推理的“专家模式”，和处理简单任务的“快速模式”——随着V4的发布，我们也从而得知，负责“专家模式”的，是1.6T参数量的V4-pro，支持“快速模式”的，则是284B的V4-flash。

曾有知情人士表示，2025年下半年以来，梁文峰开始重视产品的打磨。有多名大厂AI产品经理向《智能涌现》提到，2025年年末，DeepSeek对产品策略/经理进行了“开闸式招聘”，他们也多次收到DeepSeek HR的联络。

一名业内人士也对《智能涌现》透露，DeepSeek内部已经搭建了数个创新产品团队，对Agent和其他C端产品形态进行探索。

从更新后的版本看，DeepSeek的文本能力提升明显。在过去一年，我们也听到多位AI行业HR、猎头提起过，不止一次在北大中文系的宿舍，遇见加学生微信的DeepSeek HR。

招中文系学生的目的，是做人文领域的数据标注和测评标准搭建。这被视为DeepSeek重视模型的人文性的信号。

虽然“普惠”“开放”，产品简单到只有一个Chat界面，是DeepSeek对外呈现出的形象。但我们了解到，2025年，DeepSeek对产品和商业化的探索一直没有停过——目前，内部已经组建了一支数十人的产品团队，对Agent等产品形态进行探索。

甚至更早前，在2024年，爆火前的DeepSeek，也考虑过投流推广，但很快被梁文峰否决。

DeepSeek终于放出年度更新，有如终于掉落的达摩克利斯之剑，让中国乃至全球模型厂商悬着的心稍稍放下。

迈入2026年后，DeepSeek的年度迭代，已成为AI世界“狼来了”的故事。避开DeepSeek，成了近几个月模型厂商的标准动作。

两家刚刚上市的大模型厂商，智谱和MiniMax，在春节前，就错峰发布了新的模型GLM 5和M 2.5。

一名智谱员工告诉《智能涌现》，“DeepSeek将在春节发模型”的传言一放出，算法团队立马拉了会，要求“尽早”发布GLM 5。

MiniMax的一名员工也表示，1月中旬，港股IPO庆功酒的宿醉还没褪去，算法团队就自觉早早回到了工位上。

“错峰”，对这两家已经IPO的模型创业公司尤为重要。“如果比DeepSeek晚发，性能不如它们，会影响股价；但不发，也会影响股价。”上述员工表示，“影响最小的办法，是早发。”

模型公司的融资动作，也要抢在DeepSeek更新前面。

1月末宣布了B+轮融资的阶跃星辰，也迫切地想在春节前Close这轮融资。一名知情人士告诉我们，一旦DeepSeek再次掀桌，和投资人的沟通成本将会非常高。

在从业者眼中，牌桌上一直有“两个DeepSeek”——一个带来被倾轧的恐惧，另一个则作为范式的引领。在模型厂商们温吞缠绵的两年里，行业需要这样一个“不确定性因素”，让厂商们反思、继而冲刺起来。

MiniMax一名员工记得，在年后的内部信和全员会上，创始人兼CEO闫俊杰提到：“DeepSeek帮我们走出了一条我想走的路。”

即使中国AI从业者对DeepSeek情绪复杂，但人们依然承认，DeepSeek改变了中国AI行业的诸多规则。

改变，往往意味着推倒和重建，这必不会是个舒适的体验，但正如一名六小虎投资人对我们评价的那样：DeepSeek奠定了近一年来中国大模型的组织文化、冲研发重点，而在这以后，“它是中国AI跻身全球一流的起点，但不会是终点”。

DeepSeek让中国AI行业的竞争格局，进入相对稳定的中场。但在模型技术的早期，DeepSeek为行业留下的不尽是共识。随着商业化和竞争压力加剧，围绕开源、商业化、增长等命题，各个厂商正在走向不同的分叉口。

在DeepSeek V4发布前，我们与十余位AI行业人士，围绕“DeepSeek改变了中国AI行业什么？”展开对话。

以下，是我们从中总结出的5条“后DeepSeek时代”的新命题。

命题一：重新审视开源的性价比

一年前，DeepSeek R1公开技术报告后，一名AI投资人的判断是：回归基模研究、靠开源开放打响技术品牌，对模型厂商而言是最重要的事。

但如今，他告诉我们，当时的判断有待商榷。

跟随DeepSeek一年后，厂商们大力托举开源和研究生态的时代是否要终结？这一关键问题，随着近期阿里千问大模型技术负责人林俊旸的离职，被摆到了明面上。

某种意义上，林俊旸领导的Qwen，代表着开源生态的利益。但如今，这与阿里作为商业公司的营利性，产生了尖锐的矛盾。

“非盈利的黄金时代结束了。”针对这一事件，一名Qwen员工对我们这样评价。

让厂商们动摇的事实是，如今营收最高的2家模型厂商，走的是闭源路线——OpenAI，年化收入超过250亿美元；Anthropic，年化收入超过190亿美元（据The Information报道，数据截至2026年2月底）。

至于国内厂商的模型收入，近期披露的2025年财报显示，MiniMax全年总收入为7903.8万美元，智谱为7.24亿元（约1.05亿美元），与OpenAI和Anthropic相比，还有多个数量级的差距。

△2023年以来，OpenAI和Anthropic的年化收入情况。图源：The Information

2026年1月的AGI Next大会上，智谱创始人唐杰也发出警告，“我们可能只是在‘开源游乐场’里玩得开心，而美国的闭源模型早已进入下一个纪元”。

毫无疑问，DeepSeek带动的开源开放生态，让中国模型在2025年内，快速在全球建立知名度和技术口碑。

但一个残酷的事实是，靠开源快速“冷启动”、建立技术口碑的阶段已经过去了。在基模研发仍然“吞金”的当下，如何将口碑转化成真金白银，是更重要的存活命题。

开源的价值，到了被重新审视的时间点。

命题二：投流大战暂停，精细化投放开打

如何解读DeepSeek “0投流，App上线7天用户破亿”的成绩？

放置一年前，行业的目光会不由自主地聚焦在“0投流”之上——这套破圈叙事，推翻了不少厂商深信不疑的增长路径，也戳破了彼时模型产品烧出的虚假繁荣。

警醒，应激。2025年初，不少公司都做出了和大举投流同样激进的反思。

其中的典型，是拉开投流大战序幕的月之暗面。

《智能涌现》曾报道，2025年2月一场持续了五六个小时的战略会上，月之暗面联合创始人张予彤宣布，立刻暂停Kimi在安卓渠道的投流，同时将iOS渠道上的投流预算，从原来的千万元/天，削减到数万元/天。

一名六小虎中层曾对我们假设：以Kimi和豆包为主角，AI应用激进的投流大战，大概率会持续到2025年Q2，按照平均每个季度2亿美金的投流支出，月暗会因资金压力率先败下阵。

当应激的情绪逐渐回归理性，多数厂商的增长成员都告诉我们：投流，仍要继续，但要做聪明的、有的放矢的增长。

事实上，激进的投流、补贴大战，没有因DeepSeek的非典型成功而停止。只是，参战的主要对象，剩下了财力雄厚、手握流量入口的几家大厂。

增长大战最白热化的一幕，发生在刚过去不久的2026年春节。阿里千问豪掷30亿元请用户喝奶茶，腾讯元宝狂撒10亿元红包，字节则用同样的10亿元，将豆包送上春晚的舞台。

六小虎的一名增长团队成员，将如今的投流，称作“巧妇要为无米之炊”：“流量入口被大厂们把握，意味着剩余的模型厂商，要用更精细化的增长方式，放弃建立大盘认知，聚焦目标用户。”

他举了个例子，如果AI产品的主要场景是金融、法律办公，那就将产品推到一些金融App上，流量还更便宜。

命题三：回归基模，选实用，还是选研究？

R1出圈后，聚焦基模研发，一夕之间成为AI模型厂商的共识。

“我们对自己的研究方向，都更坚定了。”一名亲历R1发布的前月之暗面研究员对我们表示，“R1并不是石破天惊的创新，但它证明，只要大方向判断不出错，厂商坚持自己的路线，就能获得性能上的正反馈，就像DeepSeek一直坚持纯语言和推理。”

此前，为了打榜或是追逐热点，不少厂商会将聚焦在推理、对话等不同性能的模型，分开单独训练。

“这样做可以针对某项能力调优，但模型的实用性会打折扣，客户也不一定买单。”一名智谱员工告诉我们。他提到，一个令智谱警铃大作的现象是，R1发布后，不少行业头部客户，转向了部署DeepSeek。

彼时的智谱在冲击中，做出了一个在上述员工看来“难而正确”的决定：训练一个同时聚集推理、Coding和Agentic能力的模型，GLM 4.5。

“这是智谱第一个‘反榜单’的模型，性能调优方向都从真实的客户需求中来，”他表示，“某种意义上，这也是智谱的背水一战。”

同样的反思，也席卷了大厂。2025年1月，前谷歌DeepMind研究副总裁吴永辉，挂帅字节模型团队Seed后，“不刷榜单，聚焦模型能力本身”的方针就被多次提起。

类似的，多名知情人告诉《智能涌现》，前OpenAI研究员姚顺雨加盟腾讯后，花了大力气把模型和AI产品的测评体系重新搭一遍，直接对接人员具体到每个场景的负责人，甚至他们的-1、-2。

“原来混元（腾讯大模型团队）的风格是‘刷榜’，让模型性能有些虚假繁荣。”一名混元成员告诉我们，“顺雨很Sharp，他希望团队认识到模型的真实水平，回归到研发本身。”

但共识之下必有裂隙。技术研发，向来有“实用派”和“研究派”之分，前者注重赢得竞争、商业落地，后者注重学术价值——具体到一家商业公司的体系中，在手头宽裕的时代，承担AI“研究派”角色的，往往是AI Lab、研究院。

然而，随着AI投入的压力逐步加大，基础模型研究该倾向“研究”还是“实用”，业界并没有统一的答案。

可见的是，在商业化目标的趋势下，目前“实用派”占了大多数。一个显著的信号是，AI Lab正在后退和消亡，研发资源被聚集至“实用派”。

2025年以来，字节AI Lab被并入Seed团队，阿里达摩院多个研发团队被重组至通义实验室；2026年3月20日，腾讯也撤销了成立近10年的AI Lab，团队成员并入混元大模型团队。

但DeepSeek在某种意义上依旧验证了，伟大是无法被计划的，不少突破性的技术，源自非功利性的研究。

依然有厂商，选择给“研究派”自由探索的空间——比如，字节Seed内部，还设置了注重研究的虚拟组织“Seed Edge”，鼓励骨干突破更基础、更长期的AGI课题，考核周期延长至3年。

命题四：大模型组织，顶层扁平高效，基层人海战术

命运的齿轮在梁文锋决定脱离幻方量化，单独成立DeepSeek那一天起就开始转动了。

一名接触过DeepSeek早期成员的知情人士告诉《智能涌现》，2023年初，DeepSeek早期团队到位后，梁文锋就坚持将DeepSeek脱离于幻方，理由是“幻方不是AI时代的组织形式，想要实现AGI，必须脱离原有的组织惯性做事。”

R1的成功，让不少模型厂商开始重新审视适配AI时代的人才组织形式。

“本质每一代（巨头）企业，都是那个阶段最先进的组织，去适配那个时候的技术和商业，自然而然脱颖而出。”在近期一次播客访谈中，阶跃星辰董事长印奇也提到，如今每一家企业的AI顶尖人才都不少，关键在于组织形态。

《智能涌现》曾报道，DeepSeek采取的是相当扁平和“学院派”的管理方式：成员根据具体的目标，分成不同的研究小组；组内没有固定分工和上下级关系——这一组织形式的好处在于，可以充分发挥人的想象力，适配创新业务。

对于规模尚且不大的创业公司而言，寻找适配AI时代的组织形式，尚且有较高的试错空间。不少六小虎的员工都对我们表示，2025年以来，扩张规模成为一件“很谨慎”的事。不少企业甚至选择自行断尾，目的是“更高效、更聚焦”。

但对于动辄万人规模的互联网大厂而言，打破原有组织惯性并非易事。正如印奇所言：创新者的窘境，往往是组织问题；领域内越是优秀的公司，越是将组织模式固化的更好，但往往也更难改变。

只是，对于大厂而言，在AI时代延续辉煌辉煌，是必须要做的事。

2025年以来，大厂玩家都试图将模型研发和AI创新业务，规整为一个相对独立于互联网业务的组织，用更为扁平的方式管理。

比如虽晚但到的腾讯。《智能涌现》曾独家报道，原来分散在各个BG中的模型核心研发资源，在数次调整中，被集中在姚顺雨管理的AI Infra部，以及大语言模型部。

在近期的答疑会上，姚顺雨针对AI Lab与混元的整并，也做出了回应：要打破部门墙，让AI基础模型的开发和研究架构更年轻、更直接。

但精简研发团队的另一面，是数据、评测等支持团队的激进扩张。

“模型底层算法的迭代，到了一个平台期。在算法架构没有突破的情况下，训练数据的质量在模型性能迭代中起到了关键作用。”一名大语言模型研究员告诉我们，“尤其是视频、3D等涉及主观审美的多模态数据，各个厂商之间的质量差距就会显现出来。”

用高薪、高职级组建数据、评测，在不少厂商中已经屡见不鲜。

一名知情者告诉我们，，近期字节Seed总规模相较于年初，已经翻了约2倍。豆包某一个尺寸的模型，光负责智商评测的就有5人，负责策略产品的有五六十人，“豆包、Seedance目前的性能优势，都是靠人力堆出来的。”

在数据供应的上游，盘踞在成都、武汉等城市的数据标注公司，已经跑出了不少年营收过亿的“隐形巨头”，招聘的普遍门槛，从中专、大专，抬高到了211硕士。

“金字塔结构”，一名Seed研究员如此形容目前模型组织的标准范式：研发顶端，是少数顶尖大脑，而为顶层输送燃料的数据、评测，依然需要人海战术。

命题五：年轻人和“一把手工程”

组织最重要的毛细血管，则是人。很难说，是DeepSeek统一了行业“重视年轻天才”的人才审美，但各个厂商对AI年轻人才的渴求，被拉到了一个史无前例的高度。

△腾讯“CEO/总裁办公室”首席AI科学家姚顺雨，1998年生。图源：姚顺雨个人博客

“很多大厂的HR团队，前几年招人的姿态都比较‘甲方’。”一名在AI行业从事了7、8年高端人才招聘的猎头告诉我们，“他们只负责给钱，但与人才在业务上的沟通都比较浅。”

明显的转变发生在R1发布之后——抢人，成了各大公司的“一把手工程”。

比如，2025年以来，隐退近4年的张一鸣的身影，频繁出现在新加坡，目的是引进全球各地的AI人才。也有不少人看到，腾讯总裁刘炽平亲自带HR团队，现身多个国内外计算机顶会现场，给参会者发名片、加微信。

一名混元成员也告诉我们，姚顺雨进入腾讯后的一个重要任务，是招人。自2025年9月，他加入腾讯以来，已经替混元面试了近百人，“每个校招生他都会亲自面，也常找突出的实习生吃饭”。

“DeepSeek终于让厂商们自上而下对齐了一件事：AI就是top mission。”一名AI投资人总结。

结语：一直仰望，就无法超越

DeepSeek不能一直待在神坛上。正如一名混元研究员所言：一直仰望，就无法超越。

2025年下半年以来，模型玩家们对DeepSeek的态度，不再只有景仰，而是暗自卯足了超越的野心。

这一点，在去年借助DeepSeek流量，快速托举元宝的腾讯身上，尤为明显。一名元宝员工告诉我们，截至2025年底，仍有约7成用户将DeepSeek选为元宝的默认模型，而非腾讯自己的模型混元。

“2026年，元宝的一个重要目标就是摆脱DeepSeek依赖，让腾讯自己的搜索品牌形成一定的用户心智。”她告诉我们。

当然，这也势必伴随更激进的模型研发目标。一名混元研究员告诉我们，2026年4月23日发布的新模型Hy3 preview，腾讯设定的目标是跟上第一梯队。第一梯队的名单，则是DeepSeek和阿里。

对于牌桌上更早进场的其他玩家而言，经过一年的调整、加速，几乎所有厂商都在模型赛道，找到了差异化的身位：

字节和阶跃星辰聚焦全模态；月之暗面和智谱打磨Coding和Agentic能力；MiniMax保持语言模型不掉队的同时，突出视频生成模型的优势。

“每个厂商都沿自己的路线走。”Jason告诉我们，“这条路的终点可以是AGI、是泼天财富，但绝对不会是包括DeepSeek在内的任何一家公司。”

2016年，埃隆·马斯克和OpenAI CEO山姆·奥特曼有过一段公开对话。他提到：“人们有时会认为技术每年都会自动进步，但其实并非如此。只有聪明的人们拼命努力去改进它，技术才会进步。”

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业