林俊旸离职后首次发声！复盘千问的弯路，指出AI的新路

发布日期：2026-03-27 04:21:02 浏览次数： 2091

作者：量子位

微信搜一搜，关注“量子位”

林俊旸，离职阿里千问后首次发声。

他没有回应离职风波或宣告去向，而是发长文探讨从“推理模型时代的思考”到“智能体时代的思考”的转变。

整篇文章谈的是技术和AI的未来方向，但字里行间对千问技术路线的反思藏不住。

他在文中坦白承认“我们没有全做对”（We did not get everything right），

千问团队曾有一个雄心勃勃的构想：把thinking和instruct两种模式合并到一个模型里。

Qwen3就是这个方向上“最清晰的公开尝试之一”，它引入了混合思维模式。

但在今天的林俊旸仍不够满意，他觉得最终thinking变得啰嗦且犹豫不决，instruct变得不够干脆、不够可靠，还更贵了。

在他看来，真正成功的合并，不是把两种人格硬塞进一个checkpoint，而是让模型拥有一个连续的推理努力光谱。

面对未来，他还给出这样的判断：过去两年Reasoning Thinking时代的使命已经完成了。

OpenAI的o1和DeepSeek-R1证明了推理能力可以被训练和复现，这教会了整个行业一个关键认知：

要在语言模型上做强化学习，需要确定性强、可规模化的反馈信号。

2025年上半年开始，大家几乎都在研究同一件事：怎么让模型花更多推理时间、怎么训练更强的奖励、怎么控制推理的力度。

现在最关键的问题是，下一步是什么？

林俊的答案是Agentic Thinking，智能体式思维，在与环境的交互中不断修正计划。

他列出了Agentic Thinking和Reasoning Thinking的关键区别：

判断何时停止思考、开始行动。推理模型输出完答案就结束了，智能体要在思考和行动之间不断切换。
选择调用哪个工具、以什么顺序。不是简单的function call，是动态规划问题。
消化来自环境的噪声和部分观测。真实世界不会给你完美反馈。
失败后修正计划，而不是推倒重来。
跨越多轮对话和多次工具调用保持连贯。

他用一句话做出总结：

从“想更久”到“为了行动而想”。

在林俊旸看来，未来的竞争力不只来自更好的模型，还来自更好的环境设计、更强的harness工程、以及多个智能体之间的编排。

从训练模型，到训练智能体，再到训练系统。

（以下为林俊旸原文翻译。）

从“推理式思考”到“智能体式思考”

过去两年，重新定义了我们评估模型的方式和我们对模型的期待。

OpenAI的o1表明，“思考”可以成为一种一等公民级别的能力——一种你专门去训练、并向用户开放的能力。

DeepSeek-R1，证明了推理式后训练可以在原始实验室之外被复现和规模化。

OpenAI将o1描述为通过强化学习训练出“先想后答”能力的模型，DeepSeek则将R1定位为与o1具有竞争力的开源推理模型。

Which AI Model Can Actually Reason Better? Deepseek-R1 Vs OpenAI o1. | by Bernard Loki "AI VISIONARY" | Medium

那个阶段很重要。

但2025年上半年，行业把大部分精力花在了推理式思考上：怎么让模型在推理时花更多算力，怎么用更强的奖励来训练，怎么暴露或控制这些额外的推理力度。

现在的问题是：下一步是什么？

我认为答案是智能体思考（agentic thinking）——为了行动而思考，在与环境的交互中思考，并根据来自真实世界的反馈持续更新计划。

1. o1和R1的崛起真正教会了我们什么

第一波推理模型教会了我们：

如果想在语言模型上规模化强化学习，我们需要确定性强、稳定且可扩展的反馈信号。

数学、代码、逻辑以及其他可验证领域变得至关重要，因为这些场景中的奖励信号远强于通用的偏好监督。

它们让RL能够针对正确性进行优化，而非仅追求“看起来合理”。基础设施变得至关重要。

一旦模型被训练出在更长轨迹上进行推理的能力，RL就不再是监督微调（SFT）的轻量附加模块，它变成了一个系统工程问题。

你需要大规模的轨迹采样（rollout）、高吞吐量的验证、稳定的策略更新、高效的采样。

推理模型的崛起，既是一个建模的故事，也同样是一个基础设施的故事。

OpenAI将o1描述为一条用RL训练的推理产品线，DeepSeek R1随后进一步验证了这个方向——它展示了基于推理的RL需要多么专门化的算法和基础设施工作。

第一次重大转变：从扩展预训练，到扩展面向推理的后训练。

2. 真正的问题从来不只是“合并思考和指令”

2025年初，千问团队中的我们很多人心中都有一幅宏大的蓝图。

理想的系统应当统一思考模式和指令模式。它应支持可调节的推理力度，类似低/中/高推理档位的设定。

更理想的状态是，它能从提示和上下文中自动推断合适的推理量——让模型自行决定何时直接回答、何时多想一会儿、何时在真正困难的问题上投入大量计算。

从概念上看，这个方向是对的。Qwen3是这个方向上最清晰的公开尝试之一。

它引入了“混合思维模式”，在一个模型家族中同时支持思考和非思考行为，强调可控的思维预算，并设计了一条四阶段后训练流水线——在长CoT冷启动和推理RL之后，明确包含了“思维模式融合”这一步。

Alibaba's Qwen3: Open-weight LLMs with hybrid thinking - TechTalks

但合并说起来容易做好难，真正的难点是数据。

人们谈到合并思考和指令时，往往首先想到的是模型侧的兼容性：一个checkpoint能不能同时支持两种模式，一个对话模板能不能在它们之间切换，一套推理服务架构能不能暴露正确的开关。

更深层的问题是，两种模式的数据分布和行为目标有本质差异。

在试图平衡模型合并与提升后训练数据的质量和多样性时，我们没有全做对。

在迭代过程中，我们也密切关注了用户实际使用思考和指令模式的方式。一个强指令模型通常因简洁直接、格式规范、低延迟而受到奖励——尤其是在改写、标注、模板化支持、结构化提取、运营QA等重复性高、批量大的企业任务上。

一个强思考模型则因在难题上花更多token、保持连贯的中间推理结构、探索替代路径、并保留足够的内部计算以切实提升最终正确率而受到奖励。

这两种行为模式互相拉扯。

如果合并数据未经精心策划，结果通常两边都做得平庸：“思考”行为变得嘈杂、臃肿或不够果断，“指令”行为则变得不够干脆、不够可靠，而且比商业用户实际需要的更贵。

在实践中，将两者分离仍然更有吸引力。

2025年下半年，在Qwen3最初的混合框架之后，2507版本发布了独立的Instruct和Thinking更新，包括分开的30B和235B版本。

在商业部署中，大量客户仍然需要高吞吐、低成本、高度可控的指令行为来进行批量操作。对这些场景来说，合并的好处并不明显。分离产品线让团队可以更专注地解决每种模式各自的数据和训练问题。

其他实验室选择了相反的路线。

Anthropic公开主张整合模型的理念：Claude 3.7 Sonnet作为混合推理模型推出，用户可以选择普通回复或扩展思考，API用户可以设置思维预算。Anthropic明确表示，他们认为推理应该是一种整合的能力，而非独立的模型。

GLM-4.5也公开将自身定位为同时具备思考和非思考模式的混合推理模型，统一了推理、编程和智能体能力。

DeepSeek后来也在V3.1的“Think & Non-Think”混合推理中走向了类似方向。

关键问题是，这种合并是否是有机的。

如果思考和指令只是被塞进同一个checkpoint，却仍然像两个别扭拼接的人格那样运作，产品体验仍然是不自然的。

真正成功的合并，需要的是一个流畅的推理力度连续光谱。模型应该能表达多个层级的推理力度，理想情况下还能自适应地做出选择。

GPT式的力度控制指向了这个方向：一种关于算力分配的策略，而非一个非此即彼的开关。

3. 为什么Anthropic的方向是一次有用的纠偏

Anthropic围绕Claude 3.7和Claude 4的公开表述是克制的。

他们强调整合推理、用户可控的思维预算、真实世界任务、编程质量，以及后来在扩展思考过程中使用工具的能力。Claude 3.7被呈现为一个具有可控预算的混合推理模型；Claude 4在此基础上更进一步，允许推理与工具使用交替进行，同时Anthropic将编程、长时间运行的任务和智能体工作流强调为首要目标。

产出更长的推理轨迹并不会自动让模型更聪明。

在很多情况下，过多的可见推理恰恰是算力分配低效的信号。如果模型试图用同样啰嗦的方式对所有事情进行推理，它可能是在失败地确定优先级、失败地压缩信息，或者失败地采取行动。

Anthropic的发展轨迹暗示了一种更有纪律的视角：思考应当由目标工作负载来塑造。

如果目标是编程，那么思考应当帮助代码库导航、规划、分解、错误恢复和工具编排。如果目标是智能体工作流，那么思考应当提升长周期内的执行质量，而非产出华丽的中间文字。

这种对目标化效用的强调，指向了更大的图景：

我们正在从训练模型的时代走向训练智能体的时代。

我们在Qwen3博客中明确写下了这一点——“我们正在从专注于训练模型的时代，走向以训练智能体为核心的时代”，并将未来的RL进展与面向长周期推理的环境反馈联系在一起。

一个智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略、并在长周期内持续运行的系统。它的定义特征是与世界的闭环交互。

4. “智能体式思考”到底意味着什么

智能体式思考是一个不同的优化目标。

推理式思考通常以最终答案之前的内部推理质量来衡量：模型能不能解出定理、写出证明、生成正确代码、通过基准测试。智能体式思考则关注的是：模型能不能在与环境交互的过程中持续取得进展。

核心问题从“模型能不能想得足够久？”转变为“模型能不能以一种维持有效行动的方式来思考？”智能体式思考必须处理几件纯推理模型大多可以回避的事：

决定何时停止思考、采取行动
选择调用哪个工具、以什么顺序
消化来自环境的噪声或部分观测
失败后修正计划
跨越多轮交互和多次工具调用保持连贯

智能体式思考，是通过行动来进行推理的模型。

5. 为什么智能体RL的基础设施更难

一旦优化目标从解决基准测试问题转向解决交互式任务，RL技术栈就要跟着变，经典推理RL的基础设施不够用了。

在推理RL中，你通常可以将采样轨迹视为基本自包含的序列，配以相对干净的评估器。

在智能体RL中，策略被嵌入到一个更大的编排框架（harness）中：工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API层、记忆系统和调度框架。

环境不再是一个静态的验证器，它本身就是训练系统的一部分。

这带来了一个新的系统需求：训练和推理必须更彻底地解耦。

没有这种解耦，采样吞吐量就会崩溃。

想象一个编程智能体需要在实时测试框架上执行生成的代码：推理侧因等待执行反馈而停滞，训练侧因缺少已完成轨迹而“饥饿”，整个流水线的GPU利用率远低于你对经典推理RL的预期。

加上工具延迟、部分可观测性和有状态环境，这些低效会被进一步放大。结果就是，在你达到目标能力水平之前很久，实验就已经慢得令人痛苦了。

环境本身也变成了一等公民级别的研究对象。

在SFT时代，我们痴迷于数据多样性。在智能体时代，我们应该痴迷于环境质量：稳定性、真实性、覆盖度、难度、状态多样性、反馈丰富度、防作弊能力，以及轨迹生成的可扩展性。

构建环境已经开始变成一个真正的创业赛道，而非副业。如果智能体是为了在类生产环境中运行而训练的，那么环境就是核心能力栈的一部分。

6. 下一个前沿是更可用的思考

我的预期是，智能体式思考将成为主流的思维形式。

我认为它最终可能取代大部分旧式的“静态独白”推理式思考——那些过长的、孤立的内部推理轨迹，试图通过输出越来越多的文字来弥补缺乏交互的不足。

即使面对非常困难的数学或编程任务，一个真正先进的系统也应该有权去搜索、模拟、执行、检查、验证和修正。目标是稳健且高效地解决问题。

训练此类系统最大的挑战是reward hacking（奖励作弊）。

一旦模型获得了有意义的工具访问权限，reward hacking就变得危险得多。

一个能搜索的模型可能学会在RL训练中直接搜索答案。一个编程智能体可能利用代码仓库中的未来信息、滥用日志，或发现让任务失效的捷径。一个有隐藏泄漏的环境可能让策略看起来超越人类水平，实际上却是在训练它作弊。

这就是智能体时代变得比推理时代微妙得多的地方。

更好的工具让模型更有用，但也扩大了虚假优化的攻击面。

我们应该预期，下一批严肃的研究瓶颈将来自环境设计、评估器鲁棒性、防作弊协议，以及策略与世界之间更有原则的接口。尽管如此，方向是明确的。工具赋能的思维就是比孤立的思维更有用，也更有可能真正提升生产力。

智能体式思考还意味着编排工程（harness engineering）的兴起。核心智能将越来越多地来自多个智能体的组织方式：

一个负责规划和分发任务的编排者，多个像领域专家一样行动的专业智能体，以及执行更窄任务的子智能体——它们帮助控制上下文、避免信息污染、并维护不同层级推理之间的隔离。

未来的方向是：从训练模型到训练智能体，从训练智能体到训练系统。

结语

推理浪潮的第一阶段确立了一件重要的事：

当反馈信号可靠且基础设施能够支撑时，语言模型之上的RL可以产出质的飞跃式的认知能力。

更深层的转变是从推理式思考到智能体式思考：

从想得更久，到为了行动而想。训练的核心对象已经改变了——它变成了模型+环境的系统，或者更具体地说，是智能体和围绕它的编排框架。

这改变了哪些研究要素最重要：

模型架构和训练数据当然仍然重要，但环境设计、轨迹采样基础设施、评估器鲁棒性、以及多智能体之间的协调接口同样关键。

这也改变了“好的思考”的定义：

最有用的轨迹，是能在真实世界约束下维持有效行动的那个——而非最长或最醒目的那个。

这也改变了竞争优势的来源：

在推理时代，优势来自更好的RL算法、更强的反馈信号和更可扩展的训练流水线。

在智能体时代，优势将来自更好的环境、更紧密的训练-推理耦合、更强的编排工程，以及在模型的决策与这些决策产生的后果之间实现闭环的能力。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业