微信扫码
添加专属顾问
林俊旸深度剖析AI技术演进:从推理模型到智能体思维的跨越式转型,揭示行业未来十年关键方向。 核心内容: 1. 千问团队技术路线反思:混合思维模式的实践困境 2. 推理模型时代的终结与智能体思维的特征解析 3. 未来AI竞争核心:环境设计、工程架构与多智能体协同
林俊旸,离职阿里千问后首次发声。
他没有回应离职风波或宣告去向,而是发长文探讨从“推理模型时代的思考”到“智能体时代的思考”的转变。
整篇文章谈的是技术和AI的未来方向,但字里行间对千问技术路线的反思藏不住。
他在文中坦白承认“我们没有全做对”(We did not get everything right),
千问团队曾有一个雄心勃勃的构想:把thinking和instruct两种模式合并到一个模型里。
Qwen3就是这个方向上“最清晰的公开尝试之一”,它引入了混合思维模式。
但在今天的林俊旸仍不够满意,他觉得最终thinking变得啰嗦且犹豫不决,instruct变得不够干脆、不够可靠,还更贵了。
在他看来,真正成功的合并,不是把两种人格硬塞进一个checkpoint,而是让模型拥有一个连续的推理努力光谱。
面对未来,他还给出这样的判断:过去两年Reasoning Thinking时代的使命已经完成了。
OpenAI的o1和DeepSeek-R1证明了推理能力可以被训练和复现,这教会了整个行业一个关键认知:
要在语言模型上做强化学习,需要确定性强、可规模化的反馈信号。
2025年上半年开始,大家几乎都在研究同一件事:怎么让模型花更多推理时间、怎么训练更强的奖励、怎么控制推理的力度。
现在最关键的问题是,下一步是什么?
林俊的答案是Agentic Thinking,智能体式思维,在与环境的交互中不断修正计划。
他列出了Agentic Thinking和Reasoning Thinking的关键区别:
他用一句话做出总结:
从“想更久”到“为了行动而想”。
在林俊旸看来,未来的竞争力不只来自更好的模型,还来自更好的环境设计、更强的harness工程、以及多个智能体之间的编排。
从训练模型,到训练智能体,再到训练系统。
(以下为林俊旸原文翻译。)
过去两年,重新定义了我们评估模型的方式和我们对模型的期待。
OpenAI的o1表明,“思考”可以成为一种一等公民级别的能力——一种你专门去训练、并向用户开放的能力。
DeepSeek-R1,证明了推理式后训练可以在原始实验室之外被复现和规模化。
OpenAI将o1描述为通过强化学习训练出“先想后答”能力的模型,DeepSeek则将R1定位为与o1具有竞争力的开源推理模型。
那个阶段很重要。
但2025年上半年,行业把大部分精力花在了推理式思考上:怎么让模型在推理时花更多算力,怎么用更强的奖励来训练,怎么暴露或控制这些额外的推理力度。
现在的问题是:下一步是什么?
我认为答案是智能体思考(agentic thinking)——为了行动而思考,在与环境的交互中思考,并根据来自真实世界的反馈持续更新计划。
第一波推理模型教会了我们:
如果想在语言模型上规模化强化学习,我们需要确定性强、稳定且可扩展的反馈信号。
数学、代码、逻辑以及其他可验证领域变得至关重要,因为这些场景中的奖励信号远强于通用的偏好监督。
它们让RL能够针对正确性进行优化,而非仅追求“看起来合理”。基础设施变得至关重要。
一旦模型被训练出在更长轨迹上进行推理的能力,RL就不再是监督微调(SFT)的轻量附加模块,它变成了一个系统工程问题。
你需要大规模的轨迹采样(rollout)、高吞吐量的验证、稳定的策略更新、高效的采样。
推理模型的崛起,既是一个建模的故事,也同样是一个基础设施的故事。
OpenAI将o1描述为一条用RL训练的推理产品线,DeepSeek R1随后进一步验证了这个方向——它展示了基于推理的RL需要多么专门化的算法和基础设施工作。
第一次重大转变:从扩展预训练,到扩展面向推理的后训练。
2025年初,千问团队中的我们很多人心中都有一幅宏大的蓝图。
理想的系统应当统一思考模式和指令模式。它应支持可调节的推理力度,类似低/中/高推理档位的设定。
更理想的状态是,它能从提示和上下文中自动推断合适的推理量——让模型自行决定何时直接回答、何时多想一会儿、何时在真正困难的问题上投入大量计算。
从概念上看,这个方向是对的。Qwen3是这个方向上最清晰的公开尝试之一。
它引入了“混合思维模式”,在一个模型家族中同时支持思考和非思考行为,强调可控的思维预算,并设计了一条四阶段后训练流水线——在长CoT冷启动和推理RL之后,明确包含了“思维模式融合”这一步。
但合并说起来容易做好难,真正的难点是数据。
人们谈到合并思考和指令时,往往首先想到的是模型侧的兼容性:一个checkpoint能不能同时支持两种模式,一个对话模板能不能在它们之间切换,一套推理服务架构能不能暴露正确的开关。
更深层的问题是,两种模式的数据分布和行为目标有本质差异。
在试图平衡模型合并与提升后训练数据的质量和多样性时,我们没有全做对。
在迭代过程中,我们也密切关注了用户实际使用思考和指令模式的方式。一个强指令模型通常因简洁直接、格式规范、低延迟而受到奖励——尤其是在改写、标注、模板化支持、结构化提取、运营QA等重复性高、批量大的企业任务上。
一个强思考模型则因在难题上花更多token、保持连贯的中间推理结构、探索替代路径、并保留足够的内部计算以切实提升最终正确率而受到奖励。
这两种行为模式互相拉扯。
如果合并数据未经精心策划,结果通常两边都做得平庸:“思考”行为变得嘈杂、臃肿或不够果断,“指令”行为则变得不够干脆、不够可靠,而且比商业用户实际需要的更贵。
在实践中,将两者分离仍然更有吸引力。
2025年下半年,在Qwen3最初的混合框架之后,2507版本发布了独立的Instruct和Thinking更新,包括分开的30B和235B版本。
在商业部署中,大量客户仍然需要高吞吐、低成本、高度可控的指令行为来进行批量操作。对这些场景来说,合并的好处并不明显。分离产品线让团队可以更专注地解决每种模式各自的数据和训练问题。
其他实验室选择了相反的路线。
Anthropic公开主张整合模型的理念:Claude 3.7 Sonnet作为混合推理模型推出,用户可以选择普通回复或扩展思考,API用户可以设置思维预算。Anthropic明确表示,他们认为推理应该是一种整合的能力,而非独立的模型。
GLM-4.5也公开将自身定位为同时具备思考和非思考模式的混合推理模型,统一了推理、编程和智能体能力。
DeepSeek后来也在V3.1的“Think & Non-Think”混合推理中走向了类似方向。
关键问题是,这种合并是否是有机的。
如果思考和指令只是被塞进同一个checkpoint,却仍然像两个别扭拼接的人格那样运作,产品体验仍然是不自然的。
真正成功的合并,需要的是一个流畅的推理力度连续光谱。模型应该能表达多个层级的推理力度,理想情况下还能自适应地做出选择。
GPT式的力度控制指向了这个方向:一种关于算力分配的策略,而非一个非此即彼的开关。
Anthropic围绕Claude 3.7和Claude 4的公开表述是克制的。
他们强调整合推理、用户可控的思维预算、真实世界任务、编程质量,以及后来在扩展思考过程中使用工具的能力。Claude 3.7被呈现为一个具有可控预算的混合推理模型;Claude 4在此基础上更进一步,允许推理与工具使用交替进行,同时Anthropic将编程、长时间运行的任务和智能体工作流强调为首要目标。
产出更长的推理轨迹并不会自动让模型更聪明。
在很多情况下,过多的可见推理恰恰是算力分配低效的信号。如果模型试图用同样啰嗦的方式对所有事情进行推理,它可能是在失败地确定优先级、失败地压缩信息,或者失败地采取行动。
Anthropic的发展轨迹暗示了一种更有纪律的视角:思考应当由目标工作负载来塑造。
如果目标是编程,那么思考应当帮助代码库导航、规划、分解、错误恢复和工具编排。如果目标是智能体工作流,那么思考应当提升长周期内的执行质量,而非产出华丽的中间文字。
这种对目标化效用的强调,指向了更大的图景:
我们正在从训练模型的时代走向训练智能体的时代。
我们在Qwen3博客中明确写下了这一点——“我们正在从专注于训练模型的时代,走向以训练智能体为核心的时代”,并将未来的RL进展与面向长周期推理的环境反馈联系在一起。
一个智能体是一个能够制定计划、决定何时行动、使用工具、感知环境反馈、修正策略、并在长周期内持续运行的系统。它的定义特征是与世界的闭环交互。
智能体式思考是一个不同的优化目标。
推理式思考通常以最终答案之前的内部推理质量来衡量:模型能不能解出定理、写出证明、生成正确代码、通过基准测试。智能体式思考则关注的是:模型能不能在与环境交互的过程中持续取得进展。
核心问题从“模型能不能想得足够久?”转变为“模型能不能以一种维持有效行动的方式来思考?”智能体式思考必须处理几件纯推理模型大多可以回避的事:
智能体式思考,是通过行动来进行推理的模型。
一旦优化目标从解决基准测试问题转向解决交互式任务,RL技术栈就要跟着变,经典推理RL的基础设施不够用了。
在推理RL中,你通常可以将采样轨迹视为基本自包含的序列,配以相对干净的评估器。
在智能体RL中,策略被嵌入到一个更大的编排框架(harness)中:工具服务器、浏览器、终端、搜索引擎、模拟器、执行沙箱、API层、记忆系统和调度框架。
环境不再是一个静态的验证器,它本身就是训练系统的一部分。
这带来了一个新的系统需求:训练和推理必须更彻底地解耦。
没有这种解耦,采样吞吐量就会崩溃。
想象一个编程智能体需要在实时测试框架上执行生成的代码:推理侧因等待执行反馈而停滞,训练侧因缺少已完成轨迹而“饥饿”,整个流水线的GPU利用率远低于你对经典推理RL的预期。
加上工具延迟、部分可观测性和有状态环境,这些低效会被进一步放大。结果就是,在你达到目标能力水平之前很久,实验就已经慢得令人痛苦了。
环境本身也变成了一等公民级别的研究对象。
在SFT时代,我们痴迷于数据多样性。在智能体时代,我们应该痴迷于环境质量:稳定性、真实性、覆盖度、难度、状态多样性、反馈丰富度、防作弊能力,以及轨迹生成的可扩展性。
构建环境已经开始变成一个真正的创业赛道,而非副业。如果智能体是为了在类生产环境中运行而训练的,那么环境就是核心能力栈的一部分。
我的预期是,智能体式思考将成为主流的思维形式。
我认为它最终可能取代大部分旧式的“静态独白”推理式思考——那些过长的、孤立的内部推理轨迹,试图通过输出越来越多的文字来弥补缺乏交互的不足。
即使面对非常困难的数学或编程任务,一个真正先进的系统也应该有权去搜索、模拟、执行、检查、验证和修正。目标是稳健且高效地解决问题。
训练此类系统最大的挑战是reward hacking(奖励作弊)。
一旦模型获得了有意义的工具访问权限,reward hacking就变得危险得多。
一个能搜索的模型可能学会在RL训练中直接搜索答案。一个编程智能体可能利用代码仓库中的未来信息、滥用日志,或发现让任务失效的捷径。一个有隐藏泄漏的环境可能让策略看起来超越人类水平,实际上却是在训练它作弊。
这就是智能体时代变得比推理时代微妙得多的地方。
更好的工具让模型更有用,但也扩大了虚假优化的攻击面。
我们应该预期,下一批严肃的研究瓶颈将来自环境设计、评估器鲁棒性、防作弊协议,以及策略与世界之间更有原则的接口。尽管如此,方向是明确的。工具赋能的思维就是比孤立的思维更有用,也更有可能真正提升生产力。
智能体式思考还意味着编排工程(harness engineering)的兴起。核心智能将越来越多地来自多个智能体的组织方式:
一个负责规划和分发任务的编排者,多个像领域专家一样行动的专业智能体,以及执行更窄任务的子智能体——它们帮助控制上下文、避免信息污染、并维护不同层级推理之间的隔离。
未来的方向是:从训练模型到训练智能体,从训练智能体到训练系统。
推理浪潮的第一阶段确立了一件重要的事:
当反馈信号可靠且基础设施能够支撑时,语言模型之上的RL可以产出质的飞跃式的认知能力。
更深层的转变是从推理式思考到智能体式思考:
从想得更久,到为了行动而想。训练的核心对象已经改变了——它变成了模型+环境的系统,或者更具体地说,是智能体和围绕它的编排框架。
这改变了哪些研究要素最重要:
模型架构和训练数据当然仍然重要,但环境设计、轨迹采样基础设施、评估器鲁棒性、以及多智能体之间的协调接口同样关键。
这也改变了“好的思考”的定义:
最有用的轨迹,是能在真实世界约束下维持有效行动的那个——而非最长或最醒目的那个。
这也改变了竞争优势的来源:
在推理时代,优势来自更好的RL算法、更强的反馈信号和更可扩展的训练流水线。
在智能体时代,优势将来自更好的环境、更紧密的训练-推理耦合、更强的编排工程,以及在模型的决策与这些决策产生的后果之间实现闭环的能力。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-03
开发者转向 AI 应用工程,真正要迁移的是工程判断力
2026-07-02
不改一行代码,看透 AI Agent 的每一次调用
2026-07-02
AI 不缺智商缺纪律:一场 Harness 工程化实践
2026-07-02
天工 3.2 重磅升级:Skywork Tags 上线,给 Agent 一张工牌,邀其加入你的工作群聊
2026-07-02
Context Infra 会是 AI 领域的下一个热点
2026-07-01
一文了解|SkillScan 智能体技能安全扫描最佳实践
2026-07-01
协作的逆向演进:从 Agent 逻辑重构团队管理
2026-07-01
港科大郭毅可谈Agentic AI时代的核心命题:人机共生,人不可能退场
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-05
2026-04-14
2026-04-24
2026-04-22
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。