OpenAI Agent负责人Josh Tobin构建有效 AI 智能体的策略

发布日期：2025-05-11 11:38:35 浏览次数： 2352

作者：AI趋势全天候

微信搜一搜，关注“AI趋势全天候”

“ 我最大的认知是RL在模型之上的调整可能会是构建强大Agent的关键的一部分。”

AI 这股浪潮真是越来越猛了！红杉美国在AI峰会上直接打出万亿市场的旗帜，而人工智能的浪潮之巅正是AI智能体（AI Agents）——那些被赋予理解、规划乃至自主执行复杂任务能力的智能体——正日益成为科技革命的焦点。

它们不再是BP里讲故事的黑话，而是正在重塑我们与数字世界互动方式的真实力量。作为这一领域的领航者，OpenAI 投入了海量资源进行前沿探索与实践。这次我们挖到其 AI 智能体研究负责人 Josh Tobin，在近期的深度分享中，为我们提供了一个宝贵的窗口，得以一窥 OpenAI 内部运作在打造真正有效的 AI 智能体背后，所遵循的核心战略、关键洞察以及实践经验。

Josh Tobin是OpenAI的早期成员之一，他2019年离开OpenAI独立做MLOps领域的创业，去年重新回到OpenAI。

直接调用现有大模型API方法的瓶颈

“我们最初必须正视一个现实，”Josh Tobin 在回顾 AI 智能体构建的初期探索时指出，“最先制作的那种简单地围绕大语言模型（LLM）API 构建固定工作流的模式，很快就暴露了其局限性。”他坦言，这种方式虽然能快速搭建出引人注目的演示，但在真实、动态且充满不确定性的应用场景中，其可靠性往往不堪一击。

Tobin 将此归咎于两大核心痛点：“首先是‘错误累积’效应。LLM 在处理单个、孤立的任务时可能表现出色，但当任务链条拉长，需要多步骤协作时，每一步微小的偏差都可能像滚雪球一样被放大，最终导致整个流程的崩溃。”

他接着补充道：“其次，也是更根本的，是‘训练与任务的错位’。历史上，大多数 LLM 并非为扮演具有高度自主性的‘智能体’角色而生。它们的设计初衷并非在复杂环境中持续作业，并从不可避免的错误中汲取教训、灵活恢复。这种核心能力的缺失，是传统方法难以逾越的鸿沟。”

OpenAI 的核心引擎：为“智能体能力”而生的端到端训练与强化学习

怎么办呢？预训练拿到的大语言模型就想缸中之脑，如果按照现有模式修修补补模型输出就是一个概率游戏。而OpenAI直击问题核心，彻底革新了模型的训练范式。“我们意识到，必须让模型学会‘做事’，而不仅仅是‘说话’，”Tobin 强调。由此，端到端训练 (End-to-End Training) 的理念应运而生，并迅速成为 OpenAI 攻坚 AI 智能体能力的关键策略。

这意味着，不再将复杂任务拆解成若干孤立的子步骤分别训练，而是直接针对智能体在真实世界中需要完成的完整、复杂的工作流进行训练。Tobin 解释说：“通过这种方式，模型在‘学习’阶段就能充分暴露于各种潜在的失败情境和边缘案例，这为它们后续学习如何应对突发状况、如何从错误中恢复，打下了至关重要的基础。”

在端到端训练的框架之下，强化学习 (Reinforcement Learning) 则扮演了“灵魂注入者”的角色。“这不仅仅是让模型看更多的例子，”Tobin 指出，“更关键的是，要让模型在行动中学习，通过结果的好坏来调整自己的策略。”

通过精心设计的奖励机制，AI 智能体在训练过程中因成功完成任务或达成关键的阶段性目标而获得正向激励。这种机制的魔力在于，它不仅能驱动模型主动探索和学习那些可能比人类设计师预设的流程更优、更高效的解决方案，更赋予了模型一种宝贵的“韧性”——从错误中恢复并适应未知情况的能力。

在红杉AI峰会的另一场由OpenAI RL研究负责人Dan做的汇报里，他展示了一张图，图中显示了AI智能体能够完成任务的（持续）时长呈现指数级增长，大约每七个月翻一番。根据这张图，目前AI大概能处理持续一小时左右的任务。那么明年呢？它们大约能处理两到三个小时的任务。

他畅想可以试着外推一下这条线。正如爱因斯坦需要八年时间思考相对论（OpenAI内部有一版模型“爱因斯坦v1907-超级H版”正在做这个事）。从现在开始，要达到那个水平，我们需要大约16个倍增周期。这意味着，大约九年后，我们将拥有一个能够发现广义相对论的模型。

Tobin 以 OpenAI 的“DeepResearch（深度研究）”Agent为例生动地说明了这一点：“想象一下，如果初次搜索的结果并不理想，一个经过强化学习精心调校的智能体，能够凭借其在训练中积累的‘经验’，敏锐地意识到当前策略的不足，并主动调整搜索方向，尝试新的关键词组合，直至挖掘出真正有价值的信息。”他总结道：“这种‘在失败中学习、在实践中进化’的能力，正是新一代 AI 智能体区别于传统模型的本质所在。”

与此同时，OpenAI 新一代的基础模型（如访谈中多次提及的 03 模型），在理解复杂指令的深度、遵循多步骤流程的精度，以及从错误中恢复的效率上，都实现了质的飞跃。“它们被训练得能够‘洞察’失败的迹象，并据此迅速优化后续行为，这在以前是难以想象的。”

训练有自主学习、推理、试错能力的基础模型

“当然，所有这些先进的训练策略和令人振奋的智能体能力，都离不开一个坚实的地基——那就是我们持续投入研发的强大基础模型，”Josh Tobin 毫不讳言基础模型的核心地位（如 GPT-3、GPT-4 及其后续迭代版本）。在他看来，这些代表了当前 AI 最高水平的基础模型，至少具备两个对高效 AI 智能体至关重要的核心特性：

其一是卓越的泛化能力。“这意味着，”Tobin 解释道，“即使面对开发者在训练时未曾明确预料到的全新任务或高度定制化的场景，这些大型基础模型也能展现出令人惊讶的适应性和解决问题的潜力。它们不仅仅是记忆和复现，更具备了一定程度的‘举一反三’。”

其二是出色的推理能力。“许多智能体任务的内在逻辑极其复杂，难度也千差万别，”Tobin 指出，“模型需要具备深度推理的能力，才能在复杂的决策树中进行导航，准确判断在流程的每一步应该投入多少‘思考资源’，以确保最终目标的顺利达成。”

他补充说：“OpenAI 的新模型在这方面持续精进，它们越来越懂得‘在何时、何事上，需要思考多少’，这种动态调整认知资源的能力，对于提升智能体的效率和成功率至关重要。”

在真实场景中做产品迭代中淬炼智能体能力

在 OpenAI加强基座模型训练的同时，产品团队也在寻找发挥模型自助能力的最好实践场景。他们用与实际产品开发紧密结合、在用户反馈和真实场景的淬炼中不断进化的过程。“我们坚信，只有将理论应用于实践，才能真正发现问题、验证想法，并最终推动技术的边界，”Tobin 强调。

OpenAI 今年以来推出的一系列智能体产品，就是其核心战略的生动体现，这些agent有不少又一线员工提出，并得到支持，成为了宝贵的“试验田”，Tobin介绍了最重要的三个：

深度研究 (Deep Research)

“这款产品让我们充分见识了强化学习在处理复杂信息任务时的惊人威力，”Tobin 分享道。它不仅仅是一个超越传统搜索引擎的工具，能够进行深度信息挖掘与综合，为用户生成详尽、结构化的报告；更在实际应用中，展现出了令人惊喜的“跨界能力”。“我们发现，”

Tobin 举例说，“用户不仅用它来进行市场分析和文献综述，还创造性地将其应用于辅助编码——通过它来搜索和理解 GitHub 上的复杂代码库，甚至用它来挖掘互联网上那些极为罕见、深藏不露的‘冷知识’。”

此外，“深度研究”的交互设计也体现了 OpenAI 对“学习与优化”的执着追求：“通过在任务初始阶段引导模型与用户进行数轮追问和澄清，我们能帮助用户更精准地表达其真实需求，从而显著提升最终研究成果的质量与切题度。”

Operator

“Operator 的研发历程，则让我们深刻体会到在真实、动态、充满‘噪音’的网络环境中导航的极端复杂性，”Tobin 坦言。

作为一款旨在代表用户在虚拟浏览器中执行各类网络操作（例如在线预订餐厅、比价购物）的智能体，Operator 的每一次成功交互背后，都凝聚着对网页理解、意图识别、多步规划以及容错处理等一系列技术难题的攻坚。“

尽管 Operator 仍处于不断完善的早期阶段，”Tobin 承认，“但它已经向我们证明，通过允许高级用户提供针对特定网站的定制化操作指令等方式，AI 智能体已经能够胜任一些重复性高或用户不熟悉的网络任务，从而实实在在地为用户创造价值。”

Codec CLI

“对于 Codec CLI，我们的初衷是打造一个真正能与开发者并肩作战的编程伙伴，”Tobin 如此描绘这款开源的本地代码执行智能体。

他将其生动地比喻为一个“拥有超人学习能力的实习生”：“它能够在获得用户授权的前提下，深入理解并操作你的本地代码库，为你执行诸如编写新功能、应用代码补丁、运行单元测试等一系列繁琐任务。”其独特之处在于，“即使在初次接触一个全新的、此前从未‘见过’的代码库时（即所谓的‘无上下文’启动），Codec CLI 也能凭借其强大的学习和推理能力，像经验丰富的开发者一样，通过标准的命令行工具快速探索文件结构、理解代码逻辑，并在一个安全的网络沙盒环境中独立完成编码任务。”

Tobin 进一步指出，Codec CLI 的开源模式及其未来的发展方向，清晰地指明了 OpenAI 的愿景：“我们希望赋予模型更持久的‘记忆’能力，使其能够从与特定代码库的持续交互中学习和成长；

同时，通过提供更丰富的定制化接口（如 API、MCPs），并积极拥抱和吸纳开源社区的智慧与力量，共同推动其向更智能、更自主的编程智能体进化。”其广泛的应用场景已经初见端倪，“

无论是需要快速启动的‘从零开始’的新项目，还是处理那些让你望而生畏的、不熟悉的代码模块，亦或是自动化那些工程师们普遍不愿投入过多精力的重复性编码工作（例如让后端工程师去处理一些前端的琐碎调整），Codec CLI 都展现出了巨大的潜力。”

谨慎乐观往前看：工具赋能、信任构建与范式革新

当被问及 AI 智能体的未来时，Tobin 的回答充满了深思熟虑的乐观——一种清醒地认识到前方挑战重重，但更笃信于其所蕴含的无限可能的态度。“我们正处在一个激动人心的转折点，”他说，“但要让 AI 智能体真正成为普惠大众的强大工具，还有许多关键问题需要我们去攻克。”

“工具赋能是释放智能体潜能的关键所在，” Tobin 强调。有效的 AI 智能体不仅需要一个聪明的“大脑”（即强大的通用推理模型），更需要一套灵活而有力的“双手”（即完成现实世界任务所需的各种工具）。“模型控制协议（MCP）等机制的成熟与标准化，对于确保模型能够安全、高效、可控地调用和使用外部工具，至关重要。这就像给一个聪明的学徒配备一套精良的工具箱，才能让他真正施展才华。”

“信任与安全，是 AI 智能体能否被广泛接纳的基石，” Tobin 对此深有感触。如何让人类能够放心地将具有潜在高风险的操作（例如涉及个人隐私的授权、处理财务的交易）委托给 AI 智能体，是横亘在行业面前的一大挑战。“这不仅仅需要我们建立清晰、明确的指导方针，比如规定智能体在何种情况下必须获得用户的明确许可才能调用某些敏感工具；更需要我们设计出可靠的技术机制来监督和强制执行这些规则。”他进一步指出，“用户与 AI 智能体之间的信任，并非一蹴而就，它需要在持续、透明、可预期的互动中逐步建立和巩固。未来，当智能体行为出现失误时，如何清晰界定各方（包括用户、模型提供商、工具提供商等）的责任，也将成为一个需要整个社会深入探讨和共同解决的议题。”

“关于效率与成本的平衡，我们抱有积极的预期，” Tobin 表示。尽管在早期阶段，使用先进的智能体工具可能会带来一定的学习成本和直接的使用费用，但“历史经验告诉我们，”他引用道，“随着模型能力的持续增强、算法效率的不断提升以及部署成本的逐步优化，AI 智能体为用户节省的时间、提升的生产力以及创造的全新价值，将远超其直接的经济成本。我们正在努力让这项技术变得越来越普惠。”

“我们正在见证开发者工作流的一场深刻变革，” Tobin 对以“氛围编程”（Vibe Coding）为代表的新型人机协作模式寄予厚望。“未来，AI 将越来越多地承担起那些繁琐、重复的底层代码编写工作，而软件开发者的角色和价值，将更多地体现在更高层次的创造性活动上——例如进行系统架构设计、精准定义产品功能、在复杂的技术方案间进行权衡取舍、有效地指导和‘启发’AI、提供高质量的反馈以优化模型行为，以及最终验证整个系统的正确性与鲁棒性。”他强调，“编程技能本身的重要性不会消失，因为它依然是理解、调试和驾驭 AI 生成代码的基础。但毫无疑问，开发者的核心竞争力将更多地向战略思考、问题定义和创造性设计等领域迁移。”

“AI 驱动的教育变革，其影响可能比我们想象的更为深远，” Tobin 对此充满期待。以 ChatGPT 和“深度研究”等工具为代表的 AI 应用，正在以前所未有的方式改变着知识获取和技能学习的传统模式。“它们能够提供高度个性化、可无限次提问、即时反馈的交互式学习体验，这对于提升学习效率、激发学习兴趣、乃至促进教育公平，都具有不可估量的价值。”

“归根结底，”Tobin 总结道，“通过上述战略的有机结合与持续不懈的迭代创新，OpenAI 正致力于将 AI 智能体从一个令人兴奋的前沿科研概念，一步一个脚印地锻造成能够为千行百业创造真实价值、深度赋能人类的强大工具。这条探索之路，无疑充满了未知与挑战，但它所预示的无限可能，足以激励我们砥砺前行。” 在 Tobin 和 OpenAI 看来，他们已经找到一条一条通往AGI的技术探索之路，是一条通往更智能、更高效、更具创造力的未来之路。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业