2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

OpenAI Agent负责人Josh Tobin构建有效 AI 智能体的策略

发布日期:2025-05-11 11:38:35 浏览次数: 2352
作者:AI趋势全天候

微信搜一搜,关注“AI趋势全天候”

推荐语

OpenAI智能体研究负责人Josh Tobin深度分享,揭开AI智能体核心战略。

核心内容:
1. AI智能体在科技革命中的角色与挑战
2. 大语言模型API方法的局限性与问题
3. OpenAI端到端训练与强化学习的新范式

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家


 我最大的认知是RL在模型之上的调整可能会是构建强大Agent的关键的一部分。




AI 这股浪潮真是越来越猛了!红杉美国在AI峰会上直接打出万亿市场的旗帜,而人工智能的浪潮之巅正是AI智能体(AI Agents)——那些被赋予理解、规划乃至自主执行复杂任务能力的智能体——正日益成为科技革命的焦点。

它们不再是BP里讲故事的黑话,而是正在重塑我们与数字世界互动方式的真实力量。作为这一领域的领航者,OpenAI 投入了海量资源进行前沿探索与实践。这次我们挖到其 AI 智能体研究负责人 Josh Tobin,在近期的深度分享中,为我们提供了一个宝贵的窗口,得以一窥 OpenAI  内部运作在打造真正有效的 AI 智能体背后,所遵循的核心战略、关键洞察以及实践经验。

Josh Tobin是OpenAI的早期成员之一,他2019年离开OpenAI独立做MLOps领域的创业,去年重新回到OpenAI。

直接调用现有大模型API方法的瓶颈

“我们最初必须正视一个现实,”Josh Tobin 在回顾 AI 智能体构建的初期探索时指出,“最先制作的那种简单地围绕大语言模型(LLM)API 构建固定工作流的模式,很快就暴露了其局限性。”他坦言,这种方式虽然能快速搭建出引人注目的演示,但在真实、动态且充满不确定性的应用场景中,其可靠性往往不堪一击。

Tobin 将此归咎于两大核心痛点:“首先是‘错误累积’效应。LLM 在处理单个、孤立的任务时可能表现出色,但当任务链条拉长,需要多步骤协作时,每一步微小的偏差都可能像滚雪球一样被放大,最终导致整个流程的崩溃。”

他接着补充道:“其次,也是更根本的,是‘训练与任务的错位’。历史上,大多数 LLM 并非为扮演具有高度自主性的‘智能体’角色而生。它们的设计初衷并非在复杂环境中持续作业,并从不可避免的错误中汲取教训、灵活恢复。这种核心能力的缺失,是传统方法难以逾越的鸿沟。”

OpenAI 的核心引擎:为“智能体能力”而生的端到端训练与强化学习

怎么办呢?预训练拿到的大语言模型就想缸中之脑,如果按照现有模式修修补补模型输出就是一个概率游戏。而OpenAI直击问题核心,彻底革新了模型的训练范式。“我们意识到,必须让模型学会‘做事’,而不仅仅是‘说话’,”Tobin 强调。由此,端到端训练 (End-to-End Training) 的理念应运而生,并迅速成为 OpenAI 攻坚 AI 智能体能力的关键策略

这意味着,不再将复杂任务拆解成若干孤立的子步骤分别训练,而是直接针对智能体在真实世界中需要完成的完整、复杂的工作流进行训练。Tobin 解释说:“通过这种方式,模型在‘学习’阶段就能充分暴露于各种潜在的失败情境和边缘案例,这为它们后续学习如何应对突发状况、如何从错误中恢复,打下了至关重要的基础。

在端到端训练的框架之下,强化学习 (Reinforcement Learning) 则扮演了“灵魂注入者”的角色。“这不仅仅是让模型看更多的例子,”Tobin 指出,“更关键的是,要让模型在行动中学习,通过结果的好坏来调整自己的策略。”

通过精心设计的奖励机制,AI 智能体在训练过程中因成功完成任务或达成关键的阶段性目标而获得正向激励。这种机制的魔力在于,它不仅能驱动模型主动探索和学习那些可能比人类设计师预设的流程更优、更高效的解决方案,更赋予了模型一种宝贵的“韧性”——从错误中恢复并适应未知情况的能力。

在红杉AI峰会的另一场由OpenAI RL研究负责人Dan做的汇报里,他展示了一张图,图中显示了AI智能体能够完成任务的(持续)时长呈现指数级增长,大约每七个月翻一番。根据这张图,目前AI大概能处理持续一小时左右的任务。那么明年呢?它们大约能处理两到三个小时的任务。

他畅想可以试着外推一下这条线。正如爱因斯坦需要八年时间思考相对论(OpenAI内部有一版模型“爱因斯坦v1907-超级H版”正在做这个事)。从现在开始,要达到那个水平,我们需要大约16个倍增周期。这意味着,大约九年后,我们将拥有一个能够发现广义相对论的模型。

Tobin 以 OpenAI 的“DeepResearch(深度研究)”Agent为例生动地说明了这一点:“想象一下,如果初次搜索的结果并不理想,一个经过强化学习精心调校的智能体,能够凭借其在训练中积累的‘经验’,敏锐地意识到当前策略的不足,并主动调整搜索方向,尝试新的关键词组合,直至挖掘出真正有价值的信息。”他总结道:“这种‘在失败中学习、在实践中进化’的能力,正是新一代 AI 智能体区别于传统模型的本质所在。”

与此同时,OpenAI 新一代的基础模型(如访谈中多次提及的 03 模型),在理解复杂指令的深度、遵循多步骤流程的精度,以及从错误中恢复的效率上,都实现了质的飞跃。“它们被训练得能够‘洞察’失败的迹象,并据此迅速优化后续行为,这在以前是难以想象的。”

训练有自主学习、推理、试错能力的基础模型

“当然,所有这些先进的训练策略和令人振奋的智能体能力,都离不开一个坚实的地基——那就是我们持续投入研发的强大基础模型,”Josh Tobin 毫不讳言基础模型的核心地位(如 GPT-3、GPT-4 及其后续迭代版本)。在他看来,这些代表了当前 AI 最高水平的基础模型,至少具备两个对高效 AI 智能体至关重要的核心特性:

其一是卓越的泛化能力。“这意味着,”Tobin 解释道,“即使面对开发者在训练时未曾明确预料到的全新任务或高度定制化的场景,这些大型基础模型也能展现出令人惊讶的适应性和解决问题的潜力。它们不仅仅是记忆和复现,更具备了一定程度的‘举一反三’。”

其二是出色的推理能力。“许多智能体任务的内在逻辑极其复杂,难度也千差万别,”Tobin 指出,“模型需要具备深度推理的能力,才能在复杂的决策树中进行导航,准确判断在流程的每一步应该投入多少‘思考资源’,以确保最终目标的顺利达成。”

他补充说:“OpenAI 的新模型在这方面持续精进,它们越来越懂得‘在何时、何事上,需要思考多少’,这种动态调整认知资源的能力,对于提升智能体的效率和成功率至关重要。”

在真实场景中做产品迭代中淬炼智能体能力

在 OpenAI加强基座模型训练的同时,产品团队也在寻找发挥模型自助能力的最好实践场景。他们用与实际产品开发紧密结合、在用户反馈和真实场景的淬炼中不断进化的过程。“我们坚信,只有将理论应用于实践,才能真正发现问题、验证想法,并最终推动技术的边界,”Tobin 强调。

OpenAI 今年以来推出的一系列智能体产品,就是其核心战略的生动体现,这些agent有不少又一线员工提出,并得到支持,成为了宝贵的“试验田”,Tobin介绍了最重要的三个:

深度研究 (Deep Research)

“这款产品让我们充分见识了强化学习在处理复杂信息任务时的惊人威力,”Tobin 分享道。它不仅仅是一个超越传统搜索引擎的工具,能够进行深度信息挖掘与综合,为用户生成详尽、结构化的报告;更在实际应用中,展现出了令人惊喜的“跨界能力”。“我们发现,”

Tobin 举例说,“用户不仅用它来进行市场分析和文献综述,还创造性地将其应用于辅助编码——通过它来搜索和理解 GitHub 上的复杂代码库,甚至用它来挖掘互联网上那些极为罕见、深藏不露的‘冷知识’。”

此外,“深度研究”的交互设计也体现了 OpenAI 对“学习与优化”的执着追求:“通过在任务初始阶段引导模型与用户进行数轮追问和澄清,我们能帮助用户更精准地表达其真实需求,从而显著提升最终研究成果的质量与切题度。”

Operator

“Operator 的研发历程,则让我们深刻体会到在真实、动态、充满‘噪音’的网络环境中导航的极端复杂性,”Tobin 坦言。

作为一款旨在代表用户在虚拟浏览器中执行各类网络操作(例如在线预订餐厅、比价购物)的智能体,Operator 的每一次成功交互背后,都凝聚着对网页理解、意图识别、多步规划以及容错处理等一系列技术难题的攻坚。“

尽管 Operator 仍处于不断完善的早期阶段,”Tobin 承认,“但它已经向我们证明,通过允许高级用户提供针对特定网站的定制化操作指令等方式,AI 智能体已经能够胜任一些重复性高或用户不熟悉的网络任务,从而实实在在地为用户创造价值。”

Codec CLI

“对于 Codec CLI,我们的初衷是打造一个真正能与开发者并肩作战的编程伙伴,”Tobin 如此描绘这款开源的本地代码执行智能体。

他将其生动地比喻为一个“拥有超人学习能力的实习生”:“它能够在获得用户授权的前提下,深入理解并操作你的本地代码库,为你执行诸如编写新功能、应用代码补丁、运行单元测试等一系列繁琐任务。”其独特之处在于,“即使在初次接触一个全新的、此前从未‘见过’的代码库时(即所谓的‘无上下文’启动),Codec CLI 也能凭借其强大的学习和推理能力,像经验丰富的开发者一样,通过标准的命令行工具快速探索文件结构、理解代码逻辑,并在一个安全的网络沙盒环境中独立完成编码任务。”

Tobin 进一步指出,Codec CLI 的开源模式及其未来的发展方向,清晰地指明了 OpenAI 的愿景:“我们希望赋予模型更持久的‘记忆’能力,使其能够从与特定代码库的持续交互中学习和成长;

同时,通过提供更丰富的定制化接口(如 API、MCPs),并积极拥抱和吸纳开源社区的智慧与力量,共同推动其向更智能、更自主的编程智能体进化。”其广泛的应用场景已经初见端倪,“

无论是需要快速启动的‘从零开始’的新项目,还是处理那些让你望而生畏的、不熟悉的代码模块,亦或是自动化那些工程师们普遍不愿投入过多精力的重复性编码工作(例如让后端工程师去处理一些前端的琐碎调整),Codec CLI 都展现出了巨大的潜力。”

谨慎乐观往前看:工具赋能、信任构建与范式革新

当被问及 AI 智能体的未来时,Tobin 的回答充满了深思熟虑的乐观——一种清醒地认识到前方挑战重重,但更笃信于其所蕴含的无限可能的态度。“我们正处在一个激动人心的转折点,”他说,“但要让 AI 智能体真正成为普惠大众的强大工具,还有许多关键问题需要我们去攻克。”

工具赋能是释放智能体潜能的关键所在,” Tobin 强调。有效的 AI 智能体不仅需要一个聪明的“大脑”(即强大的通用推理模型),更需要一套灵活而有力的“双手”(即完成现实世界任务所需的各种工具)。“模型控制协议(MCP)等机制的成熟与标准化,对于确保模型能够安全、高效、可控地调用和使用外部工具,至关重要。这就像给一个聪明的学徒配备一套精良的工具箱,才能让他真正施展才华。”

信任与安全,是 AI 智能体能否被广泛接纳的基石,” Tobin 对此深有感触。如何让人类能够放心地将具有潜在高风险的操作(例如涉及个人隐私的授权、处理财务的交易)委托给 AI 智能体,是横亘在行业面前的一大挑战。“这不仅仅需要我们建立清晰、明确的指导方针,比如规定智能体在何种情况下必须获得用户的明确许可才能调用某些敏感工具;更需要我们设计出可靠的技术机制来监督和强制执行这些规则。”他进一步指出,“用户与 AI 智能体之间的信任,并非一蹴而就,它需要在持续、透明、可预期的互动中逐步建立和巩固。未来,当智能体行为出现失误时,如何清晰界定各方(包括用户、模型提供商、工具提供商等)的责任,也将成为一个需要整个社会深入探讨和共同解决的议题。”

关于效率与成本的平衡,我们抱有积极的预期,” Tobin 表示。尽管在早期阶段,使用先进的智能体工具可能会带来一定的学习成本和直接的使用费用,但“历史经验告诉我们,”他引用道,“随着模型能力的持续增强、算法效率的不断提升以及部署成本的逐步优化,AI 智能体为用户节省的时间、提升的生产力以及创造的全新价值,将远超其直接的经济成本。我们正在努力让这项技术变得越来越普惠。”

“我们正在见证开发者工作流的一场深刻变革,” Tobin 对以“氛围编程”(Vibe Coding)为代表的新型人机协作模式寄予厚望。“未来,AI 将越来越多地承担起那些繁琐、重复的底层代码编写工作,而软件开发者的角色和价值,将更多地体现在更高层次的创造性活动上——例如进行系统架构设计、精准定义产品功能、在复杂的技术方案间进行权衡取舍、有效地指导和‘启发’AI、提供高质量的反馈以优化模型行为,以及最终验证整个系统的正确性与鲁棒性。”他强调,“编程技能本身的重要性不会消失,因为它依然是理解、调试和驾驭 AI 生成代码的基础。但毫无疑问,开发者的核心竞争力将更多地向战略思考、问题定义和创造性设计等领域迁移。”

“AI 驱动的教育变革,其影响可能比我们想象的更为深远,” Tobin 对此充满期待。以 ChatGPT 和“深度研究”等工具为代表的 AI 应用,正在以前所未有的方式改变着知识获取和技能学习的传统模式。“它们能够提供高度个性化、可无限次提问、即时反馈的交互式学习体验,这对于提升学习效率、激发学习兴趣、乃至促进教育公平,都具有不可估量的价值。”

“归根结底,”Tobin 总结道,“通过上述战略的有机结合与持续不懈的迭代创新,OpenAI 正致力于将 AI 智能体从一个令人兴奋的前沿科研概念,一步一个脚印地锻造成能够为千行百业创造真实价值、深度赋能人类的强大工具。这条探索之路,无疑充满了未知与挑战,但它所预示的无限可能,足以激励我们砥砺前行。” 在 Tobin 和 OpenAI 看来,他们已经找到一条一条通往AGI的技术探索之路,是一条通往更智能、更高效、更具创造力的未来之路。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅