2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

斯坦福大学与MultiOn联合团队发布全新智能体,技术解读Agent Q的创新方法与实验结果

发布日期:2024-08-16 08:05:20 浏览次数: 2929
作者:大噬元兽

微信搜一搜,关注“大噬元兽”

大模型近年来取得了显著进展,展示了在自然语言处理任务中的强大能力。这些模型如ChatGPT、Gemini、Opus和LLaMA-3,不仅在文本生成和理解方面表现出色,还在代码生成、设备控制和网页应用等动态环境中展现了潜力。然而尽管这些模型在静态任务中表现优异,它们在需要多步推理和决策的交互环境中仍面临巨大挑战。


大模型在交互环境中的多步推理和决策能力是一个复杂的问题。传统的监督预训练方法在动态环境中表现不佳,而现有的监督微调方法也存在错误累积和探索数据有限的问题。这些限制使得LLMs难以在复杂的决策任务中实现自主代理能力,特别是在需要连续决策和反馈的场景中,如网页导航和电子商务平台。


为了解决上述问题,近日斯坦福大学与「MultiOn」联合提出了Agent Q框架。该框架结合了蒙特卡洛树搜索(MCTS)和自我批评机制,并使用直接偏好优化(DPO)算法进行迭代微调。通过这种方法,Agent Q能够从成功和失败的轨迹中学习,从而提高其在复杂任务中的泛化能力。本文的目标是通过Agent Q框架,显著提升LLMs在动态环境中的自主代理能力,使其在实际应用中表现更加可靠和高效。


Agent Q框架由斯坦福大学和AGI公司(MultiOn)的研究人员共同完成。团队成员包括Pranav Putta、Edmund Mills、Naman Garg、Sumeet Motwani、Chelsea Finn、Divyansh Garg和Rafael Rafailov。斯坦福大学在人工智能和机器学习领域具有深厚的研究基础,而AGI公司(MultiOn)则在实际应用和技术开发方面拥有丰富的经验。两者的合作为Agent Q框架的开发和验证提供了坚实的支持。


图1:他们使用蒙特卡洛树搜索(MCTS)来指导轨迹收集,并使用直接偏好优化(DPO)迭代提高模型性能。他们从左侧开始,从数据集中的任务列表中采样用户查询。他们使用UCB1作为启发式方法迭代扩展搜索树,以平衡不同动作的探索和利用。他们将每个节点获得的累积奖励存储在树中,在这张图片中,深绿色表示更高的奖励,深红色表示更低的奖励。为了构建偏好数据集,他们计算MCTS平均Q值和反馈语言模型生成的分数的加权分数,以构建DPO的对比对。该策略已优化,可以迭代改进。


研究动机与挑战


在当前的人工智能研究中,大型语言模型(LLMs)已经展示了其在自然语言处理任务中的强大能力。但是当这些模型应用于需要多步推理和决策的动态交互环境时,仍然面临许多挑战。传统的监督预训练方法主要依赖于静态数据集,这使得模型在面对动态环境时表现不佳。


传统的监督预训练方法依赖于静态数据集,这些数据集无法涵盖所有可能的环境变化和复杂决策场景。因此模型在实际应用中容易出现泛化能力不足的问题。


在多步决策过程中,早期步骤中的错误会逐步累积,导致最终决策的质量下降。现有的监督微调方法往往无法有效地纠正这些错误,导致模型在复杂任务中的表现不理想。


现有方法通常依赖于专家演示数据进行微调,但这些数据的覆盖范围有限,无法充分探索所有可能的决策路径。这限制了模型在未知环境中的探索和学习能力。


为了克服上述局限性,研究人员需要一种能够在复杂决策任务中有效学习和泛化的新方法。Agent Q框架的提出正是基于这一动机。


提升模型的泛化能力:通过结合蒙特卡洛树搜索(MCTS)和自我批评机制,Agent Q框架旨在提升模型在动态环境中的泛化能力,使其能够在不同的任务和环境中表现出色。


减少错误累积:通过引入自我批评机制,模型能够在每一步决策中进行自我评估和反馈,从而减少错误的累积效应,提高最终决策的质量。


增强探索能力:通过使用MCTS进行搜索,Agent Q框架能够更全面地探索可能的决策路径,从而提高模型在未知环境中的探索和学习能力。


Agent Q框架的研究动机在于开发一种能够在复杂、多变的环境中进行自主决策和学习的AI代理,为实现更高级的人工智能应用奠定基础。


Agent Q框架


Agent Q框架旨在提升大型语言模型(LLMs)在动态交互环境中的多步推理和决策能力。该框架结合了蒙特卡洛树搜索(MCTS)和自我批评机制,并使用直接偏好优化(DPO)算法进行迭代微调。通过这种方法,Agent Q能够从成功和失败的轨迹中学习,从而提高其在复杂任务中的泛化能力。


具体说Agent Q框架的核心思想是利用MCTS进行搜索,以指导轨迹收集和优化模型性能。同时通过引入自我批评机制,模型能够在每一步决策中进行自我评估和反馈,从而改进搜索步骤。DPO算法则用于在离线环境中对模型进行微调,使其能够更好地适应动态环境中的复杂决策任务。


蒙特卡洛树搜索(MCTS)是一种用于决策过程中的搜索算法,广泛应用于游戏和复杂决策任务中。在Agent Q框架中,MCTS用于指导轨迹收集和优化模型性能。具体步骤如下:


  1. 选择阶段:使用UCB1公式选择节点,平衡探索和利用。


  2. 扩展阶段:在选择的节点上执行动作,生成新的节点(网页)。


  3. 模拟阶段:从新节点开始,使用当前策略进行轨迹滚动,直到达到终止状态。


  4. 反向传播阶段:从叶节点向上更新每个节点的值,优化策略。


通过MCTS,Agent Q能够在复杂的网页环境中进行有效的搜索和决策,提高任务完成的成功率。


自我批评机制 自我批评机制通过AI反馈提供过程监督,改进搜索步骤。在每一步决策中,模型会生成多个可能的动作,并通过AI反馈对这些动作进行评分。具体步骤如下。


  • 动作生成:在每个节点上,模型生成多个可能的动作。


  • AI反馈:使用AI模型对生成的动作进行评分,评估其在完成任务中的效用。


  • 动作选择:根据评分选择最优动作,指导下一步的搜索和决策。


通过自我批评机制,Agent Q能够在每一步决策中进行自我评估和反馈,从而减少错误的累积效应,提高最终决策的质量。


图2:他们为Agent提供了以下输入格式,包括系统提示、执行历史、作为DOM表示的当前观察以及包含目标的用户查询。他们将代理输出格式分为总体分步计划、思想、命令和状态代码。
直接偏好优化(DPO)算法 DPO算法是一种离线强化学习方法,适用于在离线环境中对模型进行微调。


偏好对生成:在每个节点上,生成成功和失败轨迹的偏好对。


目标优化:使用DPO算法对偏好对进行优化,调整模型参数。


通过DPO算法,Agent Q能够在离线环境中进行有效的学习和微调,提高其在动态环境中的泛化能力。


总的来说,Agent Q框架通过结合MCTS搜索、自我批评机制和DPO算法,实现了在复杂决策任务中的有效学习和优化,显著提升了LLMs在动态交互环境中的自主代理能力。


实验设置与结果


实验环境


WebShop模拟电商平台 WebShop是一个模拟的电子商务平台,用于测试Agent Q在复杂、多步决策任务中的表现。在这个环境中,代理需要浏览网页、搜索产品并完成购买任务。WebShop环境提供了一个动态且复杂的测试平台,能够有效评估代理的搜索和决策能力。


实际预订网站(OpenTable) OpenTable是一个实际的餐厅预订网站,任务是为用户预订餐厅座位。代理需要在网站上找到餐厅页面,选择预订日期和时间,填写用户信息并提交预订请求。OpenTable环境的复杂性在于其动态网页内容和多步交互过程,这对代理的推理和决策能力提出了更高的要求。


实验结果


WebShop环境 在WebShop环境中,Agent Q展示了显著的性能提升。通过结合MCTS搜索和自我批评机制,Agent Q能够更有效地探索和决策。实验结果显示,Agent Q在具备在线搜索能力时,成功率从基础模型的28.6%提升到50.5%,超过了平均人类表现。这表明,Agent Q在复杂的电子商务任务中具有较强的泛化能力和决策效率。


OpenTable环境 在OpenTable环境中,Agent Q同样表现出色。由于预订任务的复杂性和多步交互过程,传统方法难以达到高成功率。然而Agent Q结合MCTS搜索后,成功率显著提升。实验结果显示,基础模型的零样本成功率为18.6%,通过强化微调(RFT)和DPO算法,成功率提升至71.8%。进一步结合MCTS搜索,Agent Q的成功率达到95.4%,远超其他方法。这表明Agent Q在实际预订任务中的表现优于其他方法,能够有效应对复杂的动态环境。


实验结果证明了Agent Q框架在提升自主AI代理能力方面的显著效果。通过结合MCTS搜索、自我批评机制和DPO算法,Agent Q在复杂、多变的环境中展示了强大的推理和决策能力,为实现更高级的人工智能应用奠定了基础。


方法细节


POMDP框架


Agent Q框架采用部分可观测马尔可夫决策过程(POMDP)来建模网络交互。POMDP包括以下几个关键组件:


  • 观察空间(?):代理能够观察到的环境信息。


  • 未观察状态空间(?):环境的真实状态,但代理无法直接观察。


  • 动作空间(?):代理可以执行的动作集合。


  • 转移分布(?):描述状态转移的概率分布。


  • 奖励函数(?):评估代理在特定状态下执行特定动作的收益。


  • 初始状态分布(?0):环境的初始状态分布。


  • 折扣因子(?):用于折扣未来奖励的权重。


在POMDP框架下,代理的观察包括用户指令和网页内容,动作由计划、推理、环境交互和解释组成。通过这种方式,Agent Q能够在复杂的网页环境中进行有效的搜索和决策。


动作选择与扩展


在Agent Q框架中,动作选择和扩展是通过使用UCB1公式和AI反馈进行的。具体步骤如下:


选择阶段:使用UCB1公式选择节点,平衡探索和利用。UCB1公式如下:


其中,N(ht)表示状态ht的访问频率,Cexp是探索常数。


扩展阶段:在选择的节点上执行动作,生成新的节点(网页)。在每个节点上,模型生成多个可能的动作,并通过AI反馈对这些动作进行评分。AI反馈模型会对生成的动作进行排序,评估其在完成任务中的效用。


通过这种方式,Agent Q能够在每一步决策中进行自我评估和反馈,从而减少错误的累积效应,提高最终决策的质量。


反向传播


反向传播阶段通过更新节点值来优化策略。具体步骤如下:


模拟阶段:从新节点开始,使用当前策略进行轨迹滚动,直到达到终止状态。环境返回一个奖励R,如果代理成功完成任务,则R=1,否则R=0。


反向传播阶段:从叶节点向上更新每个节点的值,优化策略。更新公式如下:


其中,Q(ht, ai)表示在状态ht选择动作ai的平均奖励,N(ht, ai)表示在搜索过程中访问该状态动作对的次数。

通过反向传播,Agent Q能够有效地更新策略,提高在复杂环境中的决策能力。


总的来说,Agent Q框架通过POMDP建模、UCB1公式和AI反馈进行动作选择与扩展,以及反向传播优化策略,实现了在复杂决策任务中的有效学习和优化,显著提升了LLMs在动态交互环境中的自主代理能力。


图3:WebShop Yao等人(2022)任务中不同方法的成功率。所有模型均基于xLAM-v0.1-r Zhang等人(2024c)。与xLAM-v0.1-r相比,RFT和DPO的性能分别从28.6%提高到31.3%和37.5%。然而这些方法仍然落后于50.0%的人类平均表现。他们的方法,Agent Q+MCTS比基本模型获得了显著的收益(76.57%的相对改善),在WebShop上的表现优于人类的平均表现,成功率为50.5%。


强化学习与微调


强化学习方法


在Agent Q框架中,强化学习(RL)方法的应用是提升模型在复杂决策任务中表现的关键。本文采用了离线RL和直接偏好优化(DPO)算法,以实现高效的模型微调。


离线RL是一种在预先收集的数据集上进行训练的方法,避免了在线RL在实际环境中可能带来的高成本和风险。离线RL通过利用已有的轨迹数据,优化模型的决策策略,使其在面对类似任务时能够做出更优的决策。


直接偏好优化(DPO)算法是一种适用于离线环境的RL方法,特别适合于多步推理问题。DPO通过成对比较反馈来优化模型,具体步骤如下:


  • 偏好对生成:在每个节点上,生成成功和失败轨迹的偏好对。


  • 目标优化:使用DPO算法对偏好对进行优化,调整模型参数。


DPO算法的优势在于能够利用离线数据进行高效训练,不需要在线数据采集,从而降低了训练成本和风险。


实验结果


在实验中,Agent Q框架结合了MCTS搜索和DPO算法,显著提升了模型在WebShop和OpenTable任务中的成功率。


WebShop环境 在WebShop模拟电商平台中,Agent Q展示了显著的性能提升。通过结合MCTS搜索和DPO算法,Agent Q能够更有效地探索和决策。实验结果显示,Agent Q在具备在线搜索能力时,成功率从基础模型的28.6%提升到50.5%,超过了平均人类表现。这表明,Agent Q在复杂的电子商务任务中具有较强的泛化能力和决策效率。


OpenTable环境 在OpenTable实际预订网站中,Agent Q同样表现出色。由于预订任务的复杂性和多步交互过程,传统方法难以达到高成功率。然而Agent Q结合MCTS搜索后,成功率显著提升。实验结果显示,基础模型的零样本成功率为18.6%,通过强化微调(RFT)和DPO算法,成功率提升至71.8%。进一步结合MCTS搜索,Agent Q的成功率达到95.4%,远超其他方法。这表明,Agent Q在实际预订任务中的表现优于其他方法,能够有效应对复杂的动态环境。


图4:该策略在推理时间搜索的每一步都提出了K个操作。评论家也被初始化为策略使用的相同基础LLM模型,对策略提出的行动进行排名。该排名用于指导扩展后的节点选择,并用于在策略训练期间构建偏好对。


总的来说,实验结果证明了Agent Q框架在提升自主AI代理能力方面的显著效果。通过结合MCTS搜索、自我批评机制和DPO算法,Agent Q在复杂、多变的环境中展示了强大的推理和决策能力,为实现更高级的人工智能应用奠定了基础。


实际应用与扩展


在OpenTable环境中的初步实验结果显示,Agent Q在实际应用中表现出色。OpenTable是一个实际的餐厅预订网站,任务是为用户预订餐厅座位。代理需要在网站上找到餐厅页面,选择预订日期和时间,填写用户信息并提交预订请求。由于OpenTable环境的复杂性和多步交互过程,传统方法难以达到高成功率。


图5:在轨迹结束时,调用GPT-4-V评估器,根据最终的观察和行动历史提供对代理性能的反馈,以确定成功分数。该模型会显示轨迹的压缩执行历史和最终状态的屏幕截图。成功度量是一个二进制0/1值。


实验结果显示,基础模型的零样本成功率为18.6%。通过强化微调(RFT)和DPO算法,成功率提升至71.8%。进一步结合MCTS搜索,Agent Q的成功率达到95.4%,远超其他方法。这表明,Agent Q在实际预订任务中的表现优于其他方法,能够有效应对复杂的动态环境。


图6:OpenTable上不同方法的成功率。除非另有说明,否则所有型号均基于LLaMA-3-70B-Instruct Touvron等人(2023)。将DPO和RFT与MCTS结合使用,性能分别从18.6%提高到71.8%和84.3%。我们发现,Agent Q本身达到了81.7%,Agent Q+MCTS的性能明显优于所有其他技术,在OpenTable上的性能为95.4%。


尽管Agent Q在实验中表现出色,但在实际应用中仍面临一些挑战和需要进一步优化的方向。


在实际应用中,代理可能会在搜索过程中犯错,特别是在处理敏感信息(如支付和个人信息)时。这些错误可能难以修复或逆转,因此需要额外的安全措施和人类监督。


在复杂的动态环境中,代理需要与用户进行有效的交互,以确保任务的成功完成。例如,当预订日期和时间不可用时,代理需要与用户沟通以选择最合适的替代选项。这需要代理具备强大的自然语言理解和生成能力。


尽管Agent Q在实验中表现出色,但仍有改进空间。例如,可以进一步优化搜索算法,减少搜索过程中的风险和错误。此外,可以探索更多的自我监督和AI反馈机制,以提高代理的决策质量。


未来的研究可以探索Agent Q在其他实际应用场景中的表现,如电子商务、金融交易和客户服务等。这些场景同样需要复杂的多步决策和推理能力,Agent Q的框架和方法可以为这些应用提供有力支持。


Agent Q在实际应用中的初步实验结果令人鼓舞,但在实现全面部署之前,仍需解决在线安全、交互问题和进一步优化等挑战。未来的研究将继续探索这些方向,以提升自主AI代理的能力和可靠性。(END)


参考资料:https://arxiv.org/abs/2408.07199


波动世界(PoppleWorld)是噬元兽数字容器的一款AI应用,是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品,基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅