斯坦福大学与MultiOn联合团队发布全新智能体，技术解读Agent Q的创新方法与实验结果

发布日期：2024-08-16 08:05:20 浏览次数： 2929

作者：大噬元兽

微信搜一搜，关注“大噬元兽”

大模型近年来取得了显著进展，展示了在自然语言处理任务中的强大能力。这些模型如ChatGPT、Gemini、Opus和LLaMA-3，不仅在文本生成和理解方面表现出色，还在代码生成、设备控制和网页应用等动态环境中展现了潜力。然而尽管这些模型在静态任务中表现优异，它们在需要多步推理和决策的交互环境中仍面临巨大挑战。

大模型在交互环境中的多步推理和决策能力是一个复杂的问题。传统的监督预训练方法在动态环境中表现不佳，而现有的监督微调方法也存在错误累积和探索数据有限的问题。这些限制使得LLMs难以在复杂的决策任务中实现自主代理能力，特别是在需要连续决策和反馈的场景中，如网页导航和电子商务平台。

为了解决上述问题，近日斯坦福大学与「MultiOn」联合提出了Agent Q框架。该框架结合了蒙特卡洛树搜索（MCTS）和自我批评机制，并使用直接偏好优化（DPO）算法进行迭代微调。通过这种方法，Agent Q能够从成功和失败的轨迹中学习，从而提高其在复杂任务中的泛化能力。本文的目标是通过Agent Q框架，显著提升LLMs在动态环境中的自主代理能力，使其在实际应用中表现更加可靠和高效。

Agent Q框架由斯坦福大学和AGI公司（MultiOn）的研究人员共同完成。团队成员包括Pranav Putta、Edmund Mills、Naman Garg、Sumeet Motwani、Chelsea Finn、Divyansh Garg和Rafael Rafailov。斯坦福大学在人工智能和机器学习领域具有深厚的研究基础，而AGI公司（MultiOn）则在实际应用和技术开发方面拥有丰富的经验。两者的合作为Agent Q框架的开发和验证提供了坚实的支持。

图1：他们使用蒙特卡洛树搜索（MCTS）来指导轨迹收集，并使用直接偏好优化（DPO）迭代提高模型性能。他们从左侧开始，从数据集中的任务列表中采样用户查询。他们使用UCB1作为启发式方法迭代扩展搜索树，以平衡不同动作的探索和利用。他们将每个节点获得的累积奖励存储在树中，在这张图片中，深绿色表示更高的奖励，深红色表示更低的奖励。为了构建偏好数据集，他们计算MCTS平均Q值和反馈语言模型生成的分数的加权分数，以构建DPO的对比对。该策略已优化，可以迭代改进。

研究动机与挑战

在当前的人工智能研究中，大型语言模型（LLMs）已经展示了其在自然语言处理任务中的强大能力。但是当这些模型应用于需要多步推理和决策的动态交互环境时，仍然面临许多挑战。传统的监督预训练方法主要依赖于静态数据集，这使得模型在面对动态环境时表现不佳。

传统的监督预训练方法依赖于静态数据集，这些数据集无法涵盖所有可能的环境变化和复杂决策场景。因此模型在实际应用中容易出现泛化能力不足的问题。

在多步决策过程中，早期步骤中的错误会逐步累积，导致最终决策的质量下降。现有的监督微调方法往往无法有效地纠正这些错误，导致模型在复杂任务中的表现不理想。

现有方法通常依赖于专家演示数据进行微调，但这些数据的覆盖范围有限，无法充分探索所有可能的决策路径。这限制了模型在未知环境中的探索和学习能力。

为了克服上述局限性，研究人员需要一种能够在复杂决策任务中有效学习和泛化的新方法。Agent Q框架的提出正是基于这一动机。

提升模型的泛化能力：通过结合蒙特卡洛树搜索（MCTS）和自我批评机制，Agent Q框架旨在提升模型在动态环境中的泛化能力，使其能够在不同的任务和环境中表现出色。

减少错误累积：通过引入自我批评机制，模型能够在每一步决策中进行自我评估和反馈，从而减少错误的累积效应，提高最终决策的质量。

增强探索能力：通过使用MCTS进行搜索，Agent Q框架能够更全面地探索可能的决策路径，从而提高模型在未知环境中的探索和学习能力。

Agent Q框架的研究动机在于开发一种能够在复杂、多变的环境中进行自主决策和学习的AI代理，为实现更高级的人工智能应用奠定基础。

Agent Q框架

Agent Q框架旨在提升大型语言模型（LLMs）在动态交互环境中的多步推理和决策能力。该框架结合了蒙特卡洛树搜索（MCTS）和自我批评机制，并使用直接偏好优化（DPO）算法进行迭代微调。通过这种方法，Agent Q能够从成功和失败的轨迹中学习，从而提高其在复杂任务中的泛化能力。

具体说Agent Q框架的核心思想是利用MCTS进行搜索，以指导轨迹收集和优化模型性能。同时通过引入自我批评机制，模型能够在每一步决策中进行自我评估和反馈，从而改进搜索步骤。DPO算法则用于在离线环境中对模型进行微调，使其能够更好地适应动态环境中的复杂决策任务。

蒙特卡洛树搜索（MCTS）是一种用于决策过程中的搜索算法，广泛应用于游戏和复杂决策任务中。在Agent Q框架中，MCTS用于指导轨迹收集和优化模型性能。具体步骤如下：

选择阶段：使用UCB1公式选择节点，平衡探索和利用。
扩展阶段：在选择的节点上执行动作，生成新的节点（网页）。
模拟阶段：从新节点开始，使用当前策略进行轨迹滚动，直到达到终止状态。
反向传播阶段：从叶节点向上更新每个节点的值，优化策略。

通过MCTS，Agent Q能够在复杂的网页环境中进行有效的搜索和决策，提高任务完成的成功率。

自我批评机制自我批评机制通过AI反馈提供过程监督，改进搜索步骤。在每一步决策中，模型会生成多个可能的动作，并通过AI反馈对这些动作进行评分。具体步骤如下。

动作生成：在每个节点上，模型生成多个可能的动作。
AI反馈：使用AI模型对生成的动作进行评分，评估其在完成任务中的效用。
动作选择：根据评分选择最优动作，指导下一步的搜索和决策。

通过自我批评机制，Agent Q能够在每一步决策中进行自我评估和反馈，从而减少错误的累积效应，提高最终决策的质量。

图2：他们为Agent提供了以下输入格式，包括系统提示、执行历史、作为DOM表示的当前观察以及包含目标的用户查询。他们将代理输出格式分为总体分步计划、思想、命令和状态代码。

直接偏好优化（DPO）算法 DPO算法是一种离线强化学习方法，适用于在离线环境中对模型进行微调。

偏好对生成：在每个节点上，生成成功和失败轨迹的偏好对。

目标优化：使用DPO算法对偏好对进行优化，调整模型参数。

通过DPO算法，Agent Q能够在离线环境中进行有效的学习和微调，提高其在动态环境中的泛化能力。

总的来说，Agent Q框架通过结合MCTS搜索、自我批评机制和DPO算法，实现了在复杂决策任务中的有效学习和优化，显著提升了LLMs在动态交互环境中的自主代理能力。

实验设置与结果

实验环境

WebShop模拟电商平台 WebShop是一个模拟的电子商务平台，用于测试Agent Q在复杂、多步决策任务中的表现。在这个环境中，代理需要浏览网页、搜索产品并完成购买任务。WebShop环境提供了一个动态且复杂的测试平台，能够有效评估代理的搜索和决策能力。

实际预订网站（OpenTable） OpenTable是一个实际的餐厅预订网站，任务是为用户预订餐厅座位。代理需要在网站上找到餐厅页面，选择预订日期和时间，填写用户信息并提交预订请求。OpenTable环境的复杂性在于其动态网页内容和多步交互过程，这对代理的推理和决策能力提出了更高的要求。

实验结果

WebShop环境在WebShop环境中，Agent Q展示了显著的性能提升。通过结合MCTS搜索和自我批评机制，Agent Q能够更有效地探索和决策。实验结果显示，Agent Q在具备在线搜索能力时，成功率从基础模型的28.6%提升到50.5%，超过了平均人类表现。这表明，Agent Q在复杂的电子商务任务中具有较强的泛化能力和决策效率。

OpenTable环境在OpenTable环境中，Agent Q同样表现出色。由于预订任务的复杂性和多步交互过程，传统方法难以达到高成功率。然而Agent Q结合MCTS搜索后，成功率显著提升。实验结果显示，基础模型的零样本成功率为18.6%，通过强化微调（RFT）和DPO算法，成功率提升至71.8%。进一步结合MCTS搜索，Agent Q的成功率达到95.4%，远超其他方法。这表明Agent Q在实际预订任务中的表现优于其他方法，能够有效应对复杂的动态环境。

实验结果证明了Agent Q框架在提升自主AI代理能力方面的显著效果。通过结合MCTS搜索、自我批评机制和DPO算法，Agent Q在复杂、多变的环境中展示了强大的推理和决策能力，为实现更高级的人工智能应用奠定了基础。

方法细节

POMDP框架

Agent Q框架采用部分可观测马尔可夫决策过程（POMDP）来建模网络交互。POMDP包括以下几个关键组件：

观察空间（?）：代理能够观察到的环境信息。
未观察状态空间（?）：环境的真实状态，但代理无法直接观察。
动作空间（?）：代理可以执行的动作集合。
转移分布（?）：描述状态转移的概率分布。
奖励函数（?）：评估代理在特定状态下执行特定动作的收益。
初始状态分布（?0）：环境的初始状态分布。
折扣因子（?）：用于折扣未来奖励的权重。

在POMDP框架下，代理的观察包括用户指令和网页内容，动作由计划、推理、环境交互和解释组成。通过这种方式，Agent Q能够在复杂的网页环境中进行有效的搜索和决策。

动作选择与扩展

在Agent Q框架中，动作选择和扩展是通过使用UCB1公式和AI反馈进行的。具体步骤如下：

选择阶段：使用UCB1公式选择节点，平衡探索和利用。UCB1公式如下：

其中，N(ht)表示状态ht的访问频率，Cexp是探索常数。

扩展阶段：在选择的节点上执行动作，生成新的节点（网页）。在每个节点上，模型生成多个可能的动作，并通过AI反馈对这些动作进行评分。AI反馈模型会对生成的动作进行排序，评估其在完成任务中的效用。

通过这种方式，Agent Q能够在每一步决策中进行自我评估和反馈，从而减少错误的累积效应，提高最终决策的质量。

反向传播

反向传播阶段通过更新节点值来优化策略。具体步骤如下：

模拟阶段：从新节点开始，使用当前策略进行轨迹滚动，直到达到终止状态。环境返回一个奖励R，如果代理成功完成任务，则R=1，否则R=0。

反向传播阶段：从叶节点向上更新每个节点的值，优化策略。更新公式如下：

其中，Q(ht, ai)表示在状态ht选择动作ai的平均奖励，N(ht, ai)表示在搜索过程中访问该状态动作对的次数。

通过反向传播，Agent Q能够有效地更新策略，提高在复杂环境中的决策能力。

总的来说，Agent Q框架通过POMDP建模、UCB1公式和AI反馈进行动作选择与扩展，以及反向传播优化策略，实现了在复杂决策任务中的有效学习和优化，显著提升了LLMs在动态交互环境中的自主代理能力。

图3:WebShop Yao等人（2022）任务中不同方法的成功率。所有模型均基于xLAM-v0.1-r Zhang等人（2024c）。与xLAM-v0.1-r相比，RFT和DPO的性能分别从28.6%提高到31.3%和37.5%。然而这些方法仍然落后于50.0%的人类平均表现。他们的方法，Agent Q+MCTS比基本模型获得了显著的收益（76.57%的相对改善），在WebShop上的表现优于人类的平均表现，成功率为50.5%。

强化学习与微调

强化学习方法

在Agent Q框架中，强化学习（RL）方法的应用是提升模型在复杂决策任务中表现的关键。本文采用了离线RL和直接偏好优化（DPO）算法，以实现高效的模型微调。

离线RL是一种在预先收集的数据集上进行训练的方法，避免了在线RL在实际环境中可能带来的高成本和风险。离线RL通过利用已有的轨迹数据，优化模型的决策策略，使其在面对类似任务时能够做出更优的决策。

直接偏好优化（DPO）算法是一种适用于离线环境的RL方法，特别适合于多步推理问题。DPO通过成对比较反馈来优化模型，具体步骤如下：

偏好对生成：在每个节点上，生成成功和失败轨迹的偏好对。
目标优化：使用DPO算法对偏好对进行优化，调整模型参数。

DPO算法的优势在于能够利用离线数据进行高效训练，不需要在线数据采集，从而降低了训练成本和风险。

实验结果

在实验中，Agent Q框架结合了MCTS搜索和DPO算法，显著提升了模型在WebShop和OpenTable任务中的成功率。

WebShop环境在WebShop模拟电商平台中，Agent Q展示了显著的性能提升。通过结合MCTS搜索和DPO算法，Agent Q能够更有效地探索和决策。实验结果显示，Agent Q在具备在线搜索能力时，成功率从基础模型的28.6%提升到50.5%，超过了平均人类表现。这表明，Agent Q在复杂的电子商务任务中具有较强的泛化能力和决策效率。

OpenTable环境在OpenTable实际预订网站中，Agent Q同样表现出色。由于预订任务的复杂性和多步交互过程，传统方法难以达到高成功率。然而Agent Q结合MCTS搜索后，成功率显著提升。实验结果显示，基础模型的零样本成功率为18.6%，通过强化微调（RFT）和DPO算法，成功率提升至71.8%。进一步结合MCTS搜索，Agent Q的成功率达到95.4%，远超其他方法。这表明，Agent Q在实际预订任务中的表现优于其他方法，能够有效应对复杂的动态环境。

图4：该策略在推理时间搜索的每一步都提出了K个操作。评论家也被初始化为策略使用的相同基础LLM模型，对策略提出的行动进行排名。该排名用于指导扩展后的节点选择，并用于在策略训练期间构建偏好对。

总的来说，实验结果证明了Agent Q框架在提升自主AI代理能力方面的显著效果。通过结合MCTS搜索、自我批评机制和DPO算法，Agent Q在复杂、多变的环境中展示了强大的推理和决策能力，为实现更高级的人工智能应用奠定了基础。

实际应用与扩展

在OpenTable环境中的初步实验结果显示，Agent Q在实际应用中表现出色。OpenTable是一个实际的餐厅预订网站，任务是为用户预订餐厅座位。代理需要在网站上找到餐厅页面，选择预订日期和时间，填写用户信息并提交预订请求。由于OpenTable环境的复杂性和多步交互过程，传统方法难以达到高成功率。

图5：在轨迹结束时，调用GPT-4-V评估器，根据最终的观察和行动历史提供对代理性能的反馈，以确定成功分数。该模型会显示轨迹的压缩执行历史和最终状态的屏幕截图。成功度量是一个二进制0/1值。

实验结果显示，基础模型的零样本成功率为18.6%。通过强化微调（RFT）和DPO算法，成功率提升至71.8%。进一步结合MCTS搜索，Agent Q的成功率达到95.4%，远超其他方法。这表明，Agent Q在实际预订任务中的表现优于其他方法，能够有效应对复杂的动态环境。

图6:OpenTable上不同方法的成功率。除非另有说明，否则所有型号均基于LLaMA-3-70B-Instruct Touvron等人（2023）。将DPO和RFT与MCTS结合使用，性能分别从18.6%提高到71.8%和84.3%。我们发现，Agent Q本身达到了81.7%，Agent Q+MCTS的性能明显优于所有其他技术，在OpenTable上的性能为95.4%。

尽管Agent Q在实验中表现出色，但在实际应用中仍面临一些挑战和需要进一步优化的方向。

在实际应用中，代理可能会在搜索过程中犯错，特别是在处理敏感信息（如支付和个人信息）时。这些错误可能难以修复或逆转，因此需要额外的安全措施和人类监督。

在复杂的动态环境中，代理需要与用户进行有效的交互，以确保任务的成功完成。例如，当预订日期和时间不可用时，代理需要与用户沟通以选择最合适的替代选项。这需要代理具备强大的自然语言理解和生成能力。

尽管Agent Q在实验中表现出色，但仍有改进空间。例如，可以进一步优化搜索算法，减少搜索过程中的风险和错误。此外，可以探索更多的自我监督和AI反馈机制，以提高代理的决策质量。

未来的研究可以探索Agent Q在其他实际应用场景中的表现，如电子商务、金融交易和客户服务等。这些场景同样需要复杂的多步决策和推理能力，Agent Q的框架和方法可以为这些应用提供有力支持。

Agent Q在实际应用中的初步实验结果令人鼓舞，但在实现全面部署之前，仍需解决在线安全、交互问题和进一步优化等挑战。未来的研究将继续探索这些方向，以提升自主AI代理的能力和可靠性。（END）

参考资料：https://arxiv.org/abs/2408.07199

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业