2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

打通智能体「自我进化」全流程!复旦推出通用智能体平台AgentGym

发布日期:2024-06-19 14:44:36 浏览次数: 2768
作者:机器之心

微信搜一搜,关注“机器之心”



AI通用智能体的自我进化能力,并非遥不可及。

LLM-based Agent,已经不再需要人类监督者的帮助,开始实现「自我进化」!

这个智能体在学习了专家轨迹以后,获得了基础的通用能力,能够在更广泛、更真实的未知环境与任务上进行探索和学习,在外部的反馈下不断提升自己。

最近,复旦大学语言与视觉团队推出的 AgentGym 平台,打通了大语言模型智能体「数据采样、训练微调、自我进化、能力评测」全流程。基于该平台提出的 AgentEvol 算法,首次探索了通用智能体的自我进化能力,并在多项智能体任务上表现非凡,与 GPT-4、Claude 等 SOTA 模型比肩。



  • 论文链接:https://arxiv.org/abs/2406.04151
  • AgentGym代码仓库:https://github.com/WooooDyy/AgentGym

研究背景

开发一个能够解决和适应复杂工作的多任务通用智能体,一直是人工智能社区长久以来的重要目标。

类似于人类的学习过程,通用智能体首先通过模仿,开始学习最基础的知识和技能。

随着基础能力的掌握,我们不仅期望智能体可以通过与不同环境的交互,持续学习和适应许多先前未见的任务,还能从自身经验以及外部反馈中汲取丰富的智慧,发展出一定程度的泛化能力(图1)。

图1:基础通用智能体实现「自我进化」的示意图。该智能体首先在人类监督下进行行为克隆,随后在不同的外部环境和任务中进行探索和学习,以实现自我进化。

大语言模型凭借其卓越的通用能力,被视为构建此类智能体的重要基础之一。目前的研究领域正沿着两个主要方向进行探索,以推动智能体技术的进一步发展。

  • 依赖于人类监督的行为克隆(Behavior Cloning)方法,需要智能体逐步模仿专家提供的轨迹数据。这种方法虽然有效,由于标注资源的限制,难以扩展对环境的探索也较为有限,容易遇到性能或泛化性的瓶颈。
  • 允许智能体根据环境反馈,不断提高能力的自我改进(Self Improving)方法,减少了对人类监督的依赖,同时丰富对环境的探索深度。然而,它们通常在特定任务的孤立环境中进行训练,得到一批无法有效泛化的专家智能体。

面对上述挑战,作者首次探讨了一个具备基础能力的通用智能体——在多种环境和任务中——自我进化的潜力。

为了实现这一研究目标,作者确定了推动智能体自我进化的「三大关键支柱」,这些支柱是研究的核心要素。

  • 多样化的环境和任务,允许智能体动态且全面地进行交互、训练,而不是被局限于某个孤立的环境。
  • 一个适当大小的轨迹数据集,帮助智能体配备基本的指令遵循能力和基础任务知识。
  • 一种有效且可扩展的进化算法,激发智能体在不同难度环境中的泛化能力。

图2:AgentGym 平台示意图。平台共涵盖了 14 个跨越不同类别的环境,每个环境都作为 HTTP 服务部署。客户端为智能体提供封装好的统一接口,便于与环境互动。通过 AgentEvol 方法,作者探索了智能体在不同环境和任务中的自我进化。此外,平台提供了测试集 AgentEval 对智能体进行全面的能力评估。

围绕这三大支柱,作者的研究工作体现在以下几个方面:

  • 「AgentGym」,一个包含 14 种具体环境,89 种具体任务类型的交互平台(图2),为大语言模型智能体训练提供支持。该平台基于 HTTP 服务,为不同环境提供了一个统一的 API 接口,支持轨迹采样、多轮交互、在线评估和实时反馈。
  • 「AgentEval」,一个具有挑战性的智能体测试基准。「AgentTraj」和「AgentTraj-L」,通过指令增强和众包 / SOTA 模型标注构建的专家轨迹数据集。经过格式统一和数据过滤,帮助智能体学习基本的复杂任务解决能力。
  • 「AgentEvol」,一种激发智能体跨环境自我进化的全新算法。该算法的动机在于,期望智能体在面对先前未见的任务和指令时进行自主探索,从新的经验中进行学习与优化。

AgentGym 平台,是一个全新的,支持大语言模型智能体轨迹采样、自我进化、能力评测的框架,特点是提供多样、实时、并发和统一格式的反馈。旨在帮助人工智能社区更便利地探索具备通用能力的 LLM-based 智能体。

AgentGym——交互式训练与评测一体化的智能体平台

AgentGym 集成了多种环境、丰富的轨迹数据和全面的基准测试。它通过统一的环境操作接口,简化了环境配置过程。具体而言,AgentGym 拥有以下特点:

多样化的环境:

AgentGym 包含 14 种环境和 89 项任务,涵盖了网页导航、文字游戏、具身控制、工具使用和代码等类别。无论是致力于构建 Task-specific Agent,还是通用型的 Generally-capable Agent,AgentGym 框架均能提供对应的支持。

其中,每个环境独立部署,避免了不同环境间的依赖冲突,确保了平台的可扩展性。例如,WebShop 环境,一个用于网络购物任务的交互式平台,仅通过一行命令,即可轻松完成部署。

数据驱动:

AgentGym 的轨迹数据采用了统一的 ReAct 格式,该格式通过「Thought-Action」对将推理步骤和行动序列结合,图 2左上方提供了一个轨迹数据的示例。

平台通过广泛收集和增强指令,构建了具有 20509 条指令的集合,并从中挑选出 1160 条具有多样性的指令,构建了基准测试集 AgentEval,用于全面评估基于 LLM 的智能体。

同时,作者使用 GPT-4-Turbo 和众包标注收集轨迹数据,并基于奖励或正确性严格筛选,构建了 6130 条高质量轨迹的集合 AgentTraj。为了展现行为克隆方法的性能潜力,研究者进一步扩展,得到包含 14485 条轨迹的 AgentTraj-L。

图3:AgentGym 平台 14 种环境的统计数据(涵盖任务类型数量、指令集规模、评估集规模、轨迹集规模及平均交互轮数)。

模块化的架构与高效的 Pipeline:

AgentGym 平台采用模块化设计,开发者可以轻松添加或更改环境。环境被部署在不同的服务器(EnvServers)上,通过 HTTP 服务实现灵活、高效的交互。客户端(EnvClients)封装了与环境交互所需的函数,提供了相应的操作接口。

而核心组件 AgentController 作为智能体和环境的中间媒介,提供了优化智能体策略的训练器(Trainer),以及支持多环境的性能评估器(Evaluator)。统一的操作接口简化了智能体与环境的交互,使用户能够专注于算法优化和智能体训练。

图4:AgentGym 平台架构概览。

独特优势:

与其他框架相比,AgentGym 的优势在于它不仅提供了广泛的环境集合,还通过交互平台为智能体提供实时的环境反馈,支持智能体的训练与评估。同时,AgentGym 支持在多个环境中实现智能体的「全面进化」,这极大地增强了智能体的泛化能力,使其在不同任务和环境中都能表现出色。

图5:AgentGym 与其他代理框架的比较。

AgentEvol——通用智能体进化算法 

基于 AgentGym 套件,研究者们可以容易地对智能体进行采样、训练与评测。而复旦语言与视觉团队为了探究具有通用智能体的在「自我进化」的潜力,提出了 AgentEvol 算法(图6),帮助智能体在多环境、多任务下实现了各项能力的提升。这一算法的核心思想是让智能体通过探索和学习来提升自己的性能,特别是在面对之前未见过的任务和指令时。

图6:AgentEvol 算法框架

AgentEvol 首先基于收集到的 AgentTraj 轨迹数据集,通过「行为克隆(behavioral cloning)」的形式训练一个「基础通用智能体(base generally-capable agent)」,使其具备基本的指令遵循能力和必要的先验知识。在这个过程中,智能体一步一步地模仿专家的轨迹,包括思考过程(thought)和行动(action)。

接着,这一基础通用智能体与不同的环境交互,完成自我进化。它面对来自不同环境的、更多样化的指令与查询(Instructions and queries),逐渐提升自己完成各项任务的能力。

这一过程受到机器学习中 RL as Inference 方法的启发,它将交互强化学习视为一个概率推断问题(具体推导与解释见原文)。这种方法与传统的强化学习方法不同,它不是直接寻找最大化期望回报的轨迹,而是首先定义一个关于轨迹的最优策略分布,然后通过迭代过程来优化这个分布。

具体而言,该过程包括两个交替进行的步骤:

  • 探索步骤(Exploration Step)」:在这一步骤中,智能体在当前策略下与环境进行交互,生成新的轨迹并评估其奖励,形成一个估计的最优策略分布。具体而言,智能体与多个环境进行交互,生成一系列的行为轨迹。每条轨迹都是智能体根据当前策略与环境互动的产物,包括智能体的思考,智能体的行为,以及环境的观测。然后,环境端会根据轨迹与任务目标的匹配程度,为每条轨迹给出奖励信号。
  • 学习步骤(Learning Step)」:在这一步骤中,智能体根据估计的最优策略分布更新参数,使其更加接近于最优策略。具体而言,智能体利用在探索步骤中收集到的轨迹与奖励数据,通过一个基于轨迹奖励加权的优化目标函数来优化自己。注意,在学习步骤中,为了减少过拟合,作者优化的总是「基础通用智能体」,而不是上一轮优化得到的智能体。

通过交替探索和学习步骤,AgentEvol 算法逐步优化智能体,显著提升其在多环境下的能力,实现「自我进化」的目标。

实验介绍

任务概述:

本研究通过 AgentGym 框架对智能体进行了一系列的跨环境探索和进化实验。实验旨在评估基础智能体在多样化环境中进行自我探索和进化的能力。为此,作者采用更广泛的指令集来扩展智能体的探索空间。

主要结果:

在 11 个不同环境中,使用 AgentTraj 数据集训练的智能体展示了良好的基础交互能力。

进一步,通过在更大的AgentTraj-L 数据集上实施行为克隆,智能体  实现了显著的性能提升。

而本文提出的 AgentEvol 方法,尽管在初始阶段仅基于有限的专家数据,但通过交替的探索和学习步骤,智能体能够在未见过的探索集上做出正确决策,实现自我进化。在多个智能体任务上,AgentEvol 方法超越了 和其他 SOTA 模型。

这一发现揭示了智能体具有适应和解决更复杂任务的潜力,为开发更高级的通用智能体提供了坚实的基础。

图7:多任务环境下各种模型和智能体的性能对比

分析实验:

该团队还从四个角度展开了一系列的消融实验:(1) 数据合并策略;(2) 进化迭代次数;(3) 探索范围;(4) 采样次数。

实验发现,将智能体当前生成的轨迹与初始专家轨迹集合并,能带来更稳定的性能提升。相应地,利用前一迭代的探索轨迹,可能导致过拟合,出现性能的波动。

随着进化过程中迭代次数 M 增加,性能提升,但最终会趋于稳定和收敛。

图8:数据合并策略和迭代次数的消融实验

在 AgentEvol 探索过程中,通过对每个指令执行采样,生成多样化的轨迹促进了智能体的学习。

而将智能体的探索范围限制在已知的指令集内,也就是进行有限空间的探索,可能会限制 AgentEvol 的性能进一步提升。

图9:采样数目与探索范围的消融实验

此外,研究者还在不同的基座模型上进行实验。结果表明, AgentEvol 方法在不同规模的模型上均表现出色。

图10:不同基座模型上的性能比较

文章还探讨了在通用智能体的进化过程中,成功与失败的经验轨迹是否都能发挥作用

实验采用直接偏好优化 DPO (Direct Preference Optimization) 方法,基于探索过程中的「成功-失败」轨迹进行训练。结果表明,智能体能够在多任务的场景下,从错误经验中学习,但其整体性能仍然不如 AgentEvol 方法。

图11:基于成功和失败轨迹的 DPO 训练

复旦大学自然语言处理实验室,是由复旦大学首席教授吴立德先生创建,是我国最早开展自然语言处理和信息检索研究的实验室之一。在国家自然科学基金、国家863/973/重点研发计划、省部委基金的支持下,发表了大量高水平国际期刊和会议论文。实验室在学术带头人黄萱菁教授的带领下,围绕大模型前沿方向,在语言大模型、多模态大模型、大模型对齐、智能体等方面开展系统深入的研究,产生了MOSS、眸思等一系列有较大学术影响的工作,并与国内外科技领军企业建立密切的合作关系。


复旦大学视觉与学习实验室由姜育刚教授创立,现有教师7人,在读硕博士研究生80余人,已毕业研究生30余人。实验室主要从事计算机视觉和多模态人工智能理论与应用的研究,旨在研发准确、快速、可扩展和值得信赖的 AI 算法,让机器具备像人一样的学习、感知和推理的能力。实验室承担了科技创新2030—“新一代人工智能”重大项目、国家自然科学基金重点基金、国家重点研发计划课题、上海市科技创新行动计划等国家和地方的重要科研项目,以及华为、腾讯、百度等企业的技术攻关需求。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com




53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅