2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

三「模」联盟,谷歌DeepMind缔造终身学习智能体!

发布日期:2024-08-08 06:06:39 浏览次数: 2795
作者:新智元

微信搜一搜,关注“新智元”


为了让AI实现终身学习,帝国理工、谷歌DeepMind竟动用了三大基础模型!
「大模型+视觉语言模型+扩散模型」三模并用,构建了全新框架——扩散增强智能体(DAAG)。
DAAG的诞生,就是让具身智能体进行迁移学习、高效探索。
最新框架利用了「后见之明经验增强」(Hindsight Experience Augmentation)技术,让扩散模型以时间和几何一致的方式转换视频。
让其与目标指令对齐,从而对智能体过去经验进行重新标记。

论文地址:https://arxiv.org/pdf/2407.20798
大模型在无需人类监督情况下,自主协调这一过程,使其非常适合终身学习场景。
经过一系列实验,结果表明,DAAG改进了奖励检测器的学习、过去经验的迁移以及新任务的获取。
这些都是开发高效终身学习智能体的关键能力。

无需人类监督,AI终身强化学习


一直以来,具身AI的训练数据极其稀缺,特别是在强化学习场景中尤为突出。
因为这类智能体需要与物体环境进行互动,而传感器和执行器成为了主要瓶颈。
然而,克服这一挑战需要开发出,能够从有限经验中高效学习、适应的智能体。
对此,研究人员假设,具身智能体可以通过利用过去经验,有效探索,并在任务之间转移知识,实现更高数据搬运效率。
即便在没有外部奖励的情况下,他们希望让智能体可以自主设置、评分子目标,并能重新利用之前任务经验,加速新任务学习。
因此,最新研究中,团队成员使用预训练的基础模型Gemini 1.0 Pro来解决这些问题。
通过视觉、语言和扩散模型的相互作用,让智能体更有效推理任务,解释环境和过去经验,并操纵自身收集的数据,以重新用于新任务和目标。
更重要的是,DAAGG可以自主运行,无需人类监督,凸显其特别适合终身强化学习的场景。
如下图1,是扩散增强智能体完整框架。
其中,LLM充当主要控制器/大脑,查询和指导VLM和DM,以及智能体的高级行为。
通过一系列在不同环境中的实验,研究人员证明了DAAGG在改进智能体在关键能力上的表现:
1)用扩散模型生成合成样本增强的数据,微调视觉语言模型,自主计算已见和未见任务的奖励;
2)为给定任务设计和识别有用的子目标,通过扩散模型修改记录的观察,重新利用原失败的轨迹,从而更有效地探索和学习新任务;
3)提取相关数据,使用扩散模型重新利用其他轨迹,有效地将先前收集的数据转移到新任务中。
图2所示,DAAGG方法如何通过扩散增强,重新利用智能体的经验。
研究人员提出了一个扩散管道,提高了几何和时间一致性,并修改了智能体收集的部分视频。

方法


DAAGG具体设计方法如下。
研究人员将环境形式化为「马尔可夫决策过程」(MDP):在每个时间步t,环境和智能体处于状态s ∈ S。
从该状态,智能体接收视觉观察o ∈ O,并可以执行动作a ∈ A。
在每个回合中,智能体接收一个指令,这是用自然语言T描述的要执行的任务。
如果任务成功执行,智能体可以在回合结束时,获得奖励r = +1。
这项论文中,除了独立学习新任务外,作者还研究了DAAGG框架以终身方式连续学习任务的能力。
因此,智能体将交互经验存储在两个缓冲区中:当前任务缓冲区,称之为新缓冲区:这个缓冲区在每个新任务开始时初始化。
然后是离线终身缓冲区:智能体将所有任务的所有回合存储在这个缓冲区中,无论它们是否成功。
因此,后者是一个不断增长的经验缓冲区,智能体随后可以用它来引导新任务的学习。
以下是,作者选用的三种模型目的:
- 大模型LLM:编排智能体的行为,以及指导VLM和DM。LLM接受文本指令和数据,并输出文本响应。而且,利用LLM将任务分解为子目标,比较不同任务/指令的相似性,并查询VLM和DM。
- 视觉语言模型VLM:使用的是对比模型CLIP。CLIP由两个分支组成:图像分支和文本分支,它们分别以视觉观察和文本描述作为输入,最终输出相同大小的嵌入向量。
- 扩散Pipeline:研究的核心是通过语言指导的扩散模型,修改视觉观察。扩散Pipeline是为了提取智能体记录的观察或一系列时间观察,并保持几何和时间一致性的同时,修改观察中的一个或多个对象。
如下是,扩散Pipeline的示意图。
在图5中,作者比较了ROISE和自己提出的Pipeline输出。前者不能保持对象姿势和外观,在帧之间的一致性。

扩散增强智能体框架

在扩散增强数据上,微调VLM作为奖励检测器
VLM可以有效地用作奖励检测器,条件是基于语言定义的目标和视觉观察。
最近的研究显示,为了提升准确性,VLM通常需要在目标环境中收集的token数据上进行微调,适应所需的任务。
这是一个耗时的任务,而且每个新任务需要人类手动完成,严重阻碍了智能体以终身方式自主连续学习的多任务能力。
通过DAAGG框架,作者在先前收集的观察上微调VLM来解决这一挑战。
这个过程如上图2所示,通过这个过程,微调VLM作为LLM分解当前任务的所有子目标的成功检测器。
通过后见之明经验增强,实现高效学习和迁移
在任何任务中收集的每个回合后,智能体收集一系列观察和动作
在DAAGG中,研究人员旨在最大化智能体可以学习处理新任务的回合数量,即使它没有达到任何所需的子目标。
最后,他们通过一个称为后见之明经验增强(HEA)的过程来实现这一点。

实验结果


DAAGG框架提出了LLM+VLM+DM之间的相互作用,以解决终身学习智能体面临的3个主要的挑战:


1)微调新的奖励/子目标检测模型,
2)提取和转移过去经验用于新任务,
3)高效探索新任务。
DAAGG能否将VLM微调为新任务的奖励检测器?
图7显示了,在数据集中没有示例的最左侧任务中,DAAGG如何通过综合其他任务中的示例实现大幅改进,同时在所见的任务中保持相同的性能。
在RGB Stacking和Language Table环境中,物体姿势之间的精确几何关系非常重要,而DAAGG与基线的差异则更为显著,这说明需要进行扩散增强才能获得有效的奖励检测器。
在「房间」环境中,CLIP接收到的观察结果虽然来自低保真模拟器和渲染器,但更接近它在网络规模数据集(水果和家具图片),上进行训练时接收到的观察结果分布。
因此,CLIP「零样本」性能要强得多,而在其他任务中,CLIP零样本性能则接近于随机猜测,这表明有必要进行微调。
DAAGG能否更高效地探索和学习新任务?
下图8中,作者绘制了100个测试事件中,成功解决任务实例的数量与训练事件数量的函数关系图。
在测试过程中,不执行任何探索策略或指导,而是让策略网络来引导智能体。
可以看到,DAAGG的学习速度比基线更快,将某些不成功的事件作为学习信号的能力,有助于提高在所有测试环境中的学习效率。
DAAGG能否更有效地连续学习任务,从过去的任务中转移经验?
图9中,研究人员比较了每种方法在使用时,在任务上的性能,性能指标是成功率。
可以看到,DAAGG超越了两个基准方法,主要归功于它能够从存储在中大部分经验中学习,通过修改和重新利用解决或其子目标之外的任务轨迹。
通过场景视觉增强提高鲁棒性
然后,研究人员使用pipeline对每个观察进行5次增强,查询LLM来提出增强的描述(比如,一个有红色地板和白色墙壁的房间)。
作者将所有这些增强的观察添加到缓冲区,并在其上训练策略。
在原始和增强数据集上,训练的策略都在5个视觉上修改的房间中进行测试,随机改变墙壁和地板的颜色以及干扰物体,在每个房间进行20次测试回合。
图11展示了,视觉增强如何带来一个更加鲁棒的策略,能够在视觉上与单一训练Room中,与训练环境很不同的Room中也达到相同目标。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅