基于条件扩散模型的策略生成：Make-An-Agent 方法

发布日期：2024-07-20 08:01:23 浏览次数： 3063

马里兰大学、清华大学等机构的研究人员提出了一种名为 Make-An-Agent 的策略生成新方法，该方法利用条件扩散模型，通过自编码器压缩和重建策略网络参数，并在多个领域测试中展现出在多任务设置、处理新任务和抵抗环境随机性方面的良好性能。

论文介绍

传统的策略学习使用来自重播缓冲区或行为演示的采样轨迹来学习策略或轨迹模型，这些策略或轨迹模型将状态映射到动作。这种方法模拟了一个狭窄的行为分布。然而，使用低维演示来指导高维输出生成是一个挑战。扩散模型在文本到图像合成等任务中表现出了极强的竞争力。这一成功支持了将策略网络生成作为条件去噪扩散过程的工作。通过不断将噪声细化为结构化参数，基于扩散的生成器可以发现各种具有优越性能和鲁棒策略参数空间的策略。

该领域的现有方法包括参数生成和学习学习策略学习。自从引入 Hypernetworks 以来，参数生成一直是一个重要的研究热点，这导致了关于预测神经网络权重的各种研究。例如，Hypertransformer 使用 Transformers 根据任务样本，使用监督和半监督学习为卷积神经网络 (CNN) 的每一层生成权重。另一方面，用于策略学习的学习学习涉及元学习，其目的是开发一种能够适应给定任务分布内的任何新任务的策略。在元训练或元测试过程中，以前的元强化学习 (meta-RL) 方法依赖于奖励来进行策略调整。

来自马里兰大学、清华大学、加州大学、上海期智研究院和上海人工智能实验室的研究人员提出了一种名为 Make-An-Agent 的新方法，用于使用条件扩散模型生成策略。在此过程中，开发了一个自动编码器，根据策略网络的层将其压缩成更小的潜在表示。研究人员使用对比学习来获得长期轨迹与其结果或未来状态之间的联系。此外，基于学习到的行为嵌入，利用有效的扩散模型生成策略参数，然后使用预训练的解码器将其解码为可用的策略。

通过在三个连续控制域（包括各种桌面操作和现实世界运动任务）中进行测试来评估 Make-An-Agent 的性能。在测试阶段，使用来自部分训练的 RL 智能体重播缓冲区的轨迹生成策略。生成的策略优于多任务或元学习和其他基于超网络的方法创建的策略。这种方法有可能产生不同的策略参数，并在模拟器和现实世界情况下表现出强大的性能，尽管存在环境随机性。此外，即使在给定噪声轨迹的情况下，Make-An-Agent 也可以生成高性能策略，这证明了该模型的鲁棒性。

使用一种名为“walk-these-ways”的技术在现实世界场景中测试由 Make-An-Agent 生成的策略，并在 IsaacGym 上进行训练。使用所提出的方法根据 IsaacGym 模拟和预训练的适应模块的轨迹生成 Actor 网络。然后，这些生成的策略被部署在与模拟环境不同的真实机器人上。每个现实世界运动策略都包含 50,956 个参数，并且在 MetaWorld 和 Robosuite 中为每个任务收集了 1,500 个策略网络。这些网络来自 SAC 训练期间的策略检查点，并在测试成功率达到 1 后每 5,000 个训练步骤保存一次。

在本文中，研究人员提出了一种新的策略生成方法，称为 Make-An-Agent，它基于条件扩散模型。该方法旨在生成具有许多参数的空间中的策略，使用自动编码器对这些参数进行编码和重建。在各个领域测试的结果表明，他们的方法在多任务设置中效果很好，可以处理新任务，并且对环境随机性具有抵抗力。然而，由于参数数量众多，没有探索更多样化的策略网络，并且参数扩散生成器的能力受到参数自动编码器的限制，因此，未来的研究可以探索更灵活的参数生成方式.