AReaL 2.0 正式发布：面向 Agent 应用的 Online RL 微服务架构升级

发布日期：2026-07-02 16:31:14 浏览次数： 1511

作者：蚂蚁开源

微信搜一搜，关注“蚂蚁开源”

随着大模型智能体逐步进入真实生产环境，Agent 不再只是一次模型调用，而是包含规划、工具调用、沙箱执行、记忆检索、人类反馈和多轮状态管理的复杂系统。与之相对应，Agent 的学习和进化也不能继续停留在离线数据收集、离线训练、重新部署的割裂流程中。

围绕这一变化，AReaL 正式发布 2.0 版本，进行了面向 Agentic RL 的核心架构升级：将原有强化学习训练链路重构为一套 RL as Micro-Service 的在线学习基础设施，让已有 Agent 应用可以通过极低侵入的方式接入强化学习闭环。

开发者无需重写 Agent，只需将原有模型调用入口切换到 AReaL 管理的服务入口，就能让真实 Agent 交互流进入 online RL 闭环。

GitHub：
https://github.com/areal-project/AReaL
Tech Report：
https://arxiv.org/abs/2607.01120

从静态部署到持续进化：

Agent 基础设施的范式转移

大模型智能体正在进入真实生产环境——写代码、查资料、调用工具、操作文件、处理工单。但一个根本性的矛盾日益凸显：Agent 一旦上线，能力即被冻结。数百万次真实交互产生的宝贵轨迹：用户如何提问、模型如何规划、工具调用在哪里失败、代码是否通过测试、用户是否修正回答、任务最终是否完成……这些都是极高价值的学习信号。

但在现有系统中，这些信号很难稳定、安全地进入训练闭环。

开发者通常需要面对几个问题：

Agent 应用侧和 RL 训练侧工程体系割裂；
真实 Agent 轨迹难以转化为可训练数据；
多轮会话、工具调用、延迟奖励难以统一建模；
推理服务、训练服务、权重同步之间缺乏标准化协作方式；
将已有 Agent 接入 Online RL 往往意味着大规模改造应用逻辑。

AReaL 团队认为：RL 系统基础设施是企业级 Agent 自进化的重要环节。基于此，AReaL 2.0 以微服务架构为核心，重构 Agentic RL 的基础设施底座，让已有 Agent 应用能以最小侵入成本接入在线强化学习闭环。

RL as Micro-Service：解耦再组合

传统 RL 训练链路中，应用侧与训练侧存在严重的工程隔离。开发者若想将真实 Agent 接入 RL 训练，往往需要同时应对应用改造、数据构建、分布式运行等多重复杂度。

AReaL 2.0 的核心创新是 RL as Micro-Service——将训练、推理、权重更新等能力拆分为可独立部署、可灵活组合的服务组件，通过解耦再组合，将原本紧耦合的 RL 后训练系统变成了一套可插拔的 Agent 学习运行时。

这意味着，AReaL 不再只是一个离线 RL 训练框架，而是可以作为真实 Agent 服务的在线学习基础设施。

从单一范式到灵活编排

这些组件的统一拼接，既能覆盖既往训练范式：

单独使用训练组件 → 完成 SFT；
联合训练 + 推理组件 → 完成 OPD；
完整串联训练 + 推理 + 权重更新 → 完成标准 RL。

也能拓展全新研究方向：联合推理 + Agent 服务 → 优化 Memory、System Prompt、Skill，实现轻量级 Agent 自我进化。

已有 Agent 应用无需重写规划逻辑、工具调用或记忆系统，仅将模型调用 URL 切换到 AReaL 服务入口，即可让真实交互流进入在线 RL 闭环。

服务模块

实战范例：从“可复现”到“可替换”

Claude Code Agent RL：

算法 + Infra 全栈

AReaL 2.0 提供零门槛可复现的软件工程智能体训练基础设施，覆盖三大环节：

数据处理：筛选至少有一个外部模型能做对的种子数据，改写 issue 描述使其与 golden patch 更匹配；
Agent Infra：基于 sandbox 引擎的分布式调度设计，支持几十 K 级环境实例并发，毫秒级 fork 启动与镜像预热，避免 RL 过程中脏数据生成；
算法稳定化：引入 KPop 策略，针对训练/推理引擎间的 logprob mismatch 进行 token 级自适应过滤，防止训练后期崩溃。针对 reward hacking（如利用 git 查答案），在 harness 侧禁用相关操作，实现 token-in-token-out 对齐。

模型经过 800 步训练后实现稳定涨分，为开发者复现 Claude Code Agent RL、替换自定义任务环境、构建自己的软件工程 Agent 训练流程提供了直接参考。

Hermes Agent Online RL：黑盒接入

进一步将门槛降至“现有 Agent 直接接入”。以 Hermes Agent 为载体，演示不侵入内部逻辑的通用接入模式：

异步训练：轨迹持续汇入，攒够一批自动触发更新，新权重在线热替换；
无感进化：Agent 无需重启、无需重连，能力在持续交互中悄然提升；
可替换模板：将演示 Agent 替换为自有任务环境，复用同一套解耦架构即可搭建专属 online RL 流程。

开放社区合作

AReaL 自今年 5 月已正式孵化成为独立社区并加入PyTorch 基金会 Ecosystem，此后，AReaL 进一步融入主流深度学习基础设施生态。

基于 Micro-Service 架构，AReaL 2.0 带来了灵活的开放生态，通过面向更多硬件平台的开放适配，进一步降低大规模 Agent RL 系统的使用门槛，并提升框架在不同设备环境下的可用性和可迁移性。

AReaL 2.0 也开启了与 MindLab 的全面合作，致力于构建面向低算力规模场景下的端到端智能体强化学习服务化解决方案。MindLab 基于AReaL-Mint 构建了 LoRA RL 的类 Tinker API 系统，开发者只需编写自己的 Agent loop，定义任务环境、模型交互方式、奖励或反馈机制以及训练逻辑，AReaL 便可以将这套逻辑运行在大规模训练和推理集群上，并处理分布式训练、轨迹采样、权重同步、模型更新等底层工程流程。

写在最后

AReaL 2.0 是一次面向下一代 Agentic RL 系统的架构升级。它将强化学习能力服务化、组件化、在线化，让已有 Agent 应用可以通过更低侵入的方式接入 RL 闭环；也为未来自演进智能体所需的数据协议、数据代理和演化控制平面提供了可落地的系统起点。

我们相信，未来的 Agent 不应该只是在部署时被固定下来，而应该能够在有边界、有审计、有治理的前提下，从真实经验中持续学习。

AReaL 2.0 是社区朝这个方向迈出的重要一步。欢迎开发者、研究者和生态伙伴加入 AReaL 社区，共同推动智能体走向“交互即进化”的新一代基础设施