我要投稿

字节跳动开源RL框架verl：让大模型强化学习效率提升20倍，已支持671B参数模型训练

发布日期：2025-11-24 22:07:25 浏览次数： 2496

作者：东哥说AI

微信搜一搜，关注“东哥说AI”

当大模型进入「后训练时代」，如何高效对齐人类偏好、提升推理与工具使用能力成为核心课题。近日，字节跳动Seed团队开源了强化学习框架verl，不仅实现了吞吐量20倍的突破，更让复杂RL算法的部署门槛大幅降低。

从HybridFlow到verl：工业级RLHF框架的开源之路

verl的前身是字节跳动内部研发的HybridFlow框架，其核心论文已被顶会EuroSys 2025收录。作为生产级别的大模型强化学习工具，它解决了传统RLHF流程中的三大痛点：

效率瓶颈：通过3D-HybridEngine实现模型动态重分片，消除训练与生成阶段的内存冗余，通信开销降低60%
算法壁垒：独创混合控制器编程模型，让GRPO、PPO等算法的实现只需数十行代码
资源限制：支持FSDP、Megatron-LM等分布式训练方案，已成功训练671B参数的DeepSeek模型

五大核心特性，重新定义大模型RL训练

1. 算法生态：从经典到前沿的全支持

verl已集成15+主流强化学习算法，涵盖：

经典方案：PPO、DPO、RLOO
推理优化：DAPO（AIME基准达60.4分）、VAPO
多轮交互：SPPO、ReTool（工具调用场景）

每个算法都提供完整的训练脚本，以GRPO为例，仅需配置模型路径和数据集即可启动分布式训练：

# 以Qwen3-8B为例的GRPO训练命令
python -m verl.trainer.main_ppo \
    algorithm.adv_estimator=grpo \
    data.train_files=/data/gsm8k/train.parquet \
    data.val_files=/data/gsm8k/test.parquet \
    data.train_batch_size=1024 \
    data.max_prompt_length=512 \
    data.max_response_length=1024 \
    data.filter_overlong_prompts=True \
    data.truncation='error' \
    actor_rollout_ref.model.path=Qwen/Qwen3-8B \
    actor_rollout_ref.actor.optim.lr=1e-6 \
    actor_rollout_ref.model.use_remove_padding=True \
    actor_rollout_ref.actor.ppo_mini_batch_size=256 \
    actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=40 \
    actor_rollout_ref.actor.use_kl_loss=True \
    actor_rollout_ref.actor.kl_loss_coef=0.001 \
    actor_rollout_ref.actor.kl_loss_type=low_var_kl \
    actor_rollout_ref.actor.entropy_coeff=0 \
    actor_rollout_ref.actor.strategy=fsdp2 \
    actor_rollout_ref.model.enable_gradient_checkpointing=False \
    actor_rollout_ref.actor.fsdp_config.param_offload=True \
    actor_rollout_ref.actor.fsdp_config.optimizer_offload=True \
    actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=40 \
    actor_rollout_ref.rollout.tensor_model_parallel_size=2 \
    actor_rollout_ref.rollout.name=vllm \
    actor_rollout_ref.rollout.gpu_memory_utilization=0.6 \
    actor_rollout_ref.rollout.n=5 \
    actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=40 \
    actor_rollout_ref.ref.fsdp_config.param_offload=True \
    actor_rollout_ref.ref.strategy=fsdp2 \
    algorithm.use_kl_in_reward=False \
    trainer.critic_warmup=0 \
    trainer.logger=['console','tensorboard'] \
    trainer.project_name='verl_grpo_example_gsm8k_record' \
    trainer.experiment_name='qwen2_7b_function_rm_re' \
    trainer.n_gpus_per_node=8 \
    trainer.nnodes=1 \
    trainer.save_freq=20 \
    trainer.test_freq=5 \
    trainer.total_epochs=15

2. 硬件适配：从单卡到超大规模集群

框架支持多维度硬件优化：

计算引擎：兼容vLLM、SGLang等推理加速库，生成吞吐量提升3倍
设备调度：灵活的GPU映射策略，支持训练/推理分离部署
极致性能：采用FlashAttention2和Liger-kernel，显存占用降低40%

3. 工程化设计：工业级训练保障

断点续训：支持训练状态全量保存，故障恢复无需重跑
监控体系：集成wandb、mlflow等实验跟踪工具，实时可视化训练曲线
弹性扩展：通过Ray实现资源动态调度，支持数百GPU集群

4. 多模态能力：不止于文本

verl已原生支持视觉-语言模型训练，通过Qwen2.5-VL等模型实现：

图文混合指令跟随
视觉推理任务优化
多模态工具调用（如OCR+搜索组合）

5. 社区生态：从学术研究到产业落地

超过20个机构基于verl开展研究，包括：

清华大学：多轮对话RLHF优化
香港大学：代码生成领域的PPO改进
微软：Agent-Lightning代理框架

快速上手：从零开始的RL训练

环境准备

# 基础依赖安装
pip install -r requirements.txt
# 如需CUDA加速
pip install -r requirements-cuda.txt

典型工作流

1. 监督微调（SFT）：使用HuggingFace数据集初始化模型
2. 奖励模型训练：构建偏好数据训练评分模型
3. RL优化：选择合适算法进行策略迭代
4. 评估部署：集成vLLM实现高效推理服务

未来路线图：更开放的强化学习生态

根据官方规划，verl将在Q3重点推进：

异步离线策略架构
多智能体训练支持
更大规模MoE模型优化
强化学习与工具使用深度融合

字节跳动Seed团队表示，verl的开源不仅是技术输出，更希望推动强化学习在大模型领域的标准化。目前团队正招募RL算法与工程专家，共同完善这一生态。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-03

Claude Code——智能路由与切换工具

2026-02-03

作为投资方，我们试了试Kimi K2.5

2026-02-03

暴涨11.7k Star！复刻Manus上下文工程的开源Skills，Claude code等多个平台即插即用

2026-02-03

ollama v0.15.4 更新：OpenClaw全面上线，优化集成流程与工具解析能力大升级！

2026-02-03

阶跃星辰 Step 3.5 Flash 上线！更快更强更稳的 Agent 大脑，开源！

2026-02-02

一分钟部署OpenClaw+QQ，国内最爽的一键启动！

2026-02-02

这家字节系AI初创，推出首个开源Agent Skills Builder！对话Refly.AI李锦威：大多数Agent都停留在专业用户层面，没有做到真正的普惠

2026-02-02

OCR又出宠OpenDoc，速度超MinerU6倍

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

2025-12-22

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

让白宫“破防”的阿里千问，我替你们测了...

2025-11-17

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

最强开源0.9B级OCR模型！PaddleOCR-VL本地一键部署，私密性拉满【喂饭级教程】

2025-11-07

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

Claude Code最强开源对手！GitHub 50.2k Star了，作者为它烧掉2.4w美元。

2026-01-06

大家都在问

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

TranslateGemma-27B谷歌开源翻译模型有多强？

2026-01-20

构建开放智能体生态：AgentScope 如何用 A2A 协议与 Nacos 打通协作壁垒？

2026-01-16

又是量化基金，第二个DeepSeek时刻到来了？

2026-01-02

2025-12-24

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean