微信扫码
添加专属顾问
我要投稿
字节跳动开源RL框架verl,让大模型强化学习效率提升20倍,支持671B参数模型训练,大幅降低RL算法部署门槛。 核心内容: 1. verl框架解决了传统RLHF流程的三大痛点:效率瓶颈、算法壁垒和资源限制 2. 集成15+主流强化学习算法,提供完整训练脚本,简化分布式训练流程 3. 支持FSDP、Megatron-LM等分布式训练方案,已成功训练671B参数的DeepSeek模型
当大模型进入「后训练时代」,如何高效对齐人类偏好、提升推理与工具使用能力成为核心课题。近日,字节跳动Seed团队开源了强化学习框架verl,不仅实现了吞吐量20倍的突破,更让复杂RL算法的部署门槛大幅降低。
verl的前身是字节跳动内部研发的HybridFlow框架,其核心论文已被顶会EuroSys 2025收录。作为生产级别的大模型强化学习工具,它解决了传统RLHF流程中的三大痛点:
verl已集成15+主流强化学习算法,涵盖:
每个算法都提供完整的训练脚本,以GRPO为例,仅需配置模型路径和数据集即可启动分布式训练:
# 以Qwen3-8B为例的GRPO训练命令
python -m verl.trainer.main_ppo \
algorithm.adv_estimator=grpo \
data.train_files=/data/gsm8k/train.parquet \
data.val_files=/data/gsm8k/test.parquet \
data.train_batch_size=1024 \
data.max_prompt_length=512 \
data.max_response_length=1024 \
data.filter_overlong_prompts=True \
data.truncation='error' \
actor_rollout_ref.model.path=Qwen/Qwen3-8B \
actor_rollout_ref.actor.optim.lr=1e-6 \
actor_rollout_ref.model.use_remove_padding=True \
actor_rollout_ref.actor.ppo_mini_batch_size=256 \
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=40 \
actor_rollout_ref.actor.use_kl_loss=True \
actor_rollout_ref.actor.kl_loss_coef=0.001 \
actor_rollout_ref.actor.kl_loss_type=low_var_kl \
actor_rollout_ref.actor.entropy_coeff=0 \
actor_rollout_ref.actor.strategy=fsdp2 \
actor_rollout_ref.model.enable_gradient_checkpointing=False \
actor_rollout_ref.actor.fsdp_config.param_offload=True \
actor_rollout_ref.actor.fsdp_config.optimizer_offload=True \
actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=40 \
actor_rollout_ref.rollout.tensor_model_parallel_size=2 \
actor_rollout_ref.rollout.name=vllm \
actor_rollout_ref.rollout.gpu_memory_utilization=0.6 \
actor_rollout_ref.rollout.n=5 \
actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=40 \
actor_rollout_ref.ref.fsdp_config.param_offload=True \
actor_rollout_ref.ref.strategy=fsdp2 \
algorithm.use_kl_in_reward=False \
trainer.critic_warmup=0 \
trainer.logger=['console','tensorboard'] \
trainer.project_name='verl_grpo_example_gsm8k_record' \
trainer.experiment_name='qwen2_7b_function_rm_re' \
trainer.n_gpus_per_node=8 \
trainer.nnodes=1 \
trainer.save_freq=20 \
trainer.test_freq=5 \
trainer.total_epochs=15框架支持多维度硬件优化:
verl已原生支持视觉-语言模型训练,通过Qwen2.5-VL等模型实现:
超过20个机构基于verl开展研究,包括:
# 基础依赖安装
pip install -r requirements.txt
# 如需CUDA加速
pip install -r requirements-cuda.txt根据官方规划,verl将在Q3重点推进:
字节跳动Seed团队表示,verl的开源不仅是技术输出,更希望推动强化学习在大模型领域的标准化。目前团队正招募RL算法与工程专家,共同完善这一生态。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-03
Claude Code——智能路由与切换工具
2026-02-03
作为投资方,我们试了试Kimi K2.5
2026-02-03
暴涨11.7k Star!复刻Manus上下文工程的开源Skills,Claude code等多个平台即插即用
2026-02-03
ollama v0.15.4 更新:OpenClaw全面上线,优化集成流程与工具解析能力大升级!
2026-02-03
阶跃星辰 Step 3.5 Flash 上线!更快更强更稳的 Agent 大脑,开源!
2026-02-02
一分钟部署OpenClaw+QQ,国内最爽的一键启动!
2026-02-02
这家字节系AI初创,推出首个开源Agent Skills Builder!对话Refly.AI李锦威:大多数Agent都停留在专业用户层面,没有做到真正的普惠
2026-02-02
OCR又出宠OpenDoc,速度超MinerU6倍
2025-11-19
2026-01-27
2025-12-22
2025-12-10
2025-11-17
2026-01-12
2025-11-07
2025-12-23
2026-01-29
2026-01-06
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16
2026-01-02
2025-12-24