微信扫码
添加专属顾问
我要投稿
字节跳动开源RL框架verl,让大模型强化学习效率提升20倍,支持671B参数模型训练,大幅降低RL算法部署门槛。 核心内容: 1. verl框架解决了传统RLHF流程的三大痛点:效率瓶颈、算法壁垒和资源限制 2. 集成15+主流强化学习算法,提供完整训练脚本,简化分布式训练流程 3. 支持FSDP、Megatron-LM等分布式训练方案,已成功训练671B参数的DeepSeek模型
当大模型进入「后训练时代」,如何高效对齐人类偏好、提升推理与工具使用能力成为核心课题。近日,字节跳动Seed团队开源了强化学习框架verl,不仅实现了吞吐量20倍的突破,更让复杂RL算法的部署门槛大幅降低。
verl的前身是字节跳动内部研发的HybridFlow框架,其核心论文已被顶会EuroSys 2025收录。作为生产级别的大模型强化学习工具,它解决了传统RLHF流程中的三大痛点:
verl已集成15+主流强化学习算法,涵盖:
每个算法都提供完整的训练脚本,以GRPO为例,仅需配置模型路径和数据集即可启动分布式训练:
# 以Qwen3-8B为例的GRPO训练命令
python -m verl.trainer.main_ppo \
algorithm.adv_estimator=grpo \
data.train_files=/data/gsm8k/train.parquet \
data.val_files=/data/gsm8k/test.parquet \
data.train_batch_size=1024 \
data.max_prompt_length=512 \
data.max_response_length=1024 \
data.filter_overlong_prompts=True \
data.truncation='error' \
actor_rollout_ref.model.path=Qwen/Qwen3-8B \
actor_rollout_ref.actor.optim.lr=1e-6 \
actor_rollout_ref.model.use_remove_padding=True \
actor_rollout_ref.actor.ppo_mini_batch_size=256 \
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=40 \
actor_rollout_ref.actor.use_kl_loss=True \
actor_rollout_ref.actor.kl_loss_coef=0.001 \
actor_rollout_ref.actor.kl_loss_type=low_var_kl \
actor_rollout_ref.actor.entropy_coeff=0 \
actor_rollout_ref.actor.strategy=fsdp2 \
actor_rollout_ref.model.enable_gradient_checkpointing=False \
actor_rollout_ref.actor.fsdp_config.param_offload=True \
actor_rollout_ref.actor.fsdp_config.optimizer_offload=True \
actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=40 \
actor_rollout_ref.rollout.tensor_model_parallel_size=2 \
actor_rollout_ref.rollout.name=vllm \
actor_rollout_ref.rollout.gpu_memory_utilization=0.6 \
actor_rollout_ref.rollout.n=5 \
actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=40 \
actor_rollout_ref.ref.fsdp_config.param_offload=True \
actor_rollout_ref.ref.strategy=fsdp2 \
algorithm.use_kl_in_reward=False \
trainer.critic_warmup=0 \
trainer.logger=['console','tensorboard'] \
trainer.project_name='verl_grpo_example_gsm8k_record' \
trainer.experiment_name='qwen2_7b_function_rm_re' \
trainer.n_gpus_per_node=8 \
trainer.nnodes=1 \
trainer.save_freq=20 \
trainer.test_freq=5 \
trainer.total_epochs=15框架支持多维度硬件优化:
verl已原生支持视觉-语言模型训练,通过Qwen2.5-VL等模型实现:
超过20个机构基于verl开展研究,包括:
# 基础依赖安装
pip install -r requirements.txt
# 如需CUDA加速
pip install -r requirements-cuda.txt根据官方规划,verl将在Q3重点推进:
字节跳动Seed团队表示,verl的开源不仅是技术输出,更希望推动强化学习在大模型领域的标准化。目前团队正招募RL算法与工程专家,共同完善这一生态。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-16
阿里重磅开源 0.5B TTS + 0.8B ASR,支持跨语种音色克隆、说唱识别!
2025-12-15
智谱手机 Agent 开源一周,iOS 版就来了
2025-12-15
OpenEvals下一代AI模型评估标准
2025-12-15
AutoGLM:推倒那面墙
2025-12-15
狂揽162K Star!n8n 2.0强势来袭,这次改动有点狠。
2025-12-14
ollama v0.13.3 最新发布:新增模型与功能优化详细解读
2025-12-14
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE
2025-12-14
AutoGLM开源:手机AI Agent的“安卓时刻”来了
2025-10-20
2025-11-19
2025-10-27
2025-10-27
2025-10-03
2025-09-29
2025-10-29
2025-11-17
2025-09-29
2025-11-07
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17