微信扫码
添加专属顾问
我要投稿
大幅降低显存需求,提升模型上下文长度,Unsloth优化让古董GPU焕发新生。 核心内容: 1. Unsloth优化DeepSeek-R1同款GRPO算法,显存需求降至5GB 2. 推理模型训练显存大幅下降,上下文长度增加10倍 3. 与Flash Attention 2结合,Unsloth大幅降低VRAM使用,提高效率
开源微调神器Unsloth带着黑科技又来了:上次更新把GRPO需要的内存见到了7GB,这次只需要5GB的VRAM,就能训练自己的推理模型Qwen2.5(1.5B),比上次要少2GB。
减少长上下文90%VRAM
和使用Flash Attention 2的标准实现相比,Unsloth使用多种技巧,巧妙地把GRPO的VRAM使用量减少了90%多!
数学原理
分组相对策略优化(Group Relative Policy Optimization,GRPO),出自DeepSeek去年发表的论文。
torch.exp(q-q.detach()) * advantages.unsqueeze(1)
使用参考实现的常规GRPO(红线)
移除detach代码(蓝线)
按照之前讨论的完整反向KL,添加额外项(黄线)
Unsloth高效GRPO算法
其他功能
from unsloth import PatchFastRLPatchFastRL("GRPO", FastLanguageModel)model, tokenizer = FastLanguageModel.from_pretrained(model_name = "meta-llama/meta-Llama-3.1-8B-Instruct",max_seq_length = max_seq_length,load_in_4bit = True, fast_inference = True, max_lora_rank = lora_rank,gpu_memory_utilization = 0.6, float8_kv_cache = True, )
如果想在vLLM中使用min_p=0.1或其他采样参数,也支持传递vLLM的SamplingParams参数中的任何内容!
max_prompt_length = 256from trl import GRPOConfig, GRPOTrainerfrom unsloth import vLLMSamplingParamsvllm_sampling_params = vLLMSamplingParams(min_p = 0.1,seed = 3407,...)training_args = GRPOConfig(...vllm_sampling_params = vllm_sampling_params,temperature = 1.5,)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-22
Mistral Forge 的真正意义:企业AI从“租用”走向“拥有”
2026-03-21
马斯克再次站台Kimi,扒掉了Cursor 500亿估值的底裤
2026-03-19
MiniMax M2.7 炸场!自己训自己,8 项基准硬刚 GPT-5 和 Opus 4.6
2026-03-17
【淘宝直播数字人互动LLM】告别AI感:基于真人ASR数据的拟人化探索
2026-03-03
罕见!Meta、OpenAI、xAI联合分享了用生产环境提升LLM的最佳实践!
2026-02-13
工具调用准确率从60%飙到95%?我用这个‘解耦微调’把Qwen-7B救活了
2026-02-05
普林斯顿大学RLAnything:AI学会一边学习一边给自己打分
2026-02-04
Agent 越用越聪明?AgentScope Java 在线训练插件来了!
2026-01-04
2026-01-18
2026-01-02
2026-01-01
2026-02-04
2026-01-19
2026-01-03
2025-12-30
2026-01-07
2026-01-10
2026-01-02
2025-11-19
2025-09-25
2025-06-20
2025-06-17
2025-05-21
2025-05-17
2025-05-14