聊聊Llama-Factory微调之loss计算与上下文长度

发布日期：2024-07-31 07:19:54 浏览次数： 5401

作者：阿郎小哥的随笔驿站

微信搜一搜，关注“阿郎小哥的随笔驿站”

背景

github issue：关于多轮对话的loss计算^[1]。

该issue是之前我提给Llama-Factory的，主要是想了解下该框架微调时的Loss计算逻辑，其实就是mask的排列。一般使用Llama-Factory直接微调就完了，不需要也不会在意其内在的逻辑；但我是因为使用了Llama-Factory微调训练后，效果很差，才去了解其逻辑。我个人觉得，除却微调数据集的格式与质量外，还有两个需要关注的因素：上下文长度与Loss计算。

上下文长度

模型的输入支持的序列长度是做微调时需要了解并注意的，很多人在准备数据集后，往往会忽略数据集的大小与模型上下文长度的限制，因此导致微调训练效果不理想。

以最近开源的GLM-4-9B-Chat-1M为例，该模型支持1M的上下文输入，在目前来说算是最长的上下文序列了。

单卡下的相关测评：

GLM-4-9B-Chat-1M

精度	显存占用	Prefilling	Decode Speed	Remarks
BF16	75 GB	98.4s	2.3 tokens/s	输入长度为 200000

虽说模型是支持1M上下文的输入，但是从机器配置与模型性能角度来考虑，建议是200K的上下文最好；需要超过200K的上下文，则需要考虑多卡部署推理，如基于vLLM等框架。

多卡部署的情况，以基于vLLM框架为例，关键的参数如下：

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

# GLM-4-9B-Chat-1M
# max_model_len, tp_size = 1048576, 4
# 如果遇见 OOM 现象，建议减少max_model_len，或者增加tp_size
max_model_len, tp_size = 131072, 1
model_name = "THUDM/glm-4-9b-chat"
prompt = [{"role": "user", "content": "你好"}]

即在4个并行的多卡下推理，支持的最长上下文是1M。

对于max_model_len参数的单位，即最长上下文参数的单位，一般是B。1 M = 1024 KB = 1024 * 1024 B；所以这里的参数值是 1048576。

更详细的内容，可参考GLM4官方文档：readme^[2]；basic_demo^[3]。

Loss计算

Llama-Factory微调框架的loss计算代码路径：code^[4]。

微调数据集展开后的格式为对话对，即 Q1 +A1 + Q2 +A2 + .... Q表示用户的输入内容；A表示AI的回复响应。

模型会将文本id化，即编码输入与输出。

在Loss计算的代码中，labels列表构建方式如下：

labels += [IGNORE_INDEX] * len(source_ids) + target_ids + [tokenizer.eos_token_id]

这里的labels列表对于每一轮对话（即每对Q和A），都会添加对应的target_ids（即A的编码）和eos标记。因此，对于每一轮对话的A部分，都会计算损失。

具体来说，代码的执行逻辑如下：

对于每个对话对（Q和A）：

source_ids 对应 Q 的编码。
target_ids 对应 A 的编码。
labels 列表中添加 [IGNORE_INDEX] * len(source_ids)，表示在 Q 部分的损失被忽略。
labels 列表中添加 target_ids 和 tokenizer.eos_token_id，表示在 A 部分计算损失。
拼接后的示例：

Q1 + A1 + Q2 + A2
IGNORE_INDEX * len(Q1) + A1 + IGNORE_INDEX * len(Q2) + A2

这意味着每一轮对话的 A 部分（即 A1 和 A2）都会计算损失，而不仅仅是最后一轮对话的 A 部分。

其结构图可理解为：

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-19

从 BERT 标注到 Agent Skill：短文本标签体系的四次“工业革命”

2026-05-14

多轮 Agent 场景下，滴滴的 EAGLE-3 训推加速实践

2026-05-06

谁说 Mac 只能写代码？Google 官宣：M 芯片本地微调 Gemma 4 时代开启！

2026-04-20

用 Unsloth 微调 Embedding 模型，让你的 RAG 检索不再答非所问

2026-04-15

ComfyUI v0.19.0 更新：大量新节点、新模型、新修复与性能优化全面落地，工作流与训练能力再升级

2026-04-13

Agent 持续学习落地路径：先做 Traces，再做 Context，最后才微调模型 | Jinqiu Select

2026-03-23

养死四只龙虾的小白有感

2026-03-22

Mistral Forge 的真正意义：企业AI从“租用”走向“拥有”

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

ComfyUI v0.19.0 更新：大量新节点、新模型、新修复与性能优化全面落地，工作流与训练能力再升级

2026-04-15

Agent 持续学习落地路径：先做 Traces，再做 Context，最后才微调模型 | Jinqiu Select

2026-04-13

用 Unsloth 微调 Embedding 模型，让你的 RAG 检索不再答非所问

2026-04-20

谁说 Mac 只能写代码？Google 官宣：M 芯片本地微调 Gemma 4 时代开启！

2026-05-06

多轮 Agent 场景下，滴滴的 EAGLE-3 训推加速实践

2026-05-14

从 BERT 标注到 Agent Skill：短文本标签体系的四次“工业革命”

2026-06-19

大家都在问

DeepSeek 发布新论文，提出全新 MHC 架构，有何创新与应用前景？

2026-01-02

LoAR做Fine-Tuning微调原理到底是什么？

2025-11-19

如何将 AI 代码采纳率从30%提升到80%？

2025-09-25

大模型微调，为什么99%的企业都不应该碰这个坑？

2025-06-20

万不得已，不要对 LLM 进行微调？

2025-06-17

可以将任何符合OpenAPI规范的接口转 MCP Server吗？

2025-05-21

OpenAI发布GPT-4.1系列模型，对行业最大吸引力是什么？

2025-05-17

私有部署大模型需要多少显存？

2025-05-14

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw