大模型微调训练：从理论到实践

发布日期：2024-09-25 08:32:18 浏览次数： 4545

作者：芝士AI吃鱼

微信搜一搜，关注“芝士AI吃鱼”

1. 引言

今天我们来深入探讨一下大模型微调这个话题。你可能听说过，微调大模型就是点点鼠标，下一步下一步就行了，对吧？但是，如果在实际项目中真的要你去微调一个大模型，那可就不是这么简单了。

想象一下，你接到了一个任务，需要用大模型来解决问题。这时候，你脑子里可能会冒出很多问题：现有的大模型能直接用吗？如果不行，需要什么规模的模型来训练？需要多少显卡和数据？你可能会想，"越多越好"呗。但是，这么回答可不够专业。

接下来，我们就一步步来看看，如何科学地回答这些问题。

2. 基础概念

在我们深入讨论之前，先来了解一些基本概念：

FLOPS（注意全大写）：这是"Floating Point Operations Per Second"的缩写，意思是每秒浮点运算次数。我们用它来衡量硬件的性能。比如，当我们说一个GPU有100 TFLOPS的性能时，意味着它每秒可以进行100万亿次浮点运算。
FLOPs（注意大小写）：这是"Floating Point Operations"的缩写，指的是浮点运算次数。我们用它来衡量算法或模型的复杂度。例如，当我们说一个模型需要1万亿FLOPs来训练时，意味着整个训练过程需要进行1万亿次浮点运算。

理解这两个概念的区别很重要，因为它们将贯穿我们接下来的讨论。

3. 大模型理论最小计算量

当我们开始规划大模型训练时，首先需要估算理论最小计算量。这个计算量可以通过下面的公式来估算：

FLOPs = 6 * 模型的参数量 * 训练数据的token数

你可能会问，为什么是6呢？这个6代表了每个token在模型正向传播和反向传播时需要的基本运算次数。具体来说：

正向传播：每个参数大约需要2次浮点运算（一次乘法，一次加法）
反向传播：计算梯度时，每个参数也需要约2次浮点运算
参数更新：更新每个参数又需要约2次浮点运算

所以，2 + 2 + 2 = 6。

举个例子，假设我们有一个10亿参数的模型，要用100亿token的数据来训练，那么理论最小计算量就是：

6 * 10^9 * 10^10 = 6 * 10^19 FLOPs

这个数字看起来很大，对吧？但别担心，我们接下来会讨论如何将这个理论计算量转化为实际的训练时间估计。

4. 训练内存需求分析

了解了计算量，我们还需要考虑内存需求。在训练大模型时，内存主要用于以下几个方面：

模型参数（float32）：每个参数需要4字节的存储空间。所以，模型参数所需内存 = 模型参数量（B） * 4GB
反向梯度（float32）：反向传播时，我们需要为每个参数存储其梯度。这部分内存需求等同于参数量。反向梯度所需内存 = 模型参数量（B） * 4GB
优化器参数：如果我们使用Adam优化器（这是很常见的选择），每个参数还需要额外的内存。为什么呢？因为Adam需要使用32位浮点数来进行精确计算，否则使用16位浮点数可能导致误差累积，模型难以收敂。
具体来说，每个参数需要：
所以，Adam优化器所需内存 = 模型参数量（B） * 12GB
如果使用像SGD这样的简单优化器，可以省掉variance的存储，只需要8字节。

4字节的32位版本（正向传播用16位，优化时用32位，这叫做mixed-precision）
4字节的momentum
4字节的variance
正向传播状态：在极限情况下，我们可以选择每次都重新计算中间状态，而不是存储它们。这种方法叫做激活重计算（activation recomputation）。虽然会增加计算量，但可以大大减少内存使用。
不过，需要注意的是，正向传播的中间状态（activation）数量与batch size成正比。batch size越大，每次读取模型参数能做的计算就越多，这样对GPU内存带宽的压力就越小。但是，正向传播的中间状态数量也会相应增加，可能使GPU内存容量成为瓶颈。

假设我们有一个10亿参数的模型，使用Adam优化器，那么最小训练内存需求大约是：

(4GB + 4GB + 12GB) * 10 = 200GB

这就是为什么训练大模型通常需要多卡甚至多机并行的原因。

5. 大模型训练耗时估计

知道了理论计算量，我们就可以估算训练时间了。但是，实际训练时间不仅取决于理论计算量，还与硬件性能和利用率有关。让我们来看看如何进行粗略的估计：

首先，我们需要考虑激活重计算技术。使用这种技术，对于每个token，每个模型参数，我们需要进行：

1次前向传递
2次后向传递
1次额外的前向传递（用于重计算）

重计算方法：正向传播中间状态占的内存太多了，可以用算力换内存，就是不存储那么多梯度和每一层的正向传播的中间状态，而是在计算到某一层的时候再临时从头开始重算正向传播的中间状态，这样这层的正向传播中间状态就不用保存了，论文：《Reducing Activation Recomputation in Large Transformer Models》

所以，总共是1 + 2 + 1 = 4次基本操作，每次操作包含2次浮点运算。因此，最终的计算量是：

实际FLOPs = 8 * tokens数 * 模型参数量

有了这个，我们就可以估算训练时间了：

训练时间 = (8 * tokens数 * 模型参数量) / (GPU数量 * 每个GPU的峰值FLOPS * GPU利用率)

这里的GPU利用率是个关键因素。一般来说，GPU利用率在0.3到0.55之间。为什么不能达到100%呢？因为在实际训练中，我们还需要考虑：

CPU加载数据的时间
优化器更新参数的时间
多卡之间的通信时间
记录日志的时间

所有这些因素都会降低GPU的有效利用率。

6. 常见显卡算力峰值

说到GPU，我们来看看一些常见显卡的算力峰值（以FP16精度为例）：

NVIDIA A100 80GB PCIe：312 TFLOPS
NVIDIA A10 24GB PCIe：125 TFLOPS
NVIDIA A800 80GB PCIe：312 TFLOPS

知道这些数据后，我们就可以更准确地估算训练时间了。比如，假设我们用8张A100卡来训练，GPU利用率为0.5，那么有效算力就是：

8 * 312 * 0.5 = 1248 TFLOPS

7. 训练模型参数量与训练数据量的关系

在规划训练时，我们还需要考虑模型参数量和训练数据量之间的关系。根据研究，我们有以下发现：

OpenAI在2020年的研究"Scaling Laws for Neural Language Models"给出了一些初步的结论。
更进一步，DeepMind在2022年的研究"Training Compute-Optimal Large Language Models"提出了一个简略版的结论：每个参数大约需要20个文本token。

这个结论非常有用。比如，如果你有一个10亿参数的模型，那么理想的训练数据量应该在200亿token左右。

需要注意的是，这个比例并不是固定不变的。随着模型规模的增大，这个比例可能会有所变化。但作为一个初步估计，这个"1:20"的比例是一个很好的起点。

8. epoch的设置

在传统的机器学习中，我们常常会进行多轮（多个epoch）的训练，以便模型能够充分学习数据中的模式。但在大语言模型（LLM）的训练中，情况有些不同。

首先，让我们回顾一下epoch的定义：一个epoch指的是模型训练过程中完成一次全体训练样本的全部训练迭代。

在LLM时代，很多模型的epoch只有1次或几次。为什么会这样呢？让我们来看看一些研究发现：

数据重复对模型性能的影响：根据研究"To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis"，多轮epoch的训练实际上会降低模型性能。
数据量和模型规模的关系：模型参数规模的增长与模型需要的tokens数量基本上是呈线性关系的。这意味着，随着模型变大，我们需要更多的不重复数据。
数据质量的影响：即使提高数据集的质量，也无法完全挽救重复训练带来的过拟合问题。
模型规模的影响：有趣的是，无论是小规模还是大规模模型，在重复训练时都表现出类似的过拟合趋势。
正则化技术的作用：Dropout是一个在大语言模型训练中常被忽视的正则化技术。虽然它可能会降低训练速度，但能有效减少多epoch训练的负面影响。一个有效的策略是在训练过程中逐渐增加dropout率。

在大模型训练中，我们倾向于使用更大的数据集和更少的epoch，而不是在同一数据集上反复训练。这不仅能提高模型性能，还能节省计算资源。