终于搞懂了梯度下降和scaling law, 原来OpenAI 4 年前早已验证

发布日期：2024-08-15 16:53:05 浏览次数： 4515

作者：博金斯的AI笔记

微信搜一搜，关注“博金斯的AI笔记”

最近我看了 2020 年 OpenAI 发布的论文《Scaling Laws for Neural Language Models》, 看完这篇论文我才终于理解AI 行业经常提到的scaling是什么,比如很多人都在讨论 "Scaling 能通往 AGI 吗？"

上个月了解Transformer 入门框架和为什么现在都不说BERT,甚至不提模型架构了?

在后一篇文章中，我介绍了2023年一位OpenAI员工在其博客中讨论的模型架构和数据对模型质量生成的影响。此外，我也提到了上个月前谷歌科学家Yi Tay关于各类模型架构的文章及他对模型架构与数据重要性的讨论，这些内容在AI界引发了短暂的关注。

回顾这篇2020年的论文，尤其是在GPT-3.5尚未席卷全球之前，OpenAI已经在训练过程中识别出对模型性能影响最显著的因素，并提出了这些因素的平滑性和可预测性实践规律：

“
language modeling performance improves smoothly and predictably

看了有三十多篇论文, 收获最大的,大都是 OpenAI早在人们研究 GPT 之前发布的,包括这里说到的 scaling Law, 包括 Prompt和 GPT 系列论文

这篇文章除了介绍 Openai 对 scaling law 的研究, 首先对模型的基本组成部分如梯度下降,损失函数以及模型参数的组成部分等概念进行了讲解，以帮助读者更好地理解Scaling相关的实践规律（注意，这些规律并非通用的恒定理论）

01

首先介绍 Transformer 模型的参数是怎么计算的, 包括哪些部分 :

(1）Embedding 层：用于将输入的标记（token）映射到高维的词嵌入空间，参数的数量取决于词汇表的大小（Vocabulary Size）和词嵌入的维度（Embedding Dimension,一般为 4096）

(2）Transformer 层：每个 Transformer 层包括多个子层，包括自注意力层self-attention layer, 一般有多个自注意力层和前馈神经网络层feedforward neural network layer,一般有两层全连接层；参数的数量取决于每个子层的权重和偏置参数数量，以及模型中的 Transformer 层数

(3）Layer Normalization：归一化层通常用于规范模型中间层的输出，这些层的参数数量取决于归一化层的输入维度

(4）Output 层：大多数语言模型在最后添加一个用于分类的线性层，用于将模型的输出映射到分类标签

在OpenAI scaling law 的图表中, 参数有时是排除 Embedding 层的

02

梯度消失, 梯度爆炸,梯度下降,损失函数到底是什么?

首先，我们来解释反向传播，因为模型是在反向传播的过程中进行训练的。训练模型的目的是找到权重等参数，让每一次正向传播时将损失降到最低，而反向传播算法正是找到这些最佳参数的一种方法

反向传播的简单理解：

反向传播是一种算法，用来计算每个参数对损失函数的影响（梯度）。通过反向传播，模型从输出层开始，逐层向回传递梯度到输入层。这样做的目的是找到一组最优的参数，使得模型的损失函数（预测结果和实际结果之间的差异）最小化

想象一下，A传话给B，B再传给C，C再传给D，最后D传给E。这是一个正向传播的过程：信息从A传到E

但是，当信息从A传到E时，可能会有一些变化或错误。E听到的内容和A最初传的话之间的差距就是我们说的“损失”或“loss”

为了让E能准确地听到A的话，我们需要通过训练不断调整传话的过程。这就是反向传播的过程：我们从E听到的内容开始，倒推回去，找到每个环节的问题并修正，直到A传的话能够正确地到达E

在这个过程中，我们通过调整“声音的大小”来改善传话效果。这个“声音的大小”可以类比为神经网络中的权重

权重合适时, 从 E 传到 A,大家都能听清楚, 权重不合适时, 比如如果声音太大，每个人都大声传话，声音可能会过于强烈，强烈到NaN 的程度，这就是“梯度爆炸”;相反，如果声音太小，信息会逐渐变弱，直到几乎听不见，这就是“梯度消失”

这个从 A 传到E 的概念也可以理解为神经网络从一层传到另一层

梯度Gradient是损失函数相对于权重参数的导数, 表示损失上升/下降的速度, 每一批次训练数据的大小 batch size 就主要由噪音的梯度变化决定

梯度为负数, 表示损失下降,也就是梯度下降, 我们希望达到的就是梯度下降 gradient descent;梯度为正数, 损失上升, 且绝对值越大, 上升/下降的速度越大,这种情况一般出现在我们需要最大化目标函数,找到最高点时

而在损失函数里, 我们是想要损失最小, 所以梯度下降会提到地更多, 在上图中,处于左半部分的区域

优化后的表达如下：

为了应对深度学习中的梯度缩小和梯度爆炸问题，通常用以下策略：

残差连接（Residual Connection）：在Transformer模型中，通过允许原始输入直接传递至网络的更深层，这种方法有助于防止信息在深层网络中丢失。
残差网络（ResNet）：在深层的卷积神经网络（CNN）中，残差连接用于解决梯度消失问题。对于浅层CNN，梯度消失现象较少发生。残差网络的广泛应用使得训练极深的网络成为可能。
LSTM和GRU：这两种循环神经网络（RNN）的变体通过引入门控机制来解决梯度消失问题。
层归一化（Layer Normalization）：通过对神经网络每一层的输出进行归一化处理，使其均值为0，方差为1，这有助于保持梯度在稳定范围内，减少梯度消失问题，并稳定训练过程。层归一化多用于RNN和Transformer;层归一化通常与激活函数一起使用，激活函数一般放在中间层，以确保网络的非线性特性和梯度的稳定性
激活函数：激活函数用于引入非线性，使神经网络能够处理复杂和非线性的数据。以下是几种常见的激活函数：

Sigmoid：输出范围在0到1之间
Tanh：输出范围在-1到1之间
ReLU：对于正输入，输出等于输入值；对于负输入，输出为0。ReLU在正区间的梯度恒为1，有效避免了梯度消失问题。
梯度修剪（Gradient Clipping）：这是一种处理梯度爆炸的策略，通过设定阈值来限制梯度的最大值

03

Openai 2020 这篇论文观察到的Transformer模型 scaling 的规律, 几乎都是围绕上面说的损失函数讲的

论文研究的模型架构, 模型参数大小N, 数据集大小D,算力大小C对模型性能影响, 这里面主要是后 3 个对模型有影响Performance depends strongly on scale, weakly on model shape, 而模型架构的超参数, 隐藏中间层的层数和每一层神经元的数量大小经实践并没有对模型有多大影响

在为什么现在都不说BERT,甚至不提模型架构了?列出的一位 openai 员工的博客上, 他也观察到同样的现象

Scale 包括的因素就主要是上面的模型参数大小N, 数据集大小D,算力大小C, 我们经常见到的 Scale up 就是不断增加这 3 个因素的大小和资源

我们去年看 GPT3.5 更新到参数更大的GPT4, 开源 llama,qwen 既有 14B 的又有72B,这些参数有大有小, 不断增加 xxB 的过程可以理解成持续的 Scale up

不断 Scale up 在目前的实践观察中, 确实最能直接提升模型的性能

同时模型参数N,数据集D,算力C 之间是有幂律关系 power laws,超过 6 个数量级(100 万)范围都能观察到这种关系,且模型越大,这个关系越明显

具体来说，如果我们增加其中一个因素（比如参数数量N），并且另两个因素（D和C）也相应增加，那么模型性能会显著提升。但是，如果我们只增加N，而D和C保持不变，那么N的增加不会带来明显的性能提升，因为D和C可能会成为限制因素（瓶颈）

Training curves follow predictable power-laws 训练损失曲线也是幂律规律,并且这个幂律规律的参数不受模型大小的改变而改变, 观察到早期的规律, 可以直接预测更大规模训练的规律, 这对于优化训练时间和资源使用非常有帮助，尤其是在需要决定是否继续训练模型的时候

通过这个角度,我们再看过去的 RNN 架构

下面两张图展现了Transformers在处理复杂、长距离依赖问题上的优势，解释了为什么在许多自然语言处理任务中，Transformers逐渐取代了LSTMs

左图:

随着模型参数数量的增加，Transformers和LSTMs的测试损失都在下降，但Transformers的下降幅度更大特别是在参数数量达到一定规模时，Transformers的损失值显著低于LSTMs，表明在处理更大规模的模型时，Transformers的性能更好

右图:

对于LSTM来说，在处理到大约100个词后，其性能基本不再提升，甚至出现了平台期plateaus（即曲线趋于平坦) Transformers在长上下文场景中的优越性，表现出更好的泛化能力和更低的损失

接下来探讨不同算力, 参数大小, 数据集是怎么影响 loss 损失的

左图:

随着模型参数数量的增加（从紫色到黄色），在相同的词元处理数量下，测试损失值降低得更快。这意味着较大的模型需要处理较少的样本即可达到与较小模型相同的性能

换句话说，参数多的模型比参数小的模型更能高效地学习，达到相同性能所需的训练数据和所需的步数更少Sample efficiency

Figure2 右图:

较大的模型随着计算资源的增加，损失值的降低更加显著。这表明，较大的模型可以更好地利用计算资源来提升性能

但是在图的右下方可以看到，训练在接近收敛之前就停止了，这说明计算资源高效的策略下, 使用的算力在大多数情况下远低于收敛所需的量

Overfitting:

同步增加模型参数数量（N）和数据量（D），模型的性能就会按预期地提升;

而如果只增加 N 或者只增加D, 其他两个因素保持增长, 带来的性能提升将会不明显,出现过拟合Overfitting和性能损失

根据实验, N 和 D 的比例大概是N^{0.74}/D .如果我们将模型规模增加8倍（8x），那么为了避免性能损失，我们只需要将数据量增加大约5倍（5x）

上面两图显示: 随着模型参数数量的增加，损失整体上呈下降趋势，且算力资源和step 步数越多的, 下降得越快

左图:

对于非常大的模型，如果计算资源（PF-days）不足，模型可能未能充分训练，尚未达到最佳状态就停止训练

在每个紫色和蓝色曲线的右边，我们看到一些较大参数的模型在较低的计算预算下损失值逐渐升高,梯度上升，表明这些模型可能因计算资源不足而未完全收敛,未达到最低损失梯度就停止训练

模型收敛（convergence）: 在训练神经网络或其他机器学习模型时，我们通过反复调整模型的参数，使模型的预测结果逐渐逼近真实值。随着训练的进行，模型的损失函数值（表示预测与实际之间的差距）通常会逐渐降低

当损失函数的值在多次迭代后不再显著下降，或者保持在一个稳定的低水平时，我们就说模型已经收敛了。这意味着模型已经学到了数据中的模式，进一步的训练不会显著改善其性能

收敛是训练过程中的一个关键目标，表明模型已经达到了最佳或接近最佳的状态。继续训练收敛后的模型可能会导致过拟合

算力增大对模型参数增大.batch size增大, step 增大的不同比例影响:

当我们有了更强大算力时，大多数的计算能力应该用来让模型参数变得更大，这样它才能学得更好

少部分计算能力可以用来让每次训练用的数据更多

(前面提到的batch size 相关概念) "根据实验, N 和 D 的比例大概是N^{0.74}/D .如果我们将模型规模增加8倍（8x），那么为了避免性能损失，我们只需要将数据量增加大约5倍（5x）,来避免过拟合overfitting"

"在训练大型深度学习模型时，最佳的批次大小batch size主要取决于模型训练中的损失值.,有种幂律关系，并且可以通过测量训练过程中梯度的噪声来确定。对于当前可训练最大规模的模型175B，在接近收敛时，最佳的批次大小大约是1M到2M个词元"

而很少的一部分计算能力用来增加训练的次数

“
参数多的模型比参数小的模型更能高效地学习，达到相同性能所需的训练数据和所需的步数更少Sample efficiency

Transfer Learning 迁移学习

即使测试数据和训练数据的分布不一样，模型的表现（损失值loss）和训练集上的表现大致保持一个固定的差值; 当模型在训练数据集的性能变好时，模型在不同分布的数据上的表现（即“迁移”性能）也会相应改善

右图模型的泛化性能主要取决于它在训练时损失上的表现，这意味着只要我们能在训练数据上取得好的表现，那么在其他分布上的表现也会相应改善，虽然可能存在一定的性能损失，但这种损失在训练的各个阶段都相对稳定

左图新数据越跟训练数据类似, 模型效果会更好,比如左图的 WebText2 数据(GPT 就主要用 Web 数据训练的), 但整体差异不大, 都会随着模型大小的增加性能增加

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业