大模型时代，GPT分类器会比BERT分类器更好吗？

发布日期：2024-09-29 18:56:05 浏览次数： 3082

作者：NLP轻松谈

微信搜一搜，关注“NLP轻松谈”

文本将回答训练LLM分类器的以下问题：

我们需要训练所有层吗？
为什么要微调最后一个 token，而不是第一个 token？
BERT 与 GPT 的性能相比如何？
我们应该禁用因果掩码吗？
增加模型大小有什么影响？
我们可以期待 LoRA 带来哪些改进？
填充还是没有填充？

1

微调语言模型的最常见方法是指令微调和分类微调。指令微调涉及使用特定指令在一组任务上训练语言模型，以提高其理解和执行自然语言提示中描述的任务的能力，如下图所示。

在分类微调中，该模型经过训练以识别一组特定的类标签，例如 “spam” 和 “not spam”。分类任务的示例不仅限于大型语言模型和电子邮件筛选;它们包括从图像中识别不同种类的植物，将新闻文章分类为体育、政治或技术等主题，以及在医学成像中区分良性和恶性肿瘤。

指令微调和分类微调模型相比，指令微调模型通常能够执行更广泛的任务。我们可以将分类微调模型视为高度专业化的模型，通常，开发专业化模型比开发在各种任务中都能正常工作的通用模型更容易。

2

修改预训练的大型语言模型，使其为分类微调做好准备。为此，将原始输出层替换为一个较小的输出层，该层将隐藏的表示映射到 50,257 个唯一标记的词汇表，该输出层映射到两个类：0（“非垃圾邮件”）和 1（“垃圾邮件”），如下图所示。

model = GPTModel(BASE_CONFIG)

for param in model.parameters():
    param.requires_grad = False
    
torch.manual_seed(123)

num_classes = 2

model.out_head = torch.nn.Linear(
    in_features=BASE_CONFIG["emb_dim"],
    out_features=num_classes
)
#最终的 LayerNorm 和最后一个 transformer 模块可训练
for param in model.trf_blocks[-1].parameters():
    param.requires_grad = True

for param in model.final_norm.parameters():
    param.requires_grad = True

下图所示的因果注意力掩码设置，序列中的最后一个标记积累的信息最多，因为它是唯一可以访问所有先前标记数据的标记。因此，在垃圾邮件分类任务中，我们专注于微调过程中的最后一个令牌。

3

我们需要训练所有层吗？

如表所示，训练所有层的性能略好：96.67% 对 95.00%。（不过，这将运行时间增加了大约 2.5 倍。

为什么要微调最后一个 token，而不是第一个 token？

BERT 这样的编码器风格的语言模型有一个指定的分类标记作为它们的第一个标记；GPT 是一种解码器风格的模型，带有因果注意力掩码。这意味着第一个标记在输入中没有任何其他标记的上下文信息。只有最后一个令牌包含有关所有其他令牌的信息。因此，如果我们想使用像 GPT 这样的模型进行分类微调，我们应该专注于最后一个标记来捕获所有其他输入标记的上下文信息。

BERT 与 GPT 的性能相比如何？

小型 GPT-2 模型和 BERT 在垃圾邮件分类数据集上表现相似。

在大一点的数据集IMDB Movie Review进行情感分类。

我们应该禁用因果掩码吗？

由于我们在下一个单词预测任务上训练类似 GPT 的模型，因此 GPT 架构的一个核心特征是因果注意力掩码（不同于 BERT 模型或原始的 transformer 架构）。

但是，我们实际上可以在分类微调期间删除因果掩码，这将允许我们微调第一个而不是最后一个标记，因为未来的标记将不再被掩码，并且第一个标记可以看到所有其他标记。

在类似 LLM只需要更改 2 行代码：

class MultiheadAttention(nn.Module):
    def __init__(self, d_in, d_out, context_length, dropout, num_heads):
        super().__init__()
        # ...

    def forward(self, x):
        b, num_tokens, d_in = x.shape
        keys = self.W_key(x)  # Shape: (b, num_tokens, d_out)
        queries = self.W_query(x)
        values = self.W_value(x)

        # ...

        attn_scores = queries @ keys.transpose(2, 3)

        # Comment out the causal attention mask part
        # mask_bool = self.mask.bool()[:num_tokens, :num_tokens]
        # attn_scores.masked_fill_(mask_bool, -torch.inf)

        attn_weights = torch.softmax(
             attn_scores / keys.shape[-1]**0.5, dim=-1
        )
        context_vec = (attn_weights @ values).transpose(1, 2)
        context_vec = context_vec.contiguous().view(
            b, num_tokens, self.d_out
        )
        context_vec = self.out_proj(context_vec)
        return context_vec