一句话说清预训练和微调的本质区别

发布日期：2024-08-23 07:08:16 浏览次数： 6216

作者：大魏分享

微信搜一搜，关注“大魏分享”

一、一句话说清预训练和微调的本质区别

预训练的目标、采用的数据集、需要的GPU数量都不同。但如果要从深度学习训练本质说清区别，它是：

预训练采用随机初始化模型参数的方式，构造模型，然后通过大量的未打标签数据进行训练，学习语料的通用特征；而微调会从预训练模型中加载参数，保留了预训练过程中学到的通用特征，通过少量高质量的打标签语料来训练模型，以提高模型在特定任务上的能力和性能。

上文提到的参数包含：权重,偏置,Word Embeddings,Positional Encoding,注意力机制参数等。

二、展开说明

接下来，我们详细展开说明。

预训练（Pre-Training）

预训练的主要目标是通过大规模的无监督数据集（如文本语料库）来学习语言的基本结构和语义特征。预训练通常涉及以下步骤：

随机初始化权重：模型的参数，如权重和偏置在预训练开始时是随机初始化的。
大规模数据集：使用大量的无监督数据进行训练。
学习通用特征：模型通过优化损失函数（如语言模型的交叉熵损失）来学习语言的通用特征。

预训练的关键点

随机初始化：模型的所有参数（权重、偏置等）在预训练开始时是随机的。
大规模数据：使用大规模的无监督数据集进行训练。
通用特征：学习语言的基本结构和语义特征，为后续任务提供一个良好的起点。

微调（Fine-Tuning）

微调的主要目标是通过特定任务的数据集来优化模型在该任务上的性能。微调通常涉及以下步骤：

加载预训练权重：模型的权重和偏置从预训练模型中加载。
特定任务数据：使用特定任务的数据集进行训练。
优化特定任务性能：模型通过优化损失函数来调整参数，以提高在特定任务上的性能。

微调的关键点

加载预训练权重：模型的参数从预训练模型中加载，保留了预训练过程中学到的通用特征。
特定任务数据：使用特定任务的数据集进行训练。
任务优化：进一步调整模型参数，以优化在特定任务上的性能。

总结：

训练效率：预训练通常需要大量的计算资源和时间，因为它需要在大规模数据集上训练模型的所有参数。而微调则相对高效，因为它在预训练模型的基础上进行，只需要进一步优化特定任务的数据。
模型性能：预训练模型已经学习了语言的通用特征，这使得微调能够更快地收敛，并且在特定任务上表现更好。直接从随机初始化开始训练特定任务模型，通常需要更多的数据和时间，且性能可能不如预训练+微调的方式。
应用场景：预训练模型可以作为通用的基础模型，适用于多种下游任务。通过微调，可以快速适应不同的任务需求，而不需要从头开始训练模型。

三、预训练代码展示

我们以GPT2为例

https://huggingface.co/docs/transformers/v4.44.0/en/model_doc/gpt2#transformers.GPT2LMHeadModel

如果要对GPT-2进行预训练加载，需要使用到GPT2LMHeadModel和GPT2Config这两个类。

由于模型很小，单卡H100就能预训练：

训练后的模型可以进行推理验证。

四、微调代码展示

我们微调一个模型，通常指的是Supervised Fine Tuning。SFT又分为Parameter-Efficient Fine-Tuning (PEFT) 和 Full Fine Tuning。

PEFT实现中，目前像LoRA,QLoRA，GA-LoRA都比较流行。

我们先看Full Fine Tuning加载模型的方式，调用的是AutoModelForCausalLM.from_pretrained的类，它会获取预训练模型的参数。

model = AutoModelForCausalLM.from_pretrained(model_name, attn_implementation=attn_implementation, device_map={"": 0})model.gradient_checkpointing_enable(gradient_checkpointing_kwargs={'use_reentrant':True})

关于完整的预训练代码，参考repo中：

https://github.com/davidsajare/david-share.git

下的：DeepLearning/SmolLM-Full-Fine-Tuning

接下来我们看微调、LoRA和QLoRA在代码实现上的区别。

在加载模型和训练参数方面，全微调、LoRA和QLoRA有以下区别：