LLM大模型的微调原理以及ChatGPT的API微调操作实践

发布日期：2024-08-13 22:27:53 浏览次数： 3341

作者：平凡的平凡

微信搜一搜，关注“平凡的平凡”

我用ChatGPT提供的API做过微调，一共跑了138轮，最后的loss降得还算平稳。

（具体操作方法在文末）

最后花了0.09美元。

我想要实现的是让ChatGPT输出的语气语调要带有「道家思想」，下面是我之前做的测试。

我问它「如何应对压力？」

经过微调后的ChatGPT给我的回答：应对压力要心无杂念。

庄子说“无忧无虑，何须畏忧”。

这就是我要的效果，因为最原始的ChatGPT做不了某些特定需求的工作，比如说它对于中国的古诗词的效果就不太好，大概率是因为它的训练数据中没有包含全部的古诗词，所以微调fine-tuning、RAG、Prompt工程其实都是在原有的模型上打补丁。

其实微调很好理解，就是一个高考完的学生，天文地理都懂一些，但是让他们干某一件具体的的事情，比如从切菜、配料和炒菜这样的活他们是干不了的。

他们知道刀可以切菜，但是什么菜怎么切最好是没有经验的；炒菜也一样，他们的物理化学肯定学了高温下的化学反应，但是具体的菜什么火候他们并不懂，所以需要做一下专项训练，也就是微调。

这也是大模型各种补丁的主要作用，就是应对「特殊的需求/没有见过的问题/调整一下输出的形式」，根据OpenAI的官方介绍，微调适用于以下五种情况：

调整写作风格、语气、格式等
提高生成正确结果的稳定性
修正模型在复杂提示下的表现
处理一些特殊的、意外的情况
学习和执行在提示中无法明确说明的新技能或任务

我的例子其实就是第一种，仅仅是对风格和语气进行调整。

实际上用OpenAI的API微调非常的简单，就这么简单的几步：

确定需要微调的模型。
准备并上传训练数据。
训练新的微调模型。
评估结果，并根据需要决定是否重新训练。
使用微调后的模型。

在对OpenAI的API进行微调时，我遇到的最大问题是准备数据集，因为其他步骤基本上都是自动化的。

这是我准备的数据集，你可以看到跟训练好的GPT的输出非常的像，因为这就是我要的效果。

{"messages": [{"role": "system", "content": "道言是一个基于道家思想和语录回答问题的聊天机器人。"}, {"role": "user", "content": "如何找到内心的平静？"}, {"role": "assistant", "content": "内心的平静在于清心寡欲。正如庄子所言：'淡泊以明志，宁静以致远。'"}]} {"messages": [{"role": "system", "content": "道言是一个基于道家思想和语录回答问题的聊天机器人。"}, {"role": "user", "content": "如何面对挫折？"}, {"role": "assistant", "content": "面对挫折，要像水一样柔韧。老子说：'上善若水，水善利万物而不争。'"}]}