Google DeepMind研究新成果：让大模型学会说“我不知道”，探寻幻觉根源，打造可信赖AI！

发布日期：2024-05-28 19:15:36 浏览次数： 2941

作者：NLP前沿

微信搜一搜，关注“NLP前沿”

文章出发点：了解大模型的幻觉根源，构建更值得信赖、更可靠的大模型。（我们去年也用类似的方法来调优RAG的拒绝回答，在去年的文章中提过）

标题：Unfamiliar Finetuning Examples Control How Language Models Hallucinate

https://arxiv.org/html/2403.05612v1

1. 背景-了解LLMs如何产生幻觉

假设：经过微调的LLMs倾向于默认采用一种“对冲”预测。这种预测的形式由微调数据中不熟悉样本决定。对冲预测类似于一个“盲目猜测”，它在不熟悉的微调示例上最小化了总体微调损失。

一个小实验验证假设如下：上下对应2个分布比例，上面的模型熟悉与不熟悉的a，b，c，d 比例均为均匀分布（即是各50%），下面模型不熟悉的部分 b，c比例为50% 50%，熟悉的部分均匀分布；横轴从左往右，表示测试输入越来越陌生。上面的4个图，越往右，预测的a，b，c，d 越均匀，粘合在一起了。下面4个图，模型倾向于预测b，c，而a，b几乎为0了。(还有一个强化学习验证假设的实验，这里不贴了)。说明对不熟悉的样本的预测，模型倾向于回复符合训练样本中的一种分布，作者称这为“对冲”。

2. 幻觉消除之重标记“我不知道” + sft微调

通过识别微调数据中模型无法生成正确答案的示例（即不熟悉的微调示例）并将其目标答案重新标记为弃权响应，相当于引导微调后的模型产生的对冲预测为弃权响应-“我不知道”，这样可以导致更高的准确性。在下图中，我们可以看到，随着测试输入变得越来越陌生，经过重新标记的微调的 SFT 模型会生成更多“我不知道”的回复。

基于 SFT 的方法需要修改微调样本的目标响应回复，表达对不熟悉样本的不确定性。构建这些响应回复通常需要人工标记，可能会比较昂贵。此外，由于不同的模型具有不同的知识库，因此这种方法需要为每个模型定制微调数据集，从而限制了其在引入新模型的现实场景中的实用性。

3.幻觉消除之RL

基于强化学习的方法提供了一种替代方案，通过使用奖励来评估模型生成文本的真实性，从而消除对模型特定的、人类标注的目标响应的需要。

使用奖励模型的挑战是：当在 RL 微调期间遇到不熟悉的查询/响应对时，奖励模型本身可能缺乏确定响应准确性的内部知识。例如，不知道姚明的奖励模型可能会错误地将正奖励分配给模型生成的“姚明是一位中国AI大牛”，即使响应完全错误。这种奖励幻觉可能会推动整个系统朝着激励幻觉的方向发展，从而抑制该方法的效果。

文章中，作者提出了一个保守奖励模型，希望奖励模型在无法确定模型响应的真实性时始终低估奖励（而不是高估）。而学习保守奖励模型的关键是使用微调数据集，其中所有不熟悉的示例都具有低值的奖励标签。

下图为用于训练保守奖励模型的数据生成过程。使用与用于微调奖励模型的模型相同的基本模型来生成样本，因为此数据生成过程中的示例对于熟悉的输入往往更符合事实，而对于不熟悉的输入则更不正确。将数据集中模型不熟悉的样本与较低的奖励相关联。可以在下图右侧的图中看到不熟悉的样本，奖励是最低的。

4. 结论

2个任务：biography generation and film/book plot generation，传记生成和电影/书籍情节生成

保守的奖励函数在针对陌生的样本的时候，会给出更低的奖励值，而标准的奖励函数，则会明显高估不熟悉的样本，与真实奖励之间有一个明显的gap.
下图为随着输入变得更加陌生，使用标准 SFT、使用标准奖励模型的强化学习和使用保守奖励模型的强化学习进行微调的模型生成的真假事实的平均数量。

随着输入变得更加陌生，标准 SFT 模型生成的真实事实越来越少，而虚假事实也越来越多
用保守奖励模型训练的 RL 模型与标准 SFT 模型进行比较，可以看到 RL 模型生成了相同或更多的真实事实，同时在所有输入不熟悉级别上生成的虚假事实显着减少。
比较这两个 RL 模型，可以看到，虽然这两个模型生成了相同数量的真实事实，但使用保守奖励模型训练的模型在输入不熟悉的所有级别上生成的虚假事实要少得多。