逻辑推理大升级！过程监督助力模型推理能力更强大

发布日期：2024-10-09 20:47:06 浏览次数： 3232

作者：NLP轻松谈

微信搜一搜，关注“NLP轻松谈”

由OpenAI的Hunter Lightman、Vineet Kosaraju、Yura Burda、Harri Edwards等作者撰写的Let's Verify Step by Step，文章探讨了在训练大型语言模型进行复杂多步推理时，过程监督（process supervision）与结果监督（outcome supervision）两种不同监督方法的效果比较。

结果监督（PRM）是一种监督学习方式，它侧重于模型的最终输出或结果。在训练过程中，模型仅根据最终结果的正确性（正确或错误）来接收反馈。这种监督方式不涉及中间步骤或推理过程的评价，而是关注最终答案是否正确。

过程监督（ORM）则提供了对模型中间步骤的反馈，强调在模型的整个推理过程中的每一步都得到评估和指导。这种监督方式不仅关注最终结果，还关注模型是如何达到这个结果的，即模型的推理过程是否合理和正确。

方法

数据预处理

所有的训练使用不同大小的原始 GPT4 模型进行 (不是 RLHF 版本的 GPT4)，其中，large model 就是完全体 GPT4。而小号模型是一个用了 1/200 训练资源的小号 GPT4。

在所有的实验开始之前，作者先对所有模型在一个叫做 mathMix 的数学题和解答的数据集 (1.5B) 进行微调。

PRM800K 数据集

基于微调的模型对问题生成一些多步的解答，然后人工标注员来对每一步标注。对于每一步标注分为三类：

正面（Positive）：表示这一步是正确的，并且是合理的，对解决问题有贡献。
负面（Negative）：表示这一步是不正确的，或者虽然在技术上正确但不合理，可能会误导解决方案的方向。
中性（Neutral）：表示这一步的合理性不明确，可能既不正确也不合理，但也不一定是错误的。中性标签可能用于那些虽然技术上正确但并没有推进解决方案，或者在上下文中看似合理但实际上可能会引起误解的步骤。

文章中提到了一个提高训练效率的方式：convincing wrong-answer。PRM 模型打分很高，但最终把答案做错的case。

整个过程是一个多阶段、迭代式的优化循环：

首先，generator 模型生成一批数据样本。这些样本随即被标注，为下一步做准备。接着，利用这批已标注的数据训练一个初始的 PRM（可能指 Prompt Response Model）模型。

然后进入关键的优化环节：系统会识别出一系列'令人信服的错误回答'。这些特殊样本极具价值，因为它们代表了模型最容易犯错的边界情况。这批样本随后被精心标注，用以进一步完善模型。

利用新增的标注数据，PRM 模型得以重新训练，其性能得到提升。然而，优化并未就此停止。系统会再次寻找新的'令人信服的错误回答'，重复标注和再训练的过程。

这个精心设计的优化循环持续进行了 10 轮之多。