Skywork AI | 提出新框架：Q*，旨在解决大模型多步推理（Multi-step）错误问题

发布日期：2024-06-24 22:23:17 浏览次数： 3506

作者：AINLPer

微信搜一搜，关注“AINLPer”

引言

大模型(LLMs)在执行多步推理(Multi-step)时会出现的错误、幻觉和不一致陈述等问题。为此本文作者提出了一个新的框架：，通过学习一个Q值模型作为启发式函数，可引导LLMs选择最合适的下一步行动。该方法无需对每个任务进行LLMs微调，降低了计算资源开销，同时也避免了灾难性遗忘，在多种数据集上获得了优异的结果。https://arxiv.org/pdf/2406.14283

背景介绍

大模型（LLMs）在推理任务上展现出了卓越能力，例如如数学推理、代码生成和行动规划等。然而，LLMs在进行多步骤推理时，由于其自回归生成的特性，随着推理步骤数量的增加，很容易引入错误、幻觉和不一致的陈述。文章指出，LLMs的自回归生成过程可以被视为“System 1”思维模式，这种思维快速、本能但准确性较低。

最近大多数研究都侧重于通过以下方式提高LLM的“System 1”能力：1）构建更广泛专业知识复杂提示，来引导LLM的潜在能力，而无需修改参数。2）使用大量特定任务的语料来对LLM进行微调，但是该方法的代价会增加计算资源并且存在灾难遗忘的风险；3）通过训练奖励模型来对候选答案进行排序。

另一方面，解决复杂的推理问题需要更深入、更审慎和更合乎逻辑的思维步骤，即“System 2”模式。以解决数学应用题为例，任何错误的中间推理步骤（例如计算错误、误解）都可能导致错误的最终答案。当前增强“System 2” 推理能力的主要方法，包括使用基本树搜索算法（例如 BFS 或 DFS）、蒙特卡洛树搜索 (MCTS) 和 A* 算法等。

尽管如此，这些方法中使用的效用函数通常需要针对每个特定任务进行费力的专业知识设计，很难扩展到新的场景。此外，在解决具有许多推理步骤的问题时，使用MCTS进行推理时，在解决多步骤推理问题时需要大量的模拟，这显著减慢了整体的解码过程。

基于以上背景，本文作者提出了框架，旨在通过深思熟虑的规划来提高大模型（LLMs）在多步骤推理方面的能力。与现有的推理方法不同，框架不依赖于领域知识来设计启发式函数。而是通过使用即插即用的Q值模型作为启发式函数，它能够指导LLMs选择最有可能的下一步，从而有效解决多步推理任务。

框架

在使用大模型进行多步推理时，如果先前的任何步骤不正确，LLMs可能会在随后的推理过程中引入错误、幻觉和不一致的陈述，这可能导致问题无法解决。由于LLMs以固定的计算量生成每个标记，它们无法进行深入的深思熟虑，这对于解决复杂推理问题是必不可少的。为此，本文框架基于搜索算法，引导LLMs在执行多步推理时选择最有可能的下一步，而无需为每个任务提前进行微调。将寻找给定问题最合适的推理序列视为一个启发式搜索过程。在这个过程中，每个状态都有一个与之关联的值，该值是启发式值和从初始状态到当前状态的累积奖励的加权和。

其中，是平衡和的系数。具体来说，Q*提出使用基于过程的奖励函数来计算累积效用，该函数编码了推理任务的先验知识或偏好：

这里，是一个聚合函数，这种基于过程的奖励函数可以通过人类反馈、真实情况、规则学习。此外，使用状态的最优Q值作为启发式值。换句话说，值由下式给出：

（5）

由于在所有可能的下一步推理步骤中最大化是不切实际的，在实践中，Q*将替代方案限制为LLM返回的前K个步骤，即：

通过这种方法，Q*能够有效地指导LLMs在多步推理任务中进行决策，提高了推理过程的准确性和效率，同时避免了对模型进行大规模微调的需要。

关于「最优Q值」，可采用以下三种方法来得到：

「离线强化学习」：使用Fitted Q-iteration方法，通过迭代过程学习代理Q值模型。
「基于rollout的学习」：从当前状态执行随机rollout或MCTS，选择累积奖励最高的推理序列作为Q值标签。
「使用更强的LLMs」：使用更强大的LLM完成轨迹，估计状态-动作对的最优Q值。

一旦获得代理Q值模型，就可以将其代入公式 (5) 来计算每个状态的值，并使用执行最佳优先搜索。如下图所示具体来说，是维护一个开放列表，它最初包含输入问题，以及一个封闭列表来记录访问过的状态，在每一步中，从开放列表中选择具有最大值的状态，并通过使用 LLM 策略查询前个最佳替代方案来扩展选定的状态。之后，开放列表会更新，并重复该过程，直到达到最终状态。最后，我们提取最终状态的答案部分作为结果。