PlanRAG: 决策增强生成模型——利用大型语言模型进行复杂数据分析的决策

发布日期：2024-06-29 05:05:16 浏览次数： 3312

作者：AI帝国

微信搜一搜，关注“AI帝国”

一、结论写在前面

项目链接：https: //github.com/myeon9h/PlanRAG
论文标题：PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers
论文链接：https://arxiv.org/pdf/2406.12430

论文研究了如何利用大型语言模型（LLMs）作为解决需要复杂数据分析的决策问题的方案。论文定义了决策问答（Decision QA）任务，即根据决策问题Q、业务规则R和数据库D，确定最佳决策。

由于缺乏评估Decision QA的基准，论文提出了Decision QA基准DQA。该基准包含两个场景：定位和构建，这两个场景源自两款视频游戏（《欧陆风云IV》和《维多利亚3》），其目标与Decision QA几乎相同。为有效解决Decision QA，论文还提出了一种新的检索增强生成（RAG）技术——迭代计划后检索增强生成（PlanRAG）。基于PlanRAG的语言模型首先生成决策计划，然后检索器生成数据分析查询。

所提方法在定位场景中比最先进的迭代RAG方法提高了15.8%，在构建场景中提高了7.4%。

论文专注于使用图数据库或关系数据库的决策QA。论文提出了解决决策QA时应考虑的高层次RAG技术视角。因此，本文并未关注解决决策QA的低层次方法。例如，创建一个能够高效生成Cypher查询的精细调整模型，对于使用GDB解决决策QA可能是有益的。这些领域也应在未来的工作中加以解决。论文设计了PlanRAG方法论并实现了使用单一LM的PlanRAG-LM，而一些研究建议使用多语言模型的语言模型框架。本文并未关注PlanRAG在多LM框架中的有效性，这留待进一步研究。

二、论文的简单介绍

2.1 论文的背景

在许多商业情境中，决策制定对组织的成功至关重要。决策制定涉及数据分析，最终选择最合适的方案以达成特定目标。例如，假设制药公司“辉瑞”的目标之一是在保持从工厂到客户准时交付的同时，最小化药品分销网络中的生产成本，且生产成本与工厂的运营时间和员工数量成正比。那么，辉瑞可能面临以下决策问题：(P1) 应运营或关闭哪座工厂，以及 (P2) 每座工厂应雇佣多少员工。

通常，决策任务需要执行以下三个步骤：(1) 制定计划，确定决策所需的分析类型；(2) 使用查询检索必要的数据；(3) 基于数据做出决策（即回答）。为了简化步骤 (2) 和 (3)，过去几十年中开发并应用了许多决策支持系统。然而，人类仍然负责最困难的部分，即步骤 (1)。本研究的目标是探讨使用大型语言模型(LLM)替代人类角色的可能性，使其不仅执行步骤 (2) 和 (3)，还包括步骤 (1)，即实现所有步骤的端到端执行。

为实现这一目标，论文提出了“决策QA”，一种针对语言模型的新决策任务。决策QA被定义为一种问答式任务，它接受数据库D、业务规则R和决策问题Q的输入对，并生成最佳决策作为输出。图1展示了在《Europa Universalis IV》游戏中，各国在探索时代竞争贸易的一个决策QA示例。每个国家决定在哪个贸易城市（即节点）上安置商人，以最大化其主要（即本国）贸易节点的利润。该示例表明，决策型LLM在分析了有关国际贸易的数据库后，决定在Doab安置商人，以最大化国家BAH的本国贸易节点Deccan的利润。

接下来，论文提出一个名为DQA的决策QA基准，它包含以下两种场景：定位和构建。前者场景包括决策问题，例如应该在哪个交易节点上安置商人？”（类似于辉瑞的P1问题）；另一类是“我应该向工厂供应多少木材？”（类似于辉瑞的P2问题）。由于使用真实商业数据构建DQA的难度，论文通过从两款视频游戏《欧陆风云IV》和《维多利亚3》中提取涉及301个特定情境的游戏数据来构建基准，这两款游戏很好地模拟了真实的商业环境。为了消除游戏的随机性并发布论文的基准，论文开发了游戏模拟器，记录了301种情境下的决策结果，并将其作为DQA问题的标注。

图1：决策QA示例。红色圆点代表交易节点。决策框中的利润表示每次决策可能带来的利润变化。需要注意的是，这些潜在的利润变化并未存储在数据库中，而应从数据库中计算得出。每个国家仅有一个主要的（本地的）交易节点。表格中下划线的列名表示该表的主键

现有的基于RAG的方法主要关注知识型问答任务，但并未聚焦于决策问答任务。因此，根据论文的观察，它们在处理步骤（1），即制定决策计划方面表现不佳。例如，在图1中，用于决策的语言模型应该推理出为了最大化Deccan的利润需要进行哪些分析。然而，现有方法仅尝试识别，例如，Deccan是什么。

为了解决这一限制，论文提出了迭代规划后检索增强生成技术，即PlanRAG，该技术扩展了用于决策QA的迭代RAG技术。基于PlanRAG的语言模型首先通过检查数据模式和问题来制定所需的分析类型（规划步骤）。接下来，它通过生成和提出查询来检索分析所需的数据片段（检索步骤）。最后，它评估是否需要为更深入的分析制定新计划，并重复规划和检索步骤（重新规划步骤），或者根据数据做出决策（回答步骤）。

2.2 决策QA任务

论文将决策QA定义为一项任务，即在给定决策制定问题Q、业务规则R以及遵循模式S的结构化数据库D的情况下，确定最佳决策。在此，Q包含用户希望通过最佳决策实现的目标文本描述，而R包含用于推理的公式文本描述。

不失一般性，数据库D过大，无法一次性装入语言模型（LM）的输入中。因此，论文假设LM通过发起数据分析查询来从D中检索数据，论文将其称为数据分析查询。

论文假设D要么是有标签的属性图（LPG）数据库，要么是关系数据库（RDB）。例如，图1中的数据库就是关系数据库。此处，LPG指的是边和节点上带有属性的图，这在工业界广泛使用（。论文将有标签的属性图数据库简称为图数据库，或GDB。

2.3 DQA: 决策QA基准

2.3.1 定位场景

当D为RDB时，此场景中的数据库由以下四个表组成。它也可以通过将TradingFlow和NodeCountry中的元组视为边，将TradingNode和Country中的元组视为顶点，轻松表示为GDB。

表1：定位的RDB模式。粗体表示其值依赖于其他值和决策的列。部分列被省略

存在一些决策制定的业务规则。粗体列的值是根据数据库中的其他值和用户决策（例如，商家的位置）按照规则计算得出的。如果用户在一个国家的交易节点上定位一个商家，那么从这个交易节点到该国家的主节点的流量会增加。

2.3.2 构建场景

在此场景中，数据库D在RDB形式下由以下四个表组成。通过将Demand和Supply中的元组视为边，将Goods和Buildings中的元组视为顶点，也可以很容易地表示为GDB。

表2：Building的RDB模式。省略了一些列

图2：建筑场景示例。红色、绿色和蓝色圆圈分别表示家具、木材和硬木。论文假设目标是降低家具价格，通过决定在B1和B2工厂之间扩展以增加其生产

2.3.3 DQA的统计数据

DQA总共包含301对D和Q：(1) 200对用于定位场景，(2) 101对用于建筑场景。每个数据库再次有两个版本，RDB和GDB，对应于相同的问题，因此DQA基准提供了总共602个数据库。论文假设SOL用于RDB，而Cypher查询语言(CQL) 用于GDB。表3显示了DQA中数据库的一些统计数据。

表 3: DQA 中数据库的统计信息

2.4 方法论：PlanRAG

对于决策 QA，现有的 RAG 技术（试图通过一种利用数据分析查询从 D 检索结果的推理类型来回答给定 (Q,S,R) 的最佳决策。图 3 (a) 展示了其推理过程。如果从 D 的检索只进行一次，该过程称为单轮 RAG。否则，如果检索进行多次，该过程称为迭代 RAG。

相比之下，论文的迭代计划后检索增强生成（PlanRAG）技术试图通过两种推理类型来回答。第一种推理类型是制定计划，第二种推理类型类似于现有 RAG 的推理，即基于数据分析查询从 D 检索的结果进行回答。特别是，论文构建了一个单一的 LM，能够执行这两种推理类型，以减少使用单独 LMs 的副作用。论文通过在 ReAct（Yao et al., 2023）中添加“Plan”和“Re-plan”指令来提示 LM，详细信息见附录 A.6.2。图 3 (b) 展示了 PlanRAG 的推理过程，论文详细解释了以下步骤：(1) 计划，(2) 检索与回答，以及 (3) 重新规划。

规划：在此步骤中，LM 接收 (Q, S, R) 作为输入，并生成数据分析的初始计划。该初始计划描述了为决策所需执行的一系列数据分析任务，这些任务需要在检索步骤中完成。图 4(b) 中的红色框展示了其示例。

检索与回答：与之前的 RAG 技术不同，LM 不仅接收 (Q, S, R) 还接收初始计划作为输入。因此，它能比之前的 RAG 更有效地生成用于决策的数据分析查询。图 4 展示了基于 PlanRAG 的 LM 如何与之前的 RAG 不同地生成查询。这些查询实际上通过 RAG 接口如 LangChain 和 Llamalndex 使用 SQL 或 Cypher 语言执行于数据库。查询结果被迭代用于推理，以判断是否需要重新规划或仅需进一步检索以优化决策。通过反向链接至规划过程，规划和检索过程被迭代执行，直到 LM 确定不再需要进一步分析来做出决策。

重新规划：当初始计划不足以解决决策问题时，进行重新规划。为了使 LM 能够决定是否需要重新规划，论文通过一些指令提示 LM，根据每次检索步骤的结果评估当前计划。因此，LM 不仅接收 (Q, S, R)，还接收当前计划和查询结果作为输入，生成新的计划以进行进一步分析，或调整之前分析的方向。

2.5 实验

2.5.1 实验设置

为验证所提出的 Plan-RAG 在决策问答任务中的有效性，论文实现了四种不同的决策型 LM 进行比较：

(1) 基于单轮 RAG 的 SingleRAG-LM，(2) 基于迭代 RAG 的 IterRAG-LM，

(3) 基于 PlanRAG 的 PlanRAG-LM，

(4) 无重新规划的 PlanRAG-LM（即 PlanRAG 不包含重新规划）。

使用基于 ReAct的提示使这些 LM 成为决策者。所有这些决策者均由 GPT-4实现，采用零温度和 LangChain 库。在数据库方面，论文使用 MySQL 作为关系数据库管理系统（RDBMS），Neo4j 作为图形数据库管理系统（GDBMS）。

所有实验都在零样本和单次运行的设置下进行。采用这种零样本设置基于以下两个原因。首先，在大多数实际商业情况下，很难预先知道做出最佳决策的策略。其次，在少样本设置中，论文观察到语言模型不仅对问题解决策略过拟合，而且对给定样本中数据库的内容也过拟合。

只有当决策者的答案在语义上与DQA上的真实最佳决策完全一致时，才被认为是正确的。例如，在图4(b)中，论文认为答案是正确的，因为真实的最佳决策是Doab。

2.5.2 结果与分析

主要结果：表4展示了实验结果，其中显著提高了决策制定的性能，与现有的SOTA技术——迭代RAG（Yao等人，2023年）相比，定位场景提高了15.8%，建筑场景提高了7.4%。这充分展示了PlanRAG在决策制定任务中的有效性。

PlanRAG在定位场景中相对更有效的原因是，建筑场景需要比定位场景更长的遍历，使得规划比定位更困难。

SingleRAG-LM在建筑场景中的准确度非常低，这是因为建筑场景需要生成一个非常复杂的查询，难以一次性推理。SingleRAG-LM在超过60%的定位问题和95%的建筑问题中未能从数据库检索到任何结果。

表4还显示，PlanRAG中不进行重新规划会导致准确度下降，特别是在定位场景中下降10.8%，在建筑场景中下降0.9%。这一结果表明，重新规划过程对PlanRAG技术中决策制定任务的决策者LM是有帮助且重要的。

表4：DQA的技术准确度(%)（每个准确度是RDB和GDB中准确度的平均值）

分析单次检索（SR）和多次检索（MR）：在DQA中，问题存在难易之分。为了检验PlanRAG根据问题难度的有效性，论文将DQA问题分为两种不同类型：(1) 单次检索（SR）问题，以及(2) 多次检索（MR）问题。在此，SR指的是IterRAG-LM为解答问题从D中进行单次检索的情况，而MR则指为解答问题进行多次检索的情况。SR共有84对（问题，文档）组合，MR则有518对。论文比较了IterRAG-LM和PlanRAG-LM在SR和MR上的准确率，结果展示在图5中。

图5：IterRAG-LM和PlanRAG-LM在简单问题（SR）和中等问题（MR）上的准确率（%)。

结果显示，PlanRAG-LM在SR问题上的表现远超IterRAG-LM，而在MR问题上也有显著优势。这是因为SR问题在许多情况下并不简单，它们是IterRAG-LM试图仅通过一次检索解决的问题。也就是说，其中一些问题是IterRAG-LM低估了其难度，但实际上是需要多次检索的相对较难的问题。

相比之下，PlanRAG-LM通过规划步骤减少了理解问题难度的可能性，并根据计划执行多次检索。因此，它能够显著提高准确率。对于MR情况，PlanRAG-LM仍然比IterRAG-LM更有效，因为前者根据计划相对系统地执行数据检索，而后者则像图4（a）所示相对无序地进行检索。

对RDB和GDB的分析：表5展示了在数据查询分析（DQA）中，针对两种不同数据库（RDB和GDB）的LMs的准确率。结果显示，无论数据库类型如何，PlanRAG-LM在两种情况下都比其他LMs更有效。论文注意到，在建筑场景中，PlanRAG-LM在GDB上的效果比在RDB上更好。这是因为建筑场景比定位场景更难，需要在GDB中进行更长的遍历（或在RDB中进行更多的连接）来回答问题。例如，定位场景中的问题只需要从源节点到家庭节点的单跳遍历，而建筑场景中的问题则需要如图2所示的多跳遍历来找到高供应商品。

表5：LMs在RDB和GDB上的准确率（%）

错失数据查询率分析：在每个场景中，都存在一些需要查询的关键值，或者在回答问题时进行计算。例如，定位具有IV和TPotal等值，而建筑具有CO和PD等值。为了分析为什么PlanRAG比IterRAG-LM更有效，论文测量了查询或计算这些值时遗漏数据分析的比率。论文使用IV和TPotal作为定位的标准，CO和PD作为建筑的标准。表6显示，PlanRAG-LM的遗漏率较低，分别为1.3%和21.8%，而IterRAG-LM的遗漏率较高，分别为3.3%和33.2%。这意味着即使IterRAG-LM能够完美地进行推理，其准确性也会低于PlanRAG-LM。根据表6，PlanRAG-LM在定位中可能达到98.7%的准确性，但表4中的实际准确性低于此。这是因为除了遗漏数据分析外，推理（包括规划）本身非常具有挑战性。

表6：遗漏数据分析的比率

失败案例分析：论文将每个失败案例分为以下五种错误类别：

(1) CAN，表示LM未能通过考虑不当的候选者（例如图1中的Dec-can的dest）来解决问题并回答它们；

(2) MIS，遗漏数据分析；

(3) DEEP，不当使用检索到的数据或方程；

(4) QUR，查询生成错误；

(5) OTH，其他错误（例如超过token长度限制）。例如，论文将4(a)分类为DEEP，因为LM错误地使用了一些方程，从而低估了Doab的利润。论文在图6中基于这些类别比较了IterRAG-LM和PlanRAG-LM处理的失败案例。

结果显示，PlanRAG-LM在两种场景下均显著降低了CAN和MIS错误。这意味着PlanRAG-LM能更好地理解决策QA问题，并更有效地查询问题的关键数据，优于IterRAG-LM。论文还注意到，PlanRAG-LM在DEEP案例上略多一些。

图6：失败案例分析结果。失败率表示失败问题数量除以所有问题数量的比率

在两种场景下，PlanRAG-LM 的表现均优于 IterRAG-LM。论文的观察发现，DEEP 错误仅在不存在 CAN 或 MIS 错误的情况下出现。例如，在图4(a)中，当 LM 未能将 Doab 视为候选之一（即产生 CAN 错误）时，它不可能低估 Doab 的利润（即产生 DEEP 错误）。因此，论文可以认为 PlanRAG-LM 中 DEEP 案例的增加源于减少 CAN 和 MIS 案例的副作用。

重新规划分析：PlanRAG-LM 对某些 DQA 问题进行了重新规划。表7展示了根据 PlanRAG-LM 执行的重新规划次数及其通过重新规划提高的准确率来分布问题的统计。有关重新规划的详细案例和统计数据见附录A.8。

表7：根据 PlanRAG-LM 执行的重新规划次数统计 DQA 问题的数据。括号中的百分比表示在相应问题集上的准确率(%)

结果显示，PlanRAG-LM在Building场景中比在Locating场景中更频繁地重新规划。在Locating场景中，PlanRAG-LM在400个问题中重新规划了24个（占问题的6%），而在Building场景中，它在202个问题中重新规划了77个（占问题的38.9%）。

此外，在Building场景中，有30个问题（占14.85%）被重新规划超过四次，而在Locating场景中只有7个问题（占1.75%）。论文注意到，如果原始计划不足，LM会重新规划，正如论文在第4节中解释的那样。因此，这一结果表明，LM在Building场景中制定计划（无论是初始规划还是重新规划）时遇到困难，这也解释了表4中PlanRAG-LM与其他技术在Building场景中的差距相对较小。这一结果也与表7中的结果一致，其中通过重新规划提高的准确率随着重新规划次数的增加而降低。

表8：Tabular QA、Table NLI和Decision QA基准中每张表的平均行数。对于Tabular QA和Table NLI，以及DQA基准。对于DQA，展示了D的行数，因为每个问题都需要访问所有表格

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业