国庆期间5大RAG前沿进展总结：从表格RAG-TableRAG到引入图、树结构优化的RAG框架

发布日期：2024-10-10 12:58:57 浏览次数： 3129

作者：老刘说NLP

微信搜一搜，关注“老刘说NLP”

今天是2024年10月10日，星期四，北京，天气晴。

我们今天来聚焦国庆假期关于RAG的一些前沿进展，这个也是作为社区早报的内容，如下：

文字版见社区，本文介绍5个工作，包括关于表格RAG-TableRAG、引入图结构和增量更新RAG框架lightRAG、RAG与知识图谱结合解决医疗问题、RAG用于自动驾驶领域、关于引入权重的RAG树组织GARLIC等。

供大家一起参考并思考，

一、关于表格RAG-TableRAG

关于表格RAG，《TableRAG: Million-Token Table Understanding with Language Models》，https://arxiv.org/abs/2410.04739v1，可关注其不同索引的设计和构建。

1、语言模型表格提示技术的比较

(a)-(d)：包含在语言模型提示中的数据（阴影区域）。

(a) 读取表格：语言模型读取整个表格，对于大表格来说通常是不可行的。

(b) 读取模式：语言模型只读取模式，包括列名和数据类型，导致表格内容的信息丢失。

(d) 模式-单元格检索：列名和单元格被编码，并根据它们与语言模型生成的关于问题的查询的相关性被检索。只有检索到的模式和单元格被提供给语言模型，提高了编码和推理的效率。

(e) 在ArcadeQA数据集上的检索结果表明，TableRAG在列和单元格检索方面都优于其他方法，从而增强了随后的表格推理过程。读取表格技术被排除在外，因为在这种情况下通常不可行读取整个表格。

2、TableRAG框架的工作流程

表格被用来构建模式和单元格数据库。然后，问题被语言模型扩展成多个模式和单元格查询。这些查询被顺序用来检索模式和列-单元格对。每个查询的前K个候选者被组合起来，并输入到语言模型求解器的提示中以回答问题。

一个具体的例子如下：

对应的伪代码如下：

二、关于引入权重的RAG树组织GARLIC

《GARLIC: LLM-Guided Dynamic Progress Control with Hierarchical Weighted Graph for Long Document QA》(https://arxiv.org/abs/2410.04790，https://arxiv.org/html/2410.04790v1)。最近基于树的RAG方法能够在保留全局上下文的同时检索详细信息。

核心包括三点：

层次化加权有向无环图（Hierarchical Weighted Directed Acyclic Graph）：与树结构不同，GARLIC构建了一个多对多的摘要层次化加权图，图的边来自注意力机制，每个节点专注于单个事件或少数事件。

基于注意力权重的检索方法，利用LLM的注意力权重而不是密集嵌入相似度，允许沿多条路径搜索图，并且可以在任何深度终止。

动态进度控制，使用LLM控制检索过程，使其能够根据不同查询动态调整检索的信息量和深度。

建树阶段，如图1所示：

每个节点包含一个信息点（IP），并且有多个父节点和子节点，即多个后继者和前驱者。每次，大型语言模型（LLM）被输入多个节点，并被提示生成多个信息点。节点之间边的权重是根据LLM摘要中的注意力权重计算的。右侧展示了一些示例信息点和块。为简洁起见，省略了一些长文本。

检索阶段如下：

每次，通过使用注意力权重的贪婪最佳优先搜索检索一个节点。访问过的节点被输入到大型语言模型（LLM）中，提示LLM确定是否已经收集了足够的节点来回答查询。由于键值（KV）缓存，这个过程不会增加额外的计算成本。搜索继续进行，直到LLM发出信号表明已经检索到足够相关的节点，此时生成最终答案。

该过程根据查询动态调整，灵活地在多个图路径和深度中检索节点。

三、RAG用于自动驾驶领域

《Driving with Regulation: Interpretable Decision-Making for Autonomous Vehicles with Retrieval-Augmented Reasoning via LLM》(https://arxiv.org/abs/2410.04759)。

这个工作很有趣，解决自动驾驶车辆在不同地区如何整合交通法规、规范和安全指南的问题。传统基于规则的方法难以全面纳入所有交通规则，现有工作主要集中在基于规则的系统或单一的机器学习模型上，缺乏对交通法规的全面整合和解释能力。

整个框架思路如下：

该框架由两个主要组件构成：交通规则检索代理和推理代理。交通规则检索代理基于生成的交通规则检索查询从交通规则文档中检索相关规则。然后推理代理从检索到的集合中确定适用的规则，并根据这些适用规则执行合规性和安全性检查。

其中，如图2所示，所提出的交通规则检索（TRR）代理的示意图。检索结果通过场景描述和经过良好策划的规则文档之间的相似度得分以及预先定义的相关性度量标准获得

四、RAG与知识图谱结合解决医疗问题

《Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval》(https://arxiv.org/abs/2410.04585)，这个工作提出了一种名为KARE的新框架，将知识图谱社区级检索与LLM推理相结合，以增强医疗健康预测。

其核心在于，通过构建一个综合的多源KG，并使用分层图社区检测和摘要，实现信息检索。

如图1所示：