知识图谱增强大模型GraphRAG全面综述解读 - 蚂蚁集团、北大、浙大、人大等

发布日期：2024-08-28 08:12:37 浏览次数： 5741

作者：知识图谱科技

微信搜一搜，关注“知识图谱科技”

前言

最近，蚂蚁集团联合各所名校发表了关于GraphRAG的论文综述。全文对图谱检索增强生成（GraphRAG）进行了全面综述，GraphRAG是一种利用外部结构化知识图谱来提高语言模型的上下文理解能力并生成更明智的响应的框架。

**主要结论**

GraphRAG通过整合知识图中的结构化信息，解决了传统检索增强生成（RAG）的局限性。
GraphRAG工作流程包含三个阶段：图索引、图检索和图增强生成。
本文详细介绍了每个阶段的各种技术，包括图数据选择、索引方法、检索模型、检索范式和生成增强策略。
此外，本文还探讨了GraphRAG的下游任务、基准、评估指标和工业应用。
GraphRAG未来的研究方向包括处理动态图谱、集成多模态信息、开发可扩展的检索机制，以及将GraphRAG与图基础模型相结合。

摘要

检索增强生成（RAG）在解决大型语言模型（LLMs）面临的挑战方面取得了显著成功，而无需重新训练。通过参考外部知识库，RAG 精炼 LLM 输出，有效减轻了“幻觉”、缺乏特定领域知识和过时信息等问题。然而，数据库中不同实体之间复杂的关系结构对 RAG 系统构成了挑战。为此，GraphRAG 利用实体之间的结构信息以实现更精确和全面的检索，捕获关系知识并促进更准确、上下文感知的响应。鉴于 GraphRAG 的新颖性和潜力，系统评估当前技术显得尤为重要。本文提供了 GraphRAG 方法论的首次综合概述。我们形式化了 GraphRAG 工作流程，包括基于图的索引、图导向检索和图增强生成。接着，我们概述了每个阶段的核心技术和训练方法。此外，我们还考察了下游任务、应用领域、评估方法和 GraphRAG 的工业应用案例。最后，我们探讨了未来的研究方向，以激发进一步的研究并推动该领域的进展。

大型语言模型 LLM，图检索增强生成 GraphRAG，知识图谱 KG，图神经网络

https://arxiv.org/html/2408.08921v1

正文

大型语言模型（LLM）如GPT-4、Qwen2和LLaMA正在彻底改变人工智能，特别是在自然语言处理领域。这些基于Transformer的模型经过海量数据集的训练，显示出在理解和生成自然语言方面的卓越能力，影响了医疗、金融和教育行业。然而，LLM需要更多的领域特定知识、实时信息以及超出其训练语料库的专有数据。这一局限性可能导致“幻觉”，即模型生成不准确或虚构的信息。为了解决这一问题，研究人员专注于开发方法以补充LLM的外部知识，其中检索增强生成（RAG）作为一种有前景的解决方案应运而生。

图检索增强生成（GraphRAG）作为一种创新解决方案出现，以应对传统RAG方法的局限性。与其前身不同，GraphRAG从预构建的图数据库中检索包含关系知识的图元素，考虑文本之间的相互关联。这种方法能够更准确、全面地检索关系信息。GraphRAG利用图数据，如知识图，提供文本数据的抽象和总结，从而减少输入文本长度，减轻冗长问题。通过检索子图或图社区，GraphRAG可以访问全面的信息，有效应对诸如查询聚焦摘要等挑战，通过捕捉图结构中的更广泛上下文和相互关系。

来自北京大学智能科学与技术学院、浙江大学计算机科学与技术学院、蚂蚁集团、人民大学高岭人工智能学院和美国罗格斯大学的研究人员提供了GraphRAG的综合评估，这是一种先进的方法论，解决了传统RAG系统的局限性。该研究为GraphRAG提供了正式定义，并概述其通用工作流程，包括G-索引、G-检索和G-生成。它分析了每个组件的核心技术、模型选择、方法设计和增强策略。该论文还探讨了多样化的训练方法、下游任务、基准测试、应用领域和评估指标。此外，还讨论了当前的挑战、未来的研究方向，并编制了现有行业GraphRAG系统的清单，以弥合学术研究与实际应用之间的鸿沟。

GraphRAG建立在传统RAG方法的基础上，通过结合图数据库中的关系知识。与基于文本的RAG不同，GraphRAG考虑文本之间的关系，并将结构信息作为附加知识整合进来。它与其他方法如图上的LLM不同，后者主要关注将LLM与图神经网络结合用于图数据建模。GraphRAG还超越了知识库问答（KBQA）方法，将其应用于各种下游任务。这种方法为在语言模型中利用结构化数据提供了更全面的解决方案，弥补了纯文本系统的局限性，并为在多个应用中提高性能开辟了新的途径。

文本属性图（TAG）构成了GraphRAG的基础，通过节点和边的文本属性表示图数据。图神经网络（GNN）使用消息传递技术对这些图数据进行建模，以获得节点和图级表示。语言模型（LM），无论是判别式的还是生成式的，在GraphRAG中发挥着关键作用。最初，GraphRAG致力于改善判别式模型的预训练。然而，随着ChatGPT和LLaMA等大型语言模型的出现，它们展示了强大的上下文学习能力，关注点已转向增强这些模型的信息检索。这种演变旨在解决复杂任务并缓解幻觉，推动该领域的快速进步。

图2.GraphRAG框架在问答任务中的概述。在本调查中，我们将GraphRAG分为三个阶段：G-索引、G-检索和G-生成。我们将检索来源分为开源知识图谱和自构建图数据。可以采用各种增强技术，例如查询增强和知识增强，以提高结果的相关性。与直接使用检索文本进行生成的RAG不同，GraphRAG需要将检索到的图信息转换为生成器可接受的模式，以提高任务性能。

GraphRAG通过从图数据库中检索相关知识来增强语言模型的响应。该过程包括三个主要阶段：基于图的索引（G-Indexing）、图引导检索（G-Retrieval）和图增强生成（G-Generation）。G-Indexing创建一个与下游任务对齐的图数据库。G-Retrieval根据用户查询从数据库中提取相关信息。G-Generation基于检索到的图数据合成输出。该方法通过数学形式化来最大化在给定查询和图数据的情况下生成最佳答案的概率。该过程有效地近似复杂的图结构，以生成更准确的响应。GraphRAG的性能在很大程度上依赖于其图数据库的质量。这一基础涉及选择或构建适当的图数据，从开放知识图到自建数据集，以及实施有效的索引方法以优化检索和生成过程。

图数据在GraphRAG中的使用可以分为两种主要类型：开放知识图谱和自构建图数据。开放知识图谱包括一般知识图谱（如Wikidata、Freebase和DBpedia）和领域知识图谱（如生物医学领域的CMeKG和电影行业的Wiki-Movies）。自构建图数据是从各种来源创建的，以满足特定任务的需求。例如，研究人员构建了文档图、实体关系图和特定任务的图，例如专利短语网络。图数据的选择对GraphRAG的性能有显著影响，每种类型在不同的应用和领域中提供独特的优势。
基于图的索引对于GraphRAG中高效的查询操作至关重要，采用三种主要方法：图索引、文本索引和向量索引。图索引保留整个图结构，方便访问边和邻近节点。文本索引用于将图数据转换为文本描述，允许基于文本的检索技术。向量索引用于将图数据转化为向量表示，促进快速检索和高效查询处理。每种方法都提供独特的优势：图索引用于结构信息的访问，文本索引用于文本内容的检索，向量索引用于快速搜索。在实践中，通常更倾向于结合这些方法的混合方法，以优化GraphRAG系统中的检索效率和有效性。

GraphRAG中的检索过程对于提取相关图数据以增强输出质量至关重要。然而，它面临两个主要挑战：随着图大小的增加，候选子图的指数增长，以及在文本查询和图数据之间准确测量相似度的困难。为了解决这些问题，研究人员专注于优化检索过程的各个方面。这包括开发高效的检索模型，精炼检索范式，确定适当的检索粒度，以及实施增强技术。这些努力旨在提高图数据检索的效率和准确性，最终在GraphRAG系统中实现更有效和具有上下文相关性的输出。

图生成阶段在GraphRAG中将检索到的图数据与查询集成，以产生高质量的响应。此过程涉及选择适当的生成模型，将图数据转换为兼容格式，并将查询与转换后的数据作为输入。此外，还采用生成增强技术来加强查询与图之间的交互，并丰富内容生成，进一步改善最终输出。.

生成器选择在GraphRAG中取决于下游任务。对于区分任务，GNN或区分语言模型可以学习数据表示并将其映射到答案选项。生成任务则需要解码器生成文本响应。尽管生成语言模型可以用于这两种任务类型，但仅使用GNN和区分模型不足以满足需要文本生成的生成任务。
在GraphRAG中使用语言模型作为生成器时，图形翻译器是将非欧几里得图数据转换为兼容LM的格式的关键。这个转换过程通常会产生两种主要的图形格式：图形语言和图形嵌入。这些格式使语言模型能够有效处理和利用结构化图形信息，增强其生成能力，并在生成过程中实现图形数据的无缝集成。
GraphRAG中的生成增强技术旨在提高输出质量，超越基本的图形数据转换和查询集成。这些技术分为三个阶段：生成前、生成中和生成后增强。每个阶段侧重于生成过程的不同方面，采用各种方法来细化和优化最终响应，最终实现更准确、更连贯和更具上下文相关性的输出。

GraphRAG训练方法分为无训练和基于训练的方法。无训练方法往往与像GPT-4这样的闭源大语言模型一起使用，依赖于精心设计的提示来控制检索和生成能力。虽然利用了大语言模型强大的文本理解能力，但由于缺乏特定任务的优化，这些方法可能产生次优结果。基于训练的方法涉及使用监督信号对模型进行微调，可以通过适应特定任务目标来提高性能。检索器和生成器的联合训练旨在增强它们的协同作用，提高下游任务的表现。这种协作方法利用了两种组件互补的优势，以在信息检索和内容生成应用中获得更强大和有效的结果。

GraphRAG 被应用于自然语言处理的各种下游任务。这些任务包括问答任务，例如 KBQA 和常识问答（CSQA），测试系统检索和推理结构化知识的能力。信息检索任务，如实体链接和关系提取，受益于 GraphRAG 利用图结构的能力。此外，GraphRAG 在事实验证、链接预测、对话系统和推荐系统中的性能得到了提升。在这些应用中，GraphRAG 提取和分析图中结构化信息的能力提高了准确性、上下文相关性，以及发现潜在关系和模式的能力。

GraphRAG 在各个领域得到了广泛应用，因为它能够将结构化知识图谱与自然语言处理相结合。在电子商务中，它通过利用用户与产品的交互图谱来增强个性化推荐和客户服务。在生物医学领域，它通过利用疾病-症状-药物关系来改善医疗决策。学术和文献领域受益于 GraphRAG 分析研究和书籍关系的能力。在法律环境中，它通过利用引用网络来帮助案件分析和法律咨询。GraphRAG 还在情报报告生成和专利短语相似性检测中找到了应用。这些多样化的应用展示了 GraphRAG 在提取和利用结构化知识增强决策制定和信息检索方面的多功能性。

GraphRAG 系统使用两种类型的基准进行评估：特定任务的数据集和全面的 GraphRAG 特定基准，如 STARK、GraphQA、GRBENCH 和 CRAG。评估指标分为两类：下游任务评估和检索质量评估。下游任务指标包括准确匹配、F1 分数、KBQA 的 BERT4Score 和 GPT4Score、CSQA 的准确率，以及生成任务的 BLEU、ROUGE-L 和 METEOR。检索质量使用答案覆盖率与子图大小的比例、查询相关性、多样性和忠实度评分等指标进行评估。这些指标旨在全面评估 GraphRAG 系统在信息检索和特定任务生成中的性能。

已经开发了多个工业 GraphRAG 系统，以利用大规模图数据和先进的图数据库技术。微软的 GraphRAG 使用 LLM 构建基于实体的知识图并生成社区摘要，以增强查询聚焦摘要。NebulaGraph 的系统将 LLM 与他们的图数据库整合，以获得更精确的搜索结果。蚂蚁集团的框架结合了 DB-GPT、OpenSPG 和 TuGraph-Vector | Graph：蚂蚁首个开源Graph RAG框架设计解读，以实现高效的三元组提取和子图遍历。Neo4j 的 NaLLM 框架探索了他们的图数据库与 LLM 之间的协同作用，重点关注自然语言接口和知识图的创建。Neo4j 的 LLM Graph Builder 自动从非结构化数据构建知识图。这些系统展示了工业界日益关注将图技术与大语言模型相结合以提高性能。

本调查提供了GraphRAG技术的综合概述，系统地对其基本技术、训练方法和应用进行了分类。GraphRAG通过利用图数据集中的关系知识增强信息检索，解决了传统RAG方法的局限性。作为一个新兴领域，本调查列出了基准，分析了当前的挑战，并阐明了未来的研究方向。这一全面的分析为GraphRAG在提高信息检索和生成系统的相关性、准确性和全面性方面的潜力提供了宝贵的洞见。

参考文献:

[2408.08921] Graph Retrieval-Augmented Generation: A Survey (arxiv.org) https://arxiv.org/abs/2408.08921

https://arxiv.org/html/2408.08921v1

Vector | Graph：蚂蚁首个开源Graph RAG框架设计解读

GraphRAG：使用知识图谱进行AI Agent编排和工业化路径

医学GraphRAG：通过知识图谱检索增强实现安全医疗大语言模型 - 牛津大学最新论文

贝莱德&英伟达 - HybridRAG：整合GraphRAG和VectorRAG以实现金融信息高效提取

GraphRAG类型、限制、案例、使用场景详细解析

重磅 - 微软官宣正式在GitHub开源GraphRAG