Graph RAG 在LLM 中的应用

发布日期：2024-07-04 14:13:56 浏览次数： 3953

作者：爱编程随记

微信搜一搜，关注“爱编程随记”

一、背景

2022 年 11 月 30 日，OpenAI 正式发布了其面向消费用户的产品——ChatGPT。ChatGPT 在对话，上下文理解，内容生成上展现了前所未有的准确性和知识表示能力，带动了市场对人工智能领域（AI）的火热。一经发布便激起了圈内、圈外的广泛讨论——毕竟已经很长时间没有一种类似的技术可以引起如此广泛的讨论，ChatGPT 的发布也标志着大语言模型（LLM: Large Language Model）时代的到来。

但是LLM 也有着其局限性，以ChatGPT为例，为什么称之为大语言模型，是因为其真的很大。据透露，ChatGPT-3.5 拥有1750亿的参数，而ChatGPT-4跃升至万亿个参数。从计算量来看需要海量的GPU堆起来。据悉，训练一个ChatGPT-4模型可能需要数百万美元的成本和数百万小时的计算时间。这也是LLM这两年兴起之后，芯片公司英伟达企业几年来股价持续上涨，突然3万亿美元的关键之一。金钱和时间的成本意味着LLM只能有少数公司烧钱玩得起，此外还有其他缺点:

1. 幻觉问题: 大模型的底层原理是基于概率，所以它有时候不知道的问题会一本正经胡说八道, 自己编造一个不正确的答案。

2. 新鲜度问题：规模越大（参数越多、tokens越多），大模型训练的成本越高。类似OpenAI的ChatGPT3.5，目前的数据新鲜度依然保留在2021年，对于之后的事情就不知道了。如果想查询近期的项目，资料什么的原始的GPT就无法回答。

除此之外，在某些垂直领域如医疗，金融等等行业，模型训练的语料并不详细，所以在生产中是无法直接使用通用领域的模型如ChatGPT。在过往的历史中业内使用模型的基本方法是fine-tuning，但是由于LLM的模型参数巨大，即便是fine-tuning 也需要相当长的时间。这个时候就需要RAG了。

二、RAG

检索增强生成(Retrieval-Augmented Generation), 它通过检索相关信息并将其作为生成过程的一部分，来提高模型生成内容的准确性和相关性。生成式AI模型，如基于Transformer的模型，有时会生成不准确或不真实的信息，这种现象被称为“幻觉”。RAG技术旨在减少这种幻觉问题，提高AI生成内容的可靠性。

下图是RAG和LLM配合使用的概念流程:

RAG结合了语言模型和信息检索技术。具体来说，当模型需要生成文本或者回答问题时，它首先从一个庞大的文档集合中检索出相关的信息。然后，它利用这些检索到的信息来指导文本的生成，从而提高预测的质量和准确性。

比如你正在写一篇关于狗狗的文章，但你对狗狗的知识有限。这时候，你很可能会这么做。

检索（Retrieval）：首先，你打开你的电脑，输入了关键词“狗狗”的搜索请求，从互联网上检索了大量的关于狗狗的文章、博客和信息。

增强（Augmented）：接下来，你会分析这些搜索结果，并提取其中的重要信息，例如：狗狗的种类、行为习惯、饲养方式等等。你将这些信息整理成一个知识库，就像是一个巨大的百科全书，里面包含了关于狗狗的各种知识点。

生成（Generation）：现在，你需要写你的文章。比如文章前你可能会提出一个问题：“狗狗的寿命是多久？”，你会使用你之前检索和整理的信息来回答你的问题或者生成文章的段落。你不仅仅是简单地复制粘贴，而是根据上下文和语法规则来生成自然流畅的文本。

其实上面“你”的这个工作流就是“RAG”的工作流，你可以把它想象成“你”就是那个RAG模型，即是“检索”、“增强”、“生成”。

三、Graph RAG

RAG 经过几代的迭代，目前已经有了Advanced RAG(高级RAG)和 Modular RAG(模块RAG), 在工程上优化了最初的Naive RAG(朴素RAG), 但是依旧有部分知识推理上的缺陷。

Project GraphRAG（Graph Retrieval-Augmented Generation）是由微软多部门（微软研究院、微软战略任务与技术、微软CTO办公室）联合开发的一种型方法，旨在改进传统自然语言处理（NLP）系统，特别是大语言模型（Large Language Models, LLMs）信息检索和生成任务中的表现，从而增强LLMs分析和回答有关未见过数据（私有数据集）问题的能力。Graph RAG是一种结合了知识图谱和图数据库的技术，它使用图模型来增强信息检索过程。

论文地址: https://arxiv.org/pdf/2404.16130

核心技术原理：

Graph RAG通过结合文本数据集和知识图谱来利用文本数据集，这种结合文本和检索增强生成的方法改进了RAG的性能。

整合知识图谱：Graph RAG将知识图谱与LLM紧密结合，利用图数据库（如NebulaGraph）存储和索引大规模知识图谱数据。知识图谱作为一种结构化知识表示方式，包含丰富的实体及其间的关系，能够提供精准、语义明确的信息来源，增强LLM知识推理能力。

检索增强：Graph RAG通过将知识图谱作为额外的信息源，在LLM处理用户查询或生成文本时，能够实时调用图谱数据进行检索，补充或校准模型的推理过程。这种机制增强模型对特定领域知识的理解和利用能力，提高检索结果的相关性和准确性。

优势与对比:

超越传统检索：相较于依赖文本索引的传统检索方法，Graph RAG利用知识图谱的结构化特性，能减少基于文本嵌入的语义搜索可能带来的模糊匹配问题，确保检索结果更具针对性。

Graph RAG的创新：Graph RAG利用LLMs从私有数据中生成知识图谱，这些图谱随后用于指导LLM在问答任务中的检索和信息生成，使其能够连接信息点并提供更全面准确的回答。

知识图谱的作用：知识图谱在预训练阶段被整合到LLMs中，使模型不仅可以从原始文本数据中学习，还可以从知识图谱中表示的结构化关系中学习。在文本生成阶段，知识图谱可以被咨询以提供额外的上下文和相关信息。

隐私保护：Graph RAG的一个关键方面是在不泄露图信息的情况下匿名预训练LLMs，这保护了数据的隐私。

与向量检索、自然语言生成检索对比：Demo或文章中可能展示Graph RAG与这些方法的对比实验，突出其在精确性、召回率、生成文本质量或解释性等方面的优势。具体优势可能包括更高效的实体识别、更精确的关系推理以及生成文本中更丰富的背景知识。

Graph RAG处理流程：

使用由大型语言模型（LLM）派生的源文档文本的图索引的Graph RAG流程。这个索引涵盖了节点（例如实体）、边（例如关系）以及协变量（例如声明），这些元素已经被为数据集领域定制的LLM提示检测、提取和总结。

1. Source Documents → Text Chunks

2. Text Chunks → Element Instances

3. Element Instances → Element Summaries

4. Element Summaries → Graph Communities

5. Graph Communities → Community Summaries

6. Community Summaries → Community Answers → Global Answer

Graph RAG 效果评估:

使用两个真实世界的数据集（播客文稿和新闻文章）来评估Graph RAG方法，并与 Naive RAG和全局文本摘要方法进行比较。评估指标包括全面性、多样性和授权性（Empowerment）。Graph RAG在全面性和多样性方面显著优于Naive RAG基线，并且在较低的令牌成本下与源文本的全局摘要方法相比表现出有利的性能。