微软的GraphRAG是最强RAG？

发布日期：2024-07-27 21:40:28 浏览次数： 3006

作者：AIForge

微信搜一搜，关注“AIForge”

全文长度：3753字

预计阅读时间：13分钟

通过使用Streamlit、LangChain、Neo4j和GPT-4来构建GraphRAG是一个复杂但富有潜力的过程。在此过程中，将结合实际的应用案例进行说明。这项技术的背景和其重要性将在文中详细讨论，以激发读者的兴趣并为后续讨论奠定基础。2024年，微软研究团队发布了一篇有关GraphRAG的论文，并在GitHub上进行了开源，这是我们今天讨论的核心。

非结构化数据到可查询图谱

将非结构化数据转换为可查询图谱涉及使用Streamlit、LangChain、Neo4j和GPT-4o构建GraphRAG的实际应用和开源实现。我们的示例应用程序包含四个核心组件：

使用Docker托管的本地Neo4j图形构建工具，可将非结构化文本提取并转化为知识图谱。
混合检索器，可从图谱中提取结构化和非结构化文本。
Streamlit用户界面，使用户能够与其图形化知识文档进行交互。

接下来，我们通过使用Neo4j、LangChain和Streamlit的GraphRAG示例来创建一个能与图表化知识文档进行对话的聊天机器人。GraphRAG是微软研究团队于2024年2月提出的最新成果，他们已基于这一研究发布了实现，值得深入了解。

GraphRAG为了解决LLMs在接收新知识时面临的挑战而设计。它可以帮助将新的或被遮蔽的信息纳入回答，从而减少幻觉的发生。连接模糊关系中的不同知识点是其面临的一个重大挑战。信息常常松散相关，上下文关系并非总是对接紧密。知识图谱在这方面表现出色，通过多跳查询实现复杂关系的表示和查询。

以下是基本的工作机制：

第一阶段是RAG数据存储，负责在用户提问时提供背景数据。与传统RAG一样，我们将文本切分为块，使其适应LLMs的上下文窗口。每个文本块转换为图形文档，逐步建立图形。

第二阶段是混合检索。此方案同时利用图查询和向量相似度搜索，我们从图形存储原始文档块，并用其构建向量索引。

检索器接受用户问题，提取实体后进行向量搜索和图查询。最终结果与原始问题一起发送给LLM，产生上下文感知的回答。

LangChain作为一个开源框架，简化了构建、部署和管理大型语言模型的过程，它提供了强大的基础设施及多样化的集成和函数库，方便快速开发LLM应用。Neo4j是一种高性能的图形数据库管理系统，使用Cypher查询语言进行高效运作，为复杂数据关系的应用提供理想解决方案。GPT-4o是OpenAI最新发布的模型，主要借助LangChain内置集成进行交互。Streamlit则是一款开源框架，帮助开发者创建和分享自定义网络应用，特别适用于机器学习和数据科学项目。

LLMGraphTransformer是LangChain中的实验性功能，可将文档转换为图形格式，允许用户指定节点和关系类型，应用约束和筛选，支持异步处理文档，并根据提供的模式生成结构化输出。

示例案例–Garmin手表推荐

以Garmin Forerunner 255为例，由于其功能多样、价格不一，提供了良好的基础示例。

应用概述

我们的示例应用由四个主要组件组成：

本地使用Docker托管的Neo4j图形构建工具。
从非结构化文本中提取图谱的工具。
一个混合检索器，可以从图谱中提取结构化和非结构化文本。
一个Streamlit用户界面，允许用户与知识文档进行对话。

使用Docker配置Neo4j环境

首先，设置本地运行的Neo4j实例，使用Docker简化配置过程。

从非结构化数据构建图谱

我创建了三个文档提取器分别用于YouTube、维基百科和纯文本。在内容提取后，对文本进行分块并转换为图文档，保存在Neo4j实例中。我们使用LLMGraphTransformer，将纯文本块转换为图节点和边。此过程反复进行，直到所有来源文档的块都被处理完毕。我们在图谱中创建索引以支持高效搜索。

图检索器

图检索器由多个步骤构建。首先是结构化数据检索，生成图查询来提取相关节点和关系。然后，非结构化部分利用源文档构建向量索引。最后，将两种检索方式合并，构建发送给LLM的综合查询。

实现互动接口

通过Streamlit快速构建原型，创建用户界面，这包含两个部分：

侧边栏 - 管理图形的控件。
主窗口 - 主要的聊天界面。

回顾来看，数据常常非线性相关，但包含重要信息。知识图谱和RAG结合能有效查询复杂关系，提供更丰富和见解深刻的回复。通过混合检索器，可以有效地处理用户查询相关的实体，提取相关节点和关系，生成的回答内容更全面。

以上就是整个过程的概述，展示了如何用GraphRAG实现从非结构化文本到可查询知识图谱的转换。

GraphRAG的技术细节

GraphRAG的工作原理涉及以下几点：

构建一个融合向量相似度搜索与图查询的系统，以便综合检索结构化和非结构化数据。
通过这种方法，利用从查询图和关系中获取的上下文信息增强基本RAG的效果。

这个过程主要分为两个阶段：

RAG数据存储：建立用于背景检索的数据存储。

文档被分块处理，以适应LLMs的上下文窗口。

每块文档再被转换成一个图文档。
混合检索：结合图查询和向量相似度搜索，利用构建的图形存储文档块，并从这些块中创建向量索引进行检索。

在检索器方面：

系统首先接受用户的问题，从中提取相关实体，并利用这些实体进行向量搜索和图查询构建。
最终的检索结果与原始问题一起传递给LLM，LLM然后生成一个基于上下文的应答。

GraphRAG的优势在于：

能利用知识图谱在多跳关系中的映射和查询能力，生成复杂且丰富的答案。
提供更多相关数据点，如何理解和响应用户查询。
减少生成幻觉，提高回答的质量。

使用的技术工具：

使用LangChain框架，可以简化构建、部署和管理大型语言模型的过程；Neo4j作为高性能图形数据库管理系统；以及GPT-4o作为OpenAI发布的最新语言模型；Streamlit框架则简化了构建美观定制网络应用程序的流程。

实际应用与实现步骤

实际应用与实现步骤

应用概述

我们正在使用的示例应用程序包括四个主要部分：

在本地使用Docker托管的Neo4j。
一种图形构建工具，能从非结构化文本中提取信息，并使用人工智能将其转换为知识图。
一个混合检索器，可以从图中提取结构化和非结构化文本。
一个Streamlit用户界面，允许用户与其图形化知识文档进行互动。

使用Docker配置Neo4j环境

首先，我们在本地运行一个Neo4j实例。为了简化操作，我们选择使用Docker。首先，需要下载APOC JAR并将其放入$PWD/plugins目录中。这可以放在任意位置，只需确保Docker命令能够识别JAR的位置。APOC是Neo4j的一个辅助库，提供许多有用功能，在此示例中必不可少。

确保已经安装Docker Desktop，然后执行以下命令：

docker run -p 7474:7474 -p 7687:7687 \ -v ${PWD}/data:/data -v ${PWD}/plugins:/plugins \ --name neo4j-v5-apoc \ -e NEO4J_apoc_export_file_enabled=true \ -e NEO4J_apoc_import_file_enabled=true \ -e NEO4J_apoc_import_file_use_neo4j_config=true \ -e NEO4J_PLUGINS='["apoc"]' \ -e NEO4J_dbms_security_procedures_unrestricted="apoc.*" \ neo4j:5.20.0

上述命令格式适用于Powershell环境，请根据您的系统/终端进行相应调整。

从非结构化数据构建图谱

为了演示如何合并多种类型的数据来源，我创建了三个文档提取器：一个用于YouTube，一个用于维基百科，还有一个用于纯文本。

def extract_youtube_transcript(self, url) -> List: return YoutubeLoader.from_youtube_url(url).load() def extract_wikipedia_content(self, search_query): raw_docs = WikipediaLoader(query=search_query).load() self.chunk_and_graph(raw_docs) def graph_text_content(self, path): text_docs = TextLoader(path).load() self.chunk_and_graph(text_docs)

在提取内容后，需要对文本进行分块。为了实现有效的RAG文档拆分，这里我使用了简单的TokenTextSplitter。

def chunk_document_text(self, raw_docs): text_splitter = TokenTextSplitter(chunk_size=512, chunk_overlap=24) docs = text_splitter.split_documents(raw_docs[:3])

接下来，将每个块转换为图文档并持久保存到Neo4j实例中。这时，我利用LLMGraphTransformer将纯文本块转换为图节点和边。

def graph_document_text(self, text_chunks): llm_transformer = LLMGraphTransformer(llm=self.llm) graph_docs = llm_transformer.convert_to_graph_documents(text_chunks) self.graph.add_graph_documents( baseEntityLabel=True, text_chunks=text_chunks, )

这个过程会重复进行，直到所有来源文档的所有块都被处理完毕。特别一提的是include_source=True，这样可以在图中显示来源文档，对于后面的非结构化语义搜索步骤十分有用。最终，在整个图中创建一个索引帮助进行高效的搜索。

图检索器

图检索器的构建包含多个步骤。以下是每个步骤的解释和代码示例。

首先，提取用户问题中的实体。由于图是通过节点和边来相互连接的，按实体搜索是一种常见策略。在例子里，用户的问题可能包含多个实体，可以这样提取出来。注意：返回的是一个可运行的链，以便稍后将此步骤与其他步骤链接。接着，构建结构化数据检索器，用于生成一个图查询，提取上面识别出的实体的相关节点和关系。这个过程将图查询与识别出的实体合并，从而得到一个数据语料库，用于回答用户的查询。

def extract_entities_from_question(self, question): # 提取问题中的实体 entities = self.entity_extractor.extract(question) return entities

然后，我将创建混合检索器的非结构化部分。记得图中包含的源文档吗？现在我们利用这一点，直接从图中创建一个向量索引。

def create_vector_index_from_graph(self): # 创建向量索引 vector_index = self.graph.create_vector_index(include_source=True) return vector_index

最后一步是将检索的两种方法合并，构建一个组合查询，将其发送给LLM。这个组合查询包含用户问题的上下文和混合检索器内容。

def combine_retrieval_methods(self, entities, vector_index): # 合并检索方法 combined_query = self.llm.create_combined_query(entities, vector_index) return combined_query

这便是构建混合GraphRAG实现的方法。

为了进一步提升功能，我们应该添加一个能够对话方式与图形交互的接口。由于Streamlit能够快速构建原型，所以我们继续使用它。用户界面分为两个部分：