让LLM和AI Agent更聪明：微软开源基于知识图谱的GraphRAG！

发布日期：2024-07-11 07:58:50 浏览次数： 3861

作者：AI信息Gap

微信搜一搜，关注“AI信息Gap”

RAG，全名Retrieval-Augmented Generation，是一种结合了信息检索和文本生成的AI技术。RAG通过将大语言模型（LLM）与外部知识库连接，检索相关信息，然后利用这些信息来增强生成模型的输出，从而显著提高生成文本的相关性和准确性。

RAG模型通常由两部分组成：检索组件和生成组件。检索组件负责在给定的大量数据中检索与输入查询最相关的信息。这些数据可以是文本、图片或其他类型的数据，被分割并索引在向量数据库中。检索组件使用各种算法，如向量搜索，来快速定位相关信息。当用户提出问题时，RAG会检索出与问题语义最相关的文本片段，并将这些片段输入生成组件（LLM模型），从而生成一个结合了检索信息和语言模型的答案。

RAG的主要优势在于其高准确性和成本效益。通过引用外部知识来源，RAG能够提供更精确和可靠的回答，减少了语言模型输出错误信息的概率。相比重新训练或微调大型语言模型，RAG更加省时省力，只需上传文档即可更新或替换信息源。此外，RAG提供更易获取反馈和故障排除的方法，使开发者能够利用特定领域的最新信息。最后，RAG允许敏感数据保留在本地，确保数据隐私，同时支持不同的权限级别管理。

尽管RAG系统在提供丰富、准确的信息方面具有显著优势，但它也存在一些不足之处。例如，传统的RAG系统可能在处理大规模数据集时面临效率挑战，且在生成全局性问题的答案时可能不够全面。此外，它们可能需要大量的计算资源和前期数据索引工作，这在某些情况下可能会限制其应用的灵活性和可扩展性。正是为了解决这些挑战，微软推出并在近期开源了GraphRAG，它通过引入基于知识图谱的方法来增强信息检索和生成过程，旨在提供更高效、更全面的数据理解和生成能力。GraphRAG的创新之处在于其能够通过知识图谱结构化地组织数据，全面、系统地总结数据集中的主题和关系，极大地增强了回答的全面性和多样性，同时降低检索成本并提高处理速度。

微软的这个RAG项目GraphRAG一经开源，几天后在Github上的Star数量就超过了9200！

关于GraphRAG

GraphRAG Github项目地址：https://github.com/microsoft/graphrag

GraphRAG是由微软开发的一种先进的检索增强生成（RAG）工具，它在今年4月首次亮相，目前已在GitHub上公开可用。与传统的RAG方法相比，GraphRAG引入了一种基于知识图谱的方法，这使得它在信息检索和响应生成方面更为结构化和全面。GraphRAG的核心优势在于其能够自动化地从文本文档中提取出一个丰富的知识图谱，并通过大型语言模型（LLM）对这些数据进行深入分析和总结。

GraphRAG的一个显著特点是其在用户提出查询之前就能够报告数据的语义结构。它通过检测图中的“社区”——即密集连接的节点群组，并以分层的方式对这些社区进行划分，从而从高层次的主题到低层次的话题构建起一个多级的知识图谱。这一过程不仅揭示了数据的内在结构，而且通过LLM对每个社区进行总结，为数据集提供了一个分层的、无需预先指定问题的概览。每个社区的总结都详细描述了其中的实体及其相互关系，从而为理解和分析数据提供了一个全面的视角。

以上这张图片展示了一个由新闻数据集派生出的知识图谱，其中实体节点和它们之间的关系边以图的形式呈现。在这个图谱中，不同的颜色用来区分不同的社区，这些社区代表了数据集中的不同主题或话题。具体来说：

Level 0社区：位于图的左侧，表示数据集中的最高级别主题。这些社区由较大且颜色较少的节点簇组成，每个簇代表一个广泛的主题或概念。
Level 1社区：位于图的右侧，展示了在Level 0社区主题下更细粒度的话题。这些社区由更多的小节点簇组成，颜色更为多样，显示了在更高层次主题内部的细分话题和子主题。

通过这种分层和颜色编码的方法，GraphRAG清晰地展示了数据集中的语义结构，使得观察者能够一目了然地识别出数据集中的主要主题和它们之间的关系。这种可视化方法不仅有助于理解数据的组织方式，而且为进一步的分析和探索提供了一个直观的起点。

关于社区摘要（Community Summaries）

传统的基于向量搜索的RAG方法对于一些“全局性”问题（Global Questions）往往无法提供准确的答案，因为这些问题涉及整个数据集，而传统的RAG只生成与问题语义相似的文本片段的答案，而不是从所有输入文本中提取答案。相比之下，GraphRAG中的社区摘要（Community Summaries）通过考虑所有输入文本构建的图索引，能够更有效地回答这些问题。它采用了一种映射-归约（map-reduce）的方法来回答问题，这种方法将社区报告分组到LLM的上下文窗口大小，然后将问题映射到每个组以创建社区答案，并将所有相关的社区答案归约为最终的全局答案。

为了评估GraphRAG与传统RAG和层次化源文本摘要方法相比的表现，研究者使用GPT-4模型从两个数据集的简短描述中生成了一系列感知问题，并选择了三个指标进行比较：全面性、多样性和赋能性（支持知情决策制定）。结果显示，无论在社区层次结构的哪个级别使用社区摘要，GraphRAG在全面性和多样性方面都优于传统RAG方法，胜率约为70-80%。在较低的令牌（token）成本下，GraphRAG使用中间和低级别社区摘要的性能也优于源文本摘要，令牌使用率约为20-70%。对于最高层次的社区，GraphRAG的性能与层次化源文本摘要相当，但令牌成本显著降低，仅为2-3%。

并且，研究人员通过一个具体的例子展示了GraphRAG与传统RAG在回答关于娱乐文章中反复提及的公众人物的问题时的差异。传统RAG的回答较为表面，只列出了一些公众人物并简要描述了他们被提及的原因。而GraphRAG的回答则更为全面和深入，不仅列出了多个领域的公众人物，还深入分析了他们在娱乐行业中的影响力和公众对他们的兴趣。LLM的评估结果显示，在全面性、多样性和授权能力方面，GraphRAG均优于传统RAG。