微信扫码
添加专属顾问
非结构化数据到可查询图谱
今天我要通过使用Neo4j、LangChain和Streamlit的GraphRAG示例来创建一个可以与您的转换为知识图谱的文档进行交谈的Chatbot。GraphRAG是由微软研究团队于2024年2月提出的重磅-微软发表GraphRAG论文并即将开源项目。他们最近基于这项工作发布了一个实现重磅 - 微软官宣正式在GitHub开源GraphRAG,您也应该去了解一下。
本文编译自
Build GraphRAG Using Streamlit, LangChain, Neo4j & GPT-4o - The Bright Journey with AI (brightjourneyai.com)
https://brightjourneyai.com/build-graphrag-using-streamlit-langchain-neo4j-gpt-4o/
开源代码在github
https://github.com/BrightJourneyAI/graph-rag
使用知识图谱的RAG
我们已经知道,RAG旨在帮助LLMs消化超出其原始训练数据的新知识。这使得更近期或以前被遮蔽的信息能够被纳入传递给用户的回答中。这也有助于减少幻觉,暂且称其为基本RAG。尽管这能够提供更好的结果,并具有其自身的优化,但它面临的一个挑战在于连接通过模糊关系分隔的不同知识的能力。
我们知道,信息通常是松散相关的,而上下文并非总是干净地相互关联的。知识图谱在代表和查询这些复杂关系方面表现出色。术语“多跳”用于描述这个概念,即答案可能跨越多个关系边缘。通过基本RAG实现,衍生的知识往往仅限于输入的内容。例如,在我们之前比较Garmin跑步手表的例子中,除非在新数据中明确说明了这一事实,否则它无法理解专业跑步者更青睐更先进的训练手表。
这就是知识图谱和RAG可以合作的地方。通过利用知识图谱在关系中映射和查询多跳的能力,我们可以构建更复杂和丰富的答案。它通过使用从新源文档中检索到的结构化和非结构化数据,提供与用户查询相关的更丰富的数据点。以前面的例子为例,它不仅可以返回专业跑步者更青睐更先进的训练手表这一事实,还可以返回这些手表到底是什么以及它们共享哪些独特特点。这正是RAG的真正力量发挥的地方。
工作原理
我们将在接下来的几节中讨论细节和代码,但我只想花一点时间概述GraphRAG实现背后的高级架构。采取的方法是创建既有向量化相似度搜索又有图查询的混合体,以返回结构化和非结构化数据。通过这种方式,我们可以利用从查询图和其关系中获取的上下文来增强基本RAG的益处。
下面是该过程的简单轮廓,分为两个阶段:
RAG数据存储 - 该组件负责建立用于在用户提出问题时检索背景的数据存储。与基本的RAG一样,我们将文档划分成块,使其与LLMs上下文窗口兼容。每个块都转换为一个图形文档,图形从每个连续文档中逐步构建。
混合检索 - 由于此解决方案既使用图查询又使用向量相似度搜索,我们利用构建的图形存储原始文档块,并从中构建向量索引。
检索器 - 在这里,我们接受用户问题提取问题中的实体,然后使用这些实体进行向量搜索和构建图查询。最终数据与原始问题一起发送到LLM,LLM返回一个上下文感知答案。
LangChain - LangChain是一个开源框架,简化了构建、部署和管理大型语言模型(LLMs)的过程。它提供了强大的基础设施和丰富的集成和函数库,帮助快速原型设计和开发基于LLM的应用程序。
Neo4j - Neo4j是一个高性能的图形数据库管理系统。它利用Cypher查询语言进行高效的查询和操作,使其成为需要复杂数据关系的应用程序的理想选择,比如推荐引擎、欺诈检测、社交网络和IT基础设施管理。
GPT-4o - GPT-4o是OpenAI在撰写时发布的最新模型。借助令人印象深刻的训练数据集,并在连续模型的基础上构建,GPT-4o被视为其他模型试图匹敌的基准。对于这个应用程序,我们将使用LangChain内置的集成与我们的模型进行交互。您将需要提供自己的API密钥。
Streamlit - Streamlit是一个开源框架,使开发人员能够轻松创建和共享美观的自定义网络应用程序,用于机器学习和数据科学项目。通过使用简单的Python脚本,Streamlit允许用户构建交互式和视觉上吸引人的应用程序,而无需深入了解Web开发。
youtube-transcript-api - Python库,用于检索YouTube视频的剧本或字幕,包括自动生成的字幕。它支持多种语言和字幕翻译,无需使用无头浏览器。API可通过编程或命令行界面使用,提供批量提取、格式选项和代理支持等功能。
LLMGraphTransformer - 注:仍然是实验性功能。LangChain中的LLMGraphTransformer是一个工具,使用大型语言模型(LLM)将文档转换为基于图形的格式。它允许用户指定节点和关系类型,根据需要应用约束和筛选。转换器可以异步处理文档,并支持根据提供的模式和约束生成结构化输出,使其成为将文本数据转换为结构化图数据用于各种应用程序的理想选择。
示例案例–Garmin手表推荐
尽管我已经购买了我的新Garmin Forerunner 255,但我将继续以它作为我们示例的基础。由于拥有众多的变体、功能和价格档次,它提供了一个很好的工作基础示例。作为我最终要表达的一个小概要,它也是一个具有专业知识的代理人的良好基础,可以用一个小图表来代表—请留意。
我认为这已经足够了—让我们开始编写一些代码
应用概述
我们正在使用的示例应用程序有四个主要组件:
本地使用Docker托管的Neo4j
一种图形构建工具,可以提取非结构化文本并使用人工智能将其转换为知识图
从图中提取结构化和非结构化文本的混合检索器
一个Streamlit用户界面,允许用户与其图形化知识文档进行对话
使用 Docker 配置 Neo4j 环境
首先,我设置了一个本地运行的 Neo4j 实例,为了简单起见,使用了 Docker。首先要做的是下载 APOC JAR 并将其放入 $PWD/plugins 目录。这基本上可以放在任何你喜欢的地方,只需确保以下 Docker 命令知道你放置了 JAR 的位置。APOC 是 Neo4j 的一个附属库,包含有助于其操作的有用功能。这在这个示例中是必需的。
确保您已经安装了 Docker Desktop 并执行以下命令。
1 2 3 4 5 6 7 8 9 10 |
|
上述内容格式适用于 Powershell 环境,请根据您的系统/终端进行相应调整。
从非结构化数据构建图谱
为了演示合并多种来源类型,我创建了三个文档提取器。其中一个用于 YouTube,一个用于维基百科,另一个用于纯文本。
1 2 3 4 5 6 7 8 9 10 11 12 |
|
1 2 3 4 5 6 7 8 9 10 |
|
1 2 3 4 5 6 7 8 9 10 11 |
|
提取内容后,现在您需要对文本进行分块。有许多正在出现的策略可用于有效地为RAG实现拆分文档,在这种情况下,我坚持使用了一个简单的TokenTextSplitter。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
|
对于每个块,我们开始将其转换为图文档的过程,并将其持久保存到底层的Neo4j实例。这就是我利用LLMGraphTransformer将纯文本块转换为图节点和边的地方。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 1 |
|
这个过程会一直重复,直到所有来源文档中的所有块都被处理完。值得注意的一个有趣的点是**include_source=True**。这将在图中显示来源文档。这对后面的非结构化语义搜索步骤很有用。
最后,我在整个图中创建一个索引,以帮助进行高效的搜索。这一步必须在向图中添加所有新内容之后完成。
图检索器
图检索器是通过多个步骤构建的。以下是每个步骤的解释和代码。
首先要做的是提取用户问题中存在的实体。由于图是通过在边上将节点映射到彼此来运行的,按预期实体搜索是一种常见策略。用户的问题可能提到多个实体,可以像这样提取。注意:我们返回一个可运行的链以便稍后将此步骤与其他步骤链接起来。
接下来我将构建结构化数据检索器,它将生成一个图查询,以提取我们上面提取的实体的相关节点和关系。
这里发生的是,被识别的实体与图形查询合并,以便我们可以返回与这些实体相关的邻居和关系。这产生了一个非常精确的数据语料库,可用于回答用户的查询。
接下来,我将创建混合检索器的非结构化部分。记得我们在图中包含源文档的地方吗?现在我们可以利用这一点,直接从图中创建一个向量索引。
最后一步是将检索的两种方法合并在一起,并构建我们将发送给LLM的组合查询。组合查询将包括用户的混合检索器上下文和原始问题。
在构建混合GraphRAG实现方面,这就是它。要再进一步,我们应该真正添加一个可以以对话方式与图形交互的接口。
由于Streamlit使得快速构建原型变得如此容易,让我们继续前进并做到这一点。用户界面分为两个部分:
侧边栏 - 包含用于管理图形的控件 - 目前将从代码中包含的预填充 URL 读取
主窗口 - 这是主要的聊天界面 - 用户可以提出问题,将模型的潜在知识与您提供的特定基于图形的知识相结合
Conclusion总结
让我们回顾一下:我们面临的主要问题是数据通常不是线性相关的,可能包含超越单个“跳跃”的有价值信息。解决这个“多跳”问题正是知识图谱的必要之处。它们提供了信息相互关联的更现实的表示,使我们能够相对容易地查询这种复杂性。手动构建这些图谱可能具有挑战性,但随着LLMs的出现,我们现在有能力有效地自动化这个过程。
通过开发混合检索器,我们可以有效地匹配和理解与用户查询相关的实体。这使我们能够提取相关节点和边,从而产生更丰富、更有见地的响应,捕捉到通常被基本RAG实现忽视的知识。完整的代码可在Github上找到。https://github.com/BrightJourneyAI/graph-rag
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-01
提升 RAG 准确率全攻略 让你的 AI 知识库 真正靠谱起来!
2026-06-30
教程:如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题
2026-06-30
知识库不是文件堆——我把RAG准确率从60%调到了92%
2026-06-30
本体论语义建设新思路,另类RAG来解决检索问题
2026-06-30
别把RAG当架构:Ontology(本体)才是Agent的业务世界
2026-06-29
PixelRAG:伯克利团队颠覆传统 RAG,用截图代替文本检索! 28 天狂揽 3000+ Star!
2026-06-29
腾讯WeKnora开源详解(三):检索引擎与生态集成
2026-06-29
腾讯开源WeKnora详解(二):知识库与对话核心能力
2026-04-06
2026-04-27
2026-04-23
2026-04-20
2026-04-09
2026-04-12
2026-04-22
2026-04-10
2026-05-14
2026-04-30
2026-06-23
2026-06-23
2026-06-15
2026-06-10
2026-06-10
2026-05-20
2026-05-18
2026-05-11
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。