2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

LLM如何结合知识图谱进行RAG

发布日期:2024-09-06 18:43:11 浏览次数: 2816
作者:智见AGI

微信搜一搜,关注“智见AGI”



为什么需要知识图谱


在20世纪60年代末,数据库技术开始发展,在70年代数据库技术得到了迅猛的发展,成为了计算机科学的一个重要分支。在80年代时关系型数据模型就处于统治地位,而随着关系型数据库使用范围的不断扩大,也暴露出一些他始终无法解决的问题,其中最主要的是数据建模的一些缺陷和问题,以及在补数据量和多服务器上的如何进行伸缩。同时随着互联网的发展也产生了一些新的变化,而传统的关系型数据库就表现的不是很适应,而为了解决这些传统关系型数据库产生的新型数据库被称为NoSQL数据库。


NoSQL(Not Only SQl),是一类范围非常广发的数据库,他们不遵循关系型数据模型,也不使用SQL作为语言查询,而本次我们将主要关注NoSQL中的图数据库。而作为NoSQL的一种,可以看到在db-engines.com网站中图数据库从2013年开始图数据库的关注度就一直居高不下。



知识图谱这个术语最早是由谷歌在2021年的5月提出,作为器增强搜索的结果,向用户提供更多的上下文信息,知识图谱旨在理解实体之间的关系,并直接提供查询的答案。知识图谱是一种结构化的知识表示方式,它通过实体、关系和属性来描述复杂的知识网络。在知识图谱中,实体代表现实世界中的对象或概念,关系表示实体之间的联系,而属性则描述实体的特征。这种表示方法不仅能够直观地展示知识之间的关联,还能支持高效的知识检索和推理。


结合知识图谱进行RAG


在当前背景下,我们所说的知识图谱往往指的就是图数据库,比如Neo4J,NebulaGraph这种,所以结合知识图谱进行RAG我们也可以理解为结合图数据库进行RAG,而最早提出基于图数据进行RAG的就是NebulaGraph,而结合知识图谱进行RAG的方法也别称为Graph RAG。


在NebulaGraph的文章中,将这种方法称为Text2Cypher,和Text2SQL类似的,是借助LLM生成对应的Cypher语句。在传统的文本查询领域,当一个问题语句发送之后,首先需要意图识别,实体识别,然后再利用LLM模型或者代码将相应的意图和实体构造成查询语句,在结合图数据库中,依然是使用这种方式,只不过是将查询语句变成了Cypher语句或者其他NoSQL语句。


与RAG相比,GraphRAG的提示词不仅包含了查询信息和根据查询信息检索到的相关上下文信息,而且还集成了从领域知识库图谱库中检所到的与查询信息相关的知识图谱信息,在广度深度上更加丰富。因此,GraphRAG不仅进一步的提升了LLM生成答案的准确性和可靠性,突出了是通过知识图谱提高了模型的检索能力提升了LLM处理复杂信息的能力。


在微软今年的实验中,使用新闻文章中的暴力事件信息 (VIINA)数据集,这个数据集中复杂性更高,并且存在不同的意见和部分信息,并且这个数据集中的信息是一个真实测试的案例并且是近期发生的事情,没有被纳入到LLM的预训练中。


在这个实验中,分别基于RAG和GraphRAG进行提问


Query1:“What is Novorossiya?”



Query2: “What has Novorossiya done?”



在问题1中,不论是RAG还是GraphRAG都表现良好,而在问题2中提问的问题包含了一个需要关联的查询,基础的RAG则无法回答,而GraphRAG则从Novorossiya中发现了一个实体,并通过指向原文的链接得到更加优质的答案。


除此之外基础的RAG因为是基于相似度进行查询的,所以很难处理需要汇总整个数据集的信息才能得到的答案,比如“数据中的前五个主题是什么”这种类似的查询,因为基础的RAG基于数据集内的文本内容的向量搜索,所以最终往往很难查询到正确的信息,,但是借助GraphRAG则可以回答这类问题,如在这次的实验中。


Query: “What are the top 5 themes in the data?“



在基础的RAG中发现列举的主题和实际的情况没有太大关系,而GraphRAG的结果中则可以看到5个主要的主题和支持的细节。


知识图谱RAG方案对比


在现在流行的llama-index框架和Langchain框架中,实现知识图谱的检索是通过Text2Cypher的方式。也就是首先通过LLM根据用户提出的问题生成一个Cypher语句,然后再Neo4J数据库或者其他图形数据库中执行这个Cypher语句,最终LLm根据Cypher语句执行的结果进行总结返回。



在微软的GraphRAG框架中则没有使用第三方的图数据库,而是建立在开源的库DataShaper之上,DataShaper是一个数据处理库,允许用户使用明确定义的框架以声明方式表达数据管道、架构和相关资产。


而GrapRAG框架的整体流程则可以划分为一下五个步骤


  1. 编写TextUnit:将输入的文档转换为TextUnits,TextUnit用于提取文本块到图中。

  2. 图提取:这个阶段则分析每个文本单元提取图基础信息:实体、关系和生命,并将结果组合传递到后续阶段

  3. 图增强:在上个阶段获取到的实体和关系图,将在这个阶段扩充,通过社区检测、图嵌入等手段理解图的拓扑记过

  4. 总结:在这个阶段将基于社区数据生成报告以及总结

  5. 文件处理:这个阶段为知识模型创建文档表

  6. 网络可视化:在这个阶段执行一些步骤支持现有图标中的高维向量空间大额网络可视化,此时有两个逻辑图表起作用:实体关系图和文档图


未来的机遇与挑战


GraphRAG未来的发展充满机遇,特别是在需要高准确性和复杂推理的领域中。通过结合知识图谱,GraphRAG能提升生成模型的知识理解、推理能力和信息检索的准确性,尤其在医疗、金融、法律等专业领域提供定制化解决方案。此外,知识图谱的结构化特性使信息更新更快捷,适应快节奏的领域发展。然而,GraphRAG也面临知识图谱构建与维护的复杂性、多模态整合的技术难题、实时性能优化、图谱覆盖范围限制以及隐私和安全等挑战。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅