微信扫码
添加专属顾问
点关注不迷路
GraphRAG 是在 7 月 2 日由微软开源的一种结构化、分层的 RAG 方法。通过构建实体知识图和预生成社区摘要(community summary)的方式,能够更好地处理和回答全局性的问题。
GraphRAG 能够连接大量信息中的信息,并使用这些连接来回答使用关键字和基于向量的搜索机制难以或无法回答的问题。在上一个问题的基础上,提供关于系统如何为各种用途提供功能的半技术性、高级信息。这使得系统可以使用 GraphRAG 来回答问题,其中答案涵盖许多文档以及主题问题,例如:此数据集中的顶级主题是什么?
全面性和多样性总结需求。经过在大规模数据集上的测试,在全面性、多样性、赋权性方面,GraphRAG 都优于传统 RAG(70~80%胜率)。
本文提出了一种基于图的RAG方法,通过构建实体知识图和预生成社区摘要(community summary)的方式,能够更好地处理和回答全局性的问题。
步骤
通过社区检测算法, 也就是用于识别图中密切相关的节点群体的一种算法。常见的包括Louvain和Leiden算法。
给定一个问题,首先使用每个社区摘要独立并行地回答查询,然后将所有相关的部分答案总结成一个最终的全局答案。
先把文档 token 化,按照 token 数进行切分。具体 chunk 规格可以自定义更改。
在处理源文档时,如何选择合适的文本块大小是一个关键设计决策。较长的文本块可以减少LLM调用次数,但会降低召回率。实践表明:较小的文本块(600个token)通常能提取更多的实体引用,但提取过程需要在召回率和精度之间找到平衡。
从文本块中提取图节点和边的实例。使用一个多部分的LLM提示来识别实体及其关系,并通过提供少量示例来定制提示以适应特定领域。为提高提取质量,采用多轮“清理”来发现和提取遗漏的实体。这种方法可以在使用较大的文本块时保持高质量的提取结果。
黛玉便知这方是正经正内室,一条大甬路,直接出大门的。进入堂屋中,抬头迎面先看见一个赤金九龙青地大匾,匾上写着斗大的三个大字,是“荣禧堂”,后有一行小字:“某年月日书赐荣国公贾源”,又有“万几宸翰之宝”。
大紫檀雕螭案上,设着三尺来高青绿古铜鼎,悬着待漏随朝墨龙大画,一边是金蜼彝,一边是玻璃盒。地下两溜十六张楠木交椅。又有一副对联,乃是乌木联牌,镶着錾银的字迹,道是:\N\N 座上珠玑昭日月,堂前黼黻焕烟霞。\N\N
下面一行小字,道是:“同乡世教弟勋袭东安郡王穆莳拜手书”。\N\N
原来王夫人时常居坐宴息,亦不在这正室,只在这正室东边的三间耳房内。于是老嬷嬷引黛玉进东房门来。临窗大炕上猩红洋罽,正面设着大红金钱蟒靠背,石青金钱蟒引枕,秋香色金钱蟒大条褥。两边设一对梅花式洋漆小几。左边几上文王鼎、匙箸、香盒;右边几上汝窑美人觚-觚内插着时鲜花卉,并茗碗、痰盒等物。
地下面西一溜四张椅上,都搭着银红撒花椅搭,底下四副脚踏。椅之两边,也有一对高几,几上茗碗瓶花俱备。其余陈设,自不必细说。老嬷嬷们让黛玉炕上坐,炕沿上却也有两个锦褥对设。黛玉度其位次,便不上炕,只向东边椅子上坐了。本房内的丫鬟忙捧上茶来。
黛玉一面吃茶,一面打谅这些丫鬟们,妆饰衣裙,举止行动,果亦与别家不同。\N\N
茶未吃了,只见穿红绫袄、青缎掐牙背心的一个丫鬟走来笑,说道:“太太说,请姑娘到那边坐罢!”老嬷嬷听了,于是又引黛玉出来,到了东廊三间小正房内。
正面炕上横设一张炕桌,桌上磊着书籍茶具,靠东壁面西,设着半旧得青缎靠背引枕。王夫人却坐在西边下首,亦是半旧的青缎靠背坐褥。见黛玉来了,便往东让。
黛玉心中料定这是贾政之位。因见挨炕一溜三张椅子上,也搭着半旧的弹墨椅袱,黛玉便向椅上坐了。王夫人再四携她上炕,她方挨王夫人坐了。
王夫人因说:“你舅舅今日斋戒去了,再见罢。只是有一句话嘱咐你:你三个姊妹倒都极好,以后一处念书认字、学针线,或是偶一玩笑,都有尽让的。
(\"ENTITY\"<|>黛玉<|>PERSON<|>黛玉是故事中的主要人物,她来到荣国府,观察府中的陈设和人物<|>)
(\"ENTITY\"<|>王夫人<|>PERSON<|>王夫人是荣国府的女主人,她接待了黛玉,并向她介绍了府中的情况<|>)
(\"ENTITY\"<|>荣国府<|>ORGANIZATION<|>荣国府是故事中的主要场景,是贾家的府邸,府中有许多房间和陈设<|>)
(\"ENTITY\"<|>荣禧堂<|>ORGANIZATION<|>荣禧堂是荣国府中的一个堂屋,堂屋中有一块大匾,匾上写着“荣禧堂”三个大字<|>)
(\"ENTITY\"<|>东安郡王穆莳<|>PERSON<|>东安郡王穆莳是故事中的一个次要人物,他是王夫人的同乡,曾为荣禧堂题写对联<|>)
(\"ENTITY\"<|>贾政<|>PERSON<|>贾政是故事中的一个次要人物,他是荣国府的主人之一,王夫人让黛玉坐在贾政的位置上<|>)
(\"RELATIONSHIP\"<|>黛玉<|>王夫人<|>黛玉是王夫人接待的客人,王夫人向黛玉介绍了荣国府的情况<|>5)
(\"RELATIONSHIP\"<|>黛玉<|>荣国府<|>黛玉是荣国府的客人,她观察了府中的陈设和人物<|>5)\
(\"RELATIONSHIP\"<|>王夫人<|>荣国府<|>王夫人是荣国府的女主人,她接待了黛玉,并向她介绍了府中的情况<|>5)
(\"RELATIONSHIP\"<|>东安郡王穆莳<|>荣禧堂<|>东安郡王穆莳为荣禧堂题写对联<|>3)
(\"RELATIONSHIP\"<|>贾政<|>荣国府<|>贾政是荣国府的主人之一,王夫人让黛玉坐在贾政的位置上<|>3)\N<|COMPLETE|>
将提取到的元素实例进一步总结为单一的描述性文本块。虽然在提取过程中可能会出现格式不一致的问题,但通过社区检测和LLM的理解能力,可以确保生成的图结构仍然可靠。此外,使用丰富的描述性文本适应了LLM的能力和全局性查询的需求,使得这种方法与传统的知识图谱不同。
["丫鬟是贾府中的人物,她们在贾府中侍候,执行各种家务任务。", "丫鬟是贾府中的女仆,负责传递消息和照顾府中的人。"]在贾府中,丫鬟们作为女仆,扮演着至关重要的角色。她们不仅负责执行各种家务任务,确保府中的日常运作井然有序,还承担着传递消息和照顾府中人员的职责。在贾府这个大家族中,丫鬟们以其勤劳、细心和忠诚,为府中的人们提供了周到的服务。
从这一步中,可以看出 GraphRAG 对 LLM 上下文窗口的大小要求很高,因为每个prompt 都要由输入的描述列表和相关要求提示构成。实践表明:LLM 最少需要支持 32k 上下文长度。
将前一步创建的图索引划分为社区。创建的图是一个同质无向加权图,节点通过关系边连接。通过使用社区检测算法(如Leiden算法),可以将图分为节点之间连接更强的社区。Leiden算法能够高效地恢复大规模图的层次化社区结构,使得可以实现分而治之的全局摘要。
社区检测算法(如Leiden 算法),也就是用于识别图中密切相关的节点群体的一种算法,将图分割成模块化社区。
为每个图社区生成摘要,以便在处理大规模数据集时保持高效。这些社区摘要不仅用于理解数据集的全局结构,也用于回答全局性查询。叶子级社区和高级社区的摘要生成方法有所不同,前者直接添加元素摘要,后者可能需要用子社区摘要替代较长的元素摘要,以适应上下文的token限制。
实现:通过 LLM 完成。输入:社区中的实体和对应的描述。输出:
{
"title": "贾母家与重要家族成员",
"summary": "社区以贾母家为中心,围绕着贾母家的成员和关系构建。贾琏,作为贾赦之子,与王熙凤结婚,是社区中的关键人物。王熙凤,被贾母称为“凤辣子”,是贾母家中的重要人物,与贾琏、王氏和贾母家有密切关系。王氏,作为王熙凤的姑母,也是社区的一部分。[数据:实体(27, 24, 23, 25, 22);关系(16, 67, 69, 70, 68, 66)]",
"rating": 7.5,
"rating_explanation": "影响严重性评级较高,因为贾母家及其成员在社区中扮演着重要角色,他们的关系和动态可能对社区的稳定性和功能产生重大影响。",
"findings": [{
"summary": "贾母家作为社区中心",
"explanation": "贾母家是社区的核心,与贾琏、王熙凤、王氏等关键家族成员有着密切的联系。贾母家的影响力和重要性在社区中是显而易见的。[数据:实体(27);关系(69, 70)]"
}, {
"summary": "贾琏与王熙凤的婚姻关系",
"explanation": "贾琏与王熙凤的婚姻是社区中的一个重要关系,这不仅将两个关键家族成员联系在一起,还加深了贾母家与王氏家族之间的联系。[数据:实体(24, 23);关系(67)]"
}, {
"summary": "王熙凤在贾母家中的地位",
"explanation": "王熙凤在贾母家中的地位非常重要,她不仅与贾琏结婚,还与贾母家有密切的联系。王熙凤被贾母称为“凤辣子”,这表明她在家族中的独特地位和影响力。[数据:实体(23);关系(69)]"
}, {
"summary": "王氏与王熙凤的家族关系",
"explanation": "王氏是王熙凤的姑母,这种家族关系在社区中具有重要意义,因为它不仅加强了王熙凤与贾母家的联系,还体现了家族内部的紧密联系。[数据:实体(25);关系(68)]"
}]
}
将社区摘要转化为回答用户查询的全局答案。该过程包括准备社区摘要、生成中间答案以及将最有帮助的答案整合成全局答案。社区摘要首先被随机打乱和分块,然后通过映射步骤生成中间答案,再通过归约步骤生成最终的全局答案。
向每个社区 community 提出问题,将这些问题汇总成总体摘要响应。
在故事中,
贾宝玉、林黛玉和王熙凤被确认为前三名最重要的人物。贾宝玉是故事中的关键人物之一,他是贾母的孙子,袭人的主人,性格乖僻,与黛玉有着前世今生的情感纠葛 [DATA: REPORTS (10, 3, 4, 5, 6, +MORE)]。林黛玉是故事中的另一重要人物,她前往外祖母家荣国府,与宝玉、袭人等有着密切的关系,性格温婉,与宝玉有着前世今生的情感纠葛 [DATA: REPORTS (10, 3, 4, 5, 6,+MORE)]。王熙凤是故事中的第三位重要人物,她是王夫人的侄女,贾琏的妻子,性格泼辣,在贾府中扮演着重要角色,与贾府其他核心人物有着密切的亲属和教育关系 [DATA:REPORTS (5, 3, 4, 6, 7, +MORE)]。
在索引阶段,系统会将所有实体的描述进行 embedding,也就是转换成向量存储。当执行本地搜索时,系统会将查询文本同样转换成向量表示。通过计算相似性,找到与查询最接近的实体。找到相关实体后,系统会通过图遍历来从这些实体出发,进一步获取相关的关系(如实体之间的连接)和社区。从而构建提示上下文(prompt context),为后续如回答问题或生成文本提供必要的信息背景。
由于这个差别,Global查询时只需要 LLM 开启即可,而Local查询时 LLM 和 embedding 必须都开启。
"贾母对黛玉的态度充满了疼爱和关怀,这在故事中得到了充分的体现 [DATA: ENTITIES (15, 4, 89, 38); SOURCES (9)]。首先,贾母对黛玉的到来表示了极大的关心。当黛玉初到贾府时,贾母亲自接待了 她,安排她住在荣国府的碧纱橱里,这表明贾母对黛玉的居住环境给予了特别的考虑 [DATA: ENTITIES (15, 4); SOURCES (9)]。其次,贾母对黛玉的健康状况表示了深切的关心。当得知黛玉身体虚弱,有不足之症 时,贾母没有表现出任何嫌弃或不满,反而更加疼爱黛玉,这体现了贾母对黛玉的深 厚感情 [DATA: ENTITIES (15, 4); SOURCES (9)]。再者,贾母对黛玉的教育和成长表示了关心。当得知黛玉曾是雨村的女学生,身体刚 恢复,后随雨村一同前往京城时,贾母没有表现出任何不满或担忧,反而更加疼爱黛 玉,这体现了贾母对黛玉的教育和成长的关心 [DATA: ENTITIES (15, 4); SOURCES (9)]。最后,贾母对黛玉的家族地位表示了关心。当得知黛玉是林如海和林姑妈的女儿,贾 母的外孙女,贾宝玉的表妹时,贾母没有表现出任何嫌弃或不满,反而更加疼爱黛 玉,这体现了贾母对黛玉的家族地位的关心 [DATA: ENTITIES (15, 4); SOURCES (9)]。综上所述,贾母对黛玉的态度充满了疼爱和关怀,这在故事中得到了充分的体现。贾 母对黛玉的居住环境、健康状况、教育和成长、家族地位都表示了关心,这体现了贾 母对黛玉的深厚感情和家族责任感。"
计算资源需求高:处理大规模图数据需要大量的计算资源。特别是在训练过程中,需要存储和处理大量的节点特征以及它们之间的边信息,这可能导致内存和计算能力的瓶颈。
长距离依赖问题:虽然注意力机制可以在一定程度上缓解这一问题,但是图中的长距离依赖关系仍然难以完全捕捉到,特别是对于那些跨越多个跳数(hop)的间接关系。
过平滑(Over-smoothing):随着图神经网络层数的增加,节点表示可能会变得越来越相似,导致难以区分邻近节点。这对于分类任务来说尤其不利,因为模型可能无法正确地将不同类别的节点区分开来。
数据稀疏性:在一些实际场景中,图数据可能非常稀疏,尤其是在节点间连接较少的情况下。这种稀疏性会使得模型难以从数据中学习到有效的特征表示。
缺乏解释性:深度学习模型通常被认为是“黑盒”模型,这意味着它们的决策过程很难被人类理解和解释。对于图神经网络来说,这一点同样适用,尤其是当涉及到复杂的图结构时。
动态图更新:现实世界中的很多图结构是动态变化的,如何有效地更新模型以适应这些变化仍然是一个挑战。
了解这些局限性有助于我们在选择和应用GraphRAG时做出更加合理的判断,并采取适当的措施来克服这些局限。例如,可以通过优化算法设计、改进硬件设施或采用特定的数据预处理技术等方式来缓解上述问题。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-04
大模型支持的上下文已超 1M, RAG 是不是没有意义了?
2026-07-03
RAG 检索优化策略:从命中率到答案质量的一套工程打法
2026-07-03
RAG 落地总翻车?全球赛事冠军架构,改造适配企业级生产
2026-07-01
提升 RAG 准确率全攻略 让你的 AI 知识库 真正靠谱起来!
2026-06-30
教程:如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题
2026-06-30
知识库不是文件堆——我把RAG准确率从60%调到了92%
2026-06-30
本体论语义建设新思路,另类RAG来解决检索问题
2026-06-30
别把RAG当架构:Ontology(本体)才是Agent的业务世界
2026-04-06
2026-04-27
2026-04-23
2026-04-20
2026-04-09
2026-04-12
2026-04-22
2026-04-10
2026-05-14
2026-04-30
2026-07-04
2026-06-23
2026-06-23
2026-06-15
2026-06-10
2026-06-10
2026-05-20
2026-05-18
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。