用 iText2KG 增量构建《西游记》知识图谱

发布日期：2024-09-29 18:39:00 浏览次数： 3300

作者：数翼

微信搜一搜，关注“数翼”

iText2KG 是一个 Python 包，旨在通过利用大型语言模型从文本文档中提取实体和关系，逐步构建具有已解析实体和关系的一致知识图谱。它具有零样本能力，无需专门的训练即可跨各个领域提取知识。该包包括用于文档提炼、实体提取和关系提取的模块，确保已解析且唯一的实体和关系。它不断用新文档更新知识图谱，并将其集成到 Neo4j 等框架中进行可视化表示。

总体架构

iText2KG软件包由四个主要模块组成，它们协同工作，从非结构化文本构建和可视化知识图谱。整体架构概述：

1. 文档提取器：该模块处理原始文档，并根据用户定义的模式将其重新组织成语义块。它通过关注相关信息并以预定义的格式对其进行结构化来提高信噪比。
2. 增量实体提取器：此模块从语义块中提取唯一实体并解决歧义以确保每个实体都有明确定义。它使用余弦相似度度量将局部实体与全局实体进行匹配。
3. 增量关系提取器：此模块识别提取的实体之间的关系。它可以以两种模式运行：使用全局实体丰富图形中的潜在信息，或使用局部实体建立更精确的关系。
4. 图形集成器和可视化：此模块将提取的实体和关系集成到 Neo4j 数据库中，提供知识图谱的可视化表示。它允许对结构化数据进行交互式探索和分析。

LLM 被提示提取代表一个唯一概念的实体，以避免语义混合的实体。下图显示了使用 Langchain JSON 解析器的实体和关系提取提示。它们分类如下：

• 蓝色 - 由 Langchain 自动格式化的提示；
• 常规 - 我们设计的提示；
• 斜体 - 专门为实体和关系提取设计的提示。

• （a）关系提取提示和
• （b）实体提取提示。

安装

要安装 iText2KG，请确保已安装 Python，然后使用 pip 安装

pip install itext2kg

或者使用 poetry 安装：

poetry add itext2kg

准备文档

我这里使用《西游记》的白话文版本来进行演示。

准备好文本（百度搜索有很多），放到 datasets 目录：

加载大模型

iText2KG 进行知识图谱的抽取使用到了聊天和嵌入两个模型，可以使用本地 Ollama 的模型：

from langchain_ollama import ChatOllama, OllamaEmbeddings

llm = ChatOllama(
    model="glm4",
    temperature=0,
)
embeddings = OllamaEmbeddings(
    model="glm4",
)

记得安装依赖：

pip install langchain-community langchain-ollama

定义指令

iText2KG 可以很方便的定义指令，比如我下面的：

IE_query = '''
# 指令：
- 像经验丰富的信息提取者一样行动。
- 提取的信息包含人物、地点、事件、物品、任务以及技能。
- 您有大量的故事阅读。
- 如果找不到正确的信息，请将其保留为空白。
'''

你可以根据你要抽取的数据类型进行简单定制。

文件处理

类似 RAG 一样，我们也需要对文件进行预处理，我直接给出函数代码，大家需要的话可以直接拿来用：

def build_sections(file_path):
    loader = PythonLoader(file_path)
    pages = loader.load_and_split()

    # we have replaced the curly braces with square brackets to avoid the error in the query
    distilled_cv = document_distiller.distill(
        documents=[page.page_content.replace("{", '[').replace("}", "]") for page in pages],
        IE_query=IE_query,
        output_data_structure=CV
    )

    sections = [f"{key} - {value}".replace("{", "[").replace("}", "]") for key, value in distilled_cv.items()
                if value != [] and value != "" and value != None]
    return sections

如果要处理 xiyou01.txt 文件，那么可以如下写：

sections = build_sections('./datasets/xiyou01.txt')

sections 的内容大概是这样：

构建图谱

加下来就是构建图谱了，我也把写好的函数贴到下面，需要的大家可以直接用：

def build_graph(sections, existing_global_entities=None, existing_global_relationships=None,ent_threshold=0.6, rel_threshold=0.6):
    global_ent, global_rel = itext2kg.build_graph(
        sections=sections, ent_threshold=ent_threshold, rel_threshold=rel_threshold,
        existing_global_relationships=existing_global_relationships,
        existing_global_entities=existing_global_entities
    )
    print(global_rel)
    print(global_ent)
    return global_ent, global_rel

传入刚才的 sections 就可以得到节点和关系数据：

global_ent, global_rel = build_graph(sections)

我们可以看到节点数据大约如下：

关系数据大约如下：

从控制台的调试信息我们可以看出，iText2KG 会进行关系梳理、节点去重等动作：

显示

我们使用 pyvis 这个工具来显示图谱。

首先是安装：

pip install pyvis

程序比较简单：

from pyvis.network import Network

net = Network(height="100vh", width="100%")
for x in global_ent:
    net.add_node(x['name'])
for x in global_rel:
    net.add_edge(x['startNode'], x['endNode'], weight=1)
net.show('mygraph.html', notebook=False)

然后点击生成的 mygraph.html 文件，就可以看到关系数据如下：

调整下参数，你可能得到更多的节点和关系：

增量构建

iText2KG 在构建图谱的一个亮点功能就是增量构建。

比如刚才了构建了《西游记》的第一章的图谱，我们可以在第一章的基础之上进行构建，而不是第一章和第二章一起构建。

sections2 = build_sections(text02)
global_ent2, global_rel2 = build_graph(sections2, existing_global_entities=global_ent1, existing_global_relationships=global_rel1)

再次画图看一下结构吧：

这次效果不是很好，产生了一些孤立节点。

指定结构

iText2KG 还有一个很棒的特性就是你可以指定节点的属性结构。

先声明一个节点类，比如官方示例中的简历：


class JobOffer(BaseModel):
    job_offer_title: str = Field(..., description="The job title")
    company: str = Field(..., description="The name of the company offering the job")
    location: str = Field(..., description="The job location (can specify if remote/hybrid)")
    job_type: str = Field(..., description="Type of job (e.g., full-time, part-time, contract)")
    responsibilities: List[JobResponsibility] = Field(..., description="List of key responsibilities")
    qualifications: List[JobQualification] = Field(..., description="List of required or preferred qualifications")
    certifications: Optional[List[JobCertification]] = Field(None, description="Required or preferred certifications")
    benefits: Optional[List[str]] = Field(None, description="List of job benefits")
    experience_required: str = Field(..., description="Required years of experience")
    salary_range: Optional[str] = Field(None, description="Salary range for the position")
    apply_url: Optional[str] = Field(None, description="URL to apply for the job")

然后我们再蒸馏的时候就可以指定 output_data_structure 参数：

distilled_Job_Offer = document_distiller.distill(
    documents=[job_offer], IE_query=IE_query,
    output_data_structure=JobOffer
)

写在最后

AI应用特别是 LLM 应用的性能，很大程度依赖大模型本身。

iText2KG 也不例外，小参数的大模型很可能解析不出期望的结果。

个人感觉，这个框架虽然能用，但是速度、准确度都比较慢，成本（TOKEN）也比较高。但是好在，项目本身是在积极开发中。

项目代码：https://github.com/AuvaLab/itext2kg^[1]

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-03

企业级知识图谱项目之：数据库选型

2026-07-02

企业级知识图谱的实体架构治理实践

2026-07-02

一文讲清：“统一语义”、“构建本体”、“AI推理”这三者的关系

2026-07-02

graphify + claude 图谱关系

2026-07-01

把运维能力装进 Qoder，一句话就能定位根因

2026-07-01

Gbrain、GraphRAG、LLM Wiki、Graphify：4 种知识图谱方案怎么选

2026-07-01

一文讲清：本体(Ontology)与语义(Semantics)到底是什么关系？

2026-06-30

从 OOP 到本体：用形式语义支撑 AI 协作方法论

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

卡帕西没做完的，开源社区48小时搞定了！完全体知识库，token省70倍

2026-04-07

碎片知识终于不乱了！这款开源 AI 工具，把笔记转为知识图谱，还能本地部署！

2026-04-19

Ontological Engineering：基于PolarDB-PG智能本体引擎实现“数据驱动”到“决策中心”

2026-04-23

还在关注Palantir本体论吗！看看OntoFlow本体建模平台：从数据 -> 知识图谱 -> 本体 -> 决策的完整链路功能演示

2026-04-22

本体（Ontology）与知识图谱（Knowledge Graph）的区别

2026-06-03

从可观测到可理解：用 UModel 构建 Agent 原生的代码知识图谱

2026-04-23

思考的快与慢：用 Prolog 给 LLM 装上理性大脑，然后引入知识图谱，做结构化知识双向同步，这个 agent 能力有点炸裂...

2026-05-26

腾讯混元干了件大事：Skill Graphs

2026-05-07

本体论又火了，他能优化我的 Agent 效果么？

2026-05-28

本体论与下一代企业架构

2026-05-23

大家都在问

一文讲清：本体(Ontology)与语义(Semantics)到底是什么关系？

2026-07-01

本体建模，应该面向实体还是面向业务？

2026-06-26

企业知识图谱如何正确分类？

2026-06-11

本体论又火了，他能优化我的 Agent 效果么？

2026-05-28

在大学里“知识图谱”，真的有人用吗？

2026-01-27

什么是本体（Ontology）？

2025-12-23

大模型落地最后一公里：为什么企业必须重构对“本体（Ontology）”的认知？

2025-12-01

文档知识图谱构建：AI代理如何简化复杂流程？

2025-07-29

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw