Docs2KG：使用大模型自动构建知识图谱，降低企业知识图谱构建门槛

发布日期：2024-07-21 17:04:34 浏览次数： 3801

对于企业而言，信息资源已经转变为其核心资产，而如何有效管理这些信息资源则成为了一个迫切需要解决的挑战。知识图谱作为一种有效的数据组织方式，能够帮助企业整理和利用其数据资源。然而，传统的知识图谱构建过程不仅耗时耗力，还要求大量的人力资源去整理数据、定义实体和关系，并依赖多个不同的模型来提取信息。

为了解决这一问题，Docs2KG提出了一种创新的解决方案，它利用大型AI模型的智能处理能力，帮助企业以高效且成本效益高的方式自动构建知识图谱。这种方法不仅简化了知识图谱的构建流程，还降低了企业的运营成本。

项目主页：https://docs2kg.ai4wa.com/

论文地址：https://arxiv.org/pdf/2406.02962

摘要

大多数企业数据，大约80%，以非结构化的形式存储在数据湖中，这些数据通常采用多种不同的格式。面对这种异构性，传统的搜索引擎已经不能充分满足信息检索的需求。因此，知识图谱成为了整合异构数据和表达知识的有效工具。

Docs2KG是一个能够从各种非结构化文档中抽取信息的解决方案，它能够创建统一的知识图谱，使得对数据湖中的文档数据进行高效查询和分析成为可能。与现有技术相比，Docs2KG的优势在于其灵活性和可扩展性，它能够适应不同的文档结构和内容类型。此外，这个框架还支持多种数据后处理任务，增强了领域内的知识解释性。

简介

企业知识资产的绝大部分蕴含在非结构化文档之中，这些文档至少占据了企业数据湖的80%。整合这些数据并提取出有价值的信息是至关重要的，同时还需保留其原始来源以降低信息错误的风险。在医疗领域，患者的记录可能以手写临床笔记、出院信、医生间的电子邮件交流以及医学图像等多种形式存在。要有效处理这些数据，需要克服三个主要挑战：从多种格式中提取多模态数据、将不同模态的信息提取模型集成到统一框架中、以及以一种有意义的方式表示数据的语义并引用其来源。

本研究提出采用知识图谱作为统一的信息表示方式，动态地整合从各个模态中提取的实体信息，包括布局实体以保持对原始数据的引用。Docs2KG系统能够处理电子邮件、网页、PDF文件和Excel文件等多种数据格式。它生成的知识图谱支持基于文档结构和内容的动态自动更新，并且具备扩展性，允许人机交互。通过结合深度学习、计算机视觉和结构化文档解析的双重策略，Docs2KG实现了文档处理的统一化。所生成的知识图谱可应用于多种实际场景，例如减少知识过时的风险和增强基于知识的检索能力。

相关工作

大多数构建知识图谱的方法侧重于从文本资料中抽取信息。例如，Connected Papers这样的工具能够帮助研究人员和学者发现并探索相关的学术论文。与此不同，Docs2KG专注于处理多样化的非结构化文档。它的架构设计是动态的，能够根据文档的结构自动进行调整。此外，Docs2KG具有高度的可定制性和扩展性，使其能够适应各种类型的非结构化数据，满足不同的需求。

DOCS2KG

Docs2KG是一个专门设计来处理各种异构和非结构化文档的工具，它支持的文档类型包括电子邮件、网页、PDF和Excel文件。该工具的工作流程分为两个关键阶段：首先是双路径数据处理，其次是构建一个多模态统一的知识图谱。处理后的数据不仅与原始结构和语义关系相结合，还被存储在Neo4j图数据库中，这使得数据查询更加高效，并且可以通过直观的方式进行可视化。相关的代码和文档可以在线访问。

双路径数据处理

本文介绍了一种创新的双路径文档处理策略，旨在高效处理多种类型的文档。该策略包含两个主要的处理路径：

1. 图像转换路径：利用深度学习技术进行文档布局分析，将文档内容转换为图像格式。

2. Markdown转换路径：将文档内容转换为Markdown格式，并使用XPath等查询语言进行处理。

无论是PDF、网页、Excel还是电子邮件，这些文档都可以被转换成图像格式，并通过文档布局分析技术进行分割，提取出文本、图像和表格等元素。文章还详细介绍了四种独立的解析器，它们分别针对不同类型的Markdown文档进行优化处理。

Doc2KG 能够解析各种格式的文档，并将其转化为统一的知识图谱，具体方法如下：

PDF文件解析：根据文件的元信息决定是使用Markdown转换器还是图像转换器。对于扫描的PDF文件，需要应用训练有素的文档布局分析模型。
网页解析：利用Python的BeautifulSoup库进行HTML内容解析，提取文本和图像信息，并保持原始文档的树状结构，作为布局知识图的一部分。
Excel文件解析：使用Python的pandas库提取数据，并将数据转换为图像格式，再通过图像转换器进行处理。
邮件解析：使用Python的email库将邮件内容分割为纯文本、HTML和附件。对于文本和HTML部分，采用类似于网页的处理方法；对于附件，则根据其格式使用相应的工具进行处理。

Doc2KG的设计采用模块化方法，允许用户灵活配置和组合不同的处理模块，从而优化计算资源的使用，提高处理效率。

多模态统一知识图谱构建

在完成数据的预处理之后，Docs2KG将解析得到的信息整合成一个统一的多模态知识图谱（KG），这个图谱不仅包含结构化信息（例如层次和空间关系），还包含语义信息。多模态知识图谱中的联系主要分为两大类：模态内部关系和跨模态关系。

模态内部关系构建：模态内部关系涵盖了不同层级的结构联系，如标题和段落之间的层级关系，以及句子层面上的语义联系。这些关系可以通过以下方式表示：

其中?表示多模态KG中的最小单位子图。?和?代表来自文本源的不同模态，包括文本(?)、段落(?)和句子(?)。符号(ℎ?，?，??)表示两个节点之间的构造方法，其中ℎ?(头实体)指向??(尾实体)。?表示关系，用结构或语义信息表示：

结构关系:` has-child `、` before `和` after `。
语义关系:' same time '， ' focus '， ' supported by '， ' explain '。

模态间关系构建：在构建跨模态关系时，Docs2KG利用语义联系来描绘不同模态之间的相互关系。由于模态内部的层次和空间联系已经清晰地定义了关系的方向，因此跨模态关系可以这样表示：

其中?表示最小单位子图。?表示句子，如表格标题。?表示表和图形。?是它们之间的语义关系:“explain”和“same-time”。

示例

本文展示了如何通过图查询和RAG应用来进行数据驱动分析。在RAG应用中，节点和关系被嵌入并进行相似性搜索，以识别锚点节点，并通过多跳查询扩展节点以检索相关信息，从而增强响应查询的提示。

知识图谱查询

演示案例包括一个PDF文件和一个Excel文件。PDF文件包含了2011年至2021年香港人口规模和结构的信息，而Excel文件包含了2021年至2023年人口普查的记录，包括按年龄组和性别分类的中期人口数据。

利用Docs2KG工具，可以将PDF和Excel文件的内容解析并融合，形成一个统一的知识图谱。通过对这个图谱进行查询，可以方便地提取所需的信息。通过可视化工具，可以清晰地看到PDF文件的引言部分提及了2011年和2021年的一些关键事件。

基于语义和结构接近度的信息检索

RAG方法通过将更相关的信息直接嵌入到提示中，提出了一种增强大型语言模型性能的策略。在多模态知识图谱中，相关性通常指的是节点之间的接近程度，这种接近可以是语义上的，也可以是结构上的。利用语义相似性搜索，通过嵌入模型来检索相关的文本片段、图表等信息，选择最相关的前k个节点作为锚点。然后，检索n跳范围内语义和结构上相关的节点，以此来丰富和优化提示内容。

总结

本文阐述了一个名为Docs2KG的开源架构，它专门用于创建多模态知识图谱。与现有技术相比，Docs2KG框架针对的是更加实际的应用场景，能够处理包括网页、电子邮件、PDF和Excel文件在内的多种格式的非结构化数据。通过将这些不同来源的数据融合到单一的知识图谱中，并融入语义和结构化信息，Docs2KG能够以更全面和精确的方式呈现知识，这增强了知识图谱在不同应用领域中的有效性和可靠性。