大模型构建和推理知识图谱的能力究竟几何？

发布日期：2024-08-16 08:11:47 浏览次数： 3443

作者：机智流

微信搜一搜，关注“机智流”

之前我用三期内容对（传统）知识图谱自动构建过程中的“知识获取”（特别是从非结构化或半结构化数据中自动提取和构建知识图谱）做了概述。这些传统技术主要关注于统计方法和神经网络，尤其是深度学习技术在知识图谱构建中的应用。（进一步阅读：《[综述导读] 知识图谱自动构建综述（一）》《[综述导读] 知识图谱自动构建综述（二）》《[综述导读] 知识图谱自动构建综述（三）》）

今天我们更进一步，借《LLMs for Knowledge Graph Construction and Reasoning: Recent Capabilities and Future Opportunities》来聊聊基于 LLM 的知识图谱自动构建和推理是否可靠、如何实现。

总得来说，① 作者通过在八个不同的数据集上进行实验，重点关注了实体和关系提取（entity and relation extraction）、事件提取（event extraction）、链接预测（link prediction）和问答（question-answering）等四个代表性任务，全面探索了LLMs在构建和推理领域的性能；② 还研究了LLMs进行信息提取的潜在泛化能力，提出了一种名为虚拟知识提取（Virtual Knowledge Extraction）的独特任务，并开发了相应的 VINE 数据集；③ 最后提出了一种基于多智能体利用LLMs和外部资源进行KG构建和推理的方法 AutoKG

研究背景和目的

知识图谱（KG）在多个领域的广泛应用，其中包括实体、概念和关系组成的语义网络。构建KG通常涉及多种任务，如命名实体识别（NER）、关系提取（RE）、事件提取（EE）和实体链接（EL）。链接预测（LP）是KG推理的关键步骤，对于理解构建的KG至关重要。此外，KG在问答（QA）任务（即利用已有的知识图谱来回答问题，这可能涉及到对 KG 中的实体和关系进行推理）中也占据中心地位，尤其是在基于问题上下文进行推理时。

因此，为了深入了解 LLMs 在与 KG 有关的任务中的表现，作者针对实体和关系抽取（RE）、事件检测（ED）、链接预测（LP）和问答（QA）四个任务，对 LLMs 在 KG 构建和推理任务中的潜力进行实证调查。通过理解 LLMs 的基本能力，作者进一步探讨了它们在未来可能的发展方向。研究集中在以下几个方面：

LLMs 的能力评估：通过在不同的数据集上进行实验，评估LLMs在零样本（zero-shot）和单样本（one-shot）设置下的表现，以了解这些模型在知识图谱领域的潜在用途。
泛化能力分析：通过设计一种称为虚拟知识提取（Virtual Knowledge Extraction）的独特任务，探究LLMs是否能够通过指令学习和执行提取任务，从而验证它们是否具有强大的泛化能力。
AutoKG的提出：基于实验结果，提出一种自动化KG构建和推理的概念，通过多智能体通信协作完成任务，减少人为参与，提高效率和准确性，并在新颖或数据稀缺的情况下展示出显著的适应性。

编者按：“事件提取”（EE）可能并不是一个常见的 KG 构建任务，参考相关资料和往期内容《[综述导读] 知识图谱自动构建综述（一）》，KG 构建的一般流程除了前面提到的 NER、RE、EL 外，还有实体分类（ET）、共指解析（CR）等。但 EE 在KG 构建中可能可以起到丰富知识表示、增强关系识别、提供上下文信息、促进领域特定应用、辅助自动化知识获取、增强语义理解等作用，因此其作用也是不容忽视的。（如有不同意见，欢迎在评论区提出）

LLMs 的能力评估

实验设置

针对前述四个任务，在 zero-shot 和 one-shot 设置下，作者对 GPT-4、ChatGPT 和 text-davinci-003 进行了评估，具体分析了其之间的性能差异和增强，并以各项任务中的完全监督 SOTA 模型作为基准模型。此外，针对不同任务还分别应用了不同的数据集进行评测：

命名实体识别（实体抽取）和关系抽取：使用了 DuIE2.0、SciERC、Re-TACRED 和 MAVEN 数据集，涉及 20 个样本的测试/验证集，包括数据集中所有的关系类型。
事件提取：使用了MAVEN数据集，随机选取了 20 个样本，涵盖所有事件类型，并使用 F 分数作为性能评估指标。
链接预测：使用了 FB15K-237 和 ATOMIC 2020 数据集。FB15K-237 是一个包含 25 个实例的随机样本集，而 ATOMIC 2020 包含 23 个实例，代表所有可能的关系。
问答任务：使用了 FreebaseQA 和 MetaQA 数据集。从每个数据集中随机抽取了 20 个实例进行评估，采用 AnswerExactMatch 作为评估指标。

编者按：我认为从现有数据集中仅随机抽取 20 个左右的样本进行测试是不足的。但作者在 Limitations 中提到，由于他们无法使用 GPT-4 API，因此只能通过交互界面进行实验，这增加了工作量和时间成本。

实验结果

从总体来说（见左下图），尽管当下我们时常吹捧 LLMs ，但它们在 zero-shot 和 one-shot 设置下的 KG 构建方面并没有超越当前最先进的模型，这表明它们在从稀疏数据中提取信息方面存在局限性。相反，在 FreebaseQA（QA 任务）和 FB15K-237（EP 任务）数据集上，所有 LLMs 在 zero-shot 和 GPT-4 在 one-shot 中的性能都达到或接近 SOTA。这种在构建和推理任务上的差异可能源于构建任务的内在复杂性；此外，LLMs 在推理上的稳健表现还可能归因于他们在训练前接触了相关知识。

具体来说：

在实体和关系提取任务中，GPT-4 在 zero-shot 和 one-shot 情况下都相对表现良好，尽管其性能尚未超越（甚至远不及）完全监督的小型模型（见右上表）
在事件检测任务中，LLMs 依旧远不及专门训练的小模型；且相比其他大模型，GPT-4 能够同时识别出多个事件类型并显示出不一致的优越性
在链接预测任务中，GPT-4 在 zero-shot 情况下的表现接近最佳性能，但在 one-shot 情况下，通过优化指令文本可以进一步提高性能（见下表）。

在问答任务中，GPT-4 在 zero-shot 情况下与 ChatGPT 表现一致，均超越了 SOTA 模型。然而，在 one-shot 情况下，只有text-davinci-003从提示中受益，而 ChatGPT 和 GPT-4 的性能都有所下降（见上表）。

对实验结果的讨论

（一）通用与专用领域的表现

作者通过在 SciERC 和 Re-TACRED 数据集（均用于评估 RE 任务）上的实验，评估了 LLMs 在通用和专业领域的表现。发现它在特定领域的数据集上表现不佳（见表 1），这可能是由于模型主要在广泛的通用语料库上训练，缺乏足够的特定领域专业知识。

（二）性能不足的原因

作者还讨论了在前述评测中，LLMs 表现不佳的诸多原因：

数据集质量：以 KG 构建任务为例，数据集噪音可能会导致模棱两可的结果。复杂的上下文和潜在的标签不准确也会对模型评估产生负面影响。
提示词质量
评估方法：目前的方法可能并不完全适合评估 ChatGPT 和 GPT-4 等 LLMs 的能力。数据集标签可能无法捕捉到所有正确的回答，涉及同义词的答案也可能无法被准确识别。例如，如果数据集标签将“首都”标注为“Capital”，而模型输出了“Metropolis”（也是首都的意思），评估系统可能无法识别“Metropolis”为正确的答案，除非它能够处理同义词。

（三）模型是否真实具备泛化性

为了探讨“LLMs 的推理能力是源于其记忆的大量知识还是真实具备强大的泛化能力”，提出了虚拟知识提取任务。在实验中，作者通过构造不存在的实体和关系，即数据集 VINE（具体构造方式见原文，或公众号后台回复“VINE”），评估 LLMs 从指令中获取新知识并执行提取任务的能力。实验结果发现 GPT-4 在这个测试中成功提取了 80% 的虚拟三元组，而 ChatGPT 的准确率仅为 27%。这个过程展示了 GPT-4 具有较强的泛化能力，能够迅速获得通过指令提取新知识的能力，而不是仅仅依赖于对相关知识的记忆。

AutoKG 的提出

提出背景

在特定领域（尤其是数据有限的情况下），LLMs 相比小模型具有更强的适应性和泛化性，但 LLMs 在提供信息时可能会产生“幻觉”，其“黑箱”特性影响了模型的可解释性和准确性。由此作者提出了一种多智能体方法 AutoKG，通过分配不同角色给多个智能体，使它们能够基于相互知识协作完成KG任务。

AutoKG 工作流程

如下图所示，在 AutoKG 框架中，不同的智能体被分配不同的角色，例如作为咨询者的 KG 助理智能体 (KG assistant agent) 和作为领域专家的 KG 用户智能体 (KG user agent)。智能体接收到与知识图谱构建或推理任务相关的提示，这些提示指导智能体执行特定的行动。

在收到提示和分配的角色后，任务指定智能体（task specifier）会提供详细描述以澄清概念。随后，KG 助手和 KG 用户通过多方写作和互动完成指定任务，直到 KG 用户确认任务完成。与此同时，还引入了网络搜索者（web searcher），以帮助 KG 助手进行互联网知识检索。KG assistant 在收到 KG user 的对话后，首先会咨询 web searcher 是否根据内容上网浏览信息；在 web searcher 回答的引导下，KG assistant 继续处理 KG user 的指令。实验结果表明，使用多智能体和互联网增强方法可以更有效、更全面地构建知识图谱。

三个显著挑战

尽管 AutoKG 可以显著改善 LLMs 构建 KG 的效果，但在使用过程中存在三个显著挑战：

API 的 Token 限制问题：当前使用的 gpt-3.5-turbo 受限于最大 Token 限制。这个限制影响了 KG 的构建，因为API 的 Token 限制可能会阻碍处理较长的文本或复杂的查询。
人机交互的效率问题：AutoKG 在促进高效的人机交互方面存在不足。在完全自动化的机器操作中，缺少人类监督以进行即时错误更正，然而如果在每一步都纳入人类的参与，则会大幅增加时间和劳动成本。
LLMs 的幻觉问题：鉴于LLMs生成非事实信息（hallucinations）的倾向，即它们可能会生成与训练数据或现实世界不匹配的信息，因此需要仔细审查来自 LLMs 的输出。这可以通过与标准答案比较、专家审查或半自动化算法来实现。