[2025论文解读]基于知识图谱的思考：一种知识增强的泛癌症问答大模型框架 - 中科院&广州国家实验室等

发布日期：2025-01-26 08:29:27 浏览次数： 3520

作者：知识图谱科技

微信搜一搜，关注“知识图谱科技”

Knowledge graph–based thought: a knowledge graph–enhanced LLM framework for pan-cancer question answering | GigaScience | Oxford Academic

摘要

背景：近年来，大型语言模型（LLMs）在各个领域表现出巨大潜力，特别是在生物医学科学中。然而，它们在实际应用中常常受到错误输出和幻觉式回应等问题的限制。

结果：本文开发了基于知识图谱的思考（KGT）框架，这是一种创新的解决方案，通过将LLMs与知识图谱（KGs）相结合，利用KGs中的可验证信息来改进它们的初步回应，从而显著减少推理中的事实错误。KGT框架展现出强大的适应性，并且在各种开源LLMs上表现良好。值得注意的是，知识图谱技术（KGT）可以通过潜在的药物与癌症关联发现现有药物的新用途，并通过分析相关生物标志物和遗传机制来协助预测耐药性。为了评估生物医学领域中的知识图谱问答任务，利用泛癌症知识图谱开发了泛癌症问答基准测试，命名为泛癌症问答。

结论：KGT框架显著提高了大型语言模型（LLMs）在生物医学领域的准确性和实用性。本研究作为概念验证，展示了其在生物医学问答方面的卓越表现。

关键点：

● 引入了一个结合大型语言模型（LLMs）与知识图谱（KGs）的框架，以提高LLMs推理的事实准确性。

● 本系统是一个灵活的架构，能够无缝集成各种LLMs。

● 利用泛癌症知识图谱，提出了生物医学领域首个知识图谱问答基准。

● 案例研究表明，论文方法在解决药物重新定位、耐药研究、个性化治疗和生物标志物分析等生物医学挑战方面增强了LLMs的能力。

● 与现有方法相比，该方法表现优异。

https://academic.oup.com/gigascience/article/doi/10.1093/gigascience/giae082/7943459

https://github.com/yichun10/bioKGQA-KGT

核心速览

研究背景

研究问题：这篇文章要解决的问题是如何利用知识图谱（Knowledge Graphs, KGs）来增强大型语言模型（Large Language Models, LLMs）在生物医学领域的推理能力，特别是减少事实错误。
研究难点：LLMs在处理事实性错误时面临的主要挑战包括：缺乏上下文信息导致的问题理解困难、生成答案所需的知识不足、以及难以回忆具体事实。此外，细调技术虽然可以减少幻觉，但会带来巨大的训练成本，并且可能导致灾难性遗忘。
相关工作：已有的研究工作包括MedAlpaca、ChatDoctor、MedPaLM等方法，这些方法通过医学数据或文献进行细调。此外，还有Chain-of-thought（CoT）提示和自动提示工程师（APE）等方法通过提示工程来提升LLMs的性能。然而，这些方法在处理生物医学领域的复杂问题时仍存在局限性。

研究方法

这篇论文提出了基于知识图谱的思想（Knowledge Graph-based Thought, KGT）框架，用于解决LLMs在生物医学领域的事实性错误问题。具体来说，

问题分析：首先，对输入的自然语言问题进行分解，提取关键信息，包括头实体名称、尾实体类型和尾实体的属性。
基于图模式的推理：构建一个基于知识图谱模式的无向图，并在该图上应用广度优先搜索（BFS）来识别连接头尾实体的最短路径。通过计算查询与每条路径的相似度，选择最优路径。
子图构建：根据最优路径生成查询语句，并在知识图谱中检索出相应的子图。
推理与输出：在子图上进行关系链和属性的推理，最终生成自然语言输出。

实验设计

数据集：利用SmartQuerier Oncology Knowledge Graph（SOKG）的一个子图，构建了生物医学领域的知识图谱问答（KGQA）基准，称为pan-cancer question answering（PcQA）。PcQA包含405个数据条目，覆盖了广泛的生物医学研究领域。
评估标准：使用基于GPT-4、BERTScore和ROUGE的评估器来评估生成答案的准确性。
基线方法：为了评估KGT框架的优势，将其与几种直接应用于KGQA任务的方法进行比较，包括Base方法、CoT&ICL方法和KG-GPT方法。此外，还将KGT应用于Code-Llama-13B、ChatGPT-3.5和Taiyi等多种LLMs。

结果与分析

不同方法的比较：在基于Code-Llama-13B的实验中，KGT方法在所有评估指标上均优于其他方法。KG-GPT提高了F1评分15.7%，而KGT提高了33%。
不同LLMs的比较：KGT在Code-Llama-13B上的F1评分为86.8%，显著高于ChatGPT-3.5的Base方法（34.1%）、CoT&ICL方法（50.5%）和Taiyi的Base模型（19.5%）。
消融研究：通过消融研究分析了KGT框架的各个组件的贡献。结果表明，去除图模式推理（GSBI）会导致F1评分下降20%，去除问题和图模式推理（QA&GSBI）会导致F1评分下降8.6%，而去除所有组件（QA&GSBI&SC）会导致F1评分下降46%。

总体结论

这篇论文提出了一种创新的KGT框架，通过将LLMs与知识图谱结合，显著提高了LLMs在生物医学领域的推理准确性和实用性。KGT框架无需细调，能够无缝集成多种LLMs，并在多个生物医学挑战中表现出色，如药物重新定位、耐药性研究、个性化治疗和生物标志物分析。通过案例研究，展示了KGT在实际应用中的潜力，为进一步研究和应用设定了新的标准。

论文评价

优点与创新

创新框架：提出了知识图谱增强的大型语言模型（KGT）框架，通过将LLMs与知识图谱（KGs）结合，利用KGs中的可验证信息来提高LLMs的初始响应，显著减少了推理中的事实错误。
强大的适应性：KGT框架能够无缝集成各种开源LLMs，展示了其广泛的适用性和灵活性。
新的药物用途发现：KGT可以通过潜在的药物-癌症关联发现现有药物的新用途，并通过分析相关生物标志物和遗传机制来预测耐药性。
生物医学知识图谱问答基准：利用泛癌症知识图谱开发了第一个生物医学领域的知识图谱问答基准（PcQA），填补了该领域缺乏适当数据集的空白。
案例研究：案例研究表明，KGT方法在药物重新定位、耐药性研究、个性化治疗和生物标志物分析等生物医学挑战中增强了LLMs的能力。
无微调设计：KGT无需微调，通过提示工程和上下文学习即可提升LLMs的性能，具有即插即用的特点。

不足与反思

数据集范围：构建的问答数据集及其对应的SOKG子图主要为了验证KGT框架的有效性，其范围主要集中在验证方法上，可能无法覆盖所有潜在的应用场景。
模糊匹配缺失：系统目前不支持模糊匹配，如果药物名称拼写错误哪怕一个字母，系统将无法从知识图谱中检索到信息。未来计划改进这一方面，以提高系统的可用性和可靠性。
临床应用验证：尽管本研究展示了KGT框架的技术可行性和初步效果，但尚未在实际临床实践中进行验证。在任何临床或医疗决策中，应始终依赖专业医疗保健从业者的判断和指导。

关键问题及回答

问题1：KGT框架如何在生物医学领域减少LLMs的事实性错误？

KGT框架通过将大型语言模型（LLMs）与知识图谱（KGs）结合来减少事实性错误。具体来说，KGT框架的工作流程包括以下几个步骤：

问题分析：将用户输入的自然语言问题分解成更小的、更易管理的单元，并提取关键信息，包括头实体名称、尾实体类型和尾实体的属性。
图谱模式推理：基于知识图谱的模式，构建一个无向图，并在该图上应用广度优先搜索（BFS）来识别连接头尾实体的最短路径。通过计算查询与每条路径的相似度，选择最优路径。
子图构建：根据最优路径生成查询语句，并在知识图谱中检索出合理的子图。
推理与输出：在子图上进行关系链和属性数据的推理，最终生成自然语言输出。

通过这种方式，KGT框架利用知识图谱中的可靠信息来增强LLMs的推理能力，从而减少事实性错误。

问题2：KGT框架在处理多跳问题时是如何进行的？

KGT框架处理多跳问题的方法可以分为两种类型：

间接关系推理：通过检查头尾实体之间的间接关系（R1, R2），推断出它们之间可能存在的未知或潜在关系R

中间实体推理：通过跟随从头尾实体到中间实体M的路径，进一步推断出目标实体T。

在这两种情况下，KGT框架都利用广度优先搜索（BFS）在知识图谱中识别最短路径，并通过计算查询与每条路径的相似度，选择最优路径来进行推理。

问题3：KGT框架在实验中是如何评估其性能的？

KGT框架的性能通过以下几个方面进行评估：

数据集：利用SmartQuerier Oncology Knowledge Graph (SOKG)的子图，创建了一个名为pan-cancer question answering (PcQA)的生物医学知识图谱问答基准数据集。PcQA包括405个数据条目，覆盖了广泛的生物医学研究领域。
评估标准：使用基于GPT-4、BERTScore和ROUGE的评估器来评估生成答案的准确性。具体来说，GPT-4评估器基于句子间的意义相似度打分，BERTScore评估器使用上下文敏感的嵌入来评估语义相似度，ROUGE评估器则评估生成文本与参考文本的最长公共子序列（LCS），重点考察序列的相似性和语义内容的保留。
基线方法：为了评估KGT框架的优势，将其与几种直接应用于KGQA任务的方法进行比较，包括Base方法、CoT&ICL方法和KG-GPT方法。所有方法均基于Code-Llama-13B模型。
对比分析：将KGT框架应用于Code-Llama-13B、ChatGPT-3.5和Taiyi模型，进行跨不同LLMs平台的对比分析。实验结果表明，KGT框架在Code-Llama-13B模型上的F1得分为86.8%，显著高于ChatGPT-3.5的Base方法（50.5%）和Taiyi的Base模型（19.5%）。