OpenKG-SIG | SIGData兴趣组：利用大模型构建LLM需要的知识图谱

发布日期：2024-07-14 08:54:48 浏览次数： 3333

作者：开放知识图谱

微信搜一搜，关注“开放知识图谱”

导读

OpenKG成立SIG兴趣组聚集一线工作者围绕特定主题开展研究，目前已经包括6个主题兴趣组：SIGData、SIGSPG、SIGTool、SIGModel、SIGAgent以及SIGEval。新开设的“OpenKG SIG”栏目主要用于介绍各个兴趣组的工作进展及动态。本期重点介绍数据兴趣组-SIGData。

SIGData兴趣组简介

主题Slogan

Build KGs for LLM and by LLM！

兴趣组简介

促进以中文为基础的知识图谱数据的开放、互联和众包是OpenKG的核心使命之一。随着大模型时代的到来，亟需探讨和回答大模型需要怎样的知识图谱，同时利用大模型的能力我们又能构建出怎样更有价值的开放知识图谱等新的问题。本兴趣小组致力于建设并持久维护OpenKG开放数据体系，同时探索怎样充分挖掘大模型的潜力构建更加适合于大模型需求的新型开放知识图谱。特别是针对大模型自身具有幻觉、知识过时、知识不准确等问题，致力于开源并维护可以辅助大模型落地的开放知识图谱数据，提供图谱数据表示、融合、更新的操作获取平台和社区平台，探索开放知识图谱数据建设的新方法和新模式。

主题任务

1. 建设并维护OpenKG开源图谱数据体系；

2. 探索基于大模型的开放知识图谱构建方法；

3. 构建服务于大模型的开放知识图谱。

代表性贡献

OpenKG数据地图、cnSchema、OneGraph

SIGData成员结构

SIGData的主要负责人是浙江大学的张文和蚂蚁集团的刘志臻：

目前SIGData已经有多家单位的成员加入，目前已有成员11人，其中包括：

●梁磊，蚂蚁集团

●Jiaoyan Chen，英国曼彻斯特大学助理教授

●鄂海红，北京邮电大学教授

●耿玉霞，杭州电子科技大学特聘副教授

●孙梦姝，蚂蚁集团

●伯仲璞，蚂蚁集团

●朱渝珊，浙江大学博士生

●徐雅静，浙江大学博士生

●孟佳卫，浙江大学硕士生

●陈少凯，浙江大学硕士生

●兰雅榕，浙江大学硕士生

SIGData将不定期举行知识图谱数据发布和研讨，敬请期待。

近期主要工作：OneGraph

为什么会发起OneGraph这个项目？

近年来，学术界和工业界开放的知识图谱数据很多，随着开放数据增多，不同数据集之间具有互补的信息，例如WordNet可以补充ConceptNet中部分概念的词义，又例如在OpenKG上的“国内行政区划”知识图谱所包含的中国行政区划信息可以补充“中国旅游景点知识图谱”中的旅游景点的标准地理位置划分。因此SIGData的小伙伴们觉得应该设计一个开放知识图谱数据自动融合和扩展的方案并形成一份更完整的开放知识图谱数据。这是发起OneGraph项目的第一个动机。

除了融合数据，还有其他动机吗？

有的。近几年，自然语言处理、计算机视觉、多模态领域大模型的飞速发展促进了计算机多个领域的飞速进步，尤其是大语言模型（Large Language Model，LLM）。大模型的发展给知识图谱领域带来了机遇和挑战。就机遇而言，一方面，大语言模型自身具有幻觉、知识过时、知识不准确等问题，知识图谱作为准确的人可编辑的知识表示方案，是弥补大语言模型缺陷的重要方法，另一方面，受到已有实体识别、关系抽取、事件抽取等自动构建方法泛化性的限制，自动构建覆盖度高、规模大知识图谱的一直没能很好地实现，而大语言模型具有通用的自然语言理解能力，模型参数中蕴含了大量的知识，可以极大地促进自动化的知识图谱构建。挑战方面，正如被广泛研究的问题“大语言模型可以被当作知识图谱吗？”，LLM-as-KG的范式逐渐被很多人接受，这给知识图谱本身带来了新的拷问，即如果大语言模型中已经具有丰富的知识，那包含什么信息、具有什么特点的知识图谱才是大模型需要的呢。因此SIGData的小伙伴们一致认为应该探索未来的人工智能系统需要什么样的知识图谱，大模型又能如何帮助多快好省地构建出对未来人工智能系统有用的知识图谱。所以SIGData发起了OneGraph项目。

能介绍一下OneGraph项目想要解决的具体问题吗？

拟对如下两个问题进行初步探索：

（1）什么样的知识图谱对大语言模型更有用？

（2）大模型是否可以帮助此类知识图谱的构建？例如，大模型是否可以大幅降低知识图谱的构建效率？是否可以把开放知识图谱的构建规模和质量都提升一个量级？

请问现在OneGraph建设得怎么样了？

经过一段时间探索，以包括OpenKG上的开放知识图谱在内的已有知识图谱为数据源，目前已经形成了超过一亿规模的涉及常识、人物、医疗、地理、金融、历史等多个领域的三元组，包含了概念、实体、事件、文本等对象、以及对象与对象之间的关系、抽象概念之间的层次结果、事件和动作之间的因果效应事实等，经人工抽样评测，目前的OneGraph数据整体准确率达到87%。

取得了不错的进展呢。那针对要探索的第一个问题“什么样的知识图谱对大语言模型更有用？”，SIGData找到答案了吗？

针对这个问题SIGData依然还在探索中，但我们逐渐形成了如下认识：

首先，与之前为了追求规模而牺牲准确性的大规模知识图谱构建思路不同，大语言模型需要的知识图谱中的事实类知识，应该以保证准确性为首要原则，其次才是规模，我们认为知识准确率高于大模型自身具有的知识准确率的知识图谱对大模型才有有用的，具有更高准确率的知识图谱对大模型更有用。
其次，与之前注重概念和实体建模的知识图谱不同，大语言模型需要的知识图谱应该具有更丰富的层次和文本亲和性，包括概念、实体、事件、句子、段落、文档之间的连接关系，并且就数据量而言，概念、实体、事件、句子、段落、文档会形成倒钻石形，大量的数据是偏文本的句子、段落、文档，这样的知识图谱才能重塑大语言模型的知识体系、拓宽大语言模型的知识边界，同时具有较好的大语言模型亲和性。

那针对要探索的第二个问题“大语言模型是否可以帮助此类知识图谱的构建？”，SIGData有什么经验要分享吗？

我们在如下方面使用了大语言模型：

生成schema：大语言模型的参数中存储了许多领域概念的知识，我们在给定领域顶层概念的基础上，采用大语言模型生成其对应的子概念并构建概念层次体系，例如依据11个医疗领域的顶层概念，依靠大语言模型可以构建包含14935个概念的医疗概念树。
英文翻译成中文：对部分英文概念（多指包含1-3个单词的词组），我们采用大语言模型对其进行翻译，经评估，大模型的翻译准确了为84%。
三元组分类：对于数据源中已有的三元组，我们使用不同的大语言模型对三元组进行正确或错误的分类，经过大语言模型校验之后，概念类三元组的准确率由73.6%提升至87.5%，实体类三元组的准确率从84.3%提升至86.5%。

经过近期的探索，我们认识到大语言模型的生成能力对于提升知识图谱的准确率、扩展识图谱的知识覆盖度、降低知识图谱构建成本都有较大的增益。

除了以上增益，使用大语言模型进行知识图谱构建有什么局限吗？

有的，是存在一些明显的局限的，例如：

处理效率低：受到大语言模型生成速度和输入长度的限制，用大语言模型对大量三元组的处理效率比较慢，例如，在不做模型推理并行的情况下，采用72B的大语言模型对百万级三元组处理需要20天（约5万条/天）。因此我们在用大语言模型进行三元组分类之前，先根据人工标注的数据训练了一个用于三元组粗分类的Macbert模型，其分类准确率可达83.5%。
输出不规范：尽管可以在输入的提示里约束输出的形式，作为生成模型的大语言模型仍然可能不按照设定格式输出，会给批量的流程化的数据处理带来一定的困难，需要对语言模型的输入进行后处理或筛选。
存在知识冲突：在生成概念层次体系时会出现上下位概念形成环的情况，说明大语言模型内部知识存在冲突，但如果没有环这样的明显错误的模式，很难发现大语言模型生成数据中包含的冲突。

针对OneGraph项目，SIGData有什么规划吗？

后面，SIGData将继续依托OneGraph项目对如何利用大模型构建LLM需要的知识图谱进行深入探索，同时探索OneGraph增强大语言模型能力的方法，构建知识增强的大语言模型系统，也将发布OneGraph的数据和技术报告等，敬请期待。