微信扫码
添加专属顾问
OpenKG成立SIG兴趣组聚集一线工作者围绕特定主题开展研究,目前已经包括6个主题兴趣组:SIGData、SIGSPG、SIGTool、SIGModel、SIGAgent以及SIGEval。新开设的“OpenKG SIG”栏目主要用于介绍各个兴趣组的工作进展及动态。本期重点介绍数据兴趣组-SIGData。
SIGData兴趣组简介
主题Slogan
兴趣组简介
促进以中文为基础的知识图谱数据的开放、互联和众包是OpenKG的核心使命之一。随着大模型时代的到来,亟需探讨和回答大模型需要怎样的知识图谱,同时利用大模型的能力我们又能构建出怎样更有价值的开放知识图谱等新的问题。本兴趣小组致力于建设并持久维护OpenKG开放数据体系,同时探索怎样充分挖掘大模型的潜力构建更加适合于大模型需求的新型开放知识图谱。特别是针对大模型自身具有幻觉、知识过时、知识不准确等问题,致力于开源并维护可以辅助大模型落地的开放知识图谱数据,提供图谱数据表示、融合、更新的操作获取平台和社区平台,探索开放知识图谱数据建设的新方法和新模式。
主题任务
代表性贡献
SIGData成员结构
SIGData的主要负责人是浙江大学的张文和蚂蚁集团的刘志臻:
目前SIGData已经有多家单位的成员加入,目前已有成员11人,其中包括:
SIGData将不定期举行知识图谱数据发布和研讨,敬请期待。
近期主要工作:OneGraph
Q
为什么会发起OneGraph这个项目?
A
近年来,学术界和工业界开放的知识图谱数据很多,随着开放数据增多,不同数据集之间具有互补的信息,例如WordNet可以补充ConceptNet中部分概念的词义,又例如在OpenKG上的“国内行政区划”知识图谱所包含的中国行政区划信息可以补充“中国旅游景点知识图谱”中的旅游景点的标准地理位置划分。因此SIGData的小伙伴们觉得应该设计一个开放知识图谱数据自动融合和扩展的方案并形成一份更完整的开放知识图谱数据。这是发起OneGraph项目的第一个动机。
Q
除了融合数据,还有其他动机吗?
A
有的。近几年,自然语言处理、计算机视觉、多模态领域大模型的飞速发展促进了计算机多个领域的飞速进步,尤其是大语言模型(Large Language Model,LLM)。大模型的发展给知识图谱领域带来了机遇和挑战。就机遇而言,一方面,大语言模型自身具有幻觉、知识过时、知识不准确等问题,知识图谱作为准确的人可编辑的知识表示方案,是弥补大语言模型缺陷的重要方法,另一方面,受到已有实体识别、关系抽取、事件抽取等自动构建方法泛化性的限制,自动构建覆盖度高、规模大知识图谱的一直没能很好地实现,而大语言模型具有通用的自然语言理解能力,模型参数中蕴含了大量的知识,可以极大地促进自动化的知识图谱构建。挑战方面,正如被广泛研究的问题“大语言模型可以被当作知识图谱吗?”,LLM-as-KG的范式逐渐被很多人接受,这给知识图谱本身带来了新的拷问,即如果大语言模型中已经具有丰富的知识,那包含什么信息、具有什么特点的知识图谱才是大模型需要的呢。因此SIGData的小伙伴们一致认为应该探索未来的人工智能系统需要什么样的知识图谱,大模型又能如何帮助多快好省地构建出对未来人工智能系统有用的知识图谱。所以SIGData发起了OneGraph项目。
Q
能介绍一下OneGraph项目想要解决的具体问题吗?
A
(2)大模型是否可以帮助此类知识图谱的构建?例如,大模型是否可以大幅降低知识图谱的构建效率?是否可以把开放知识图谱的构建规模和质量都提升一个量级?
Q
请问现在OneGraph建设得怎么样了?
A
经过一段时间探索,以包括OpenKG上的开放知识图谱在内的已有知识图谱为数据源,目前已经形成了超过一亿规模的涉及常识、人物、医疗、地理、金融、历史等多个领域的三元组,包含了概念、实体、事件、文本等对象、以及对象与对象之间的关系、抽象概念之间的层次结果、事件和动作之间的因果效应事实等,经人工抽样评测,目前的OneGraph数据整体准确率达到87%。
Q
取得了不错的进展呢。那针对要探索的第一个问题“什么样的知识图谱对大语言模型更有用?”,SIGData找到答案了吗?
A
针对这个问题SIGData依然还在探索中,但我们逐渐形成了如下认识:
首先,与之前为了追求规模而牺牲准确性的大规模知识图谱构建思路不同,大语言模型需要的知识图谱中的事实类知识,应该以保证准确性为首要原则,其次才是规模,我们认为知识准确率高于大模型自身具有的知识准确率的知识图谱对大模型才有有用的,具有更高准确率的知识图谱对大模型更有用。
其次,与之前注重概念和实体建模的知识图谱不同,大语言模型需要的知识图谱应该具有更丰富的层次和文本亲和性,包括概念、实体、事件、句子、段落、文档之间的连接关系,并且就数据量而言,概念、实体、事件、句子、段落、文档会形成倒钻石形,大量的数据是偏文本的句子、段落、文档,这样的知识图谱才能重塑大语言模型的知识体系、拓宽大语言模型的知识边界,同时具有较好的大语言模型亲和性。
Q
那针对要探索的第二个问题“大语言模型是否可以帮助此类知识图谱的构建?”,SIGData有什么经验要分享吗?
A
我们在如下方面使用了大语言模型:
生成schema:大语言模型的参数中存储了许多领域概念的知识,我们在给定领域顶层概念的基础上,采用大语言模型生成其对应的子概念并构建概念层次体系,例如依据11个医疗领域的顶层概念,依靠大语言模型可以构建包含14935个概念的医疗概念树。
英文翻译成中文:对部分英文概念(多指包含1-3个单词的词组),我们采用大语言模型对其进行翻译,经评估,大模型的翻译准确了为84%。
三元组分类:对于数据源中已有的三元组, 我们使用不同的大语言模型对三元组进行正确或错误的分类,经过大语言模型校验之后,概念类三元组的准确率由73.6%提升至87.5%,实体类三元组的准确率从84.3%提升至86.5%。
经过近期的探索,我们认识到大语言模型的生成能力对于提升知识图谱的准确率、扩展识图谱的知识覆盖度、降低知识图谱构建成本都有较大的增益。
Q
除了以上增益,使用大语言模型进行知识图谱构建有什么局限吗?
A
有的,是存在一些明显的局限的,例如:
处理效率低:受到大语言模型生成速度和输入长度的限制,用大语言模型对大量三元组的处理效率比较慢,例如,在不做模型推理并行的情况下,采用72B的大语言模型对百万级三元组处理需要20天(约5万条/天)。因此我们在用大语言模型进行三元组分类之前,先根据人工标注的数据训练了一个用于三元组粗分类的Macbert模型,其分类准确率可达83.5%。
输出不规范:尽管可以在输入的提示里约束输出的形式,作为生成模型的大语言模型仍然可能不按照设定格式输出,会给批量的流程化的数据处理带来一定的困难,需要对语言模型的输入进行后处理或筛选。
存在知识冲突:在生成概念层次体系时会出现上下位概念形成环的情况,说明大语言模型内部知识存在冲突,但如果没有环这样的明显错误的模式,很难发现大语言模型生成数据中包含的冲突。
Q
针对OneGraph项目,SIGData有什么规划吗?
A
后面,SIGData将继续依托OneGraph项目对如何利用大模型构建LLM需要的知识图谱进行深入探索,同时探索OneGraph增强大语言模型能力的方法,构建知识增强的大语言模型系统,也将发布OneGraph的数据和技术报告等,敬请期待。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-02
一文讲清:“统一语义”、“构建本体”、“AI推理”这三者的关系
2026-07-02
graphify + claude 图谱关系
2026-07-01
把运维能力装进 Qoder,一句话就能定位根因
2026-07-01
Gbrain、GraphRAG、LLM Wiki、Graphify:4 种知识图谱方案怎么选
2026-07-01
一文讲清:本体(Ontology)与语义(Semantics)到底是什么关系?
2026-06-30
从 OOP 到本体:用形式语义支撑 AI 协作方法论
2026-06-29
从“领域描述”到“本体”——AI时代的系统设计模式探讨
2026-06-29
数据孤岛的终结者:制药企业如何构建并持续运营一套真正可用的知识图谱
2026-04-07
2026-04-19
2026-04-23
2026-04-22
2026-06-03
2026-04-23
2026-05-26
2026-05-07
2026-05-28
2026-05-23
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。