微信扫码
添加专属顾问
OpenKG新开设“TOC专家谈”栏目,推送OpenKG TOC(技术监督委员会)专家成员的观点文章。本期邀请到东南大学漆桂林教授、柯基数据CEO吴刚介绍“大模型+知识图谱”方面的一些探索,本文整理自“OpenKG走入通义实验室”Talk上的分享。
本报告介绍将知识图谱与大模型融合的基本方法。一方面,应对大模型目前面临的挑战;另一方面,利用知识图谱技术优化大模型的表现。本文简要介绍了两位TOC专家东南大学漆桂林教授和柯基数据CEO吴刚在此领域开展的初步探索工作。
大模型和知识图谱技术特点及优劣势
从这个角度来看,我们可以从知识工程的角度来看待知识图谱跟语言模型。如果从这个角度去理解他们,我们可以更好地从人工智能的整体观来理解现在以及未来人工智能的发展。语言模型跟知识图谱各自在人工智能的发展过程中可能发挥的作用以及可能的应用。
知识图谱和语言模型这两者的优劣性其实可能很多报告里面都有介绍。比如像语言模型是连接主义,而知识图谱是符号主义。前者是参数化的知识,且是一种概率生成模型,而后者是符号化的知识,且是一种稳定生成模型。他们各自的优势跟劣势相对来说是比较清晰的。
我们把语言模型作为知识库的时候,因为这个知识库不像知识图谱是可视化的,如果要去做查询,返回的结果也不是结构化的回答,而是一句或者一段话。这就很难知道给出来的结果到底是不是准确的。然后,在知识更新的时候也会存在很大的问题,很多时候会把新知识采用外挂的方式去解决一些问题(也就是最近比较流行的RAG),但是这些并不是语言模型本身的知识。人类在学习中会通过知识更新的能力,快速把知识存下来变成人脑知识的一部分,而大模型很难做到这一点。最后,知识的校验也是非常困难的。
我们也做过一些调研和实验,比如在OCR的时候对PDF文件进行版面分析和文字提取,发现提取的准确率并没有我们想象中的那么高,其中包括对Abstract的提取,还有Title的提取和Author的提取等。
我们可能认为现在的多模态大语言模型已经很强大了,但是事实上有些时候对他们能力测试的时候,实验结果并不是我们想象的那么好。比如说,文本的分段提取会有一些问题,而且我们可以看到文本里面做一些关键信息提取的时候,他们可能无法做到非常的精准。还有知识检索,在检索相关的文档片段时,无法确保召回了所有的相关片段,以及对文本片段进行排序也不一定很好。
知识图谱和大模型双轮驱动方法论
但是,我觉得有一个比较重要的部分在于构建知识图谱也是需要成本的。那么,我们怎么在工程领域,在一定的限制的预算范围内将知识图谱和大模型结合起来,发挥出真正的价值这是最大的一个挑战。
上面是去年我们跟工信部标准院一起写的研究报告,介绍的就是知识图谱和大模型的一个双轮驱动。一方面是用大模型半自动化生成知识图谱,另一方面是在大模型中注入知识图谱以增强大语言模型的一些能力。这里我就不展开细讲了,感兴趣的同学可以在网上自行查看。
目前最主流的方式就是检索增强(RAG),基于外部知识库做检索和内容生成。
它其实是把你的一些文档文献或者一些数据进行向量化,再把你的问题去跟它匹配。这里它是在缺乏上下文的理解,还有领域的业务理解进行的。它在应用上有一定的瓶颈。
这里面我们会用到一些传统技术,比如:检索技术、ES技术以及Prompt技术。我们会将这些能力组装成一个部分,再带上我们根据定位的几个段落的文本,还有问题本身的增强,把这些传给大模型去做一个问答。这样,它会回答出更精准的一个答案,是我们现在在做的一个方法。
医药行业数智化
我们在最近几年也做了大量的企业数字化的知识库、Chatbot和各种应用。不管是临床研究情报系统,还是说产品上市之后做学术的推广、患者的教育、面向药店的助手以及销售这种助手等等。
所以导致整个知识生产效率比较慢,用户体验也不好,智能化程度也不高。做出来的系统很难进行一个非常好的推广。但是,当大模型出来之后,很多客户提到通过大语言模型能否解决这样的一些问题,让内容更加自动化地生产,还能更智能的交互提升用户的体验。
GraphRAG应用及落地挑战
那我们怎么去做这个事情呢?其实,我们会把原有的情报系统、知识库和Chatbot,基于“知识图谱+大模型”的能力做到更加自动化的升级。然后,对内对外提供一套统一的多渠道入口,把内部的各种系统也对接起来,帮助他提高整体的服务。这不仅仅是单点做一个算法或者做一个RAG的应用,而是会从端到端提高整体的效率。
所以,我们需要做的是一个端到端的系统,不仅能提高整体效率,还能减少人工的一些工作。同时满足一些合规的要求,再加上我们大模型的一些智能化的能力,比如:写作能力、总结能力还有对接不同私有模型、API的能力。在这里,我们会把知识图谱放在里面,作为整个知识库的一部分。
我们做生成内容的时候也会有同样的问题,就是我们如果从原文组装内容,再去做它的一个内容的生成,其实它是可以从端到端方式来提高用户的效率。如果是生成的内容,还需要去对比各种原文进行审核,这个过程就会有更多的人工参与。所以,我们也在考虑用大模型做审核,利用“生成+审核”的能力,以端到端的方式来提高整体的效果。
与此同时,我们可以通过大模型去生成FAQ,也可以通过我们刚才说的组装原文段落的方式,或者是总结的方式。我们现在80%内容都可以通过大模型生成,再通过组装原文进行溯源,提供一个最基础的答案,然后在此基础上采用总结的方式。所以,我们面临的专业性、合规性问题,在这里就需要知识图谱的能力更好地体现。
这个平台建立起来之后,我们可以分步去建设整个知识库,用于不同的内容生成。包括我们知识图谱的构建,从FAQ构建我们自动的问答,还有就是我们的标签、图谱的一些能力可以通过这个人机协同的智能平台更好的构建出来。
我们也可以通过大模型的一些能力,快速构建一个文档级别或者段落级别的知识图谱。
这个是我们从OCR的识别、段落的摘要、段落标签等各个领域方向去更好的构建一些自定义抽取,包括状态里面细粒度知识点的一些抽取。
然后,我们也可以构建一个专业领域的知识图谱,辅助我们完成更精准的问答。
我们前面提到的运维能力也非常重要,因为构建完系统之后,我的数据源需要更新,知识图谱是不是需要更新,大模型的能力是不是需要更新,还有一些Prompt可能也需要更新。所以,我觉得在知识运维方面也需要提供各个层次的知识更新能力,让一般的业务人员也能对知识进行更新。
这就需要一套全流程的方法,让整个系统在不同时间数据更新之后,或者用户的反馈之后,能保证更新的数据质量是可控的,以及将数据更自动化的录入到系统中。
基于这些原理,我们在给客户的各种系统进行一个升级,不管是自动化的内容生成,还有基于语料、ChatBot、知识图谱对大模型做的一个符合合规要求,都能以全流程的方式提高它整体效率。
这是我们跟一些药企合作的案例,他们提供各种内容,我们基于框架快速生成他们需要的一些FAQ,或者一些知识点等内容,从而大幅提高他们整体内容生产的效果。
我们把原有的一些基于FAQ的方式,升级到了基于大模型实时生成并且符合合规要求的一种方式,大大提高了原来整个内容生产和上线的速度。原来可能需要将近一到两个月的时间去生产FAQ,生产之后再审核。而现在我们通过大语言模型不仅能实时组装原有的段落,还能进一步总结。既符合合规要求,又能更加智能化地实时生成内容。
另外,我们针对药企的用户做了一些GraphRAG增强的能力,也对比了基于RAG和GraphRAG不同能力的一个效果。我们现在的方法并不是很复杂,有可能根据它的上下位和一些词的级别,就能在一定程度上提高它整体的准确性、理解能力和问答的效果。我们在不同阶段采用了不同的方式去增强大语言模型。
同时,我们也在做一些表格、图片等多模态问答能力的提升。这里面会用到一些图谱的能力,来帮我更好的定位到表格,更好的提升内容去做一些问答。这可能也是我们下一步会重点研究的方向,如何把复杂的一些知识、信息更好的提取出来。
我们还对具有法律法规这种知识的大模型的问答进行一个更好的升级。
总结
4.就是工程化和可运维的能力,包括OCR的能力、抽取表格的能力,这都是非常关键的。我们也会建议,根据客户的应用场景和预算,在不同情况下怎么从RAG到Graph RAG或者用一些开源的框架提升综合投入产出比。另外,我们也可能会先用一些开放的数据,对它的能力进行小成本的验证试错,再进行私有化部署。此外,这里面还有很多合规性的要求,包括需要提前引入业务和法律合格等部门,对外服务需要考虑监管备案的周期和成本。最后,我们一般也是先从内部开始,由内到外这么一个实现路径。以上就是我们近两年工作的一个总结。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-02
企业级知识图谱的实体架构治理实践
2026-07-02
一文讲清:“统一语义”、“构建本体”、“AI推理”这三者的关系
2026-07-02
graphify + claude 图谱关系
2026-07-01
把运维能力装进 Qoder,一句话就能定位根因
2026-07-01
Gbrain、GraphRAG、LLM Wiki、Graphify:4 种知识图谱方案怎么选
2026-07-01
一文讲清:本体(Ontology)与语义(Semantics)到底是什么关系?
2026-06-30
从 OOP 到本体:用形式语义支撑 AI 协作方法论
2026-06-29
从“领域描述”到“本体”——AI时代的系统设计模式探讨
2026-04-07
2026-04-19
2026-04-23
2026-04-22
2026-06-03
2026-04-23
2026-05-26
2026-05-07
2026-05-28
2026-05-23
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。