2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

从零开始,她如何为客户创建语义知识图谱?

发布日期:2024-10-10 13:00:13 浏览次数: 2605
作者:活水智能

微信搜一搜,关注“活水智能”


在这篇文章中,Capgemini 的知识图谱负责人 Veronika Heimsbakk 分享了她为客户创建语义知识模型的方法。阅读本指南,了解她如何与客户合作,从头开始构建语义知识模型,并发现可以应用于您自己的语义建模项目的实践。

如何为客户构建语义知识模型

在参加 2024 年知识图谱大会时,我与 metaphacts 的创始人兼首席科学官 Peter Haase 一起参加了一个关于本体及其建模的讨论小组。之后,metaphacts 邀请我为他们的博客撰稿,详细阐述我的语义建模方法。在这里,我将重点介绍我与客户合作创建语义知识图谱时通常遵循的步骤。

值得一提的是,我没有遵循某一种特定的本体建模方法,而是基于不同的方法,因为客户的成熟度和需求各不相同。这篇博客文章将描述我日常工作的基本步骤和构建模块,不过,我在 Capgemini 的同事可能会有不同的方法。

目录

  • • 先决条件:在开始语义建模之前

  • • 与客户的初步活动

  • • 绘制初步概念

  • • 开始自己的建模过程

  • • 发现对公理和/或约束的需求

  • • 使用实例填充

  • • 回到起点

先决条件:在开始语义建模之前

在开始实际的信息建模之前,有几件事需要先搞清楚。这些步骤可以与客户一起完成,也可以由客户自行提供这些信息。在此,我假设用例和/或用户故事已经确定。

  1. 1. 确定范围

  2. 2. 确定信息来源

  3. 3. 时间框架和里程碑

确定范围

您的客户需要确定知识图谱将服务的范围。发现一个足够小且具有足够高价值的范围,以展示知识图谱能够为其用例带来的奇迹,这是一门科学。然而,由于知识图谱是一个动态模型,具有易于扩展的特性,开始的范围可以非常小。

假设用例是为咨询公司创建一个简历和项目的门户,那么一个起始范围可以是来自某个特定部门的所有员工和项目,之后可以逐步添加更多部门。在此阶段,您还需要开始考虑粒度问题。知识图谱是数据的原子分解,但对于您的特定项目,您真正需要的粒度级别是多少?保持简单。在本体开发过程中,这个粒度问题会多次出现。

确定信息来源

接下来,您需要了解有哪些信息来源,以及它们的形式。我们是否可以访问这些信息?是否需要考虑第三方来源?信息来源差异很大。它们可以是 Word 文件、Excel 表格、SQL 数据库、数据流、PDF 文件、JSON API,几乎任何类型的文件都可以。作为知识工程师,您必须为处理非结构化数据、混乱数据、低质量数据做好准备。我们的工作是解析、转换,并在客户的数据中创建秩序和完整性。

时间框架和里程碑

与您的客户一起,规划所需的里程碑,并将它们绘制在项目的时间线上。本体建模是一个迭代的工作,需要与客户领域专家密切合作,以建立语义知识层,即本体所服务的层。在确定范围时,必须考虑到可用的时间。一个为期 8-20 周的最小可行产品(MVP)或概念验证(PoC)将有不同的里程碑和阶段,与一个全面的项目相比。

与客户的初步活动

在您独自一人,沉浸在您最喜欢的建模工具中并映射所有那些混乱的数据之前,您需要与客户一起完成一些活动。这些活动将帮助并在整个过程中为您提供指导。

核心问题

在先决条件就位后,您可以开始定义一系列核心问题。这些是您希望通过本体回答的自然语言问题。它们通常可以很好地转换为 SPARQL 查询,以便稍后测试知识图谱。核心问题列表将作为建模过程中的有用指南,并在测试知识图谱时非常有帮助。

回到我们之前的例子,一些核心问题可能是:“Lisa 在过去三年中参与了多少个 Azure 项目?”、“我们有多少 PRINCE2 认证的高级架构师?”、“我们需要所有与 AWS 相关项目的 KPI 统计数据。”,等等。问题越多越好!

找到这些问题是与客户一起进行的活动。

绘制初步概念


这是我在这份工作中最喜欢的活动之一——从客户的头脑中挖掘知识,并一起将其绘制在纸上!我通常将这个活动安排为一个 2-4 小时的研讨会,所用的工具是 A3 纸和一盒彩色铅笔。

我们从用例开始。它包含什么?有哪些概念,它们的含义是什么?这个概念是否与其他概念有关系?它是否包含“子概念”?

您的工作是提出那些看似愚蠢的问题,以便将客户的知识从他们的脑海中挖掘出来并记录在纸上。如果一开始有些困难,您可以让客户将相关词语写在便利贴上,按类别分组,然后开始绘制。

开始自己的建模过程

现在是时候开始实际的建模工作了。此时,您手中已经有了几种有用的工具:绘图、核心问题和信息来源。

接下来,您可以选择不同的方法来开始这阶段的工作。

  • • 可能某些信息来源包含机器可读的模式或类似的内容,您可以将其解析为 RDF 以获取一个初始框架。

  • • 可能您的客户已经熟悉 RDF,并希望参与工作。在这种情况下,建立一个协作基础设施非常重要。作为知识工程师,您需要了解供应商的生态系统,以便为客户做出最佳的工具和数据库推荐,以满足他们的需求。

  • • 也可能您几乎没有任何可参考的材料,除了通过先决条件和绘图研讨会收集到的线索。

无论哪种情况,本体都会逐渐成形。

考虑已建立的本体

网上有很多可用且维护良好的本体,等待您为客户用例复用它们的知识。是否有任何外部本体或词汇表可以为您的客户用例使用?

我与公共部门的客户合作较多。在挪威,我们有自己的国家数据目录,它基于 DCAT-AP-NO、SKOS-AP-NO 以及相关的 RDF 规范。在大多数项目中,我会重用这些 RDF 资源来描述客户的知识。

发现对公理和/或约束的需求

在某些情况下,可能需要推理功能。我最常遇到的是实体分类推理,但在少数情况下,我也遇到过基于各种指标的实体排列或组合推理。如果确实需要为推理目的描述公理和限制,请确保您有一个允许您这样做的工具。尽管我并不总是在本体中需要公理,但我倾向于为所有本体利用 RDFS 推理。这是为了确保本体的语义与实例数据的预期相符,并避免模型构建方式带来的意外结果。

然而,SHACL 形状的约束需求在当今更为常见。我认为,在封闭世界假设下验证数据通常比开放世界假设更接近现实情况。但我仍然会分别建模本体和形状,通常先建模本体,然后将这些 RDF 资源复用到 SHACL 形状描述中。

[图片:水电站的分类公理示例,然后根据最大输出将个体分类到其适当的组。]

使用实例填充

对于大多数用例,客户希望使用本体来推动数据驱动的决策、分析和洞察。在这些情况下,填充实例数据(个体)到知识图谱中的需求变得明显。

在这种情况下,您不会想手动添加这些实例。市场上有许多映射工具可供选择,或者您可以使用 RDF 编程框架根据本体映射个体。

回到起点


一旦图谱包含了个体及其属性和关系,再加上知识层(即本体),您就拥有了一个 知识图谱。您可以根据已建立的核心问题开始测试和评估。

如前所述,大多数核心问题都可以轻松转换为 SPARQL 查询,这使得回答它们变得容易。将您的答案(最好通过知识图谱可视化工具可视化)带回客户,与他们一起评估质量和准确性。我们找到了我们想要的东西吗?是否获得了新的洞察?我们是否遗漏了什么?客户数据中是否存在不一致?


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅