微信扫码
添加专属顾问
欢迎来到LLM和知识图谱系列。我们正在实践探索知识图谱和大模型双轮驱动,前段时间在OpenKG开放知识图谱联盟做了一个分享“大模型+知识图谱”双轮驱动的医药数智化转型新范式-OpenKG TOC专家谈。
双轮驱动中GraphRAG主要是利用知识图谱增强大模型能力,已经有不少进展和应用。而通过大模型抽取知识图谱的实际效果还不是很好,需要更多实践探索,之前编译过系列中的两篇LLMs用于知识图谱系列之一:将文本以超高速转换为高质量知识图谱& 大模型和知识图谱结合的机遇与挑战-GPT构建高质量KG,以及 利用 GPT-4 从生物医学文本构建知识图谱。
在这个博客系列中,Graphware分享探讨了最前沿的大型语言模型与基于图谱的智能之间的交汇点。无论您是经验丰富的数据科学家、好奇的开发者,还是寻求可行见解的商业领袖,这个系列都承诺揭开 LLMs 和知识图谱之间的协同作用的神秘面纱。
前言
这个系列中的每一篇博客都深入探讨因 LLMs 与图技术的融合而带来的实际应用、挑战和机会。从将非结构化文本转化为结构化知识,到提示工程,再到揭示复杂关系,我们探索了这些强大工具如何彻底改变信息提取和决策过程。
深入了解 Gupta 泄密案的案例研究,见证基于 GPT 的提示工程如何揭示腐败网络,为执法和组织赋能。
大型语言模型(LLMs)的出现极大地改变了自然语言处理(NLP)领域。其原因主要在于它们理解和分析自然语言的能力,同时生成类人响应。
LLMs的优势在于,它们在海量数据集上训练,不具备特定领域限制。这使得我们能够在广泛的场景中使用它们。在这篇博文中,我们专注于执法,具体讨论关于南非国家腐败庞大网络或称为“国家掠夺”的公共司法报告https://www.gupta-leaks.com/,即“古普塔泄密”。这些文件详细描述了各种组织和个人的事务及其复杂的腐败和犯罪活动。
在这种情况下,我们运用OpenAI的GPT(生成预训练变换器)来从文本中提取相关知识,通过使用该模型执行命名实体识别(NER)和关系提取(RE)等任务。这些步骤是从非结构化文件到知识图谱的重要里程碑,因为它们允许我们识别关键元素——实体及其之间的关系——以展现故事。最终生成的知识图谱(KG)代表了一个统一且易于浏览的真实来源,在我们这个案例中,涉及古普塔家族及其商业和政治交易的事务。
这篇博文反映了从文本数据构建知识图谱的过程中的两个关键步骤。第一部分专注于提示工程——正确制定任务的过程——并包含关于模型选择和设置的一些观察,而第二部分主要与知识图谱的构建相关,包括数据清理和标准化。最后,我们将分析结果并试图回答关于古普塔家族的一些主要问题:“古普塔家族如何在如此长的时间内管理如此规模的腐败而不引起怀疑?古普塔家族的共谋组织是什么?”
选择大型语言模型(LLMs)而不是传统自然语言处理(NLP)模型有几个令人信服的优势,特别是在复杂且具有挑战性的关系提取任务中。一方面,传统模型需要更多的人力投入:建立定制的领域特定NLP管道(命名实体识别、共指解析、关系提取)需要相当大的初始投资。训练这些定制模型通常需要大量时间、专业的数据科学知识和显著的手动数据标注工作。相比之下,大型语言模型只需要识别最有效的任务表述,通常称为“提示”。值得注意的是,这并不是完全轻松的任务,但它确实具有更温和的学习曲线和更直接的采用过程。
以纯文本形式表达的提示是我们引导模型正确方向和表达我们意图的主要工具。本系列第一篇博文LLMs用于知识图谱系列之一:将文本以超高速转换为高质量知识图谱中提到的挑战——缺失的实体和关系、存在无关的、不准确甚至错误的结果,以及规范化问题(大量语义相同的实体和关系类)——使我们意识到,像我们使用的通用提示对于复杂的关系提取任务是不够的。因此,我们进行了调查并开展了一系列实验,渴望找出适合我们需求的提示。
对提示的实验非常有启发性——通过观察失败点并迭代地调整指令,我们能够显著降低错误率。受到这一经验的激励,我们深入探索和实验提示工程中的最佳实践。最终,我们培养出专门针对知识图谱构建领域的独特专业知识。现在让我们来看看一个精心编写的提示的重要性,同时也借此机会分享一些建议。
在提示设计方面,特别是在处理复杂请求时,最有效的方法是制定清晰且精确的指令。通常建议将问题分解为更简单、定义明确的子任务,提供一套明确的指示。在我们具体的案例中,我们可以将任务分为两个不同的阶段。初始阶段涉及识别文本中的实体和关系(即命名实体识别和关系提取)。随后,我们进入下一阶段,在该阶段中,对收集到的信息进行处理并以所需的输出格式呈现。
让我们从一个包含这两个步骤的简单提示开始,但将搜索限制为只有我们感兴趣的几种类型的实体。
Given a prompt delimited by triple backticks, perform the following actions:
- identify as many relations among entities as possible
- output a list in the format [ENTITY 1, TYPE of ENTITY 1, RELATION, ENTITY 2, TYPE of ENTITY 2].
The most important entity types are: person, organization, location, "criminal charge" (including formal accusation, breach, allegation, etc.), title, money.
###prompt: ```text_to_be_processed```
###output:
让我们通过处理以下文本片段来检查这个提示:
Singh was a central and willing player as CFO at Transnet[...]
As we previously reported US$3 448 800 (about R34-million then) of the R84-million that was sucked from Estina to Dubai in August and September 2013 was justified by a Gateway invoice for a milk pasteurisation plant to be supplied by Star Engineers, an engineering firm in the Guptas’ hometown of Saharanpur, India.
下面显示的输出似乎令人满意,但确实还有提升的余地
[Singh, Person, was a central and willing player, Transnet, Organization],
[Estina, Organization, Sucked, US$3 448 800, Money], [Gateway, Organization, Invoice for, Milk Pasteurisation Plant, Title],
[Star Engineers, Organization, Supplied, Milk Pasteurisation Plant, Title],
[Saharanpur, Location, Home Town of, Guptas, Person]
我们可以观察到的第一个错误是实体牛奶巴氏杀菌厂Milk Pasteurisation Plant被识别为标题Title两次。为了解决这个错误,进一步明确标题的含义可能会有所帮助。让我们在提示中添加几个示例,以便将简单的词汇标题替换为更丰富的解释——标题(企业部长,首席执行官等) title (Minister of Enterprises, CEO, etc.)。
此外,从示例中我们可以观察到各种各样的关系类型,如 was a central and willing player, Home Town of 等。在考虑构建知识图谱的最终目标时,这种情况可能会带来挑战。由于关系非常详细,我们可能会得到一个庞大的模式。因此,在查询图谱以查找公司雇佣的人员时,我们将被迫指定所有可能的变体和时态的works_for关系,这可能会变得笨重。我们可能希望将返回的关系限制为一个有意义的集合,并迫使GPT使用某些标准关系类型。对于上述示例,标准类型可以是works for和location of。为了应对这一问题,我们可以通过在提示中明确提及关系类别的集合(甚至包含模型难以理解的关系的解释)来指导GPT:
The most important relations are: "paid to" (i.e. link the payer to the receiver), "paid for", "paid amount" (i.e. link the payer to money paid), "received amount" (i.e. link the receiver to money), "owned by", "subcontractor of", "supplier of", "partner of" (i.e. when two organizations have a mutual contract), "accused of", "met with", "contacted", "has title", "visited", "located in", "alias of" (i.e. link person or organization with their aliases), "works for".
尽管这个操作看起来非常紧急,但它需要特别关注。关系名称(实体类也一样)应该具有代表性,即选择时要小心,以避免歧义 - 在某些情况下,我们甚至添加了关于源实体和目标实体的额外解释或信息,以为GPT提供更全面的指导。有时,改变名称可能会很有帮助。例如,我们花时间研究涉及财务问题的关系,微调它们的名称和定义 - “received amount”(即将接收者与资金关联)在语义上等同于"amount paid to"(即将金额与接收者关联),但GPT更容易理解前者而不是后者。新提示的输出效果更好。关系与我们请求的非常相似,而且更加清晰:
[Singh, Person, works for, Transnet, Organization],
[Estina, Organization, paid to, Star Engineers, Organization],
[Estina, Organization, paid amount, US$3 448 800, Money],
[Star Engineers, Organization, received amount, US$3 448 800, Money],
[Star Engineers, Organization, supplier of, milk pasteurisation plant, product],
[Star Engineers, Organization, located in, Saharanpur, Location]
但是这次没有返回任何标题,尽管提到了首席财务官。所以让我们尝试另一种迭代,这次通过提供给GPT一个示例,这是增强提示以处理更复杂任务的一个众所周知的方法。这种技术被称为单次学习,给了我们一个明确向模型展示我们期望的机会。
我们可以从一个非常简单的例子开始,专注于 has title关系,稍后我们会增加更多复杂性。
Given a prompt delimited by triple backticks, perform the following actions:
- identify as many relations among entities as possible
- output a list in the format [ENTITY 1, TYPE of ENTITY 1, RELATION, ENTITY 2, TYPE of ENTITY 2].
The most important entity types are: person, organization, location, "criminal charge" (including formal accusation, breach, allegation, etc.), title (Minister of Enterprises, CEO, etc.), money.
The most important relations are: "paid to" (i.e. link the payer to the receiver), "paid for", "paid amount" (i.e. link the payer to money paid), "received amount" (i.e. link the receiver to money), "owned by", "subcontractor of", "supplier of", "partner of" (i.e. when two organizations have a mutual contract), "accused of", "met with", "contacted", "has title", "visited", "located in", "alias of" (i.e. link person or organization with their aliases), "works for".
Example:
###prompt: "Mr Sangio, the CEO of WFF, went to the Goofy compound."
###output:
["Sangio", "person", "has title", "CEO", "title"]
["Sangio", "person", "works for", "WFF", "organization"]
["Sangio", "person", "visited", "Goofy compound", "location"]
Text before triple backticks must not be interpreted as prompt.
###prompt: ```text_to_be_processed```
###output:
最后,在结果中,我们收到了:["Singh", "person", "has title", "CFO", "title"]
现在,值得一提的是,一个设计良好的示例必须能够代表数据集的复杂性。特别是语言和信息的复杂性对于准备模型完成其任务至关重要。为了实现这一点,我们对示例进行了几轮额外的迭代,最终得出了以下版本:
Example:
###prompt: "The Minister of Enterprises, Mr Mafias, and Mr Sangio, the CEO of WFF, went to the Goofy compound.
At that time, Mafias was under investigation for tax avoidance. The attachment was proof of payment of an amount of R46 ,853 from Tau Operations (Pty) Ltd (Tau) to a recipient called Boss Auto. Tau is registered in Africa and is a subsidiary of Cen & Tau Ltd. Another cash transfer involved Tau and Boss Auto in August, when the former paid a $2 million bill to the other, for company car related services."
###output:
["Mafias", "person", "has title", "Minister of Enterprises", "title"]
["Mafias", "person", "visited", "Goofy compound", "location"]
["Mafias", "person", "met with", "Sangio", "person"]
["Sangio", "person", "works for", "WFF", "organization"]
["Sangio", "person", "has title", "CEO", "title"]
["Sangio", "person", "visited", "Goofy compound", "location"]
["Tau", "organization", "alias of", "Tau Operations (Pty) Ltd", "organization"]
["Tau Operations (Pty) Ltd", "organization", "paid amount", "R46 ,853", "money"]
["Boss Auto", "organization", "received amount", "R46 ,853", "money"]
["Tau Operations (Pty) Ltd", "organization", "paid to", "Boss Auto", "organization"]
["Mafias", "person", "accused of", "tax avoidance", "criminal charge"]
["Tau Operations (Pty) Ltd", "organization", "located in", "Africa", "location"]
["Tau Operations (Pty) Ltd", "organization", "partner of", "Cen & Tau Ltd", "organization"]
["Tau Operations (Pty) Ltd", "organization", "paid amount", "$2 million", "money"]
["Boss Auto", "organization", "received amount", "$2 million", "money"]
["Tau Operations (Pty) Ltd", "organization", "paid to", "Boss Auto", "organization"]
我们选择使用类似数组的输出格式以便于人类友好的解读,但其他选项也是可能且有价值的。例如,JSON格式(在上一篇博客文章中使用)使我们不仅可以返回实体和关系,还可以返回它们的属性。在这种情况下,类型为PAID_TO或RECEIVED_AMOUNT的关系将具有表示涉及金额的属性,从而允许信息的更丰富和更紧凑的表示。
大型语言模型(LLMs)最显著的优势在于其文本到文本的格式和卓越的灵活性。通过这种格式,同一模型可以仅通过更改提供的提示无缝地在完全不同的任务之间切换。当然,提示工程至关重要,尽管现有的最佳实践可能会迅速演变为其他模型的出现,但最重要的考虑因素是制定一个被模型正确解释的提示(我们讨论了词语的重要性,例如“收到的金额”而不是“支付的金额”)。从这个意义上说,提示工程阶段是成功的关键。然后,如果您对零样本学习不满意,可以提供示例(一次性学习),作为最后的可能性,进行LLM微调操作,这使我们能够将这些模型定制为特定领域的用例(但需要提供微调训练集)。
我们测试了两个OpenAI的GPT-3.5系列模型:text-davinci-003和gpt-3.5-turbo。text-davinci-003模型在质量和遵循指令的能力方面优于其他GPT-3.5模型。相比之下,gpt-3.5-turbo针对聊天进行了优化(用于ChatGPT),但它也能以text-davinci-003的十分之一的成本执行完成任务。因此,前者在结果的质量上具有优势,而后者在成本效益的部署中更具优势。目前,GPT-4对公众开放,展示了比其前代产品更令人印象深刻的能力,尽管成本更高。
对于我们的任务,Davinci的准确性高于Turbo(以下将出于简便将上述模型以这种方式表示)。结果质量的差异部分是由于Turbo产生了许多畸形的结果。以下是Turbo模型产生的畸形输出示例:
["Mr Watson", "person", "needed to approve requests for donation", "title"], ["Mr Zukiswa Jamela", "person", "introduced Mr Zuma to Mr Watson", "title"].
在这些情况下,向量长度是4(而不是5),关系与目标实体合并。这些错误在Davinci中很少出现,而在Turbo中更为频繁。另一方面,我们注意到,虽然这两种模型在NER任务上的准确性相似,但在RE任务中情况并非如此。尤其是在非常严格的关系情况下,比如涉及多对组织之间的资金交换时,Davinci能够产生更好的结果。显然,RE在NLP领域仍然是一项困难的任务,正如我们所观察到的,即使是GPT-3.5的强大能力(使用单次学习方法且未进行微调)也面临挑战。
语言模型的一个重要参数是温度,它决定了响应的随机性和创造性。该参数的取值在0到1之间:较低的温度生成更集中、几乎是确定性的结果,而较高的值使模型更具创造性(更不可预测)。
温度的选择依赖于任务,逻辑任务和需要想象的任务之间有所不同。在我们的例子中,任务主要是理性的:从特定文档中提取精确的事实信息,重点在于防止“幻觉”——生成模型倾向于编造未得到文档支持的内容。因此,我们测试了一系列相对较低的温度——从0到0.4——并最终选择使用文本-davinci-003模型,使用经验选择的温度为0.2。
最后,我们可以着手清理和整理从GPT获取的信息。使用我们图谱分析解决方案GraphAware Hume定义的实施KG架构显示在下图中。
无需担心,这比看起来简单!从左到右,这些是我们在古普塔泄密案中的数据来源 - 网页和司法报告 - 分解为页面。然后我们找到相互链接的实体节点,通过RELATED_TO_ENTITY表示“原始”实体和关系,这些是GPT返回的。实体具有一个名称和一个类型属性,表示实体的类型(例如“组织”、“人”等)。此外,RELATED_TO_ENTITY还有一个类型属性,表示关系的性质(例如“有头衔”、“为...工作”)。
但我们为什么需要这些原始节点,而不是直接创建最终实体呢?因为尽管我们在提示中指定了我们感兴趣的实体和关系,但实际上GPT会产生额外或更细化的类别,这些类别超出了预定义的范围。例如,可以追溯到“人”的返回实体类型包括:员工、成员、家庭、公众 Staff, Members, Family, People。然而,还有一些我们没有请求的提取实体(例如,行动、服务、信息Action, Service, Information等)。因此,过滤和规范化结果的过程变得必要。
最后,通过清理和解析实体节点及其关系,我们得到了下图所示的精简模式。此时,知识被简单地组织起来,因此回答问题就像编写少量跳数的Cypher查询一样简单。
在2017年6月1日,Daily Maverick新成立的调查单位Scorpio与独立调查非营利组织amaBhungane开始发布一系列来自数百GB邮件和其他文件的故事。我们称之为#GuptaLeaks,它改变了南非的历史。来自Daily Maverick文章“#GuptaLeaks改变南非历史的十个揭示”中的内容https://www.dailymaverick.co.za/article/2022-06-01-ten-revelations-made-by-the-guptaleaks-that-changed-the-course-of-sa/。
古普塔帝国的邮件泄露在南非是一个突破性的时刻,这揭露了前所未有规模的政治腐败,称为国家捕获,即一种系统性的政治腐败,私人利益显著影响国家的决策以谋取自身利益。这一捕获是由古普塔兄弟实施的,他们得到了南非总统以及主要国际公司和国家机构的支持。
在这种情况下,一个重要的初步调查是识别出古普塔的关键共犯组织。在实时场景中,进行此操作可能导致刑事网络的破坏,从而降低犯罪在不久的将来再次发生的机会。
上图表示了通过关系SUBCONTRACTOR_OF、ORG_PAID_TO_ORG和OWNED_BY_ORG在组织之间的互动子图,这有助于解决我们的问题。节点的样式根据中介中心性度量表达其重要性,节点越大,组织在网络中作为桥梁或连接者的作用越大,使其他实体能够相互连接。以圆圈表示的聚类指示了紧密相关的组织群体。这些社区是根据仅由关系OWNED_BY_ORG组成的子图计算的弱连通分量(WCC)图算法的结果,在我们上下文中,这在很多情况下代表国家掠夺关系(公司控制其他公司)。因此,同一聚类中的组织彼此拥有,或一个组织依赖于另一个组织,即发生了掠夺。
观察节点的大小,因此它们在网络中的重要性,以及围绕它们的聚类,我们可以识别出国家掠夺中的两个主要参与者。第一个参与者位于画布右侧,正如我们所预期的那样,是古普塔家族聚集。第二个参与者位于图的左侧,是博萨萨公司。在这一点上,很明显,古普塔并不是这个故事中的唯一罪魁祸首——博萨萨也是一个关键实体!在古普塔和博萨萨之间,有接触点,但不是直接的。事实上,通过使用知识图谱进行详细的有针对性的研究,我们发现博萨萨是另一个涉及腐败并与国家掠夺有牵连的公司,它在古普塔的独立运作。
放大对古普塔集团的观察,可以清楚地看到,公用电力公司埃斯科姆和航空航天及军事技术集团德内尔不能被古普塔家族直接拥有。因此,他们的参与需要更深入的调查。
建立的Hume KG可完全解释,因为其配置方式允许轻松访问提取关系的文本片段。利用这种关于埃斯科姆与古普塔之间 OWNED_BY_ORG 关系解释功能,我们获得了以下有趣的报告内容:
“[…] 科科先生参与了推动某些埃斯科姆高管下台的计划,以便古普塔的关联人士能够被任命到埃斯科姆的某些战略职位。”(报告第4部分第4卷 - 埃斯科姆2,第1016页)
https://www.statecapture.org.za/site/files/announcements/683/OCR_version_-_State_Capture_Commission_Report_Part_IV_Vol_IV_-_Eskom.pdf
还有
“在2015年及以后的时间里,科科先生在多种情况下继续为古普塔及其关联人士的利益行事,而不是为了埃斯科姆的利益。高管的暂停是从一开始就属于此计划的关键组成部分。[…] 该计划的主要目的是将布莱恩·莫利费任命为埃斯科姆的首席执行官,以及阿诺杰·辛格任财务总监,因为设计和实施该计划的人认为布莱恩·莫利费和辛格会偏向古普塔家族,并将埃斯科姆的资源引向古普塔家族。埃斯科姆董事会的成员参与了暂停高管的决定,因为当中一些人一定知道这是一部分古普塔的计划,并乐于推进古普塔的议程。”(报告第4部分第4卷 - 埃斯科姆2,第1045页)
https://www.statecapture.org.za/site/files/announcements/683/OCR_version_-_State_Capture_Commission_Report_Part_IV_Vol_IV_-_Eskom.pdf
显然,埃斯科姆确实受到古普塔的控制。同样,对该集团内其他组织的进一步调查显示,它们要么属于古普塔,要么属于他们的关联人士(如特盖塔、特丽良和最优煤),或者,很可能它们也在某种程度上受到影响或被控制。
另一方面,另一个引人注目的调查涉及组织和个人之间资金的交流。这是一项复杂的分析,因为在任何执法场景中,发现付款人和收款人之间的直接联系都是非常不寻常的。相反,资金总是沿着多步路径流动,通过多个中介传递。出于这个原因,需要对提示示例进行多个调整,以跟踪资金流动。
通过考虑涉及支付的图表部分,我们计算了每个实体支付paid和接收recieved的总金额,以明确其在网络中的位置。此时,得益于设置各种Hume风格的可能性,我们可以从两个不同的角度分析同一网络——动态和可定制的可视化强调图中的模式。
在上面的图中,节点的大小基于支付的金额,这也通过添加到节点上的徽章来表示。因此,可以说上述是支付者的网络,因为最大的节点是支付最多的个人和组织。如我们所观察到的,古普塔家族(为可见性而标记为紫色)支付了其他组织或个人近50亿兰特,而艾斯科姆支付了560亿。
相反,通过改变支付子图的样式以表示接收者的角色——节点的大小和徽章代表收到的金额——我们得到了下面图中所描绘的情况。
这一次,古普塔家族收到了590亿兰特(约合29亿欧元)……是支付金额的10倍!考虑到这个家族的犯罪行为,我们对此并不感到意外。相比之下,爱斯科姆仅收到370亿,而之前它支付了560亿。所以看起来古普塔家族和爱斯科姆的收入支出状况不平衡——古普塔家族获利,而爱斯科姆则亏损。如前所述,爱斯科姆是一家国有公司,从报告来看似乎受到古普塔家族的控制。事实上,KG揭示古普塔是这家公司的一名受益者,以及与他们相关的Tegeta、Trillian和Optimum Coal等组织。因此,报告显示,国有公司向古普塔家族拥有的几家公司付款。我们似乎找到了最初问题之一的答案:“古普塔家族是如何在没有引起怀疑的情况下长期进行如此大规模的腐败的?”——他们将来自爱斯科姆的大量资金流向了他们并不直接持有的银行账户,而是转向了几家他们拥有的公司。
通过比较古普塔家族收到的资金与爱斯科姆的付款,明显可以看到存在差异和缺失的金额。这种差异部分是因为并非所有的司法报告都已经得到充分处理;只有四卷报告被审查。然而,这一分析在揭示一些古普塔的合作者以及阐明他们用于向自己企业转移资金的模式方面发挥了关键作用。
在这篇博客文章中,我们介绍了使用大型语言模型(LLMs)从非结构化数据构建知识图谱的过程。所提出的用例解决了执法部门中的典型问题,具体而言,我们调查了关于国家掠夺的司法调查委员会报告。https://www.statecapture.org.za/site/information/reports
在这种情况下,使用大型语言模型(LLMs)是至关重要的。鉴于该领域的复杂性,这些深度学习模型超越了传统的自然语言处理方法,而无需在特定领域定制模型时进行大量前期投资,这通常涉及到高质量人工标注训练数据集的创建。将大型语言模型(LLMs)与知识图谱的能力结合,彻底改变了基于结构化和非结构化文本数据的执法调查。这种集成使得前所未有的洞察发现成为可能,赋予分析人员研究犯罪网络结构、识别腐败组织同谋以及追踪涉及多个交易的复杂资金流动的能力。
尽管古普塔案例代表了一个已结案的案件,相关责任人和组织已被确定,但同样的方法可以适用于分析正在进行的调查文件。可以采用类似的程序从警察或事件报告、金融交易记录以及各种其他文档类型中提取实时数据构建知识图谱。这一基础可以作为开发复杂的图驱动模式和洞察发现系统的基础,利用最新的图数据科学和图机器学习解决方案。
这标志着我们大型语言模型系列的第二篇文章的结束。在我们之前发布的博客文章中,我们深入探讨GPT在生产中的实际作用,重点是为一个真实案例——洛克菲勒档案中心创建知识图谱 大模型和知识图谱结合的机遇与挑战-GPT构建高质量KG。我们探索构建复杂且结构良好的知识图谱的最佳实践,同时还会解决在生产环境中遇到的挑战,包括错误处理和实体解析。
关于Graphware
受到客户成功的驱动,GraphAware已成为一家全球知名的图形软件开发公司,自2013年以来提供强大的图形分析和数据科学专业知识。在英国伦敦成立,为全球客户提供下一代图形原生智能平台GraphAware Hume。
客户组合涵盖执法机构、网络防御咨询公司、银行、金融机构以及专注于多种现代科学领域的研究组织。
https://graphaware.com/
参考文章:
https://graphaware.com/blog/hume/episode_2-gpt-prompt-engineering.html
LLMs用于知识图谱系列之一:将文本以超高速转换为高质量知识图谱
大模型和知识图谱结合的机遇与挑战-GPT构建高质量KG
利用 GPT-4 从生物医学文本构建知识图谱
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-02
企业级知识图谱的实体架构治理实践
2026-07-02
一文讲清:“统一语义”、“构建本体”、“AI推理”这三者的关系
2026-07-02
graphify + claude 图谱关系
2026-07-01
把运维能力装进 Qoder,一句话就能定位根因
2026-07-01
Gbrain、GraphRAG、LLM Wiki、Graphify:4 种知识图谱方案怎么选
2026-07-01
一文讲清:本体(Ontology)与语义(Semantics)到底是什么关系?
2026-06-30
从 OOP 到本体:用形式语义支撑 AI 协作方法论
2026-06-29
从“领域描述”到“本体”——AI时代的系统设计模式探讨
2026-04-07
2026-04-19
2026-04-23
2026-04-22
2026-06-03
2026-04-23
2026-05-26
2026-05-07
2026-05-28
2026-05-23
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。