LLMs大模型生成知识图谱系列之二：GPT提示工程创建知识图谱实践

发布日期：2024-08-09 08:57:18 浏览次数： 3026

作者：知识图谱科技

微信搜一搜，关注“知识图谱科技”

欢迎来到LLM和知识图谱系列。我们正在实践探索知识图谱和大模型双轮驱动，前段时间在OpenKG开放知识图谱联盟做了一个分享“大模型+知识图谱”双轮驱动的医药数智化转型新范式-OpenKG TOC专家谈。

双轮驱动中GraphRAG主要是利用知识图谱增强大模型能力，已经有不少进展和应用。而通过大模型抽取知识图谱的实际效果还不是很好，需要更多实践探索，之前编译过系列中的两篇LLMs用于知识图谱系列之一：将文本以超高速转换为高质量知识图谱& 大模型和知识图谱结合的机遇与挑战-GPT构建高质量KG，以及利用 GPT-4 从生物医学文本构建知识图谱。

在这个博客系列中，Graphware分享探讨了最前沿的大型语言模型与基于图谱的智能之间的交汇点。无论您是经验丰富的数据科学家、好奇的开发者，还是寻求可行见解的商业领袖，这个系列都承诺揭开 LLMs 和知识图谱之间的协同作用的神秘面纱。

前言

这个系列中的每一篇博客都深入探讨因 LLMs 与图技术的融合而带来的实际应用、挑战和机会。从将非结构化文本转化为结构化知识，到提示工程，再到揭示复杂关系，我们探索了这些强大工具如何彻底改变信息提取和决策过程。

深入了解 Gupta 泄密案的案例研究，见证基于 GPT 的提示工程如何揭示腐败网络，为执法和组织赋能。

大型语言模型（LLMs）的出现极大地改变了自然语言处理（NLP）领域。其原因主要在于它们理解和分析自然语言的能力，同时生成类人响应。

LLMs的优势在于，它们在海量数据集上训练，不具备特定领域限制。这使得我们能够在广泛的场景中使用它们。在这篇博文中，我们专注于执法，具体讨论关于南非国家腐败庞大网络或称为“国家掠夺”的公共司法报告https://www.gupta-leaks.com/，即“古普塔泄密”。这些文件详细描述了各种组织和个人的事务及其复杂的腐败和犯罪活动。

在这种情况下，我们运用OpenAI的GPT（生成预训练变换器）来从文本中提取相关知识，通过使用该模型执行命名实体识别（NER）和关系提取（RE）等任务。这些步骤是从非结构化文件到知识图谱的重要里程碑，因为它们允许我们识别关键元素——实体及其之间的关系——以展现故事。最终生成的知识图谱（KG）代表了一个统一且易于浏览的真实来源，在我们这个案例中，涉及古普塔家族及其商业和政治交易的事务。

这篇博文反映了从文本数据构建知识图谱的过程中的两个关键步骤。第一部分专注于提示工程——正确制定任务的过程——并包含关于模型选择和设置的一些观察，而第二部分主要与知识图谱的构建相关，包括数据清理和标准化。最后，我们将分析结果并试图回答关于古普塔家族的一些主要问题：“古普塔家族如何在如此长的时间内管理如此规模的腐败而不引起怀疑？古普塔家族的共谋组织是什么？”

成功构建知识图谱的提示工程

选择大型语言模型（LLMs）而不是传统自然语言处理（NLP）模型有几个令人信服的优势，特别是在复杂且具有挑战性的关系提取任务中。一方面，传统模型需要更多的人力投入：建立定制的领域特定NLP管道（命名实体识别、共指解析、关系提取）需要相当大的初始投资。训练这些定制模型通常需要大量时间、专业的数据科学知识和显著的手动数据标注工作。相比之下，大型语言模型只需要识别最有效的任务表述，通常称为“提示”。值得注意的是，这并不是完全轻松的任务，但它确实具有更温和的学习曲线和更直接的采用过程。

以纯文本形式表达的提示是我们引导模型正确方向和表达我们意图的主要工具。本系列第一篇博文LLMs用于知识图谱系列之一：将文本以超高速转换为高质量知识图谱中提到的挑战——缺失的实体和关系、存在无关的、不准确甚至错误的结果，以及规范化问题（大量语义相同的实体和关系类）——使我们意识到，像我们使用的通用提示对于复杂的关系提取任务是不够的。因此，我们进行了调查并开展了一系列实验，渴望找出适合我们需求的提示。

对提示的实验非常有启发性——通过观察失败点并迭代地调整指令，我们能够显著降低错误率。受到这一经验的激励，我们深入探索和实验提示工程中的最佳实践。最终，我们培养出专门针对知识图谱构建领域的独特专业知识。现在让我们来看看一个精心编写的提示的重要性，同时也借此机会分享一些建议。

在提示设计方面，特别是在处理复杂请求时，最有效的方法是制定清晰且精确的指令。通常建议将问题分解为更简单、定义明确的子任务，提供一套明确的指示。在我们具体的案例中，我们可以将任务分为两个不同的阶段。初始阶段涉及识别文本中的实体和关系（即命名实体识别和关系提取）。随后，我们进入下一阶段，在该阶段中，对收集到的信息进行处理并以所需的输出格式呈现。

让我们从一个包含这两个步骤的简单提示开始，但将搜索限制为只有我们感兴趣的几种类型的实体。

Given a prompt delimited by triple backticks, perform the following actions:
- identify as many relations among entities as possible
- output a list in the format [ENTITY 1, TYPE of ENTITY 1, RELATION, ENTITY 2, TYPE of ENTITY 2].

The most important entity types are: person, organization, location, "criminal charge" (including formal accusation, breach, allegation, etc.), title, money.


###prompt: ```text_to_be_processed```
###output:

让我们通过处理以下文本片段来检查这个提示：

Singh was a central and willing player as CFO at Transnet[...]
As we previously reported US$3 448 800 (about R34-million then) of the R84-million that was sucked from Estina to Dubai in August and September 2013 was justified by a Gateway invoice for a milk pasteurisation plant to be supplied by Star Engineers, an engineering firm in the Guptas’ hometown of Saharanpur, India.

下面显示的输出似乎令人满意，但确实还有提升的余地

[Singh, Person, was a central and willing player, Transnet, Organization],
[Estina, Organization, Sucked, US$3 448 800, Money], [Gateway, Organization, Invoice for, Milk Pasteurisation Plant, Title],
[Star Engineers, Organization, Supplied, Milk Pasteurisation Plant, Title],
[Saharanpur, Location, Home Town of, Guptas, Person]

我们可以观察到的第一个错误是实体牛奶巴氏杀菌厂Milk Pasteurisation Plant被识别为标题Title两次。为了解决这个错误，进一步明确标题的含义可能会有所帮助。让我们在提示中添加几个示例，以便将简单的词汇标题替换为更丰富的解释——标题（企业部长，首席执行官等） title (Minister of Enterprises, CEO, etc.)。

此外，从示例中我们可以观察到各种各样的关系类型，如 was a central and willing player, Home Town of 等。在考虑构建知识图谱的最终目标时，这种情况可能会带来挑战。由于关系非常详细，我们可能会得到一个庞大的模式。因此，在查询图谱以查找公司雇佣的人员时，我们将被迫指定所有可能的变体和时态的works_for关系，这可能会变得笨重。我们可能希望将返回的关系限制为一个有意义的集合，并迫使GPT使用某些标准关系类型。对于上述示例，标准类型可以是works for和location of。为了应对这一问题，我们可以通过在提示中明确提及关系类别的集合（甚至包含模型难以理解的关系的解释）来指导GPT：

The most important relations are: "paid to" (i.e. link the payer to the receiver), "paid for", "paid amount" (i.e. link the payer to money paid), "received amount" (i.e. link the receiver to money), "owned by", "subcontractor of", "supplier of", "partner of" (i.e. when two organizations have a mutual contract), "accused of", "met with", "contacted", "has title", "visited", "located in", "alias of" (i.e. link person or organization with their aliases), "works for".

尽管这个操作看起来非常紧急，但它需要特别关注。关系名称（实体类也一样）应该具有代表性，即选择时要小心，以避免歧义 - 在某些情况下，我们甚至添加了关于源实体和目标实体的额外解释或信息，以为GPT提供更全面的指导。有时，改变名称可能会很有帮助。例如，我们花时间研究涉及财务问题的关系，微调它们的名称和定义 - “received amount”（即将接收者与资金关联）在语义上等同于"amount paid to"（即将金额与接收者关联），但GPT更容易理解前者而不是后者。新提示的输出效果更好。关系与我们请求的非常相似，而且更加清晰：

[Singh, Person, works for, Transnet, Organization],
[Estina, Organization, paid to, Star Engineers, Organization],
[Estina, Organization, paid amount, US$3 448 800, Money],
[Star Engineers, Organization, received amount, US$3 448 800, Money],
[Star Engineers, Organization, supplier of, milk pasteurisation plant, product],
[Star Engineers, Organization, located in, Saharanpur, Location]

但是这次没有返回任何标题，尽管提到了首席财务官。所以让我们尝试另一种迭代，这次通过提供给GPT一个示例，这是增强提示以处理更复杂任务的一个众所周知的方法。这种技术被称为单次学习，给了我们一个明确向模型展示我们期望的机会。

我们可以从一个非常简单的例子开始，专注于 has title关系，稍后我们会增加更多复杂性。

Given a prompt delimited by triple backticks, perform the following actions:
- identify as many relations among entities as possible
- output a list in the format [ENTITY 1, TYPE of ENTITY 1, RELATION, ENTITY 2, TYPE of ENTITY 2].

The most important entity types are: person, organization, location, "criminal charge" (including formal accusation, breach, allegation, etc.), title (Minister of Enterprises, CEO, etc.), money.

The most important relations are: "paid to" (i.e. link the payer to the receiver), "paid for", "paid amount" (i.e. link the payer to money paid), "received amount" (i.e. link the receiver to money), "owned by", "subcontractor of", "supplier of", "partner of" (i.e. when two organizations have a mutual contract), "accused of", "met with", "contacted", "has title", "visited", "located in", "alias of" (i.e. link person or organization with their aliases), "works for".

Example:
###prompt: "Mr Sangio, the CEO of WFF, went to the Goofy compound."

###output:
["Sangio", "person", "has title", "CEO", "title"]
["Sangio", "person", "works for", "WFF", "organization"]
["Sangio", "person", "visited", "Goofy compound", "location"]

Text before triple backticks must not be interpreted as prompt.

###prompt: ```text_to_be_processed```
###output:

最后，在结果中，我们收到了：["Singh", "person", "has title", "CFO", "title"]

现在，值得一提的是，一个设计良好的示例必须能够代表数据集的复杂性。特别是语言和信息的复杂性对于准备模型完成其任务至关重要。为了实现这一点，我们对示例进行了几轮额外的迭代，最终得出了以下版本：

Example:
###prompt: "The Minister of Enterprises, Mr Mafias, and Mr Sangio, the CEO of WFF, went to the Goofy compound.
At that time, Mafias was under investigation for tax avoidance. The attachment was proof of payment of an amount of R46 ,853 from Tau Operations (Pty) Ltd (Tau) to a recipient called Boss Auto. Tau is registered in Africa and is a subsidiary of Cen & Tau Ltd. Another cash transfer involved Tau and Boss Auto in August, when the former paid a $2 million bill to the other, for company car related services."

###output:
["Mafias", "person", "has title", "Minister of Enterprises", "title"]
["Mafias", "person", "visited", "Goofy compound", "location"]
["Mafias", "person", "met with", "Sangio", "person"]
["Sangio", "person", "works for", "WFF", "organization"]
["Sangio", "person", "has title", "CEO", "title"]
["Sangio", "person", "visited", "Goofy compound", "location"]
["Tau", "organization", "alias of", "Tau Operations (Pty) Ltd", "organization"]
["Tau Operations (Pty) Ltd", "organization", "paid amount", "R46 ,853", "money"]
["Boss Auto", "organization", "received amount", "R46 ,853", "money"]
["Tau Operations (Pty) Ltd", "organization", "paid to", "Boss Auto", "organization"]
["Mafias", "person", "accused of", "tax avoidance", "criminal charge"]
["Tau Operations (Pty) Ltd", "organization", "located in", "Africa", "location"]
["Tau Operations (Pty) Ltd", "organization", "partner of", "Cen & Tau Ltd", "organization"]
["Tau Operations (Pty) Ltd", "organization", "paid amount", "$2 million", "money"]
["Boss Auto", "organization", "received amount", "$2 million", "money"]
["Tau Operations (Pty) Ltd", "organization", "paid to", "Boss Auto", "organization"]

我们选择使用类似数组的输出格式以便于人类友好的解读，但其他选项也是可能且有价值的。例如，JSON格式（在上一篇博客文章中使用）使我们不仅可以返回实体和关系，还可以返回它们的属性。在这种情况下，类型为PAID_TO或RECEIVED_AMOUNT的关系将具有表示涉及金额的属性，从而允许信息的更丰富和更紧凑的表示。

大型语言模型（LLMs）最显著的优势在于其文本到文本的格式和卓越的灵活性。通过这种格式，同一模型可以仅通过更改提供的提示无缝地在完全不同的任务之间切换。当然，提示工程至关重要，尽管现有的最佳实践可能会迅速演变为其他模型的出现，但最重要的考虑因素是制定一个被模型正确解释的提示（我们讨论了词语的重要性，例如“收到的金额”而不是“支付的金额”）。从这个意义上说，提示工程阶段是成功的关键。然后，如果您对零样本学习不满意，可以提供示例（一次性学习），作为最后的可能性，进行LLM微调操作，这使我们能够将这些模型定制为特定领域的用例（但需要提供微调训练集）。

语言模型的选择与评估

我们测试了两个OpenAI的GPT-3.5系列模型：text-davinci-003和gpt-3.5-turbo。text-davinci-003模型在质量和遵循指令的能力方面优于其他GPT-3.5模型。相比之下，gpt-3.5-turbo针对聊天进行了优化（用于ChatGPT），但它也能以text-davinci-003的十分之一的成本执行完成任务。因此，前者在结果的质量上具有优势，而后者在成本效益的部署中更具优势。目前，GPT-4对公众开放，展示了比其前代产品更令人印象深刻的能力，尽管成本更高。

对于我们的任务，Davinci的准确性高于Turbo（以下将出于简便将上述模型以这种方式表示）。结果质量的差异部分是由于Turbo产生了许多畸形的结果。以下是Turbo模型产生的畸形输出示例：

["Mr Watson", "person", "needed to approve requests for donation", "title"], ["Mr Zukiswa Jamela", "person", "introduced Mr Zuma to Mr Watson", "title"].

在这些情况下，向量长度是4（而不是5），关系与目标实体合并。这些错误在Davinci中很少出现，而在Turbo中更为频繁。另一方面，我们注意到，虽然这两种模型在NER任务上的准确性相似，但在RE任务中情况并非如此。尤其是在非常严格的关系情况下，比如涉及多对组织之间的资金交换时，Davinci能够产生更好的结果。显然，RE在NLP领域仍然是一项困难的任务，正如我们所观察到的，即使是GPT-3.5的强大能力（使用单次学习方法且未进行微调）也面临挑战。

语言模型的一个重要参数是温度，它决定了响应的随机性和创造性。该参数的取值在0到1之间：较低的温度生成更集中、几乎是确定性的结果，而较高的值使模型更具创造性（更不可预测）。

温度的选择依赖于任务，逻辑任务和需要想象的任务之间有所不同。在我们的例子中，任务主要是理性的：从特定文档中提取精确的事实信息，重点在于防止“幻觉”——生成模型倾向于编造未得到文档支持的内容。因此，我们测试了一系列相对较低的温度——从0到0.4——并最终选择使用文本-davinci-003模型，使用经验选择的温度为0.2。

知识图谱架构 - 从司法报告到古普塔知识图谱

最后，我们可以着手清理和整理从GPT获取的信息。使用我们图谱分析解决方案GraphAware Hume定义的实施KG架构显示在下图中。

无需担心，这比看起来简单！从左到右，这些是我们在古普塔泄密案中的数据来源 - 网页和司法报告 - 分解为页面。然后我们找到相互链接的实体节点，通过RELATED_TO_ENTITY表示“原始”实体和关系，这些是GPT返回的。实体具有一个名称和一个类型属性，表示实体的类型（例如“组织”、“人”等）。此外，RELATED_TO_ENTITY还有一个类型属性，表示关系的性质（例如“有头衔”、“为...工作”）。

但我们为什么需要这些原始节点，而不是直接创建最终实体呢？因为尽管我们在提示中指定了我们感兴趣的实体和关系，但实际上GPT会产生额外或更细化的类别，这些类别超出了预定义的范围。例如，可以追溯到“人”的返回实体类型包括：员工、成员、家庭、公众 Staff, Members, Family, People。然而，还有一些我们没有请求的提取实体（例如，行动、服务、信息Action, Service, Information等）。因此，过滤和规范化结果的过程变得必要。

最后，通过清理和解析实体节点及其关系，我们得到了下图所示的精简模式。此时，知识被简单地组织起来，因此回答问题就像编写少量跳数的Cypher查询一样简单。

追捕古普塔家族

在2017年6月1日，Daily Maverick新成立的调查单位Scorpio与独立调查非营利组织amaBhungane开始发布一系列来自数百GB邮件和其他文件的故事。我们称之为#GuptaLeaks，它改变了南非的历史。来自Daily Maverick文章“#GuptaLeaks改变南非历史的十个揭示”中的内容https://www.dailymaverick.co.za/article/2022-06-01-ten-revelations-made-by-the-guptaleaks-that-changed-the-course-of-sa/。

古普塔帝国的邮件泄露在南非是一个突破性的时刻，这揭露了前所未有规模的政治腐败，称为国家捕获，即一种系统性的政治腐败，私人利益显著影响国家的决策以谋取自身利益。这一捕获是由古普塔兄弟实施的，他们得到了南非总统以及主要国际公司和国家机构的支持。

在这种情况下，一个重要的初步调查是识别出古普塔的关键共犯组织。在实时场景中，进行此操作可能导致刑事网络的破坏，从而降低犯罪在不久的将来再次发生的机会。

上图表示了通过关系SUBCONTRACTOR_OF、ORG_PAID_TO_ORG和OWNED_BY_ORG在组织之间的互动子图，这有助于解决我们的问题。节点的样式根据中介中心性度量表达其重要性，节点越大，组织在网络中作为桥梁或连接者的作用越大，使其他实体能够相互连接。以圆圈表示的聚类指示了紧密相关的组织群体。这些社区是根据仅由关系OWNED_BY_ORG组成的子图计算的弱连通分量（WCC）图算法的结果，在我们上下文中，这在很多情况下代表国家掠夺关系（公司控制其他公司）。因此，同一聚类中的组织彼此拥有，或一个组织依赖于另一个组织，即发生了掠夺。

观察节点的大小，因此它们在网络中的重要性，以及围绕它们的聚类，我们可以识别出国家掠夺中的两个主要参与者。第一个参与者位于画布右侧，正如我们所预期的那样，是古普塔家族聚集。第二个参与者位于图的左侧，是博萨萨公司。在这一点上，很明显，古普塔并不是这个故事中的唯一罪魁祸首——博萨萨也是一个关键实体！在古普塔和博萨萨之间，有接触点，但不是直接的。事实上，通过使用知识图谱进行详细的有针对性的研究，我们发现博萨萨是另一个涉及腐败并与国家掠夺有牵连的公司，它在古普塔的独立运作。

放大对古普塔集团的观察，可以清楚地看到，公用电力公司埃斯科姆和航空航天及军事技术集团德内尔不能被古普塔家族直接拥有。因此，他们的参与需要更深入的调查。

建立的Hume KG可完全解释，因为其配置方式允许轻松访问提取关系的文本片段。利用这种关于埃斯科姆与古普塔之间 OWNED_BY_ORG 关系解释功能，我们获得了以下有趣的报告内容：

“[…] 科科先生参与了推动某些埃斯科姆高管下台的计划，以便古普塔的关联人士能够被任命到埃斯科姆的某些战略职位。”（报告第4部分第4卷 - 埃斯科姆2，第1016页）

https://www.statecapture.org.za/site/files/announcements/683/OCR_version_-_State_Capture_Commission_Report_Part_IV_Vol_IV_-_Eskom.pdf

还有

“在2015年及以后的时间里，科科先生在多种情况下继续为古普塔及其关联人士的利益行事，而不是为了埃斯科姆的利益。高管的暂停是从一开始就属于此计划的关键组成部分。[…] 该计划的主要目的是将布莱恩·莫利费任命为埃斯科姆的首席执行官，以及阿诺杰·辛格任财务总监，因为设计和实施该计划的人认为布莱恩·莫利费和辛格会偏向古普塔家族，并将埃斯科姆的资源引向古普塔家族。埃斯科姆董事会的成员参与了暂停高管的决定，因为当中一些人一定知道这是一部分古普塔的计划，并乐于推进古普塔的议程。”（报告第4部分第4卷 - 埃斯科姆2，第1045页）

https://www.statecapture.org.za/site/files/announcements/683/OCR_version_-_State_Capture_Commission_Report_Part_IV_Vol_IV_-_Eskom.pdf

显然，埃斯科姆确实受到古普塔的控制。同样，对该集团内其他组织的进一步调查显示，它们要么属于古普塔，要么属于他们的关联人士（如特盖塔、特丽良和最优煤），或者，很可能它们也在某种程度上受到影响或被控制。

另一方面，另一个引人注目的调查涉及组织和个人之间资金的交流。这是一项复杂的分析，因为在任何执法场景中，发现付款人和收款人之间的直接联系都是非常不寻常的。相反，资金总是沿着多步路径流动，通过多个中介传递。出于这个原因，需要对提示示例进行多个调整，以跟踪资金流动。

通过考虑涉及支付的图表部分，我们计算了每个实体支付paid和接收recieved的总金额，以明确其在网络中的位置。此时，得益于设置各种Hume风格的可能性，我们可以从两个不同的角度分析同一网络——动态和可定制的可视化强调图中的模式。

在上面的图中，节点的大小基于支付的金额，这也通过添加到节点上的徽章来表示。因此，可以说上述是支付者的网络，因为最大的节点是支付最多的个人和组织。如我们所观察到的，古普塔家族（为可见性而标记为紫色）支付了其他组织或个人近50亿兰特，而艾斯科姆支付了560亿。

相反，通过改变支付子图的样式以表示接收者的角色——节点的大小和徽章代表收到的金额——我们得到了下面图中所描绘的情况。

这一次，古普塔家族收到了590亿兰特（约合29亿欧元）……是支付金额的10倍！考虑到这个家族的犯罪行为，我们对此并不感到意外。相比之下，爱斯科姆仅收到370亿，而之前它支付了560亿。所以看起来古普塔家族和爱斯科姆的收入支出状况不平衡——古普塔家族获利，而爱斯科姆则亏损。如前所述，爱斯科姆是一家国有公司，从报告来看似乎受到古普塔家族的控制。事实上，KG揭示古普塔是这家公司的一名受益者，以及与他们相关的Tegeta、Trillian和Optimum Coal等组织。因此，报告显示，国有公司向古普塔家族拥有的几家公司付款。我们似乎找到了最初问题之一的答案：“古普塔家族是如何在没有引起怀疑的情况下长期进行如此大规模的腐败的？”——他们将来自爱斯科姆的大量资金流向了他们并不直接持有的银行账户，而是转向了几家他们拥有的公司。

通过比较古普塔家族收到的资金与爱斯科姆的付款，明显可以看到存在差异和缺失的金额。这种差异部分是因为并非所有的司法报告都已经得到充分处理；只有四卷报告被审查。然而，这一分析在揭示一些古普塔的合作者以及阐明他们用于向自己企业转移资金的模式方面发挥了关键作用。

结论

在这篇博客文章中，我们介绍了使用大型语言模型（LLMs）从非结构化数据构建知识图谱的过程。所提出的用例解决了执法部门中的典型问题，具体而言，我们调查了关于国家掠夺的司法调查委员会报告。https://www.statecapture.org.za/site/information/reports

在这种情况下，使用大型语言模型（LLMs）是至关重要的。鉴于该领域的复杂性，这些深度学习模型超越了传统的自然语言处理方法，而无需在特定领域定制模型时进行大量前期投资，这通常涉及到高质量人工标注训练数据集的创建。将大型语言模型（LLMs）与知识图谱的能力结合，彻底改变了基于结构化和非结构化文本数据的执法调查。这种集成使得前所未有的洞察发现成为可能，赋予分析人员研究犯罪网络结构、识别腐败组织同谋以及追踪涉及多个交易的复杂资金流动的能力。

尽管古普塔案例代表了一个已结案的案件，相关责任人和组织已被确定，但同样的方法可以适用于分析正在进行的调查文件。可以采用类似的程序从警察或事件报告、金融交易记录以及各种其他文档类型中提取实时数据构建知识图谱。这一基础可以作为开发复杂的图驱动模式和洞察发现系统的基础，利用最新的图数据科学和图机器学习解决方案。

这标志着我们大型语言模型系列的第二篇文章的结束。在我们之前发布的博客文章中，我们深入探讨GPT在生产中的实际作用，重点是为一个真实案例——洛克菲勒档案中心创建知识图谱大模型和知识图谱结合的机遇与挑战-GPT构建高质量KG。我们探索构建复杂且结构良好的知识图谱的最佳实践，同时还会解决在生产环境中遇到的挑战，包括错误处理和实体解析。

关于Graphware

受到客户成功的驱动，GraphAware已成为一家全球知名的图形软件开发公司，自2013年以来提供强大的图形分析和数据科学专业知识。在英国伦敦成立，为全球客户提供下一代图形原生智能平台GraphAware Hume。

客户组合涵盖执法机构、网络防御咨询公司、银行、金融机构以及专注于多种现代科学领域的研究组织。