2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

HRGraph: 利用大型语言模型(LLMs)构建基于信息传播的HR数据知识图谱与职位推荐

发布日期:2024-09-23 10:27:11 浏览次数: 2921
作者:大模型的艺术

微信搜一搜,关注“大模型的艺术”

摘要

知识图谱(KGs)作为语义网络,在管理不同领域复杂互联数据方面表现出极高的有效性,通过提供统一、上下文化和结构化的表示,具有灵活性,能够轻松适应不断发展的知识。在处理复杂的人力资源(HR)数据时,知识图谱可以帮助实现不同的人力资源功能,如招聘、职位匹配、识别学习差距和增强员工留存。尽管其潜力巨大,但在实施实际的人力资源知识图谱方面的努力有限。本研究通过提出一个框架,旨在有效地从文档中利用大型语言模型开发人力资源知识图谱,从而填补这一空白。生成的知识图谱可用于多种下游任务,包括职位匹配、识别员工技能差距等。在本研究中,我们展示了人力资源知识图谱在精确职位匹配中的重要作用,为雇主和员工带来了优势。来自知识图谱和图神经网络的信息传播实验的实证证据,以及案例研究,强调了知识图谱在职位和员工推荐、职位领域分类等任务中的有效性。代码和数据可在以下链接获取:https://github.com/azminewasi/HRGraph

1 引言

知识图谱(KG)是一个存储现实世界实体及其关系的语义网络。它使用表示对象、地点或个人的节点,通过定义关系的边连接这些节点。它可以整合多样化的数据,通过链接和语义元数据对信息进行上下文化,并保持灵活性,能够无缝适应动态知识的变化。

知识图谱在管理HR数据方面可以非常有效,将多种来源整合成统一的结构化表示。这对于招聘和职业路径规划等应用至关重要。通过将数据与语义元数据链接,知识图谱可以防止误解,特别是在员工技能映射和发展方面。它们的灵活性使得在各种HR职能中轻松适应新数据和需求成为可能。知识图谱提高了招聘的精准度、技能和职业映射,优化了招聘流程,识别学习差距,改善留任策略,并促进组织知识共享。对于员工而言,知识图谱提供了更好的职位搜索和推荐,从他们的角度提供了强有力的支持。

在本研究中,我们介绍了一个名为HRGraph的框架,旨在从各种HR文档(如职位描述(JD)和简历(CV))构建HR知识图谱。我们通过两个实际示例作为下游任务来说明该框架的实用性:使用HR知识图谱进行员工和职位推荐。我们的方法采用大型语言模型(LLM)来识别和提取多样化的实体,然后使用预训练的BERT提取节点特征,形成知识图谱,并进行一些后处理。生成的知识图谱可以用于不同的下游任务。在这项工作中,我们将其用于有效的职位匹配和分类,以满足雇主和员工的需求。其基本思想是公司JD和员工CV或个人资料应共享匹配的实体,如技能、经验和教育(提案的示意图见图2),以便在求职和员工搜索场景中促进全面和准确的职位匹配。

2 相关工作

2.1 知识图谱的应用

知识图谱展示了其多功能性,在语义搜索、问答系统和推荐系统等应用中表现出色。它们的结构化表示增强了搜索引擎的结果并定制了建议。知识图谱在自然语言处理(NLP)中至关重要,提升了信息提取能力,并有助于更优的机器学习预测。从企业知识管理到生物医学研究,知识图谱展现了适应性。它们整合了多样化的数据、上下文化以及固有的灵活性,支撑了在医疗人工智能、无线通信网络、搜索引擎和大数据决策分析等不同领域中管理和提取洞察的有效性。知识图谱作为不可或缺的工具,能够无缝导航动态信息环境。我们的工作受到这些知识图谱不同应用的启发。

2.2 HR数据与知识图谱

尽管人力资源知识图谱具有良好的潜力,但在这一领域的努力有限。张等人采用自上而下的方法创建人力资源知识图谱的本体模型。该论文描述了最初建立本体的重要性,并定义了人力资源知识图谱中的实体和关系。崔提出了一个假设,旨在利用基于自然语言处理的语义实体提取构建职位描述知识图谱,但未提供详细的方法或实验。王等人提出了一种基于知识图谱的职位推荐算法,利用词语相似性来寻找推荐。Upadhyay等人使用基于命名实体识别的方法构建知识图谱,以帮助职位推荐。然而,尚未在基于大语言模型的实际场景中实施可触及的人力资源知识图谱,并利用一个图谱进行多个下游任务。

3 方法论

最近在大型语言模型(LLMs)、基于知识图谱的系统和图神经网络(GNNs)方面的发展为所提出的方法论提供了灵感。HR知识图谱利用大型语言模型(LLMs)进行实体提取,并使用预训练的自然语言处理模型来获取节点特征,从而通过利用先进的语言理解能力实现对HR数据的复杂表示。现有文献提出了其他方法,例如基于词相似度的职位推荐和命名实体识别(NER)来构建知识图谱。我们提出的方法通过利用LLMs进行实体提取,并使用BERT进行特征提取(长度为256),提供了一种灵活且全面的方法,解决了实际挑战并支持多种下游任务。

实体提取与精炼。我们首先处理职位描述(JD)或简历(CV)作为HR文档文本 ,使用大型语言模型Gemini。提示信息见B节。这一步骤的结果是从文本中提取出各种实体 ,捕捉实体和关系。随后,我们对实体集 进行后处理,以过滤掉潜在的噪声(例如,知识图谱节点包含超过3个单词或没有命名实体或动词),最终得到一个精炼的实体集

关系提取。为了建立这些实体之间的初始连接,我们利用信息拓扑和类型,创建初始连接集

节点特征提取。通过使用预训练的BERT模型,我们为每个实体生成特征向量,构建初始特征矩阵 。因此, 表示节点(实体)集合 ,而 包含边(关系)集合 ,其中 分别表示节点和边的数量。

知识图谱构建。结合 形成我们的知识图谱(KG),记作 。相应的邻接矩阵 的元素 ,如果一条边连接

每个节点 和每条边 都有相关的映射函数,记作 : 。这里, 表示边类型集合,A 是节点类型集合,其中 。如果我们选择使用知识图谱嵌入(KGE),特征向量 可以被排除,节点嵌入可以通过包含拓扑和结构知识的不同KGE模型获得。

4 知识图谱实验

我们从在线招聘门户收集了 和 200 个职位描述,确保简历中包含的个人信息最少,并经过人工审核以保护隐私。职位描述中公开可用的公司信息被保留。然后,数据在招聘门户的过滤器帮助下进行了手动标记,以便进行后续实验。任何类型的个人可识别信息(PII),如姓名、详细地址、电子邮件地址、手机号码等,均经过彻底检查并删除。

该数据集包括针对这些职位的 20 个类别的工作和简历。这些类别包括:信息技术、业务发展、金融、律师、会计、工程、厨师、航空、健身、销售、银行、医疗保健、顾问、建筑、公共关系、人力资源、设计师、艺术、教师、服装。在简历中,每个类别有 10 个,但在职位描述中,IT 和工程类的职位数量更多。

提示在 B 节中提供。虽然核心设计保持不变,但简历和职位描述的提示略有不同,各自针对其特定的模态进行了调整。完整的推理代码和示例可在 GitHub 仓库中找到。

4.1 可视化知识图谱

利用Gemini工具,我们系统地收集了数据,并构建了两个知识图谱,分别用于简历(CV)和职位描述(JD),作为人力资源知识库,遵循了定义的方法论。为了确保相关性,排除了长度超过4的实体。这些知识图谱(如图3和图4所示)表明,不同工作之间以及所需的技能、教育和经验之间存在巨大的联系。通过利用这些关系,可以完成许多下游任务。

5 下游任务

5.1 HRGraph上的信息传播

图2提供了我们利用HR知识图谱为求职者或员工提供职位匹配和推荐框架的概述。通过利用职位描述图,我们识别出匹配的技能、教育和经验节点,形成一个包含3跳邻居节点的目标子图。该子图中的节点中心性使我们能够高效地找到并排名所有相关的职位节点。

5.2 任务 01:推荐

信息传播框架预测每个个体的前 个排名职位,使我们能够评估预测的准确性和精确性,从而优化职位推荐。同样,在上述任务中,我们扩展了职位推荐的方法,利用简历知识图谱根据匹配的技能、教育和经验识别员工。 表示随机推荐, 表示直接使用 LLM 实体进行前 5 个推荐的职位推荐。表 1 显示知识图谱信息传播和排名可以提供非常强的推荐,并且具有良好的准确性。案例研究见附录 A。

5.3 任务 02:职位领域分类

在此任务中,我们使用基于知识图谱的职位领域分类,采用两种基本的流行图神经网络(GNN):GCN 和 GAT。我们将结果与传统和常用的深度学习模型进行了比较。表 2 显示,基于知识图谱的 GNN 模型的效果与其他模型相当,且略有优势。更多细节请参见附录 A。

6 讨论

我们相信,将人力资源数据转化为知识图谱在塑造人力资源数据收集、管理和利用的未来方面具有巨大的潜力。通过将人力资源数据设想为这个互联的图谱,组织可以解锁前所未有的洞察,简化招聘流程,识别人才缺口,并促进员工成长。这种方法不仅增强了决策能力,还为一个动态和适应性强的人力资源生态系统铺平了道路,从而推动组织在不断变化的环境中的成功。

7 结论

本研究提出了一个框架,利用大规模语言模型(LLMs)和图神经网络(GNNs)从文档中构建人力资源知识图谱,作为不同人力资源任务的知识基础。所生成的知识图谱增强了多种人力资源功能,包括职位匹配、职位领域分类等,通过实证证据展示了其有效性,惠及雇主和员工。

限制

该框架的主要限制在于其对大型语言模型(LLMs)的依赖,尽管这些模型功能强大,但可能不可靠且容易产生幻觉。鉴于我们的模型完全依赖LLMs进行实体提取,我们观察到它们在某些情况下偏离了提供的指令。此外,可以设计一个更复杂的职位匹配算法。未来可以对此进行进一步研究。

伦理考虑

在进行本研究时,严格遵循伦理指南,以确保使用数据的个人的隐私和机密性。主要关注点是以极大的谨慎处理个人可识别信息(PII),以保护所有个人的身份和隐私。

数据匿名化。为了保护隐私,所有个人可识别信息,如姓名、详细地址、电子邮件地址和手机号码,均被仔细识别并从数据集中移除。此过程涉及彻底检查,以确保没有可追踪的信息留下,可能识别任何个人。

同意和许可。原始数据集是在获得适当许可并遵守相关数据使用协议的情况下访问的。通过遵守这些协议,我们确保数据在其预期目的范围内使用,尊重数据收集时的条件。

隐私保护。在本研究中,所使用的数据集是从现有的简历集合中整理而来,确保所有个人可识别信息(PII)被仔细移除,以维护隐私并遵循伦理指南。原始数据源是在获得适当许可的情况下访问的,并应用了严格的匿名化技术,以消除任何身份痕迹。

安全数据处理。在数据整理和分析过程中,实施了安全的数据处理实践。这包括使用加密存储解决方案,并限制对数据的访问,仅限于那些需要进行特定研究任务的团队成员。这些措施对于防止未经授权的访问和潜在的数据泄露至关重要。

数据的伦理使用。研究团队致力于以伦理方式使用数据,确保分析和解释公正且不偏不倚。数据仅用于本研究的目的,而不用于任何商业或剥削性活动。此外,研究结果以保护数据集中个人匿名性的方式进行报告。

透明性和问责制。在整个研究过程中,保持了方法的透明性和过程的问责制。详细记录了我们的数据处理和匿名化程序,确保采取的保护隐私的步骤可以在必要时由外部方进行审查和验证。

实验细节

A.1 实施细节

TF-IDF 向量化器:该模型采用了一个 n-gram 范围为 1 到 5 的 TF-IDF 向量化器,以捕捉多样的词组合,并将最大特征限制设置为计算得出的词汇大小。词汇大小的确定为数据的均值加上三倍的标准差,以确保相关术语的全面表示。此外,排除了英语停用词,以便在向量化过程中专注于有意义的内容。

传统模型:在从 TF-IDF 向量化器获取向量后,我们使用不同的方法进行分类。LogR 代表逻辑回归,DecT 代表决策树, 代表随机森林,GBC 代表梯度提升分类器。逻辑回归采用 L1 正则化,使用 'liblinear' 求解器。决策树分类器的最大深度限制为 5。随机森林分类器由 50 棵决策树组成,并使用固定的随机状态以确保可重复性。梯度提升分类器结合了 50 个弱学习者的集成。

MLP:MLP 模型是一个简单的前馈神经网络,具有多个隐藏层,包括每层的 dropout 正则化。它由完全连接的层组成,维度从 2048 逐层减半到 64,所有层均使用 ReLU 激活函数。输出层采用 softmax 激活函数进行多类分类。

Transformer:该 transformer 模型与 AutoML 和 Hugging Face Transformers 库集成,利用 AutoTokenizer 对文本数据进行预处理。使用 Auto Model For Sequence-Classification 类,并配置 distilbert-base-uncased 模型,以处理与训练数据中的类对应的多个唯一标签的序列分类任务。

基于图神经网络的模型:使用的 GCN 和 GAT 模型均为 Pytorch Geometric 库中的默认模型,具有 64 个隐藏通道和 4 层。微调 GNN 将改善结果。

A.2 案例研究

在简历编号92中,这是一个销售人员的简历。它与职位描述图中的匹配实体包括:’会计’,’管理’,’Excel’,’办公室’,’外观’,’Microsoft Word’,’政策’,’销售’,’SAP’,’时间管理’。前五个匹配的职位描述是:150, 84, 103, 123, 163。它们的标签分别是会计、销售、销售、金融、销售。虽然该个人的主要专长在于销售,但“会计”技能的包含促使推荐了会计职位。其他技能如“管理”、“Excel”和“政策”也为金融行业的建议做出了贡献。这例证了知识图谱提供细致推荐解释的能力,提供了影响职位建议的多样因素的见解。这对于求职者进行职业转型非常有效。

如果信息是职位描述,请使用以下提示:

您是一位实体提取专家,可以从文本中识别和提取不同类型的实体。以下是职位描述中的一些信息。您的任务是查找并列出所有信息实体,如教育(学位要求)、技能(职位所需技能)、资格(技能)、经验(动词和名词)以及任何其他对职位重要的有用标记,并将它们以列表形式分享,其中实体用逗号分隔。不要写其他内容。仅以字典(JSON)形式列出小实体,实体之间用逗号分隔。每个实体只能包含1-2个单词。

<插入职位描述文本在这里>

这是预期输出的示例:

"教育": ["ABC大学", "CGPA 3.00", "计算机科学与工程", "学士学位"], "技能": ["C", "Python", "R", "机器学习", "沟通", "团队合作"], "经验": "ABX信息技术": ["团队管理", "助理经理"], "技术": ["经理", "高级工程师", "AWS"]

B 提示

如果信息是简历,请使用以下提示:

您是一位实体提取专家,可以从文本中识别和提取不同类型的实体。以下是一些来自简历的信息。您的任务是查找并列出所有信息实体,如教育(学位、成绩、学校名称)、技能(个人拥有的技能)、资格(技能)、经验(动词和名词)以及任何其他对工作重要的有用标记,并以列表形式分享它们,实体之间用逗号分隔。不要写其他内容。仅在字典(JSON)中以逗号分隔的小实体。每个实体只能包含1-2个词。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅