交行专利：基于用户意图和多级匹配，更快更准地审核大模型敏感词

发布日期：2024-08-15 12:49:14 浏览次数： 2765

作者：银行科技研究社

微信搜一搜，关注“银行科技研究社”

7月23日，交通银行申请的一项名为“基于大语言模型的敏感词审核方法、装置、设备及介质”的专利公布。其申请于2024年4月10日，涉及人工智能领域。

方法包括：获取待审核文本；对待审核文本依次进行M级敏感词匹配处理，得到M级敏感词匹配结果；M级敏感词匹配结果为待审核文本是否存在预设的该级别的敏感词；其中，M为大于或者等于2的整数；若确定第M级敏感词匹配结果为存在该级别的敏感词，则确定待审核文本的用户意图；根据用户意图，确定待审核文本是否审核通过。

更具体的，对待审核文本依次进行M级敏感词匹配处理，得到M级敏感词匹配结果，包括：对待审核文本进行分段处理，得到N个文本序列；其中，N为大于或者等于1的整数；对文本序列依次进行M级敏感词匹配处理，得到M级敏感词匹配结果。

当M＝2时，对文本序列依次进行M级敏感词匹配处理，得到M级敏感词匹配结果，包括：对文本序列基于预设的第一级敏感词词库进行第一级敏感词匹配处理，得到第一级敏感词匹配结果；第一级敏感词词库包括至少一个第一级敏感词；若确定第一级敏感词匹配结果为不存在该级别的敏感词，则对文本序列基于预设的第二级敏感词词库进行第二级敏感词匹配处理，得到第二级敏感词匹配结果；其中，第二级敏感词词库包括至少一个第二级敏感词。

若确定第一级敏感词匹配结果为存在该级别的敏感词，则确定待审核文本审核未通过。

对文本序列依次进行M级敏感词匹配处理，得到M级敏感词匹配结果，还包括：针对第M级敏感词匹配处理，重复执行下述步骤，直至确定第M级敏感词匹配结果：确定第i个文本序列中的关键词和关键词对应的词向量；其中，i为大于或者等于1的整数；根据词向量和预设的第M级敏感词词库，确定第i个文本序列中是否存在敏感词；其中第M级敏感词词库中包括至少一个第M级敏感词；若确定第i个文本序列存在敏感词，则确定第M级敏感词匹配结果为存在该级别的敏感词；若确定第i个文本序列不存在敏感词，则确定i的值加一，直至i大于N，确定第M级敏感词匹配结果为不存在该级别的敏感词。

另外，确定待审核文本的用户意图，具体包括：将待审核文本输入至预设的大语言模型中，得到待审核文本的用户意图。

将待审核文本输入至预设的大语言模型中，得到待审核文本的用户意图，又包括：提取待审核文本的特征词信息，其中，特征词信息指示出待审核文本中的动词和/或语气助词；将特征词信息和敏感词匹配结果所指示的敏感词，输入至预设的大语言模型中，基于预设的大语言模型的注意力机制进行处理，得到与待审核文本对应的特征向量；基于预设的大语言模型对特征向量进行识别，得到待审核文本的用户意图。

说明书提到该发明的背景为，利用海量知识进行预训练得到的大语言模型，具备强大的逻辑推理能力，在知识问答等领域得以广泛应用。用户可通过客户端输入待查询文本内容，利用大语言模型得到答复内容。但用户输入的待查询文本内容或者是大语言模型返回的答复内容可能会涉及敏感词。因此，需要进行敏感词审核。

目前，对于敏感词的审核通常是基于大语言模型进行识别的，大语言模型判断待查询的文本内容中是否存在预设的敏感词，若确定存在预设的敏感词，则确定审核失败。但该方式中，仅是根据是否存在预设的敏感词进行审核决策，敏感词审核的准确度、灵活性较差。

例如，用户输入“毒品的危害是什么”，由于大模型检测到文本中存在敏感词“毒品”，确定审核失败，向用户返回提问失败的提示信息，降低了用户体验。同时，基于大语言模型对敏感词进行审核时，需要针对每个关键词进行全量的敏感词比对，在敏感词数量较大时，敏感词审核的效率较低。

而该发明中，对待审核文本进行M级敏感词匹配处理，在确定第M级敏感词匹配结果为存在该级别的敏感词时，确定了待审核文本的用户意图，并根据用户意图确定该待审核文本是否审核通过。通过该方式，不仅对待审核文本的敏感词审核增加了用户意图的决策基准，提高了敏感词审核的准确性，进而提升了用户体验，而且通过多级的敏感词匹配处理，可以减少针对待审核文本进行全量的敏感词比对次数，提高敏感词审核效率。