AI应用的前提，是解决DeepSeek的幻觉问题

发布日期：2025-02-14 11:39:09 浏览次数： 4215

作者：叶小钗

微信搜一搜，关注“叶小钗”

关注公众号回复1
获取一线、总监、高管《管理秘籍》

去年我在为某些公司做深度AI定制的时候，遭遇了最大的问题是：AI在隔靴搔痒！

数字化程度低的公司，根本轮不到AI上场；数字化程度高的公司，将面临完全不一样的问题：

技术团队基于AI提供的功能，可以有更好的选择，并不是非AI不可；业务方想要的功能，却没有提供，可以认为AI是将原本就很好的功能做了一次包装。

深究下来，对于业务方，对其的判定条件是：AI应用只要不能完全的接管业务，那么他就是玩具，进一步他对业务方来说是垃圾！

之前基于GPT-4o做的应用如此，如今基于DeepSeek做的应用更是如此，问题可能更严重了！

unsetunset模型幻觉unsetunset

AI应用最害怕的就是模型幻觉，同一个问题收到不同的回答是令人绝望的事情，想象一下：

你如果是一个患者，同一个问题，医生给了你两个回答，你慌不慌？
你如果是一个律师，同一个问题，律师给了你完全不同的结果，你怕不怕？

据Vectara HHEM人工智能幻觉测试，DeepSeek-R1显示出14.3%的幻觉率：

其他模型数据会好很多，但依旧绕不过最初的问题：在有幻觉的情况下，你能不能完全接管业务？如果不能，那AI应用就会受挫，因为人们对AI会更加刻薄。

幻觉原因

大模型的工作原理，类似成语接龙游戏，每一个成语都是一个“高维向量”，它的意义就像是一个词的向量，而成语之间的连接就是模型的推理过程。

训练过程中，先通过非标记数据进行预训练，让模型学会了说话，模型可以通过直觉得出下一个字，比如：五光十色-色狼；

而后，通过标记数据进行微调，让模型知道了每个成语的正确搭配，能够在每个词语后面接上新的词语，这个时候类似于任务学习，模型真的学会了接龙，比如：五光十色-色彩斑斓；

但这有两个情况会引发模型幻觉：

首先，微调数据里面从来没出现过五光十色，那模型就会乱接，完全不可预测；
其次，如果系统里面出现了错误数据，比如就是有微调数据五光十色接的色狼，那么模型就会出错；

综上，就是对大模型幻觉最粗浅的解释，而真实场景中出现的问题会更多、更复杂，所有这些问题都直接会导致幻觉，比如一段数据管理重要的是管人还是管事，那一定有人说管人也有人说管事，那么模型就会被影响、被带偏。

为什么R1幻觉这么厉害？

从数据显示，R1幻觉程度是V3将近4倍，这可能与推理型模型特征有关系。

前面我们说过，GPT时代的提示词或许对DeepSeek不适用，其原因就是指令型模型与指令型模型的区别：

推理型模型更注重理解和推理，你只需要提供目标或问题，模型会自行分析并找到解决方案。
指令型模型依赖于明确的指令和步骤，你需要提供详细的指导，模型会严格按照你的指令执行任务。

所以DeepSeek提示词的技巧变成了：

公式：我要 [目标]，给 [受众] 用，希望 [核心诉求]，但担心 [潜在挑战]。

但，我们之前也说过，对于工程控制来说，我们多数时候其实不希望模型自由发挥的，比如工程其实期待的是一种关键词识别：

学生表达	焦虑类型	具体分类
我快气炸了	学习压力过大	考试焦虑
我心态崩了	学习压力过大	高认知负荷
我复习了半天，但还是不会	学习压力过大	完美主义焦虑

在这种场景下，推理型模型表现可能赶不上指令型模型（但具体需要做测试）。

简单来说模型越自由，可能幻觉越多。当模型通过长思维链进行推理时，它可能会从不同的角度考虑问题，而这些角度并不总是与现实一致，这就导致了幻觉的发生。

V3到R1发生了什么？

R1模型主要依赖对V3的强化学习来实现模型效果，特别是使用了GRPO算法。

然而，这种机制可能导致幻觉问题：如果奖励函数过于强调创造性或流畅性，而忽略事实准确性，模型会倾向于生成看似合理但不符合事实的内容。

GRPO算法在处理复杂任务时，可能通过长思维链推理，但这一过程容易引入不现实的假设或逻辑跳跃，加剧幻觉。

然后，R1的自我纠错机制不足，难以有效识别和修正幻觉。有些幻觉内容表面合理，模型难以检测，而纠正错误可能需要大量交互和反馈，成本较高。

unsetunset如何消除幻觉unsetunset

虽然R1幻觉比较厉害，但DeepSeek依旧是国内最优的基座模型选择，所以如何消除模型幻觉，是我们做工程应用要重点考虑的问题。

因为GPT也有幻觉，所以这个问题之前就有答案：知识图谱+工程控制，最常见的就是RAG：

一种结合了信息检索和语言生成的技术架构。在RAG中，模型首先通过检索外部知识源（如文档库、数据库等）来找到与用户查询相关的信息，然后使用这些信息来生成更准确的回答。

具体来说，RAG的工作原理分为以下几个步骤：

查询处理与理解：首先，用户的输入查询被转化为适合检索的形式（通常是向量表示）。
信息检索：然后，模型使用这些向量表示在预先构建的知识库或索引中进行搜索，找到与查询最相关的信息片段。这些信息片段通常是文本段落或数据记录。
生成答案：检索到的信息将被传递给语言生成模型，用于生成更加准确、基于事实的回答或文本输出。

通过结合外部检索结果，RAG能够有效提高生成内容的质量，避免生成无关或错误的信息，从而增强生成回答的准确性和可靠性。

说这么多也不好理解，我们举个例子：

unsetunsetAI律师幻觉问题unsetunset

比如，用户的问题是：在美国，什么是房东和租户之间的法律义务？

模型生成的回答：在美国，房东和租户之间的义务包括租金支付、物业维护、终止合同和保证房产安全。然而，具体的法律义务因州而异，租户和房东必须遵守当地的法规。

这个回答看起来合理，但模型没有提供具体的法律依据或准确的引用，生成的内容很可能存在错误，或者只是基于通用知识而不是具体的法律条文。

因此，这种回答可能是“幻觉”：看似真实但缺乏证据支持，可能误导用户。

现在，我们将RAG技术应用到同样的问题上。假设AI律师模型可以访问外部的法律数据库，能从中检索与房东和租户义务相关的法律条文或案例。

RAG增强后的回答：

根据《美国统一住宅租赁法》第504条，房东有责任确保租赁物业保持适宜的居住条件，负责维修和保养房产，租户则有义务按时支付租金并保持租赁物业的整洁。

此外，在加利福尼亚州，根据《加利福尼亚州民法典》第1941.1条，房东必须确保提供安全的居住环境，包括处理水电和供暖系统的问题。如果房东未履行这些义务，租户可以根据法律要求赔偿。

然后我们再来探讨RAG如何消除幻觉的。

unsetunsetRAG如何消除幻觉unsetunset

用户提出的问题是：“在美国，什么是房东和租户之间的法律义务？”

这里AI应用的工程控制就出现了：

一、输入处理

用户提出一个问题，例如：“在美国，什么是房东和租户之间的法律义务？”

在这个阶段，模型需要对用户的查询进行理解并转化为可以进行检索的形式。

通常，模型会使用预训练的自然语言处理模型将输入查询转化为高维向量。

生成的向量会用于后续的信息检索，模型将查询向量与数据库中已存在的文档进行比对，从而找到与查询最相关的内容。

但这里如果不想依赖向量库也可以，直接用关键词筛选的方式也不是不可以，但看工程实现如何设计。

因为基于向量库其实是小模型，小模型因为数据量小虽然大概率不会出现模型幻觉，但起准确匹配的能力肯定比不上数据库关键词检索，这个是向量库技术最核心的问题。

总之，工程能力越强会越是依赖关键词查询，至于究竟使用什么，但看业务形态。

二、信息检索

信息检索的目的是从外部知识库中找到与用户查询相关的文本片段，这里会使用一些工具和函数（基本上被包装得很好了）。

现在有些公司是依赖于向量库，有些是依赖于一套关键词泛化知识库系统，目的都类似：

假设查询是：“在美国，什么是房东和租户之间的法律义务？”

检索结果可能包括：

美国统一住宅租赁法第504条：房东有责任确保物业保持适宜的居住条件。
加利福尼亚州民法典第1941.1条：房东必须提供安全的居住环境，处理供水、供暖等系统问题。

三、提示词处理

其实，根据关键词只要查询出内容，而后就是传统的提示词处理了，没什么难度。

最终，整合后的内容将作为生成模型的输入。例如，结合了多个法律条文和案例的回答将会是：

根据《美国统一住宅租赁法》第504条，房东有责任确保租赁物业保持适宜的居住条件，并进行必要的维修和保养。此外，在加利福尼亚州，根据《加利福尼亚州民法典》第1941.1条，房东必须确保提供安全的居住环境，处理供水和供暖等系统问题。如果房东未履行这些义务，租户可以根据法律要求赔偿。

最终给大模型进行调用即可，下面给大家完全的提示词过程做参考：

完整流程

首先是传统流程：

问题："在美国，什么是房东和租户之间的法律义务？"
提示词：

你是一个资深律师，现在有用户问你法律问题，请你解答。
当前用户的问题是：
在美国，什么是房东和租户之间的法律义务？

结果："在美国，房东和租户之间的法律义务包括租金支付、物业维护、终止合同和保证房产安全。然而，具体的法律义务因州而异，租户和房东必须遵守当地的法规。"

可能的问题：

缺乏具体的法律依据。
没有提到具体的条文或具体州的法律规定，可能会给用户带来误导，尤其是在需要明确法律依据时。

其次是RAG流程，主要看提示词的变化：

你是一个资深律师，现在有用户问你法律问题，请你解答。
当前用户的问题是：
在美国，什么是房东和租户之间的法律义务？
以下是检索到的相关法律条文和案例，帮助你回答用户问题：
根据《美国统一住宅租赁法》第504条，房东有责任确保租赁物业保持适宜的居住条件，并进行必要的维修和保养。
根据《加利福尼亚州民法典》第1941.1条，房东必须确保租赁物业提供安全的居住环境，包括处理供水、供暖等系统问题。
《纽约州租赁法》第227条规定，房东有义务确保物业符合当地建筑标准，并为租户提供安全的居住条件。
美国法院在多个案例中判定，房东未能履行上述义务时，租户有权要求赔偿，包括但不限于租金减免或搬迁费用。
请根据以上法律条文与案例回答用户的问题。

于是答案是：

根据《美国统一住宅租赁法》第504条，房东有责任确保租赁物业保持适宜的居住条件，并负责进行维修和保养。此外，在加利福尼亚州，根据《加利福尼亚州民法典》第1941.1条，房东必须确保租赁物业提供安全的居住环境，包括处理供水和供暖等系统问题。如果房东未履行这些义务，租户可以根据法律要求赔偿。此外，依据《纽约州租赁法》第227条，房东还需确保物业符合当地建筑标准，并为租户提供安全的居住条件。在多个法院判例中，房东未能履行上述责任时，租户有权要求赔偿，包括租金减免或搬迁费用等。

综上，模型幻觉问题就解决了...