微信扫码
添加专属顾问
AI应用成功的关键:先解决DeepSeek的幻觉问题。 核心内容: 1. AI在数字化程度不同公司的应用挑战 2. DeepSeek应用中的模型幻觉现象及其影响 3. 模型幻觉产生的原因及解决方法探讨
关注公众号回复1
获取一线、总监、高管《管理秘籍》
去年我在为某些公司做深度AI定制的时候,遭遇了最大的问题是:AI在隔靴搔痒!
数字化程度低的公司,根本轮不到AI上场;数字化程度高的公司,将面临完全不一样的问题:
技术团队基于AI提供的功能,可以有更好的选择,并不是非AI不可;业务方想要的功能,却没有提供,可以认为AI是将原本就很好的功能做了一次包装。
深究下来,对于业务方,对其的判定条件是:AI应用只要不能完全的接管业务,那么他就是玩具,进一步他对业务方来说是垃圾!
之前基于GPT-4o做的应用如此,如今基于DeepSeek做的应用更是如此,问题可能更严重了!
AI应用最害怕的就是模型幻觉,同一个问题收到不同的回答是令人绝望的事情,想象一下:
据Vectara HHEM人工智能幻觉测试,DeepSeek-R1显示出14.3%的幻觉率:
其他模型数据会好很多,但依旧绕不过最初的问题:在有幻觉的情况下,你能不能完全接管业务?如果不能,那AI应用就会受挫,因为人们对AI会更加刻薄。
大模型的工作原理,类似成语接龙游戏,每一个成语都是一个“高维向量”,它的意义就像是一个词的向量,而成语之间的连接就是模型的推理过程。
训练过程中,先通过非标记数据进行预训练,让模型学会了说话,模型可以通过直觉得出下一个字,比如:五光十色-色狼;
而后,通过标记数据进行微调,让模型知道了每个成语的正确搭配,能够在每个词语后面接上新的词语,这个时候类似于任务学习,模型真的学会了接龙,比如:五光十色-色彩斑斓;
但这有两个情况会引发模型幻觉:
综上,就是对大模型幻觉最粗浅的解释,而真实场景中出现的问题会更多、更复杂,所有这些问题都直接会导致幻觉,比如一段数据管理重要的是管人还是管事,那一定有人说管人也有人说管事,那么模型就会被影响、被带偏。
从数据显示,R1幻觉程度是V3将近4倍,这可能与推理型模型特征有关系。
前面我们说过,GPT时代的提示词或许对DeepSeek不适用,其原因就是指令型模型与指令型模型的区别:
所以DeepSeek提示词的技巧变成了:
公式:我要 [目标],给 [受众] 用,希望 [核心诉求],但担心 [潜在挑战]。
但,我们之前也说过,对于工程控制来说,我们多数时候其实不希望模型自由发挥的,比如工程其实期待的是一种关键词识别:
| 学生表达 | 焦虑类型 | 具体分类 |
|---|---|---|
| 我快气炸了 | 学习压力过大 | 考试焦虑 |
| 我心态崩了 | 学习压力过大 | 高认知负荷 |
| 我复习了半天,但还是不会 | 学习压力过大 | 完美主义焦虑 |
在这种场景下,推理型模型表现可能赶不上指令型模型(但具体需要做测试)。
简单来说模型越自由,可能幻觉越多。当模型通过长思维链进行推理时,它可能会从不同的角度考虑问题,而这些角度并不总是与现实一致,这就导致了幻觉的发生。
R1模型主要依赖对V3的强化学习来实现模型效果,特别是使用了GRPO算法。
然而,这种机制可能导致幻觉问题:如果奖励函数过于强调创造性或流畅性,而忽略事实准确性,模型会倾向于生成看似合理但不符合事实的内容。
GRPO算法在处理复杂任务时,可能通过长思维链推理,但这一过程容易引入不现实的假设或逻辑跳跃,加剧幻觉。
然后,R1的自我纠错机制不足,难以有效识别和修正幻觉。有些幻觉内容表面合理,模型难以检测,而纠正错误可能需要大量交互和反馈,成本较高。
虽然R1幻觉比较厉害,但DeepSeek依旧是国内最优的基座模型选择,所以如何消除模型幻觉,是我们做工程应用要重点考虑的问题。
因为GPT也有幻觉,所以这个问题之前就有答案:知识图谱+工程控制,最常见的就是RAG:
一种结合了信息检索和语言生成的技术架构。在RAG中,模型首先通过检索外部知识源(如文档库、数据库等)来找到与用户查询相关的信息,然后使用这些信息来生成更准确的回答。
具体来说,RAG的工作原理分为以下几个步骤:
通过结合外部检索结果,RAG能够有效提高生成内容的质量,避免生成无关或错误的信息,从而增强生成回答的准确性和可靠性。
说这么多也不好理解,我们举个例子:
比如,用户的问题是:在美国,什么是房东和租户之间的法律义务?
模型生成的回答:在美国,房东和租户之间的义务包括租金支付、物业维护、终止合同和保证房产安全。然而,具体的法律义务因州而异,租户和房东必须遵守当地的法规。
这个回答看起来合理,但模型没有提供具体的法律依据或准确的引用,生成的内容很可能存在错误,或者只是基于通用知识而不是具体的法律条文。
因此,这种回答可能是“幻觉”:看似真实但缺乏证据支持,可能误导用户。
现在,我们将RAG技术应用到同样的问题上。假设AI律师模型可以访问外部的法律数据库,能从中检索与房东和租户义务相关的法律条文或案例。
RAG增强后的回答:
根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,负责维修和保养房产,租户则有义务按时支付租金并保持租赁物业的整洁。
此外,在加利福尼亚州,根据《加利福尼亚州民法典》第1941.1条,房东必须确保提供安全的居住环境,包括处理水电和供暖系统的问题。如果房东未履行这些义务,租户可以根据法律要求赔偿。
然后我们再来探讨RAG如何消除幻觉的。
用户提出的问题是:“在美国,什么是房东和租户之间的法律义务?”
这里AI应用的工程控制就出现了:
用户提出一个问题,例如:“在美国,什么是房东和租户之间的法律义务?”
在这个阶段,模型需要对用户的查询进行理解并转化为可以进行检索的形式。
通常,模型会使用预训练的自然语言处理模型将输入查询转化为高维向量。
生成的向量会用于后续的信息检索,模型将查询向量与数据库中已存在的文档进行比对,从而找到与查询最相关的内容。
但这里如果不想依赖向量库也可以,直接用关键词筛选的方式也不是不可以,但看工程实现如何设计。
因为基于向量库其实是小模型,小模型因为数据量小虽然大概率不会出现模型幻觉,但起准确匹配的能力肯定比不上数据库关键词检索,这个是向量库技术最核心的问题。
总之,工程能力越强会越是依赖关键词查询,至于究竟使用什么,但看业务形态。
信息检索的目的是从外部知识库中找到与用户查询相关的文本片段,这里会使用一些工具和函数(基本上被包装得很好了)。
现在有些公司是依赖于向量库,有些是依赖于一套关键词泛化知识库系统,目的都类似:
假设查询是:“在美国,什么是房东和租户之间的法律义务?”
检索结果可能包括:
其实,根据关键词只要查询出内容,而后就是传统的提示词处理了,没什么难度。
最终,整合后的内容将作为生成模型的输入。例如,结合了多个法律条文和案例的回答将会是:
根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,并进行必要的维修和保养。此外,在加利福尼亚州,根据《加利福尼亚州民法典》第1941.1条,房东必须确保提供安全的居住环境,处理供水和供暖等系统问题。如果房东未履行这些义务,租户可以根据法律要求赔偿。
最终给大模型进行调用即可,下面给大家完全的提示词过程做参考:
首先是传统流程:
你是一个资深律师,现在有用户问你法律问题,请你解答。
当前用户的问题是:
在美国,什么是房东和租户之间的法律义务?
可能的问题:
其次是RAG流程,主要看提示词的变化:
你是一个资深律师,现在有用户问你法律问题,请你解答。
当前用户的问题是:
在美国,什么是房东和租户之间的法律义务?
以下是检索到的相关法律条文和案例,帮助你回答用户问题:
根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,并进行必要的维修和保养。 根据《加利福尼亚州民法典》第1941.1条,房东必须确保租赁物业提供安全的居住环境,包括处理供水、供暖等系统问题。 《纽约州租赁法》第227条规定,房东有义务确保物业符合当地建筑标准,并为租户提供安全的居住条件。 美国法院在多个案例中判定,房东未能履行上述义务时,租户有权要求赔偿,包括但不限于租金减免或搬迁费用。 请根据以上法律条文与案例回答用户的问题。
于是答案是:
根据《美国统一住宅租赁法》第504条,房东有责任确保租赁物业保持适宜的居住条件,并负责进行维修和保养。此外,在加利福尼亚州,根据《加利福尼亚州民法典》第1941.1条,房东必须确保租赁物业提供安全的居住环境,包括处理供水和供暖等系统问题。如果房东未履行这些义务,租户可以根据法律要求赔偿。此外,依据《纽约州租赁法》第227条,房东还需确保物业符合当地建筑标准,并为租户提供安全的居住条件。在多个法院判例中,房东未能履行上述责任时,租户有权要求赔偿,包括租金减免或搬迁费用等。
综上,模型幻觉问题就解决了...
RAG是初期成本较低的方式,如果要依赖模型训练本身消灭幻觉,那也不是不可以...
例如,通过在训练时为不同类型的任务设定不同的策略,模型可以学会在何时提供创造性内容,何时应保持忠实与准确。
比如在处理如摘要、翻译等任务时,模型必须更加注重忠实于原文的内容,而不是自由发挥创造性。
这种任务的训练通常需要额外的监督数据和约束,以确保输出的准确性。
只不过真的要这么做的化,可能会为了1%的效果花费超过10%的资源,这可能不太划算...
因为它们需要额外的数据标注、长时间的微调和强化训练,并且往往需要更多计算资源和人工干预。
此外,微调过程中对模型的细致调控也会增加模型开发和训练的复杂度。特别是在处理任务的多样性和细节时,如何找到合适的平衡点,让模型既能提供创造性答案,又能保持高忠实度和准确性,是一项复杂且资源密集的工作。
总体而言,虽然精细化训练可以降低幻觉现象的发生,但其成本不容忽视,特别是在需要大规模数据和计算资源的场景中,这也为未来的大模型发展提供了挑战和方向。
在AI工程应用的实践中,模型幻觉始终是一个难以回避的挑战。
我们从业务场景出发,探讨了企业中的AI应用困境。尤其是当AI无法满足业务对高准确性和可靠性的需求时,幻觉现象的出现常常使得AI应用被视为“无效工具”。
这揭示了一个关键问题:AI不一定需要完全接管业务,但在某些高要求领域(如法律、医疗等),模型的准确性必须得到保证,否则幻觉将严重影响应用效果。
通过对模型幻觉成因的分析,我们发现,大模型的工作原理、训练数据的质量以及推理过程中的自由度过高,都是导致幻觉的原因。
RAG技术。通过结合外部知识库,能够为生成答案提供更具事实依据的支持,从而有效减少幻觉的发生。
然而,RAG技术并非完美无缺。它依赖于外部知识库的质量和覆盖范围,并可能引入额外的系统复杂性和响应时间。
最后,虽然精细化训练(如微调、强化学习等)可以进一步减少幻觉,但这些方法的成本较高,尤其在大规模应用中,如何在技术优化与成本效益之间找到平衡,仍然是工程实践中的重要挑战
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-05
AI 知识库为什么总答不准?不是模型笨,是资料没整理好
2026-07-05
AI知识库RAG演进:上一代解决「找得到」,下一代解决「记得住、连得起、信得过」
2026-07-04
大模型支持的上下文已超 1M, RAG 是不是没有意义了?
2026-07-03
RAG 检索优化策略:从命中率到答案质量的一套工程打法
2026-07-03
RAG 落地总翻车?全球赛事冠军架构,改造适配企业级生产
2026-07-01
提升 RAG 准确率全攻略 让你的 AI 知识库 真正靠谱起来!
2026-06-30
教程:如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题
2026-06-30
知识库不是文件堆——我把RAG准确率从60%调到了92%
2026-04-27
2026-04-23
2026-04-20
2026-04-09
2026-04-12
2026-04-22
2026-04-10
2026-05-14
2026-04-30
2026-04-27
2026-07-04
2026-06-23
2026-06-23
2026-06-15
2026-06-10
2026-06-10
2026-05-20
2026-05-18
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。