2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

为何RAG应用在生产中难以成功?

发布日期:2024-07-24 18:21:58 浏览次数: 2890

RAG常常陷入一周出Demo、半年用不好的窘境。本文分享Meduim深度好文《Why RAG Applications Fail in Production[1]》探讨RAG应用程序常见的陷阱和成功部署的见解,以下为翻译全文。


检索增强生成 (RAG) 应用程序已成为大型语言模型 (LLM) 领域的强大工具,通过集成外部知识增强了其功能。尽管 RAG 应用程序前景光明,但在从原型过渡到生产环境时,它们经常面临挑战。本文深入探讨了 RAG 应用程序的复杂性,探索了常见的陷阱和成功部署的战略见解。

2. 从原型到生产

在生产环境中部署 RAG 应用程序充满挑战。将生成式 LLM 与检索机制集成的复杂性意味着任何数量的元素都可能出现故障,从而导致潜在的系统故障。例如,系统的可扩展性和稳健性至关重要;它必须处理不可预测的负载并在高需求下保持运行。此外,在实时环境中预测用户与系统的交互具有挑战性,需要持续监控和调整以保持性能和可靠性。

3. RAG的类型

根据检索方法:RAG 模型可以根据其使用的检索方法进行分类,例如使用 BM25(传统信息检索功能)或更高级的密集检索器,利用基于神经网络的嵌入来查找相关文档。检索器的选择会影响模型从语料库中获取相关信息的能力。

基于生成机制:RAG 的生成组件通常采用基于 Transformer 的模型,如 BERT、GPT-2 或 GPT-3。这些模型根据检索到的文档生成响应,定制输出以使其与上下文相关且详细

顺序处理与并行处理:一些 RAG 模型按顺序处理检索和生成步骤,其中系统首先检索所有相关文档,然后根据它们生成响应。相比之下,其他人可能会采用更并行的方法,以更交织的方式连续检索和生成

微调方法:RAG 模型可以通过不同的方式进行微调,以使检索和生成过程适应特定任务。这包括对特定知识密集型任务进行微调,其中模型学习更好地将检索到的信息与生成的文本对齐以回答问题或提供解释

4. 配置和定制

RAG 配置允许进行广泛的定制,以根据特定需求定制模型。主要配置选项包括:

  • 要检索的文档数量(n_docs:定义检索器应获取多少个文档,这会影响生成响应时考虑的信息广度。
  • 最大组合长度(max_combined_length:限制用于生成响应的上下文的总长度,影响生成文本的细节和范围。
  • 检索向量大小:确定用于检索的嵌入的大小,影响查询和文档之间的语义匹配的粒度。
  • 检索批次大小:指定同时处理多少个检索查询,影响检索速度和效率

5. 应用和注意事项

RAG 模型在需要深度知识整合和情境理解的应用中尤其有效,例如法律研究、科学文献综述和复杂的客户服务查询。检索和生成过程的集成使 RAG 模型能够提供基于外部信息源的准确、详细且与情境相关的响应。

6. 主要故障类型和规避策略

检索质量

有效的检索是 RAG 成功的基础。确保系统检索到的文档既相关又多样化,以响应查询至关重要。此方面的失败可能会导致不准确或不相关的响应,从而损害系统的实用性和用户信任。通常,检索将使用某种相似性矩阵完成。算法很重要!余弦相似度将具有一般匹配,但在特定领域的应用中可能会失败。特别是在医疗保健领域,准备使用多查询检索器、自查询甚至集成检索器。

幻觉

RAG 系统有时会生成与检索到的文档无关的信息,这种现象称为幻觉。这些会严重影响系统的可信度和准确性,因此需要强大的机制来过滤噪音并整合来自多个来源的信息,以提供连贯而准确的响应

隐私和安全问题

隐私泄露和安全漏洞是重大风险,尤其是在处理敏感信息时。RAG 应用程序必须设计为防止未经授权披露个人或机密数据,并抵御可能损害系统完整性的操纵攻击。这是企业应用程序中的一个特殊痛点。实际上,问题不在于您是否保护了应用程序,而在于您是否一丝不苟。您必须证明您已经尽一切努力保护企业数据。

恶意使用和内容安全

确保 RAG 应用程序不会助长非法活动或生成有害内容至关重要。这包括实施保护措施,防止创建或传播可用于恶意目的的内容。这可能不会成为所有企业用户和用例的担忧,因为这些用例将使用特定数据满足特定受众的需求。没有企业会冒险使用 RAG 中的所有信息。

特定领域

针对特定领域量身定制的 RAG 应用程序必须有效地处理域外查询,确保即使查询超出其主要知识库,它们也能提供相关且准确的响应。稍后的成功部分将对此进行详细介绍 - 但这很麻烦。简而言之,对于您领域的细分市场,您最好考虑将特定领域的大型模型与通用大型模型(如 OpenAI/Claude/whatever)结合使用。

完整性和品牌完整性

响应的完整性和品牌完整性的维护对于用户满意度和信任度至关重要。RAG 系统应提供全面且符合语境的答案,同时避免可能损害品牌声誉的内容。

技术和运营问题

递归检索、句子窗口检索以及自托管和基于 API 的 LLM 部署之间的平衡等问题会显著影响 RAG 应用程序的性能和成本效益。每个元素都需要仔细考虑,以优化检索准确性和系统效率。

7. 成功策略

为了降低这些风险,RAG 应用应该经过合理广泛的规划。最好的解决方案就是预测未来,它还应该在多个场景中进行广泛的测试,包括检索质量、幻觉预防、隐私保护和安全性。

现实世界是几乎所有生产数据产品的致命弱点。是的,使用相同的旧 pubmed 数据将为您提供一个有效的管道,但是当 RAG 与来自不同期刊的真实数据交互时,它将彻底失败。根据实际使用情况和反馈监控和更新系统对于持续改进至关重要。重要的是使用来自各种来源的真实数据以较小的规模构建 RAG,然后将其扩展到大规模。在当今世界,计算和空间都很便宜,因此请专注于信息安全、基础设施、SSO 集成、SOC2 证书等,这样一旦您构建了 RAG,您就可以放心地与客户共享。

此外,选择正确的技术基础设施、确保数据质量和实施强大的安全措施是成功在生产环境中部署 RAG 应用程序的关键。考虑未来的数据管道。提出“假设”场景并相应地构建文档和代码库。没有人谈论它,但要以一种让您的客户知道可能的“失败”和就地“故障保护”的方式构建您的合同。

如果您正在处理特定领域,请记住用于创建嵌入的模型很重要。我已经看到人们倾向于使用较小的模型进行嵌入;但是,如果该模型的词汇量不包含您所在领域的关键词,那么您就注定要失败。是的,这意味着要多花一点钱,或者如果您的口袋很宽裕,那么要花更多的钱来构建自己的 LLM,以维护您所在领域的词汇表。对模型进行简单的微调并不能解决这个问题。请记住,您想要检索的内容越高,性能就越差。

最后一个是品牌完整性。让我们直言不讳。品牌是一种虚构的身份。我们希望尽可能地模仿品牌。将此任务视为 RAG 蛋糕上的最后一点“糖霜”。首先,完成任务,提取所需内容,并从抽象中生成平面文本,这样您就有了准确度指标。然后,只有这样,才能要求将其改写成品牌术语。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅