一文详谈20多种AI大模型RAG优化方法

发布日期：2024-08-04 21:10:09 浏览次数： 3659

作者：小迪说AI

微信搜一搜，关注“小迪说AI”

大规模语言模型（LLMs）已经融入了我们的日常生活和工作中，它们以卓越的多功能性和智能化改变了我们与信息互动的方式。

尽管LLMs的能力令人赞叹，但它们并非完美无缺。这些模型可能会产生误导性的“幻觉”，依赖的信息可能已过时，处理特定知识时效率不高，缺乏对专业领域的深入理解，同时在推理方面也存在不足。

在实际应用中，数据需要持续更新以反映最新发展，生成的内容必须是透明和可追溯的，以控制成本并保护数据隐私。因此，单纯依赖这些“黑盒”模型是不够的，我们需要更精细的解决方案来应对这些复杂需求。正是在这种背景下，检索增强生成技术（Retrieval-Augmented Generation，RAG）应运而生，成为LLM时代的一个主要趋势。

基础RAG架构的流程非常简单，其最大的特点是数据的单向流通。虽然构建这样一个系统相对快速，但要真正投入生产环境使用还有很长的路要走。为了提高原有架构的文档召回率和系统鲁棒性，优化路径主要有两个方向：一是增加召回管道，二是增加反馈机制。增加召回管道包括查询变换（子查询、rag-fusion）、混合检索等方法，通过多路召回来最大化召回率；增加反馈机制则包括rerank、后退提示、self-rag等方法，基于原始结果进行优化以提高准确率。

通过这两种路径，RAG架构的数据和信息不再是单向流通，而是变得多向且并行。

本文将按照数据流动的方向，从文本预处理、文本分块、嵌入、检索和生成等环节，依次介绍各个优化方法。

01 文本数据预处理

无论RAG系统结构多么复杂，由于其数据驱动的特性，高信噪比的数据始终至关重要。在检索之前对原始数据进行优化，包括以下方法：

1.实体解析：消除实体和术语的歧义，实现一致的引用。例如，将“LLM”、“大语言模型”和“大模型”统一为通用术语。

2. 文档划分：合理划分不同主题的文档，确保检索系统能够轻松判断查阅哪个文档以回答问题。

3. 数据增强：使用同义词、释义或不同语言的翻译来增加知识库的多样性。

4. 处理特殊数据：例如，对于经常更新的主题，实施机制来使过时的文档失效或更新。

5.增加元数据：增加内容摘要、时间戳、用户可能提出的问题等附加信息，丰富知识库。

02 文本分块

由于检索知识库中的数据量通常超过LLM的输入长度限制，合理的分块（Chunking）应确保块之间的差异性和块内部的一致性。以下是一些高级的分块方法：

1. 句分割：使用NLTK或spaCy库提供的句子分割功能。

2. 递归分割：通过重复应用分块规则来递归分解文本，灵活调整块的大小。

3. 语义分割：通过计算文本的向量相似度进行语义层面的分割。

4. 特殊结构分割：针对特定结构化内容的专门分割器，确保正确保留文档结构。

分块大小也是重要因素，需要根据文档类型、用户查询的长度及复杂性来决定。实际应用中，可能需要不断实验调整，128大小的分块往往是一个不错的起点。

03 嵌入

数据处理的最后一个环节是使用嵌入（Embedding）模型对文本数据进行向量化，以便在检索阶段使用向量检索。嵌入阶段的优化点包括：

1. 使用动态嵌入：动态嵌入能够处理一词多义的情况，如BERT模型可以根据上下文动态调整词义。

2. 微调嵌入：对嵌入模型进行微调，以更好地理解垂直领域的词汇。

3. 混合嵌入：对用户问题和知识库文本使用不同的嵌入模型。

04 查询优化

在实际环境中，用户的表述可能多样或模糊，导致检索阶段召回率和准确率较低。以下是一些查询优化方法：

1. 查询重写：通过LLM或问题重写器对用户问题进行改写。

2. 后退提示：提出一个抽象通用问题，与原始问题一起进行检索。

3. Follow Up Questions：使用LLM生成独立问题，针对历史对话和当前问题。

4. HyDE：用LLM生成一个假设答案，与问题一起进行检索。

5. 多问题查询：基于原始问题生成多个新问题或子问题，并使用每个新问题进行检索。

05 检索

检索的目标是获取最相关的文档或确保最相关文档在获取的文档列表中。以下是一些检索优化方法：

1. 上下文压缩：通过LLM帮助压缩文档内容或过滤返回结果。

2. 句子窗口搜索：将文档块周围的块作为上下文一并交给LLM。

3. 父文档搜索：将文档分为主文档和子文档，用户问题与子文档匹配，然后将主文档发送给LLM。

4. 自动合并：对文档进行结构切割，检索时只匹配叶子节点，如果多数叶子节点匹配问题，则返回父节点。

5. 混合检索：混合多个检索方法以最大化事实召回率。

6. 路由机制：选择最合适的索引进行数据检索。

7. 使用Agent：使用Agent决定采用何种检索方法。

06 检索后处理

检索后处理是对检索结果进行进一步处理，以便后续LLM更好地生成。典型的方法是重排序（Rerank），使用专门的重排序模型确保最相关的文档排在结果列表的最前面。

07 生成

生成阶段的优化主要考虑用户体验，包括：

1. 多轮对话：支持连续对话以深入了解解决问题。

2. 增加追问机制：在prompt中加入追问机制，根据背景知识内容对用户进行追问。

3. prompt优化：明确指出回答仅基于搜索结果，不要添加其他信息。

4. 用户反馈循环：基于用户反馈不断更新数据库，标记真实性。

08 结语

这些方法针对基础RAG在各个环节的优化，实际开发中需要根据应用场景选择合适的优化方法组合，以最大限度发挥RAG的作用。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-04

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-03

RAG 检索优化策略：从命中率到答案质量的一套工程打法

2026-07-03

RAG 落地总翻车？全球赛事冠军架构，改造适配企业级生产

2026-07-01

提升 RAG 准确率全攻略让你的 AI 知识库真正靠谱起来！

2026-06-30

教程：如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

2026-06-30

知识库不是文件堆——我把RAG准确率从60%调到了92%

2026-06-30

本体论语义建设新思路，另类RAG来解决检索问题

2026-06-30

别把RAG当架构：Ontology（本体）才是Agent的业务世界

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

2026年知识库幻觉根治指南：从 Naive RAG 到 Agentic RAG

2026-05-14

RAG已死？不，是Grep回归了！

2026-04-30

大家都在问

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-04

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw