破解大模型困境：RAG技术如何成为AI的终极武器？

发布日期：2025-01-24 19:35:06 浏览次数： 2932

作者：一叶不扁舟

微信搜一搜，关注“一叶不扁舟”

大模型虽然厉害，但并非全能。它主要有三大局限性：知识的局限性、幻觉问题、数据安全问题。　

这三大问题，导致通用大模型无法在实际的业务场景中帮助企业和公司解决具体问题。　

知识的局限性，指的是模型自身的知识完全源于它的训练数据，而现有的主流大模型的训练都是基于网络公开的数据，对一些实时性的、非公开的数据是无法获取到的，这部分知识也就无从具备。　

幻觉问题，所有的AI模型的底层原理都是基于数据概率，其模型输出实际上一系列数值计算，大模型也不例外，所以它有时候会一本正经地胡说八道，尤其是在大模型自身不具备某一方面的知识或不擅长的场景。　

而这种幻觉问题的区分是比较困难的，因为它要求使用者具备相应领域的知识。　

数据安全性，对于企业来说，数据安全至关重要，没有企业愿意承担数据泄露的风险，将自身的私域数据上传第三方平台进行训练。这也导致完全依赖通用大模型自身能力的应用方案，不得不在数据安全和效果方面进行取舍。　

那么有什么方法可以帮助解决上述三个问题么？　

当然有！它就是RAG技术，全称是：检索增强生成（Retrieval Augmented Generation)，它是目前最火热的大模型应用方案之一，被很多企业和机构所使用。　

这篇文章就来简单介绍一下这个技术。　

01 RAG架构

RAG架构的本质，是通过检索获取相关的知识并将其融入Prompt，让大模型能够参考相应的知识从而给出合理回答。　

简单来说，就是给大模型装一个“外脑”或者“外部数据库”，每次用户提问的时候，先去“外部知识库”里检索相应的文本，然后结合这些文本，通过Prompt一起喂给大模型，再生成答案。　

因此，RAG技术也可以分解成“检索+生成”的技术。　

检索部分，需要提前搭建好“外部知识库”，确定好检索策略，能够让用户提出的问题检索到相对应的文本片段。　

生成部分，需要提前写好Prompt，把上面检索出来的文本片段放进Prompt里，进行上下文结合以及信息重排，给到大模型进行生成。　

从零到一搭建完整的RAG架构，往往需要两个阶段：数据准备阶段，检索应用阶段。　

02 RAG的数据准备阶段

在这个阶段的主要目标，是帮助大模型建立好一个“外脑”，具体需要以下四个步骤：数据提取、文本分割、向量化、数据入库。　

第一步，数据提取，它是指确定好“外部数据库”所要包含的内容，比如对于一个企业来说，有销售数据、人力数据、行政数据、产品数据、合同数据等等。　

公司的每个部门都有大量的历史数据，在数据提取部分，就是把这些数据给统一起来，比如那些PDF、Word、PPT、Excel、Txt等各种格式的数据，要进行统一处理，这个过程也可以分为三小步。　

首先，数据加载。先找到多格式的数据源，然后根据数据自身情况，将数据处理为同一范式。　

其次，数据处理。包含了数据的过滤、压缩以及格式化等，目的是为了让其更好地存入数据库中。　

最后，元数据获取。它是指提取数据中的关键信息，比如文件名、Title、以及时间等信息。　

第二步，文本分割。这一阶段非常重要，主要需要考虑两个因素，一个是embeddding模型的token限制情况，另一个是语义完整性对整体的检索效果的影响。　

一些常见的文本分割方式主要包含两种，一种是按照句子分割，也就是依照“句”为颗粒度进行切分，保留一个句子的完整语义。常见的切分符包括：句号、问号、感叹号、换行符等。　

在具体分割过程中，需要根据分割的实际情况，对分割策略进行迭代优化，它也可以叫做切片。有时候切的多，有时候切的少，都会影响最后的检索效果，所以需要不断去尝试，针对不同文本内容，采用不同切片策略。　

第三步，向量化（embedding）。它是一个将文本数据转化为向量矩阵的过程，该过程会直接影响到后续的检索过程。一般会使用常见的embedding模型来完成这个动作、　

这些embedding模型能够满足基本的大多数需求，但对于特殊场景或者想要进一步优化效果，则可以选择开源的embedding 模型微调或者训练成适合自身场景的embedding 模型。　

第四步，数据入库。它是指数据向量化之后，构建索引并写入数据库的过程。一般适用于RAG场景的数据库包括：FAISS、Chromaadb、ES、milvus等。　

这些数据库的选择，一般根据业务场景、硬件、性能需求等多因素考虑，选择最合适的数据库类型。　

03 检索应用阶段

在应用阶段，可以根据用户的提问，通过高效的检索方法，召回与提问最相关的知识，并融入Prompt。大模型参考当前提问和相关知识，进而生成相应的答案。　

这个阶段的关键环节包含两个：数据检索、Prompt注入。　

第一步：数据检索。在这里需要用到一些数据检索方法，比如常见的：相似性检索、全文检索、混合检索等；根据检索效果，一般可以选择多种检索方式融合，提升召回率。　

相似性检索，指的是计算查询向量与所有存储向量的相似性得分，返回得分高的记录。常见的相似性计算方法包括：余弦相似性、欧式距离、曼哈顿距离等。　

全文检索，它是一种比较经典的检索方式，在数据存入时，通过关键词构建倒排索引；在检索时，通过关键词进行全文索引，找到对应的记录。　

第二步：注入Prompt。Prompt作为大模型的直接输入，是影响模型输出准确率的关键因素之一。在RAG场景中，Prompt一般包括：任务描述、背景知识（检索得到）、任务指令（一般用户提问）等。　

根据任务场景和大模型性能，也可以在Prompt中适当加入其它指令优化大模型的输出。比如下面是一个简单的知识场景Prompt示例：　

❤️

【任务描述】　

假如你是一个专业的客服机器人，请参考【背景知识】，回答【问题】　

【背景知识】　

{数据检索得到的相关文本内容}　

【问题】　

石头扫地机器人P10的续航时间是多久？　

Prompt的设计只有方法，并没有语法，比较依赖于个人经验，在实际应用过程中，往往需要根据大模型的实际输出，进行针对性的Prompt调优。　

尾声：

这就是RAG架构的简单介绍，它通过给大模型打造一个灵活的“外脑”，或者外部知识库，来减少自身局限性所带来的影响。　

大模型的知识有局限性，那就给它加个新的知识库；大模型容易出现幻觉，那就告诉它如何在指定的范围内回答；大模型会有数据安全问题，那就把重要的知识，存在私域知识库中作为大模型的“外脑”。　

这就是RAG能够成为大模型应用方案的最大原因，它通过两大阶段六个步骤，接近完美式地让大模型可以服务具体的业务应用场景。　

两大阶段是数据准备阶段和应用阶段，六大步骤是：数据提取、文本分割、向量化、数据入库、数据检索、Prompt注入。　

当然，RAG技术也在随着时间的发展而不断进化，今天介绍的这个RAG架构只是最基本最简单的技术，除此以外，还有更加复杂和灵活多变的RAG延伸技术，解决更加复杂的业务场景。　

总之，虽然大模型有一些天生的bug，但是总会有相对应的解决方案去弥补它。　

大模型能够真正改变和彻底影响人类的经济活动和日常生活的日子，已经越来越近了！　

让我们一起做好准备，迎接未来！　

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-05

AI 知识库为什么总答不准？不是模型笨，是资料没整理好

2026-07-05

AI知识库RAG演进：上一代解决「找得到」，下一代解决「记得住、连得起、信得过」

2026-07-04

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-03

RAG 检索优化策略：从命中率到答案质量的一套工程打法

2026-07-03

RAG 落地总翻车？全球赛事冠军架构，改造适配企业级生产

2026-07-01

提升 RAG 准确率全攻略让你的 AI 知识库真正靠谱起来！

2026-06-30

教程：如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

2026-06-30

知识库不是文件堆——我把RAG准确率从60%调到了92%

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

2026年知识库幻觉根治指南：从 Naive RAG 到 Agentic RAG

2026-05-14

RAG已死？不，是Grep回归了！

2026-04-30

Mem0 深度解析：智能记忆层的架构原理

2026-04-27

大家都在问

大模型支持的上下文已超 1M, RAG 是不是没有意义了?

2026-07-04

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw