我要投稿

RAG 与 MCP：每位 AI 开发人员真正需要了解的知识

发布日期：2026-05-06 08:31:26 浏览次数： 1816

作者：坍缩的奇点

微信搜一搜，关注“坍缩的奇点”

检索知识与执行实时操作之间的本质区别，以及为什么大多数 AI 应用两者都需要

你可能已经用过某个 LLM 构建过一些东西，并经历过那样一个时刻：事情突然就……不再按你预期的方式运作了。

这个模型看起来很聪明。它推理能力很强，能写出干净的代码，也能毫不费力地拆解复杂概念。但随后现实出现了——它完全不知道上周二发生了什么。它无法访问你的内部文档。它不知道客户的订单状态，也不知道你数据库此刻的数据内容。

这不是能力问题，而是上下文问题。

为了解决这个问题，出现了两种方法：RAG 和 MCP。而大多数人对它们的解释方式，会让你以为它们是竞争关系——其实并不是。它们解决的是完全不同的问题。不过在此之前，我们先真正理解一下它们各自是做什么的。

我在多个项目中都使用过这两种模式，而我反复看到的困惑，并不在于技术本身，而是在于什么时候该使用哪一种。读完这篇文章之后，这一点应该会变得清晰。

RAG 实际上是什么（以及它不是什么）

RAG 代表 Retrieval-Augmented Generation（检索增强生成）。去掉这些术语，本质上是这样的：不再仅仅依赖模型训练时学到的内容，而是在查询时，从你自己的文档中提取相关内容，并将其作为上下文提供给模型。

可以把它理解为：给 AI 提供了一个组织良好、并配有高效搜索引擎的图书馆。

当用户提出问题时，系统并不会依靠“记忆”去猜测答案。它会先搜索你的文档库，提取最相关的内容片段，然后将这些内容与问题一起输入到提示（prompt）中。模型随后基于这些刚刚检索到的上下文进行回答，而不是依赖已经过时的训练权重。

来源

其工作流程实际上是怎样的

底层大致发生了以下这些步骤：

1. 你首先将文档导入系统，这些文档可以是 PDF、内部 Wiki、支持手册、合规政策、产品规格说明，或者任何基于文本的内容。
2. 这些文档会被拆分成多个片段（chunks）。分块的大小比大多数教程所强调的更为重要。
3. 每个片段会通过嵌入模型（embedding model）转换为向量表示，并存储在向量数据库中（例如 Pinecone、Weaviate、pgvector、ChromaDB，任选其一）。
4. 当用户发起查询时，这个查询也会被转换为向量，然后系统执行相似度搜索，找到最匹配的片段。
5. 这些最相关的前 k 个片段会与原始问题一起发送给 LLM。
6. LLM 基于这些检索到的上下文生成回答。

就是这样。概念上看似简单，但在实际中要做好却相当复杂。分块大小、重叠策略、嵌入模型选择、检索策略、重排序（reranking）——这里有很多需要调优的参数。

RAG 真正发挥作用的场景

RAG 适用于以下场景：基于产品文档的客服机器人、面向 HR 或法务团队的内部知识助手、针对代码库或 API 文档的技术问答、政策查询工具，以及学术与研究参考系统。

只要你有一批文本内容，需要让用户用自然语言进行查询，RAG 就是一个合适的选择。

RAG 做不到的事情

这里说点实话：RAG 只对你已经存储的内容有效。它不会实时获取新信息。它无法更新记录、触发工作流，也不能告诉你当前的股票价格。而且如果你的文档最近没有重新索引，得到的答案可能是过时的。

RAG 为 AI 提供的是长期记忆。但仅有记忆，并不意味着能够执行操作。

MCP究竟是什么？

MCP 代表 Model Context Protocol（模型上下文协议）。这是一种较新的模式，说实话，这个名字本身并没有很好地说明它的作用。所以这里用更直白的方式来解释：

MCP 是一种标准化的方法，使 AI 模型能够连接到实时系统，并在运行时使用这些系统。

如果说 RAG 是一个图书馆，那么 MCP 更像是一部智能手机。模型可以查询实时数据、调用 API、更新记录、发送消息、触发工作流。它可以“做事情”，而不仅仅是“回忆事情”。

MCP 的工作原理

1. 你需要定义 AI 可以访问的工具。这些工具可以是内部 API、数据库、CRM 系统、外部服务——任何具有接口的系统都可以。
2. 你需要设置权限：模型在每个工具上被允许执行什么操作，以及不被允许执行什么操作。
3. 当用户提出问题时，LLM 会进行推理，判断应该调用哪个工具，然后发起调用，获取结果，并基于这些最新数据构建响应。
4. 这些操作可以串联起来。例如：检查库存 → 确认订单 → 通知发货团队 → 记录到 CRM。一次用户请求，可以触发多次系统调用。

关键区别在于：MCP 并不是用来检索已存储内容的，而是在问题被提出的那一刻，与实时系统进行交互。

来源

MCP 适用的场景

实时订单跟踪。在向客户报价前进行库存检查。获取最新的金融数据。在实时 CRM 中查询账户历史。在工作流中发送 Slack 通知或创建 Jira 工单。任何数据频繁变化且需要立即执行操作的场景。

MCP 在大多数文章中被误解的地方

人们往往低估了其复杂性。MCP 比 RAG 更难实现。你需要进行系统集成，需要认真考虑安全性，尤其是模型被允许执行“写操作”还是仅限“读操作”。工具的可用性和可靠性会成为你系统整体可靠性的一部分——如果 API 宕机，AI 就无法给出答案。

话虽如此，其回报也是实实在在的。一个具备 MCP 访问能力的模型，不再只是知识检索器，而开始成为一个真正的“智能体”（Agent）。

RAG vs MCP：直接对比

什么时候该用哪个

我直接说重点，因为很多“在 X 情况下用 Y”的总结过于模糊，没什么实际价值。

在以下情况下选择 RAG：

• 用户需要从特定的一组文档中获取答案
• 数据的更新频率不超过每天一次
• 你希望降低运营成本并保持基础设施简单
• 使用场景本质上是“帮我查一下这个”

在以下情况下选择 MCP：

• 答案依赖于持续变化的数据
• 用户的目标需要 AI 在系统中执行实际操作
• 你构建的是工作流自动化，而不是问答工具
• 可以接受 API 调用带来的延迟

在构建任何严肃的应用时，两者都要使用。

其实，更准确地说，同时使用两者已经不再是特殊情况，而正在成为生产级 AI 应用的默认架构。就像“图书馆 + 智能手机”的组合：静态知识与实时访问并存，读与写并存。大多数真实的企业级 AI 助手都需要这两者，因为用户往往会在同一个会话中提出既涉及文档内容又涉及系统实时状态的问题。

大多数团队实际采用的架构

在实际中，RAG + MCP 的组合系统通常是这样的：

用户提问：“我们针对超过 200 美元订单的退货政策是什么？另外可以帮我查一下订单 #7821 是否符合条件吗？”

第一部分是一个 RAG 查询——从文档库中提取退货政策。第二部分是一个 MCP 调用——在订单管理系统中实时查询订单 #7821。模型会同时处理这两部分，将结果串联起来，并给出一个连贯的回答。

单独使用任何一种方法都无法完成这个任务。而将两者结合起来，AI 才真正能够在实际业务流程中发挥作用。

大多数文章没有提到的一些要点

分块策略的重要性被严重低估。

在 RAG 中，你如何拆分文档会显著影响检索质量。固定大小分块是一种“偷懒”的默认做法。而语义分块（在自然主题边界处进行切分）通常能带来实质性的效果提升。大多数教程都会忽略这一点。

MCP 需要信任模型（trust model）。

当你的 AI 不只是读取系统数据，还可以向系统写入数据时，你必须认真考虑哪些操作可以在没有人工审批的情况下执行。写权限、不可逆操作的确认机制、审计日志——这些在生产环境中都不是可选项。

重排序（reranking）是 RAG 的“秘密武器”。

很多 RAG 实现只停留在向量相似度检索这一步。如果在第二阶段加入一个 cross-encoder 进行重排序，可以显著提升回答质量。这是一个非常值得了解的额外步骤。

延迟特性完全不同。

RAG 从本地向量数据库检索通常只需要毫秒级时间。而 MCP 调用外部 API 可能需要数秒。如果你将两者结合使用，用户体验设计必须考虑这种差异，例如通过流式响应来优化体验。

总结

RAG 为你的 AI 提供知识。MCP 为你的 AI 提供实时访问能力以及执行操作的能力。

它们并不是竞争关系，而是运行在 AI 应用不同层面的两种模式。一个负责“记忆”，一个负责“行动”。大多数严肃的 AI 应用最终都需要同时使用这两者。理解它们之间的差异，是区分“只会写提示词”的工程师和“能够构建真正有用 AI 系统”的工程师的关键。

之后我可能会介绍如何从零开始构建一个生产级的 RAG 管道——包括分块策略、嵌入模型选择、检索调优，以及大多数实现悄然失败的地方。可以关注我，以便在发布时及时看到。除此之外, 您还可以在下面的系列文章中系统的学习一下基础知识体系.

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-22

传统RAG已经落伍了？清华大神开源的这个 rag-skill，让知识库检索直接升维

2026-06-22

从个人知识库到企业级 RAG：我们最终选了 WeKnora

2026-06-22

RAG 不是先向量检索再回答：Metadata Filter 才是企业知识库的第一道门

2026-06-21

使用 LangSmith 进行 RAG 评估：构建生产级 RAG 系统的 AI 开发者指南

2026-06-20

RAG 投毒的六个影响因素与防御框架

2026-06-20

RAG 性能暴涨 5.9 倍！微软新框架让 LLM 自主检索，无需训练直接部署

2026-06-19

RAGular：适合知识库体质的 OCR 助手

2026-06-18

阿里扔出「向量版 SQLite」！十亿级向量毫秒检索，一行 pip install 搞定，本地 RAG 的游戏规则变了

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

RAG进化了，深扒Claude Code源码中RAG高级技巧

2026-04-02

OpenDataLoader：PDF文档提取的一站式方案

2026-03-31

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

大家都在问

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

到底是谁会相信RAG已死啊？

2026-05-11

1G内存检索2500万向量，Milvus中如何用FLAT在强标量过滤场景搞定毫秒响应？

2026-05-07

多Agent场景，子agent 之间数据读写不同步，如何解决？

2026-05-06

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw