微信扫码
添加专属顾问
我要投稿
揭秘AI开发中的两大关键技术:RAG与MCP如何协同解决知识获取与实时操作的难题。核心内容:1. RAG与MCP的本质区别及互补关系2. RAG技术详解:从文档处理到回答生成的全流程3. 实际应用场景中的技术选择与优化策略
检索知识与执行实时操作之间的本质区别,以及为什么大多数 AI 应用两者都需要
你可能已经用过某个 LLM 构建过一些东西,并经历过那样一个时刻:事情突然就……不再按你预期的方式运作了。
这个模型看起来很聪明。它推理能力很强,能写出干净的代码,也能毫不费力地拆解复杂概念。但随后现实出现了——它完全不知道上周二发生了什么。它无法访问你的内部文档。它不知道客户的订单状态,也不知道你数据库此刻的数据内容。
这不是能力问题,而是上下文问题。
为了解决这个问题,出现了两种方法:RAG 和 MCP。而大多数人对它们的解释方式,会让你以为它们是竞争关系——其实并不是。它们解决的是完全不同的问题。不过在此之前,我们先真正理解一下它们各自是做什么的。
我在多个项目中都使用过这两种模式,而我反复看到的困惑,并不在于技术本身,而是在于什么时候该使用哪一种。读完这篇文章之后,这一点应该会变得清晰。
RAG 代表 Retrieval-Augmented Generation(检索增强生成)。去掉这些术语,本质上是这样的:不再仅仅依赖模型训练时学到的内容,而是在查询时,从你自己的文档中提取相关内容,并将其作为上下文提供给模型。
可以把它理解为:给 AI 提供了一个组织良好、并配有高效搜索引擎的图书馆。
当用户提出问题时,系统并不会依靠“记忆”去猜测答案。它会先搜索你的文档库,提取最相关的内容片段,然后将这些内容与问题一起输入到提示(prompt)中。模型随后基于这些刚刚检索到的上下文进行回答,而不是依赖已经过时的训练权重。
来源
底层大致发生了以下这些步骤:
就是这样。概念上看似简单,但在实际中要做好却相当复杂。分块大小、重叠策略、嵌入模型选择、检索策略、重排序(reranking)——这里有很多需要调优的参数。
RAG 适用于以下场景:基于产品文档的客服机器人、面向 HR 或法务团队的内部知识助手、针对代码库或 API 文档的技术问答、政策查询工具,以及学术与研究参考系统。
只要你有一批文本内容,需要让用户用自然语言进行查询,RAG 就是一个合适的选择。
这里说点实话:RAG 只对你已经存储的内容有效。它不会实时获取新信息。它无法更新记录、触发工作流,也不能告诉你当前的股票价格。而且如果你的文档最近没有重新索引,得到的答案可能是过时的。
RAG 为 AI 提供的是长期记忆。但仅有记忆,并不意味着能够执行操作。
MCP 代表 Model Context Protocol(模型上下文协议)。这是一种较新的模式,说实话,这个名字本身并没有很好地说明它的作用。所以这里用更直白的方式来解释:
MCP 是一种标准化的方法,使 AI 模型能够连接到实时系统,并在运行时使用这些系统。
如果说 RAG 是一个图书馆,那么 MCP 更像是一部智能手机。模型可以查询实时数据、调用 API、更新记录、发送消息、触发工作流。它可以“做事情”,而不仅仅是“回忆事情”。
关键区别在于:MCP 并不是用来检索已存储内容的,而是在问题被提出的那一刻,与实时系统进行交互。
来源
实时订单跟踪。在向客户报价前进行库存检查。获取最新的金融数据。在实时 CRM 中查询账户历史。在工作流中发送 Slack 通知或创建 Jira 工单。任何数据频繁变化且需要立即执行操作的场景。
人们往往低估了其复杂性。MCP 比 RAG 更难实现。你需要进行系统集成,需要认真考虑安全性,尤其是模型被允许执行“写操作”还是仅限“读操作”。工具的可用性和可靠性会成为你系统整体可靠性的一部分——如果 API 宕机,AI 就无法给出答案。
话虽如此,其回报也是实实在在的。一个具备 MCP 访问能力的模型,不再只是知识检索器,而开始成为一个真正的“智能体”(Agent)。
我直接说重点,因为很多“在 X 情况下用 Y”的总结过于模糊,没什么实际价值。
其实,更准确地说,同时使用两者已经不再是特殊情况,而正在成为生产级 AI 应用的默认架构。就像“图书馆 + 智能手机”的组合:静态知识与实时访问并存,读与写并存。大多数真实的企业级 AI 助手都需要这两者,因为用户往往会在同一个会话中提出既涉及文档内容又涉及系统实时状态的问题。
在实际中,RAG + MCP 的组合系统通常是这样的:
用户提问:“我们针对超过 200 美元订单的退货政策是什么?另外可以帮我查一下订单 #7821 是否符合条件吗?”
第一部分是一个 RAG 查询——从文档库中提取退货政策。第二部分是一个 MCP 调用——在订单管理系统中实时查询订单 #7821。模型会同时处理这两部分,将结果串联起来,并给出一个连贯的回答。
单独使用任何一种方法都无法完成这个任务。而将两者结合起来,AI 才真正能够在实际业务流程中发挥作用。
在 RAG 中,你如何拆分文档会显著影响检索质量。固定大小分块是一种“偷懒”的默认做法。而语义分块(在自然主题边界处进行切分)通常能带来实质性的效果提升。大多数教程都会忽略这一点。
当你的 AI 不只是读取系统数据,还可以向系统写入数据时,你必须认真考虑哪些操作可以在没有人工审批的情况下执行。写权限、不可逆操作的确认机制、审计日志——这些在生产环境中都不是可选项。
很多 RAG 实现只停留在向量相似度检索这一步。如果在第二阶段加入一个 cross-encoder 进行重排序,可以显著提升回答质量。这是一个非常值得了解的额外步骤。
RAG 从本地向量数据库检索通常只需要毫秒级时间。而 MCP 调用外部 API 可能需要数秒。如果你将两者结合使用,用户体验设计必须考虑这种差异,例如通过流式响应来优化体验。
RAG 为你的 AI 提供知识。MCP 为你的 AI 提供实时访问能力以及执行操作的能力。
它们并不是竞争关系,而是运行在 AI 应用不同层面的两种模式。一个负责“记忆”,一个负责“行动”。大多数严肃的 AI 应用最终都需要同时使用这两者。理解它们之间的差异,是区分“只会写提示词”的工程师和“能够构建真正有用 AI 系统”的工程师的关键。
之后我可能会介绍如何从零开始构建一个生产级的 RAG 管道——包括分块策略、嵌入模型选择、检索调优,以及大多数实现悄然失败的地方。可以关注我,以便在发布时及时看到。除此之外, 您还可以在下面的系列文章中系统的学习一下基础知识体系.
「AI秘籍」系列课程:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-30
RAG已死?不,是Grep回归了!
2026-04-27
Mem0 深度解析:智能记忆层的架构原理
2026-04-27
Karpathy的LLM Wiki + 3.5 万Star的Graphify:企业级 RAG 缺的真是知识图谱?
2026-04-23
2026 年做搜索就是做 Agent Memory
2026-04-22
专题解读 | 可更新的检索增强知识库发展方向及进展
2026-04-22
AI实践|基于 Spring AI 从0到1构建 AI Agent
2026-04-22
我搭建了Karpathy的个人知识库,但发现成本高速度慢,我用一个更好的方案替代了。
2026-04-21
多轮对话时,RAG反复做重复召回,模型层与Milvus层分别如何解决?
2026-02-13
2026-02-06
2026-03-23
2026-02-06
2026-04-06
2026-02-06
2026-02-22
2026-03-18
2026-03-20
2026-02-15
2026-04-27
2026-04-21
2026-03-17
2026-03-11
2026-02-22
2026-02-15
2026-02-04
2026-02-03