2026年5月7日 周四晚上19:30,来了解“企业AI训练师:从个人提效到构建企业AI生产力”(限30人)
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

RAG 与 MCP:每位 AI 开发人员真正需要了解的知识

发布日期:2026-05-06 08:31:26 浏览次数: 1524
作者:坍缩的奇点

微信搜一搜,关注“坍缩的奇点”

推荐语

揭秘AI开发中的两大关键技术:RAG与MCP如何协同解决知识获取与实时操作的难题。

核心内容:
1. RAG与MCP的本质区别及互补关系
2. RAG技术详解:从文档处理到回答生成的全流程
3. 实际应用场景中的技术选择与优化策略

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

检索知识与执行实时操作之间的本质区别,以及为什么大多数 AI 应用两者都需要

RAG 与 <a href=MCP:每个 AI 开发者真正需要了解的知识 获取知识和采取实时行动之间的真正区别,以及为什么大多数 AI 应用都需要两者兼备。" class="rich_pages wxw-img" data-ratio="0.6671428571428571" data-type="png" data-w="700" style="display: block;max-width: 100%;margin: 0.1em auto 0.5em;border-radius: 4px;" data-imgfileid="501273722" data-aistatus="1">
RAG 与 MCP:每个 AI 开发者真正需要了解的知识 获取知识和采取实时行动之间的真正区别,以及为什么大多数 AI 应用都需要两者兼备。

你可能已经用过某个 LLM 构建过一些东西,并经历过那样一个时刻:事情突然就……不再按你预期的方式运作了。

这个模型看起来很聪明。它推理能力很强,能写出干净的代码,也能毫不费力地拆解复杂概念。但随后现实出现了——它完全不知道上周二发生了什么。它无法访问你的内部文档。它不知道客户的订单状态,也不知道你数据库此刻的数据内容。

这不是能力问题,而是上下文问题。

为了解决这个问题,出现了两种方法:RAG 和 MCP。而大多数人对它们的解释方式,会让你以为它们是竞争关系——其实并不是。它们解决的是完全不同的问题。不过在此之前,我们先真正理解一下它们各自是做什么的。

我在多个项目中都使用过这两种模式,而我反复看到的困惑,并不在于技术本身,而是在于什么时候该使用哪一种。读完这篇文章之后,这一点应该会变得清晰。

RAG 实际上是什么(以及它不是什么)

RAG 代表 Retrieval-Augmented Generation(检索增强生成)。去掉这些术语,本质上是这样的:不再仅仅依赖模型训练时学到的内容,而是在查询时,从你自己的文档中提取相关内容,并将其作为上下文提供给模型。

可以把它理解为:给 AI 提供了一个组织良好、并配有高效搜索引擎的图书馆。

当用户提出问题时,系统并不会依靠“记忆”去猜测答案。它会先搜索你的文档库,提取最相关的内容片段,然后将这些内容与问题一起输入到提示(prompt)中。模型随后基于这些刚刚检索到的上下文进行回答,而不是依赖已经过时的训练权重。

破旧建筑图
破旧建筑图

来源

其工作流程实际上是怎样的

底层大致发生了以下这些步骤:

  1. 1. 你首先将文档导入系统,这些文档可以是 PDF、内部 Wiki、支持手册、合规政策、产品规格说明,或者任何基于文本的内容。
  2. 2. 这些文档会被拆分成多个片段(chunks)。分块的大小比大多数教程所强调的更为重要。
  3. 3. 每个片段会通过嵌入模型(embedding model)转换为向量表示,并存储在向量数据库中(例如 Pinecone、Weaviate、pgvector、ChromaDB,任选其一)。
  4. 4. 当用户发起查询时,这个查询也会被转换为向量,然后系统执行相似度搜索,找到最匹配的片段。
  5. 5. 这些最相关的前 k 个片段会与原始问题一起发送给 LLM。
  6. 6. LLM 基于这些检索到的上下文生成回答。

就是这样。概念上看似简单,但在实际中要做好却相当复杂。分块大小、重叠策略、嵌入模型选择、检索策略、重排序(reranking)——这里有很多需要调优的参数。

抹布的管道或流程图
抹布的管道或流程图

RAG 真正发挥作用的场景

RAG 适用于以下场景:基于产品文档的客服机器人、面向 HR 或法务团队的内部知识助手、针对代码库或 API 文档的技术问答、政策查询工具,以及学术与研究参考系统。

只要你有一批文本内容,需要让用户用自然语言进行查询,RAG 就是一个合适的选择。

RAG 做不到的事情

这里说点实话:RAG 只对你已经存储的内容有效。它不会实时获取新信息。它无法更新记录、触发工作流,也不能告诉你当前的股票价格。而且如果你的文档最近没有重新索引,得到的答案可能是过时的。

RAG 为 AI 提供的是长期记忆。但仅有记忆,并不意味着能够执行操作。

MCP究竟是什么?

MCP 代表 Model Context Protocol(模型上下文协议)。这是一种较新的模式,说实话,这个名字本身并没有很好地说明它的作用。所以这里用更直白的方式来解释:

MCP 是一种标准化的方法,使 AI 模型能够连接到实时系统,并在运行时使用这些系统。

如果说 RAG 是一个图书馆,那么 MCP 更像是一部智能手机。模型可以查询实时数据、调用 API、更新记录、发送消息、触发工作流。它可以“做事情”,而不仅仅是“回忆事情”。

rag 与 mcp 视觉差异信息图
rag 与 mcp 视觉差异信息图

MCP 的工作原理

  1. 1. 你需要定义 AI 可以访问的工具。这些工具可以是内部 API、数据库、CRM 系统、外部服务——任何具有接口的系统都可以。
  2. 2. 你需要设置权限:模型在每个工具上被允许执行什么操作,以及不被允许执行什么操作。
  3. 3. 当用户提出问题时,LLM 会进行推理,判断应该调用哪个工具,然后发起调用,获取结果,并基于这些最新数据构建响应。
  4. 4. 这些操作可以串联起来。例如:检查库存 → 确认订单 → 通知发货团队 → 记录到 CRM。一次用户请求,可以触发多次系统调用。

关键区别在于:MCP 并不是用来检索已存储内容的,而是在问题被提出的那一刻,与实时系统进行交互。

模型上下文协议 (MCP) 架构图
模型上下文协议 (MCP) 架构图

来源

MCP 适用的场景

实时订单跟踪。在向客户报价前进行库存检查。获取最新的金融数据。在实时 CRM 中查询账户历史。在工作流中发送 Slack 通知或创建 Jira 工单。任何数据频繁变化且需要立即执行操作的场景。

MCP 在大多数文章中被误解的地方

人们往往低估了其复杂性。MCP 比 RAG 更难实现。你需要进行系统集成,需要认真考虑安全性,尤其是模型被允许执行“写操作”还是仅限“读操作”。工具的可用性和可靠性会成为你系统整体可靠性的一部分——如果 API 宕机,AI 就无法给出答案。

话虽如此,其回报也是实实在在的。一个具备 MCP 访问能力的模型,不再只是知识检索器,而开始成为一个真正的“智能体”(Agent)。

rag 与 mcp 决策流程图
rag 与 mcp 决策流程图

RAG vs MCP:直接对比

rag 与 mcp 快速对比图表
rag 与 mcp 快速对比图表

什么时候该用哪个

我直接说重点,因为很多“在 X 情况下用 Y”的总结过于模糊,没什么实际价值。

在以下情况下选择 RAG:

  • • 用户需要从特定的一组文档中获取答案
  • • 数据的更新频率不超过每天一次
  • • 你希望降低运营成本并保持基础设施简单
  • • 使用场景本质上是“帮我查一下这个”

在以下情况下选择 MCP:

  • • 答案依赖于持续变化的数据
  • • 用户的目标需要 AI 在系统中执行实际操作
  • • 你构建的是工作流自动化,而不是问答工具
  • • 可以接受 API 调用带来的延迟

在构建任何严肃的应用时,两者都要使用。

其实,更准确地说,同时使用两者已经不再是特殊情况,而正在成为生产级 AI 应用的默认架构。就像“图书馆 + 智能手机”的组合:静态知识与实时访问并存,读与写并存。大多数真实的企业级 AI 助手都需要这两者,因为用户往往会在同一个会话中提出既涉及文档内容又涉及系统实时状态的问题。

大多数团队实际采用的架构

在实际中,RAG + MCP 的组合系统通常是这样的:

用户提问:“我们针对超过 200 美元订单的退货政策是什么?另外可以帮我查一下订单 #7821 是否符合条件吗?”

第一部分是一个 RAG 查询——从文档库中提取退货政策。第二部分是一个 MCP 调用——在订单管理系统中实时查询订单 #7821。模型会同时处理这两部分,将结果串联起来,并给出一个连贯的回答。

单独使用任何一种方法都无法完成这个任务。而将两者结合起来,AI 才真正能够在实际业务流程中发挥作用。

rag 加 mcp 组合架构图
rag 加 mcp 组合架构图

大多数文章没有提到的一些要点

分块策略的重要性被严重低估。

在 RAG 中,你如何拆分文档会显著影响检索质量。固定大小分块是一种“偷懒”的默认做法。而语义分块(在自然主题边界处进行切分)通常能带来实质性的效果提升。大多数教程都会忽略这一点。

MCP 需要信任模型(trust model)。

当你的 AI 不只是读取系统数据,还可以向系统写入数据时,你必须认真考虑哪些操作可以在没有人工审批的情况下执行。写权限、不可逆操作的确认机制、审计日志——这些在生产环境中都不是可选项。

重排序(reranking)是 RAG 的“秘密武器”。

很多 RAG 实现只停留在向量相似度检索这一步。如果在第二阶段加入一个 cross-encoder 进行重排序,可以显著提升回答质量。这是一个非常值得了解的额外步骤。

延迟特性完全不同。

RAG 从本地向量数据库检索通常只需要毫秒级时间。而 MCP 调用外部 API 可能需要数秒。如果你将两者结合使用,用户体验设计必须考虑这种差异,例如通过流式响应来优化体验。

总结

RAG 为你的 AI 提供知识。MCP 为你的 AI 提供实时访问能力以及执行操作的能力。

它们并不是竞争关系,而是运行在 AI 应用不同层面的两种模式。一个负责“记忆”,一个负责“行动”。大多数严肃的 AI 应用最终都需要同时使用这两者。理解它们之间的差异,是区分“只会写提示词”的工程师和“能够构建真正有用 AI 系统”的工程师的关键。

之后我可能会介绍如何从零开始构建一个生产级的 RAG 管道——包括分块策略、嵌入模型选择、检索调优,以及大多数实现悄然失败的地方。可以关注我,以便在发布时及时看到。除此之外, 您还可以在下面的系列文章中系统的学习一下基础知识体系.

「AI秘籍」系列课程:

人工智能应用数学基础

人工智能Python基础

人工智能基础核心知识

人工智能BI核心知识

人工智能CV核心知识

智慧物流 订单配送规划海报
智慧物流 订单配送规划海报

 


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询