我要投稿

别再把 RAG 当搜索框了：Bayer 这套 Agentic RAG，把上下文、反思、恢复和评测全焊进生产系统

发布日期：2026-06-24 08:39:01 浏览次数： 1538

作者：工具猎人终端

微信搜一搜，关注“工具猎人终端”

很多团队做 RAG，第一版都长得差不多：文档切块，塞向量库，用户提问，检索几段上下文，交给大模型总结。

Demo 很快能跑。

但一进企业生产环境，尤其是医药、金融、法务这种高风险场景，事情立刻变复杂：数据源分散，结构化和非结构化信息混在一起，用户问题带领域歧义，模型回答必须能追溯，系统失败不能让用户从头再来。

Martin Fowler 网站最近发布的 Bayer PRINCE 案例，真正有价值的地方就在这里。它不是又讲一个“RAG 如何接入 PDF”的教程，而是把一个生产级 Agentic RAG 系统拆开给你看：LangGraph 编排、RAG + Text-to-SQL、过程反思、数据充分性反思、引用验证、状态持久化、重试、模型 fallback、每日线上评测。

这才是很多企业 AI 系统真正缺的东西。

不是更长的 prompt，而是一套能让 Agent 可靠工作的工程骨架。

REVIEW 01

Bayer 遇到的不是搜索问题，而是知识迷宫问题

PRINCE 面向的是 Bayer 的临床前研究数据。

这类数据有几个典型麻烦：

问题	具体表现
数据源割裂	研究报告、结构化元数据、历史系统、监管材料分散在不同地方
搜索不够用	传统关键词和布尔检索很难表达复杂研究问题
PDF 才是事实源	结构化元数据可能缺失或错误，最终权威信息常常藏在批准后的 PDF 报告里
人工整理成本高	科研人员要跨文档、跨系统手动汇总证据

所以它一开始不是奔着“做一个聊天机器人”去的，而是从 Search 走到 Ask，再走到 Do。

阶段	能力	重点
Search	统一入口和高级过滤	把分散报告先找得到
Ask	自然语言问答 + RAG	从 PDF 和结构化数据中回答问题
Do	多 Agent 执行复杂任务	能规划、检索、验证、生成更复杂成果

这条演进很值得看。

很多 RAG 项目失败，不是因为向量库不够好，而是团队把“搜索增强问答”误当成了“可靠业务助手”。前者只要能回答，后者必须能解释、能恢复、能评测、能被专家审。

REVIEW 02

生产级 Agentic RAG，核心不是一个大 Agent

PRINCE 没有把所有事都交给一个万能 Agent。

它把工作拆成多个阶段：

组件	负责什么
Clarify User Intent	先澄清用户意图和数据范围
Think & Plan	做过程反思，决定下一步该查什么、用什么工具
Researcher Agent	用 RAG 和 Text-to-SQL 拉证据
Reflection Agent	判断数据够不够、有没有缺口
Writer Agent	只基于证据生成最终回答和引用

这里的关键不是“用了几个 Agent”，而是每个 Agent 拿到的上下文不同。

PRINCE 的经验很明确：上下文窗口变大，不代表可以把所有东西都塞进去。

早期把太多信息放进上下文，系统反而更难控制、更难评测。后来他们把上下文分层：

阶段	该拿什么上下文	不该拿什么
Think & Plan	用户目标、工具范围、当前进展	原始检索噪音
Researcher	检索任务、相关数据源、工具 schema	全量历史对话
Reflection	原问题 + 已收集证据	无关工具调用细节
Writer	精选证据、引用约束、格式要求	未验证材料

这就是现在常说的 context engineering。

不是拼命扩大 prompt，而是让每一步只看到它该看的东西。

REVIEW 03

两个反思别混用：一个看流程，一个看证据

PRINCE 里最值得抄的设计，是把反思拆成两种。

第一种是过程反思，也就是 Think & Plan。

它问的是：

我现在走的路径对不对？下一步该调用哪个工具？当前轨迹离用户目标近了还是远了？

这对多步骤 Agent 很重要。尤其当工具越来越多，多个工具名字相似、领域重叠时，模型很容易选错工具、查错数据源、线性执行一堆没用步骤。

第二种是数据反思，也就是 Reflection Agent。

它问的是：

我收集到的证据够不够？有没有缺失信息？这些证据能不能支撑最终回答？

这两个问题看起来都叫“反思”，实际上完全不同。

反思类型	关注点	能拦住什么问题
过程反思	路径、工具、顺序、进度	跑偏、工具选错、步骤浪费
数据反思	证据充分性、相关性、缺口	薄证据、漏材料、强行回答
草稿反思	最终答案完整性和格式	表格缺项、段落遗漏、引用不齐

很多 Agent 系统只有“最后让模型自检一下”，这太粗了。

更靠谱的做法，是把不同类型的检查放到不同位置。流程跑偏，要早点纠正；证据不够，要回去补查；答案没写全，才交给写作层修。

REVIEW 04

可靠性不是口号：状态、重试、fallback 一个都不能少

企业里的 Agentic 系统最怕什么？

不是一次失败，而是失败以后要用户重来。

PRINCE 用 LangGraph 做编排，并把工作流状态持久化到 PostgreSQL。每个逻辑节点执行后，状态会被保存下来。更广义的应用状态、日志、中间步骤和引用信息，则放在 DynamoDB。

这带来一个很实际的好处：某一步失败后，可以从失败节点恢复，而不是整条链路重跑。

可靠性机制	解决什么
节点级状态持久化	失败后从中断处恢复
LLM 调用重试	应对临时模型/API 抖动
节点级重试	整个逻辑步骤可重新执行
模型 fallback	某个模型不可用时切换备选
用户手动 retry	用户能从失败点继续，而不是重来

这就是 harness engineering。

模型负责生成和推理，harness 负责边界、状态、恢复、观察和控制。

如果没有这些东西，Agent 看起来再聪明，也只是一个长链路脚本。一旦中间任意环节出错，用户体验和成本都会一起崩。

REVIEW 05

可信回答靠引用，不靠“语气像专家”

PRINCE 所在场景是临床前研究，回答不能只“看起来合理”。

它必须能追溯到原始材料。

系统设计里，Writer Agent 不能凭空发挥，必须基于 Researcher 收集的证据生成回答，并附上准确引用。用户可以看到引用来自哪个文档、哪一页、哪段原文。

这件事在公众号读者自己的系统里也一样重要。

如果你做的是内部知识库、法务问答、客服质检、研发文档助手，最终答案至少要做到：

要求	为什么
每个关键结论有来源	方便人工复核
引用能跳回原文	降低信任成本
未检索到证据时敢说不够	避免模型硬编
专家保留最终审批权	高风险场景不能全自动闭环

AI 系统越进入业务核心，越不能靠“说得像真的”过关。

要能查。

REVIEW 06

评测也分层：别只测最终答案

PRINCE 使用 Langfuse 做生产流量观测和评测数据管理，并结合 RAGAS 做评测。它有两类评测：

类型	触发时机	看什么
Dataset Evaluation	改核心流程、prompt、模型时	和专家参考答案对比
Live Traffic Evaluation	每日批处理线上真实问题	监控真实使用中的 faithfulness、relevancy

更关键的是，它不是只测最终答案。

Agentic 系统应该像测试金字塔一样分层看：

层级	应该测什么
检索层	找到的 chunk 是否相关
工具层	Text-to-SQL 是否选对表、字段、条件
反思层	是否发现证据不足
写作层	答案是否忠实于证据、引用是否正确
端到端	用户问题是否被完整回答

如果只看最后回答好不好，你很难定位问题出在哪。

到底是检索没召回？SQL 查错？反思没发现缺口？还是 Writer 自己发挥过头？这些必须拆开看。

REVIEW 07

这套经验怎么迁移到普通团队

不是每个团队都在做医药研究系统，也不是每个团队都需要这么重的架构。

但 PRINCE 给出的原则很通用：

原则	普通团队怎么落地
先澄清意图	用户问题不清楚时先问，不要盲查
上下文分层	不同步骤只拿必要信息
工具有边界	RAG、SQL、搜索、写作不要混成一团
反思分位置	流程反思、证据反思、答案反思分开
状态可恢复	长链路任务必须能从失败点继续
引用可追溯	高价值回答必须回到原文
评测要分层	不只测最终答案，也测中间节点