90% 的 Agent 失败，不是框架不行，而是卡在 5 个工程问题

发布日期：2026-05-19 02:47:29 浏览次数： 1848

作者：泡一杯茶饮世间喜怒哀乐

微信搜一搜，关注“泡一杯茶饮世间喜怒哀乐”

如果你在过去一年里修过 Agent 的 Bug ，那你大概率已经撞上一堵名叫"工程复杂性"的墙了。

AI Agent 社区有个很典型的叙事：先用 LangChain ，发现太抽象；换成 CrewAI ，发现协作链路不可控；再研究 LangGraph ，开始手动画图，终于以为找到了银弹——然后上线一周，凌晨三点被 PagerDuty 叫醒。

一位在 Agent 领域深耕 18 个月的开发者 Mukunda Katta 在 Dev.to 上发了一篇文章，标题就戳中了很多人的痛处：大多数 Agent 的失败并不有趣，它们只是同样的 5 个问题，换了一套模型、换了一个框架、换了一周时间——但根因一模一样。

这篇文章在开发者社区引发了强烈共鸣，因为它做了一件很罕见的事：不是在推框架，而是在拆问题。

为什么是现在： Agent 正在跨越 Demo 到 Production 的峡谷

2024 年是"Agent 能做什么"的秀场年。 2025 年是"Agent 框架哪家强"的选型年。而 2026 年上半年给出的信号非常明确：这不再是一个框架问题，而是一个工程问题。

一个典型现象：几乎所有 Agent 框架的 Demo 跑起来都很顺。给 GPT-4 配上一个搜索工具，再加一个代码解释器，演示效果令人心动。开发者兴冲冲地把它接入自己的业务系统，然后开始出 Bug——不是偶尔出错，而是一个接一个的连锁失败。

核心分歧在于： Demo 里的 Agent 面对的是精心控制的环境和单一意图。而生产环境的 Agent 面对的是模糊意图、不可靠的下游服务、以及一个东西没处理好就影响全局的级联效应。

这不是一个"换个更好的模型"就能解决的问题。当 Claude Opus 4.7 和 GPT-4.1 的能力已经远超一年前， Agent 的失败率却并没有同等下降——问题不在推理引擎，在工程底盘。

逐个击破： 5 个被框架掩盖的工程问题

Katta 把这些"换了马甲但本质相同"的问题归纳为五个类别。每一个都很基础，但恰恰因为没有得到基础层面的解决，它们在高层的框架中反复出现。

问题一：工具调用失败——Agent 最脆弱的环节

这可能是 Agent 失败的第一大来源。模型生成了正确的 JSON 、正确的函数名、正确的参数类型——但工具就是没跑通。原因可能是一百种里的任何一种：超时、网络抖动、 API 返回了意料之外的格式、权限过期、限流、参数语义正确但业务逻辑非法……

框架对这件事的处理通常极其粗粒度：要么重试 n 次，要么把错误信息原样丢回给 LLM ，寄希望于模型能"看懂"并纠正。但实际效果是——当第一个工具调用失败后， Agent 的后续行为往往越来越离谱。因为它拿到的错误信息对 LLM 来说并非结构化的工程信号，而是一段需要重新"理解"的自然语言。

真正的解法不在重试策略，而在于：让工具的错误信号对 Agent 可编程。错误不只是给人类看的日志，它应该是 Agent 决策循环中可消费的结构化输入。这意味着你需要一个薄薄的错误抽象层——不是框架，是工程契约。

问题二：上下文丢失——Agent 的"健忘症"

多轮对话中， Agent 需要在不断膨胀的消息历史中，记住最初的任务目标、中间的关键决策、以及已经尝试过什么。这不只是 token 限制的问题。

更隐蔽的失败模式是：上下文没有丢在 token 数量上，而是丢在了注意力分布上。当对话历史超过几千个 token ，模型开始倾向于关注最近的几轮交互，而忘记几十轮前的约束条件。 Agent 会说"好的我帮你查一下"，然后用一个和最初需求完全不同的参数去调工具。

Katta 的观点很尖锐：框架在上下文管理上做了太多"自动化"，反而剥夺了开发者对关键信息的控制力。真正有效的不是把所有历史全部压缩进上下文，而是有选择地保留、结构化、并在合适的时机重新注入。这是信息架构问题，不是框架配置项。

问题三：循环死锁——Agent 在执行迷宫里打转

这个问题每个 Agent 开发者都经历过： Agent 卡住了，一直在做同一件事，每次都说"我再试试"，每次的结果都一样。

框架会给这种行为起好听的名字： ReAct 循环、 Self-Reflection 、多步推理。但当它退化成一个死循环时，再高级的命名也帮不了你。

循环死锁的本质不是 Agent "不够聪明"，而是它的终止条件定义得太模糊。 Agent 不知道什么算"完成"，什么算"失败"，什么算"换一条路径"。框架通常只提供一个最大步数作为兜底，这无异于给一个没有刹车的车装了一个油量表——不在根因上解决问题。

工程上的解法是显式定义退出语义：不是 "最多 10 步"，而是 "如果连续 3 步没有获得新的信息增量，则终止当前分支并上报"。这是策略控制，是业务逻辑，不可能被塞进一个通用框架的统一循环里。

问题四：错误传播——级联效应如何放大一个小偏差

Agent 是多步骤的，而多步骤系统有一个铁律：每一步的错误不是独立的，它们会累积甚至放大。

一个典型的级联场景：第一步工具调用的参数略有偏差→返回了部分正确但不完整的结果→Agent 基于不完整的结果做推理→推理结论偏了→第二步工具调用基于偏了的结论→彻底跑偏。这时候框架做了什么？什么都没做。因为从框架的视角看，每一步都"成功"了——没有抛异常，没有超时，所有返回都是格式正确的 JSON 。

真正棘手的是"无声失败"（ Silent Failure ）：工具返回了结果，但结果在业务语义上是错的。框架的层次完全感知不到这种错误，只有业务层的工程校验才能捕获。

这意味着任何严肃的 Agent 系统，都必须在工具和推理之间插入业务校验层。这不属于框架的职责，但这是 Agent 能不能跑稳的决定性因素。