2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

90% 的 Agent 失败,不是框架不行,而是卡在 5 个工程问题

发布日期:2026-05-19 02:47:29 浏览次数: 1848
作者:泡一杯茶饮世间喜怒哀乐

微信搜一搜,关注“泡一杯茶饮世间喜怒哀乐”

推荐语

大多数 Agent 的失败,根源在于五个反复出现的工程问题,而非框架本身。本文深入剖析了从演示到生产环境的关键挑战。

核心内容:
1. Agent从演示到生产环境面临的核心工程挑战
2. 导致Agent失败的五大基础工程问题剖析
3. 针对工具调用等关键问题的解决思路

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

如果你在过去一年里修过 Agent 的 Bug ,那你大概率已经撞上一堵名叫"工程复杂性"的墙了。


AI Agent 社区有个很典型的叙事:先用 LangChain ,发现太抽象;换成 CrewAI ,发现协作链路不可控;再研究 LangGraph ,开始手动画图,终于以为找到了银弹——然后上线一周,凌晨三点被 PagerDuty 叫醒。


一位在 Agent 领域深耕 18 个月的开发者 Mukunda Katta 在 Dev.to 上发了一篇文章,标题就戳中了很多人的痛处:大多数 Agent 的失败并不有趣,它们只是同样的 5 个问题,换了一套模型、换了一个框架、换了一周时间——但根因一模一样。


这篇文章在开发者社区引发了强烈共鸣,因为它做了一件很罕见的事:不是在推框架,而是在拆问题。


为什么是现在: Agent 正在跨越 Demo 到 Production 的峡谷


2024 年是"Agent 能做什么"的秀场年。 2025 年是"Agent 框架哪家强"的选型年。而 2026 年上半年给出的信号非常明确:这不再是一个框架问题,而是一个工程问题。


一个典型现象:几乎所有 Agent 框架的 Demo 跑起来都很顺。给 GPT-4 配上一个搜索工具,再加一个代码解释器,演示效果令人心动。开发者兴冲冲地把它接入自己的业务系统,然后开始出 Bug——不是偶尔出错,而是一个接一个的连锁失败。


核心分歧在于: Demo 里的 Agent 面对的是精心控制的环境和单一意图。而生产环境的 Agent 面对的是模糊意图、不可靠的下游服务、以及一个东西没处理好就影响全局的级联效应。


这不是一个"换个更好的模型"就能解决的问题。当 Claude Opus 4.7 和 GPT-4.1 的能力已经远超一年前, Agent 的失败率却并没有同等下降——问题不在推理引擎,在工程底盘。


逐个击破: 5 个被框架掩盖的工程问题


Katta 把这些"换了马甲但本质相同"的问题归纳为五个类别。每一个都很基础,但恰恰因为没有得到基础层面的解决,它们在高层的框架中反复出现。


问题一:工具调用失败——Agent 最脆弱的环节


这可能是 Agent 失败的第一大来源。模型生成了正确的 JSON 、正确的函数名、正确的参数类型——但工具就是没跑通。原因可能是一百种里的任何一种:超时、网络抖动、 API 返回了意料之外的格式、权限过期、限流、参数语义正确但业务逻辑非法……


框架对这件事的处理通常极其粗粒度:要么重试 n 次,要么把错误信息原样丢回给 LLM ,寄希望于模型能"看懂"并纠正。但实际效果是——当第一个工具调用失败后, Agent 的后续行为往往越来越离谱。因为它拿到的错误信息对 LLM 来说并非结构化的工程信号,而是一段需要重新"理解"的自然语言。


真正的解法不在重试策略,而在于:让工具的错误信号对 Agent 可编程。错误不只是给人类看的日志,它应该是 Agent 决策循环中可消费的结构化输入。这意味着你需要一个薄薄的错误抽象层——不是框架,是工程契约。


问题二:上下文丢失——Agent 的"健忘症"


多轮对话中, Agent 需要在不断膨胀的消息历史中,记住最初的任务目标、中间的关键决策、以及已经尝试过什么。这不只是 token 限制的问题。


更隐蔽的失败模式是:上下文没有丢在 token 数量上,而是丢在了注意力分布上。当对话历史超过几千个 token ,模型开始倾向于关注最近的几轮交互,而忘记几十轮前的约束条件。 Agent 会说"好的我帮你查一下",然后用一个和最初需求完全不同的参数去调工具。


Katta 的观点很尖锐:框架在上下文管理上做了太多"自动化",反而剥夺了开发者对关键信息的控制力。真正有效的不是把所有历史全部压缩进上下文,而是有选择地保留、结构化、并在合适的时机重新注入。这是信息架构问题,不是框架配置项。


问题三:循环死锁——Agent 在执行迷宫里打转


这个问题每个 Agent 开发者都经历过: Agent 卡住了,一直在做同一件事,每次都说"我再试试",每次的结果都一样。


框架会给这种行为起好听的名字: ReAct 循环、 Self-Reflection 、多步推理。但当它退化成一个死循环时,再高级的命名也帮不了你。


循环死锁的本质不是 Agent "不够聪明",而是它的终止条件定义得太模糊。 Agent 不知道什么算"完成",什么算"失败",什么算"换一条路径"。框架通常只提供一个最大步数作为兜底,这无异于给一个没有刹车的车装了一个油量表——不在根因上解决问题。


工程上的解法是显式定义退出语义:不是 "最多 10 步",而是 "如果连续 3 步没有获得新的信息增量,则终止当前分支并上报"。这是策略控制,是业务逻辑,不可能被塞进一个通用框架的统一循环里。


问题四:错误传播——级联效应如何放大一个小偏差


Agent 是多步骤的,而多步骤系统有一个铁律:每一步的错误不是独立的,它们会累积甚至放大


一个典型的级联场景:第一步工具调用的参数略有偏差→返回了部分正确但不完整的结果→Agent 基于不完整的结果做推理→推理结论偏了→第二步工具调用基于偏了的结论→彻底跑偏。这时候框架做了什么?什么都没做。因为从框架的视角看,每一步都"成功"了——没有抛异常,没有超时,所有返回都是格式正确的 JSON 。


真正棘手的是"无声失败"( Silent Failure ):工具返回了结果,但结果在业务语义上是错的。框架的层次完全感知不到这种错误,只有业务层的工程校验才能捕获。


这意味着任何严肃的 Agent 系统,都必须在工具和推理之间插入业务校验层。这不属于框架的职责,但这是 Agent 能不能跑稳的决定性因素。


问题五:状态混乱——外部系统与 Agent 认知之间的裂缝


Agent 知道"订单已取消"——它从消息历史里读到了。但外部数据库里的订单状态是"待支付"。为什么?因为上一个步骤的写入操作失败了,但没有被正确感知。或者写入成功了,但 Agent 的上下文没有更新。


这是分布式系统中的经典问题,在 Agent 架构中得到了完美重现: Agent 维护了一个"信念状态"( Belief State ),外部系统有它的"事实状态"( Ground Truth )。当两者不同步时, Agent 的每一步决策都是基于错误的信念。


解决思路同样不新鲜:外部系统的状态变化应该以结构化的方式同步回 Agent 的决策循环,而不是只存在于 LLM 的"记忆"里。但这又绕回了第一个问题——你不能指望框架来定义你的业务实体和状态同步协议。


框架不是敌人,但也不是答案


Katta 的主张非常明确也很有争议:不需要复杂的框架。他的实践是用小型库逐个击破——工具调用用一个轻量库处理、上下文管理用另一个、循环控制自己写、错误传播靠工程纪律、状态同步用成熟的分布式模式。


这不是"反框架",而是"框架归位"。框架应该解决的问题是它确实擅长的那一层:模型交互抽象、 provider 适配、类型系统。至于 Agent 的行为边界、退出策略、错误契约、状态建模——这些是你的业务逻辑,框架不可能替你定义。


这也解释了为什么今年出现了一个看似矛盾的动向: Agent 框架在功能表上越来越强,但一线开发者的实际感受是——真正跑稳的 Agent ,自己手写的东西反而越来越多。不是在框架之上开发,而是在框架之外搭建。


方法论的转向:从"Agent 的智能上限"到"Agent 的工程下限"


过去两年,整个行业在追求"让 Agent 更聪明"。更长的上下文、更强的推理、更多的工具。但 2026 年上半年出现的信号是:智能上限已经够高了,但工程下限还不够低


换句话说,一个 Agent 在理想环境下能做到 95 分,但在真实环境下只能稳定输出 65 分——而一个稳定 70 分的 Agent 比一个偶尔 95 分的 Agent 有商业价值得多。


这要求我们的关注点发生迁移:不再问"这个 Agent 能做什么",开始问"这个 Agent 在什么条件下会做什么蠢事"。对五个工程问题的深入程度,直接决定了你的 Agent 在凌晨三点是安静运行还是在发告警。


工程下限的提升不需要框架换代,但需要思维切换——把 Agent 当作一个分布式系统来设计,而不是一个"聪明的函数调用"。


来源: Dev.to | 发布时间: 2026 年 5 月

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅