微信扫码
添加专属顾问
伯克利研究揭示多Agent系统低效之谜,为AI系统优化提供新思路。 核心内容: 1. 多Agent系统“高期待、低表现”现象的原因分析 2. 14种失败模式的识别与分类 3. 提出的战术性与结构性改进策略
最近在捣鼓多 Agent 系统,但是遇到了好多坑……看了一篇伯克利的研究后非常有感触,分享给大家。
伯克利的研究者们近期对多智能体系统(Multi-Agent Systems, MAS)“高期待,低表现”的问题进行了系统研究,找到了问题的原因所在,并探索了对应的改进措施。这篇文章对于我们进行多 Agent系统实践非常有指导意义,既可以定位问题所在,也会对解决相应问题有一定的启发。这一篇,我将会带来关于这篇文章的解读。
原文标题:Why Do Multi-Agent LLM Systems Fail?
原文链接:https://arxiv.org/abs/2503.13657
老规矩,我把本文的摘要放前面,大家可以根据自身情况来做选择性阅读。
摘要
1 分析了5个主流的MAS框架,在150多个任务中进行评估
2 识别出14种失败模式,归入3个主要类别:
(i) 任务规范与系统设计失败
(ii) Agent间不一致或误解
(iii) 任务验证与终止失败
3 探索了两种改进方法:
(i) 战术性策略:提示词优化、角色与对话结构优化、跨Agent验证机制;
(ii) 结构性策略:强化验证机制、标准化通信协议、强化学习微调、引入置信度机制、记忆与状态管理机制。
最近,基于大语言模型(LLM)的Agent系统引起了AI社区的广泛关注。这类系统因其能动态适应多变环境、处理复杂多步骤任务的能力,被认为非常适合解决现实世界问题。基于这一优势,多Agent系统(MAS)被广泛应用于诸如软件开发、科学模拟和通用Agent等领域。尽管人们对MAS抱有很高期望,其在多个流行基准任务上的表现提升却非常有限,甚至不如简单的单Agent或“best-of-N”采样策略。例如,最先进的开源MAS系统 ChatDev 的正确率可能低至 25%。
1 研究方法
作者识别MAS主要失败模式并建立结构化分类体系的研究方法。整体流程如图3所示。
初步识别失败模式后,作者构建了一个初始版本的失败分类体系。接着,他们通过多轮标注一致性实验进行迭代优化,包括合并、拆分、删除或调整分类定义,直到达成共识。
2 研究发现
研究团队构建了多Agent系统失败分类体系(MASFT),详见图2。MASFT将14种细粒度的失败模式归入3大类核心失败类型(Failure Categories, FC),并进一步对应到MAS执行过程的3个阶段:
执行前阶段(Pre-Execution)
执行阶段(Execution)
执行后阶段(Post-Execution)
2.1 失败类别
失败类别1:任务规范与系统设计失败
此类失败源自以下问题:系统架构设计不当、对话流程管理不佳、任务指令不清晰或违反约束、Agent职责定义不明确或执行不到位。
示例: 在ChatDev中被要求开发一个接受标准国际象棋符号(如 Ke8, Qd4)的双人棋类游戏,系统却错误生成了一个输入格式为坐标(如 (x1,y1), (x2,y2))的游戏,违背了原始任务规范。
另一个例子: 在产品需求分析阶段,CPO Agent越权充当CEO角色,自行定义产品愿景并做出最终决策,违反了角色设定。
失败类别2:Agent间不一致
此类失败源自Agent之间沟通协作不畅,导致:对话冗长无效、信息未被合理共享、冲突行为频发、最终偏离初始任务目标。
示例:在一个开发Wordle类游戏的任务中,程序员Agent与多个角色(CTO、CCO等)进行了长达7轮交互,但未更新任何代码逻辑。虽然生成的游戏可运行,但词库仅含5个简单单词,可玩性极低,导致之前的沟通几乎没有价值。
另一个例子: 在一个场景中,主管Agent指示另一个“电话Agent”通过email ID查询用户信息。电话Agent查阅文档后得知应使用手机号作为用户名,却仍然用错误信息操作,导致失败。
失败类别3:任务验证与终止失败
此类失败与系统缺乏或执行不当的验证机制有关,表现为:任务过早结束、缺少对决策与结果的准确性、完整性检查。
示例: 在一个棋类游戏任务中,验证Agent仅检查代码是否能编译,却没有运行代码或验证其是否遵循棋类规则。 尽管棋类游戏已有公开规则和实现,系统却未检出明显问题,例如接受了错误格式的输入,最终生成了无法正常游玩的产品。
以下是失败类别下包含对应失败模式表格:
2.2 失败分析与启示
图4展示了不同MAS系统中14种细粒度失败模式的分布情况。不同颜色表示3个失败大类(任务规范失败、Agent间不一致、验证与终止失败),同一颜色下的不同色调代表该类中的不同细粒度失败模式。
可以发现,没有哪一类失败占据绝对主导地位,这说明MAS失败的原因具有多样性。在不同的MAS系统,其失败分布具有明显差异:
AG2系统中,“Agent间不一致”的失败较少,问题更多集中在任务规范和验证方面;相比之下,ChatDev系统验证问题较少,更多失败集中于任务规范与Agent协作上。
这些差异源于各系统在问题设定、拓扑设计、通信协议、交互管理方式上的不同,从而影响了其表现出的失败类型。
图6显示了三大失败类别之间的相关性矩阵。可以发现,虽然相关性整体不强,但仍有部分失败之间存在一定程度的联系。这说明MAS中的失败并非孤立事件,一个失败可能引发其他类别的失败,形成“级联效应”。
通过上述分析可以发现:优化MAS性能不能只解决某一类问题,而需同时从任务规范、Agent协作和结果验证多个方面入手。
2.3 都是验证器的锅吗?
业界有一个常见的观点是:
“如果验证器足够强,所有错误都应该可以被检测出来并被阻止。”
按照这个逻辑,只要验证器工作完美,其他环节的错误都能在最终阶段被发现、纠正,失败也就可以避免。
基于此,研究者重点关注了验证失败,尤其是在那些系统能有效利用验证结果的情境下。但作者也进一步指出:很多失败实际上发生在验证步骤之前的早期阶段,如:任务规范阶段(如指令模糊或目标错误)、系统设计阶段(如角色分配不合理)等。因此,尽管验证器是最后一道防线,它不能也不应被视为失败的唯一原因。
3 如何构建更可靠的多智能体LLM系统
作者探讨了改进MAS(多Agent系统)可靠性的方法,将解决策略分为两大类:战术性策略和结构性策略。
表格3展示了不同类型的失败类别与这两类策略之间的对照关系,指出了每类问题可以优先尝试的解决路径。
总结来看,想要真正解决MAS中的各种失败,仅依靠“调提示词”或“改拓扑结构”是远远不够的。
3.1 战术性策略
这一类策略主要聚焦于提示词优化和Agent组织结构与交互方式的改进,属于可以快速实施的局部优化方法。作者在案例研究中发现:这些看似简单有效的战术方法表现不稳定,常常不具备通用性。因此,战术优化并不能解决MAS的结构性问题,仍需引入更强大、更系统的结构性策略。大家看一下,有没有自己常用的方法,我是全中……
方法包括:
1 提示词优化
提示词应清晰描述任务指令,并明确每个Agent的角色与职责。
提示词还可以鼓励Agent进行主动式对话,在出现不一致时主动重新提问或尝试。
在复杂任务结束后,可在提示中加入自我验证步骤:回顾推理过程、重述解决方案、检查前提条件、执行错误检测。
2 角色与对话结构优化
强化角色边界,例如定义对话模式和任务终止条件。
采用模块化设计:每个Agent只承担单一职责,而非多任务复合角色,有助于性能提升与调试。
3 跨Agent验证机制
多Agent可以进行:方案多样性提出(如多个不同解决方案)、交叉讨论与假设验证、类比“学术评审”流程进行深度评审。
还可以进行多数表决,多轮LLM调用 + 多数投票机制;或者反复采样,直到某种“验证条件”被满足。
3.2 结构性策略
除了上面提到的战术性策略,还需要更系统、深入的结构性策略来从根本上提升MAS的鲁棒性与智能协作能力。这些策略通常影响系统整体结构,需要更多研究与工程投入。
方法如下:
1. 强化验证机制
多数MAS失败都可追溯到验证机制薄弱或缺失,验证方式应视领域而定:
编码任务:需要全面的边界情况覆盖;
问答系统:需验证数据来源的真实性;
复杂推理:应借助符号验证或形式逻辑方法。
2. 标准化通信协议
LLM智能体大多依赖非结构化自然语言沟通,容易产生歧义。因此,可以构建标准通信格式(包括意图、参数、反馈等),有助于提升理解度并支持形式化一致性检查。
作者给出了一些相关研究,大家有兴趣的可以去看看。
Multi-agent graph-attention communication and teaming. In AAMAS, volume 21, pp. 20th, 2021.:建模智能体间的交互结构;
Learning attentional communication for multi-agent cooperation. Advances in neural information processing systems, 31, 2018.:让智能体聚焦于相关信息;
Learning when to communicate at scale in multiagent cooperative and competitive tasks. arXiv preprint arXiv:1812.09755, 2018:提升协作效率与稳定性。
3. 强化学习微调
针对角色微调智能体行为,奖励任务一致的行为,惩罚低效或偏离的行为,相关研究如下;
MAPPO(Yu等,2022):优化智能体对角色职责的遵守;
SHPPO(Guo等,2024):使用隐变量网络先学习策略,再引入异构决策层;
Optima(Chen等,2024):通过强化学习提升通信效率与任务完成率。
4. 引入置信度机制
智能体只有在置信度高于阈值时才行动;若置信度低,则暂停决策、主动获取更多信息;还可实现动态阈值调整(adaptive thresholding),增强系统自适应能力。
5. 记忆与状态管理机制
虽然常见于单智能体研究,但在MAS中同样关键,有助于:理解上下文、减少沟通歧义、支持任务的持续追踪和动态调整。
相关研究如下:
MemGPT(Packer等,2023):引入类似操作系统的上下文管理机制;
TapeAgents(Chakraborty & Purkayastha, 2023):使用结构化、可重播的“行为日志”来记录智能体行为,支持动态任务分解与持续优化。
结论:结构性策略是打造下一代MAS系统的关键。相比提示词微调和拓扑调整等战术手段,这些方法更具普适性、可持续性与研究深度,但也更具挑战性,是未来MAS系统研究的重要方向。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-30
微信AI,能避开豆包手机的窘境吗?
2026-06-30
LangAlpha是如何在架构上实现Harness 和 Loop Engineering
2026-06-30
Codex 权限 Profile:sandbox 不再一刀切
2026-06-30
Google 悄悄开闸:Gemini API 免费放量 1M TPM,OpenAI 和 Anthropic 开发者坐不住了
2026-06-30
我的Mac潜伏了一个月木马:AI Agent时代,真正危险的不是“手滑”
2026-06-30
AgentOps:用户快速地调教好你的Agent的关键功能。
2026-06-30
AI 应用产品评测体系完整指南
2026-06-30
AI写代码越快,程序员越危险?Codex负责人摊牌:真正难的是"删代码"
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-02
2026-04-05
2026-04-14
2026-04-24
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。