2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

伯克利最新研究:为什么多 Agent 系统总是“高期待、低表现”?

发布日期:2025-04-07 06:30:02 浏览次数: 2835
作者:哆啦的AI产品实践录

微信搜一搜,关注“哆啦的AI产品实践录”

推荐语

伯克利研究揭示多Agent系统低效之谜,为AI系统优化提供新思路。

核心内容:
1. 多Agent系统“高期待、低表现”现象的原因分析
2. 14种失败模式的识别与分类
3. 提出的战术性与结构性改进策略

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

最近在捣鼓多 Agent 系统,但是遇到了好多坑……看了一篇伯克利的研究后非常有感触,分享给大家。

伯克利的研究者们近期对多智能体系统(Multi-Agent Systems, MAS)“高期待,低表现”的问题进行了系统研究,找到了问题的原因所在,并探索了对应的改进措施。这篇文章对于我们进行多 Agent系统实践非常有指导意义,既可以定位问题所在,也会对解决相应问题有一定的启发。这一篇,我将会带来关于这篇文章的解读。

原文标题:Why Do Multi-Agent LLM Systems Fail?

原文链接:https://arxiv.org/abs/2503.13657

老规矩,我把本文的摘要放前面,大家可以根据自身情况来做选择性阅读。

摘要

分析了5个主流的MAS框架,在150多个任务中进行评估

识别出14种失败模式,归入3个主要类别:

(i) 任务规范与系统设计失败 

(ii) Agent间不一致或误解

(iii) 任务验证与终止失败

3 探索了两种改进方法:

 (i) 战术性策略:提示词优化、角色与对话结构优化、跨Agent验证机制;

 (ii) 结构性策略:强化验证机制、标准化通信协议、强化学习微调、引入置信度机制、记忆与状态管理机制。

最近,基于大语言模型(LLM)的Agent系统引起了AI社区的广泛关注。这类系统因其能动态适应多变环境、处理复杂多步骤任务的能力,被认为非常适合解决现实世界问题。基于这一优势,多Agent系统(MAS)被广泛应用于诸如软件开发、科学模拟和通用Agent等领域。尽管人们对MAS抱有很高期望,其在多个流行基准任务上的表现提升却非常有限,甚至不如简单的单Agent或“best-of-N”采样策略。例如,最先进的开源MAS系统 ChatDev 的正确率可能低至 25%。

1 研究方法

作者识别MAS主要失败模式并建立结构化分类体系的研究方法。整体流程如图3所示。

初步识别失败模式后,作者构建了一个初始版本的失败分类体系。接着,他们通过多轮标注一致性实验进行迭代优化,包括合并、拆分、删除或调整分类定义,直到达成共识。

2 研究发现

研究团队构建了多Agent系统失败分类体系(MASFT),详见图2。MASFT将14种细粒度的失败模式归入3大类核心失败类型(Failure Categories, FC),并进一步对应到MAS执行过程的3个阶段

  • 执行前阶段(Pre-Execution)

  • 执行阶段(Execution)

  • 执行后阶段(Post-Execution)

2.1 失败类别

失败类别1:任务规范与系统设计失败

此类失败源自以下问题:系统架构设计不当、对话流程管理不佳、任务指令不清晰或违反约束、Agent职责定义不明确或执行不到位

示例: 在ChatDev中被要求开发一个接受标准国际象棋符号(如 Ke8Qd4)的双人棋类游戏,系统却错误生成了一个输入格式为坐标(如 (x1,y1), (x2,y2))的游戏,违背了原始任务规范

另一个例子: 在产品需求分析阶段,CPO Agent越权充当CEO角色,自行定义产品愿景并做出最终决策,违反了角色设定

失败类别2:Agent间不一致

此类失败源自Agent之间沟通协作不畅,导致:对话冗长无效、信息未被合理共享、冲突行为频发、最终偏离初始任务目标。

示例:在一个开发Wordle类游戏的任务中,程序员Agent与多个角色(CTO、CCO等)进行了长达7轮交互,但未更新任何代码逻辑。虽然生成的游戏可运行,但词库仅含5个简单单词,可玩性极低,导致之前的沟通几乎没有价值。

另一个例子: 在一个场景中,主管Agent指示另一个“电话Agent”通过email ID查询用户信息。电话Agent查阅文档后得知应使用手机号作为用户名,却仍然用错误信息操作,导致失败。

失败类别3:任务验证与终止失败

此类失败与系统缺乏或执行不当的验证机制有关,表现为:任务过早结束、缺少对决策与结果的准确性、完整性检查。

示例: 在一个棋类游戏任务中,验证Agent仅检查代码是否能编译,却没有运行代码或验证其是否遵循棋类规则。 尽管棋类游戏已有公开规则和实现,系统却未检出明显问题,例如接受了错误格式的输入,最终生成了无法正常游玩的产品

以下是失败类别下包含对应失败模式表格:

2.2 失败分析与启示

图4展示了不同MAS系统中14种细粒度失败模式的分布情况。不同颜色表示3个失败大类(任务规范失败、Agent间不一致、验证与终止失败),同一颜色下的不同色调代表该类中的不同细粒度失败模式。

可以发现,没有哪一类失败占据绝对主导地位,这说明MAS失败的原因具有多样性。在不同的MAS系统,其失败分布具有明显差异

AG2系统中,“Agent间不一致”的失败较少,问题更多集中在任务规范和验证方面;相比之下,ChatDev系统验证问题较少,更多失败集中于任务规范与Agent协作上。

这些差异源于各系统在问题设定、拓扑设计、通信协议、交互管理方式上的不同,从而影响了其表现出的失败类型。

图6显示了三大失败类别之间的相关性矩阵。可以发现,虽然相关性整体不强,但仍有部分失败之间存在一定程度的联系。这说明MAS中的失败并非孤立事件,一个失败可能引发其他类别的失败,形成“级联效应”

通过上述分析可以发现:优化MAS性能不能只解决某一类问题,而需同时从任务规范、Agent协作和结果验证多个方面入手。

2.3 都是验证器的锅吗?

业界有一个常见的观点是:

“如果验证器足够强,所有错误都应该可以被检测出来并被阻止。”

按照这个逻辑,只要验证器工作完美,其他环节的错误都能在最终阶段被发现、纠正,失败也就可以避免。

基于此,研究者重点关注了验证失败,尤其是在那些系统能有效利用验证结果的情境下。但作者也进一步指出:很多失败实际上发生在验证步骤之前的早期阶段,如:任务规范阶段(如指令模糊或目标错误)、系统设计阶段(如角色分配不合理)等。因此,尽管验证器是最后一道防线,它不能也不应被视为失败的唯一原因

如何构建更可靠的多智能体LLM系统

作者探讨了改进MAS(多Agent系统)可靠性的方法,将解决策略分为两大类:战术性策略结构性策略。

表格3展示了不同类型的失败类别与这两类策略之间的对照关系,指出了每类问题可以优先尝试的解决路径。

总结来看,想要真正解决MAS中的各种失败,仅依靠“调提示词”或“改拓扑结构”是远远不够的。

3.1 战术性策略

这一类策略主要聚焦于提示词优化Agent组织结构与交互方式的改进,属于可以快速实施的局部优化方法。作者在案例研究中发现:这些看似简单有效的战术方法表现不稳定,常常不具备通用性。因此,战术优化并不能解决MAS的结构性问题,仍需引入更强大、更系统的结构性策略。大家看一下,有没有自己常用的方法,我是全中……

方法包括:

提示词优化

提示词应清晰描述任务指令,并明确每个Agent的角色与职责。

提示词还可以鼓励Agent进行主动式对话,在出现不一致时主动重新提问或尝试

在复杂任务结束后,可在提示中加入自我验证步骤:回顾推理过程、重述解决方案、检查前提条件、执行错误检测。

角色与对话结构优化

强化角色边界,例如定义对话模式任务终止条件

采用模块化设计:每个Agent只承担单一职责,而非多任务复合角色,有助于性能提升与调试。

跨Agent验证机制

多Agent可以进行:方案多样性提出(如多个不同解决方案)、交叉讨论与假设验证、类比“学术评审”流程进行深度评审。

还可以进行多数表决,多轮LLM调用 + 多数投票机制;或者反复采样,直到某种“验证条件”被满足。

3.2 结构性策略

除了上面提到的战术性策略,还需要更系统、深入的结构性策略来从根本上提升MAS的鲁棒性与智能协作能力。这些策略通常影响系统整体结构,需要更多研究与工程投入。

方法如下:

1. 强化验证机制

多数MAS失败都可追溯到验证机制薄弱或缺失,验证方式应视领域而定:

编码任务:需要全面的边界情况覆盖;

问答系统:需验证数据来源的真实性;

复杂推理:应借助符号验证或形式逻辑方法。

2. 标准化通信协议

LLM智能体大多依赖非结构化自然语言沟通,容易产生歧义。因此,可以构建标准通信格式(包括意图、参数、反馈等),有助于提升理解度并支持形式化一致性检查

作者给出了一些相关研究,大家有兴趣的可以去看看。

Multi-agent graph-attention communication and teaming. In AAMAS, volume 21, pp. 20th, 2021.:建模智能体间的交互结构;

Learning attentional communication for multi-agent cooperation. Advances in neural information processing systems, 31, 2018.:让智能体聚焦于相关信息;

Learning when to communicate at scale in multiagent cooperative and competitive tasks. arXiv preprint arXiv:1812.09755, 2018:提升协作效率与稳定性。

3. 强化学习微调

针对角色微调智能体行为,奖励任务一致的行为,惩罚低效或偏离的行为,相关研究如下;

MAPPO(Yu等,2022):优化智能体对角色职责的遵守;

SHPPO(Guo等,2024):使用隐变量网络先学习策略,再引入异构决策层;

Optima(Chen等,2024):通过强化学习提升通信效率与任务完成率。

4. 引入置信度机制

智能体只有在置信度高于阈值时才行动;若置信度低,则暂停决策、主动获取更多信息;还可实现动态阈值调整(adaptive thresholding),增强系统自适应能力。

5. 记忆与状态管理机制

虽然常见于单智能体研究,但在MAS中同样关键,有助于:理解上下文、减少沟通歧义、支持任务的持续追踪和动态调整。

相关研究如下:

MemGPT(Packer等,2023):引入类似操作系统的上下文管理机制;

TapeAgents(Chakraborty & Purkayastha, 2023):使用结构化、可重播的“行为日志”来记录智能体行为,支持动态任务分解与持续优化

结论:结构性策略是打造下一代MAS系统的关键。相比提示词微调和拓扑调整等战术手段,这些方法更具普适性、可持续性与研究深度,但也更具挑战性,是未来MAS系统研究的重要方向。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅