微信扫码
添加专属顾问
今天想和大家分享一篇非常有趣的论文,题目是《Understanding the planning of LLM agents:A survey》。这篇论文系统地总结了目前大语言模型(LLM)在智能体规划方面的研究进展。随着ChatGPT等大语言模型的兴起,如何利用LLM来增强智能体的规划能力成为了一个热门的研究方向。
我们首先来看看什么是智能体的规划能力。简单来说,规划就是智能体根据当前环境和目标,生成一系列动作序列的过程。用数学语言来描述的话,可以表示为:
p = (a0, a1, …, at) = plan(E, g; Θ, P),其中E表示环境,g表示目标,Θ是LLM的参数,P是任务提示。
传统的规划方法主要有两类:基于符号的方法(如PDDL)和基于强化学习的方法。但这些方法都存在一些局限性。比如符号方法需要人工构建模型,而强化学习方法需要大量样本。
而LLM则为规划任务带来了新的可能性。LLM通过海量文本训练,展现出了强大的推理、工具使用、规划和指令遵循能力。那么,如何充分发挥LLM在规划方面的潜力呢?论文将现有的研究工作归纳为5个主要方向:
任务分解 (Task Decomposition)
多路径选择 (Multi-plan Selection)
外部规划器辅助 (External Planner-Aided Planning)
反思与优化 (Reflection and Refinement)
记忆增强规划 (Memory-Augmented Planning)
接下来,让我们逐一深入了解这5个研究方向。
任务分解的核心思想是"分而治之"。对于复杂的任务,我们可以将其分解为多个简单的子任务,然后逐个规划解决。这个过程可以用下面的公式表示:
g0, g1, ..., gn = decompose(E, g; Θ, P)
pi = (ai0, ai1, ..., aim) = sub-plan(E, gi; Θ, P)
任务分解方法主要分为两类:分解优先和交错分解。
分解优先方法先将任务完全分解为子目标,然后再逐个规划。比如HuggingGPT就采用了这种方法,它首先将复杂的多模态任务分解为子任务,然后为每个子任务选择合适的模型来执行。
交错分解方法则是边分解边规划。Chain-of-Thought (CoT)和ReAct就属于这一类。CoT通过"Let's think step by step"的提示,引导LLM一步步推理。而ReAct则交替进行推理(Thought)和行动(Action)。
为了更直观地理解这两种方法的区别,我们可以用下面的图来表示:
多路径选择方法的核心思想是"多多益善"。它鼓励LLM生成多个备选方案,然后从中选择最优的一个。这个过程可以表示为:
P = p1, p2, ..., pn = plan(E, g; Θ, P)
p* = select(E, g, P; Θ, F)
其中F表示搜索策略,比如树搜索算法。
一个典型的例子是Tree-of-Thought (ToT)方法。ToT首先生成多个思考路径,形成一个树结构,然后使用搜索算法(如BFS、DFS)来选择最佳路径。
让我们用一个简单的例子来说明ToT的工作原理。假设我们要解决"如何准备一次完美的野餐"这个问题:
虽然LLM具有强大的能力,但在处理某些特定领域的问题时,专门的规划器可能会更有效。外部规划器辅助方法就是结合LLM和传统规划器的优势。这个过程可以表示为:
h = formalize(E, g; Θ, P)
p = plan(E, g, h; Φ)
其中Φ表示外部规划器,h表示形式化的信息。
一个典型的例子是LLM+P方法。它首先使用LLM将自然语言描述的问题转化为PDDL(Planning Domain Definition Language)格式,然后使用专门的PDDL求解器来生成计划。
让我们用一个简单的例子来说明这个过程。假设我们有一个机器人需要完成搬运箱子的任务:
LLM将自然语言任务转化为PDDL:
(define (problem box-moving)
(:domain robot-world)
(:objects
box1 box2 - box
room1 room2 - room
robot1 - robot)
(:init
(at robot1 room1)
(at box1 room1)
(at box2 room1))
(:goal
(and (at box1 room2)
(at box2 room2))))
PDDL求解器生成计划:
1. (move robot1 room1 room2)
2. (move robot1 room2 room1)
3. (pick robot1 box1 room1)
4. (move robot1 room1 room2)
5. (drop robot1 box1 room2)
6. (move robot1 room2 room1)
7. (pick robot1 box2 room1)
8. (move robot1 room1 room2)
9. (drop robot1 box2 room2)
这种方法结合了LLM的语言理解能力和专门规划器的高效性,特别适合处理具有明确约束的任务。
反思与优化方法的核心思想是"失败乃成功之母"。它鼓励LLM在执行失败后进行反思,并优化原有计划。这个过程可以表示为:
p0 = plan(E, g; Θ, P)
ri = reflect(E, g, pi; Θ, P)
pi+1 = refine(E, g, pi, ri; Θ, P)
一个典型的例子是Reflexion方法。它在ReAct的基础上增加了一个评估器,当检测到错误时,LLM会生成自我反思,帮助纠正错误。
让我们用一个具体的例子来说明这个过程。假设我们要求LLM Agent完成一道数学题:
问题:一个长方形的长是8米,宽是6米,求它的面积。
初始计划 p0:
确定长方形的长:8米
确定长方形的宽:6米
使用公式:面积 = 长 + 宽
计算:8 + 6 = 14
得出结果:面积是14平方米
执行结果:错误
反思 r1:我犯了一个计算错误。长方形的面积应该用乘法计算,而不是加法。我需要修改计算步骤。
优化计划 p1:
确定长方形的长:8米
确定长方形的宽:6米
使用公式:面积 = 长 * 宽
计算:8 * 6 = 48
得出结果:面积是48平方米
执行结果:正确
通过这种反思和优化的过程,LLM Agent能够不断提高自己的规划能力。
记忆增强规划方法的核心思想是"温故而知新"。它通过为LLM增加额外的记忆模块,存储有价值的信息(如常识知识、过往经验等),在规划时提供辅助信息。这个过程可以表示为:
m = retrieve(E, g; M)
p = plan(E, g, m; Θ, P)
,其中M表示记忆模块。
记忆增强方法主要分为两类:基于RAG(Retrieval-Augmented Generation)的方法和基于微调的方法。
基于RAG的方法将记忆存储在外部数据库中,在规划时根据相关性检索。
而基于微调的方法则是将经验样本用于微调LLM,将记忆直接嵌入到模型参数中。
让我们用一个简单的例子来说明这两种方法的区别,假设我们要教会LLM Agent如何泡一杯完美的咖啡。
基于RAG的方法:
在外部数据库中存储各种咖啡制作方法和技巧
当收到泡咖啡的任务时,检索相关的信息
根据检索到的信息生成泡咖啡的计划
基于微调的方法:
收集大量泡咖啡的成功经验
用这些经验微调LLM
微调后的LLM在收到泡咖啡任务时,可以直接生成计划
两种方法各有优缺点。RAG方法更灵活,可以实时更新知识,但依赖于检索算法的准确性。微调方法可以更好地融合知识,但更新成本高,且难以保留细粒度的信息。
通过以上5个方向的探索,研究者们极大地提升了LLM Agent的规划能力。但仍然存在一些挑战,比如:
幻觉问题:LLM可能会生成不合理或不存在的计划。
生成计划的可行性:LLM可能会忽视一些重要的前提条件。
生成计划的效率:如何生成更高效的计划仍是一个挑战。
多模态环境反馈:如何处理图像、音频等非文本反馈。
细粒度评估:现有的评估方法往往过于粗糙。
为了更直观地理解这些挑战和未来的研究方向,我们可以用下面的图来表示:
| 方法 | ALFWorld | ScienceWorld | HotPotQA | FEVER |
|---|---|---|---|---|
| ZeroShot-CoT | N/A | N/A | 0.01 | 0.39 |
| FewShot-CoT | 0.43 | 16.58 | 0.32 | 0.61 |
| CoT-SC | 0.57 | 15.24 | 0.33 | 0.62 |
| SayCan | 0.60 | 12.36 | N/A | N/A |
| ReAct | 0.57 | 15.05 | 0.34 | 0.63 |
| Reflexion | 0.71 | 19.39 | 0.39 | 0.68 |
从结果可以看出:
反思机制(Reflexion)在大多数任务上表现最好,说明反思确实能提高规划能力。
零样本方法(ZeroShot-CoT)在复杂任务上表现不佳,说明对于复杂任务,提供一些示例或额外信息是很有必要的。
任务的复杂度对方法的表现影响很大。例如,在相对简单的FEVER任务上,各方法的表现差异不大,而在复杂的ALFWorld和ScienceWorld任务上,差异就很明显。
消耗的计算资源与性能往往成正比。例如,Reflexion方法虽然性能最好,但它的token消耗也是最多的。这提示我们在实际应用中需要权衡性能和成本。
这些实验结果为我们提供了很多有价值的洞察。它们不仅验证了各种方法的有效性,也为我们指明了未来研究的方向。现在,让我们用一个具体的案例来综合理解这些方法是如何在实际问题中应用的。
案例研究:智能家居助手
假设我们要开发一个智能家居助手,它需要帮助用户完成各种家务任务。让我们看看如何将上述方法应用到这个场景中。
任务分解:当用户说"我要举办一个生日派对"时,助手可能会这样分解任务:
确定宾客名单
准备食物和饮料
装饰房间
安排娱乐活动
准备礼物
多路径选择:对于"准备食物"这个子任务,助手可能会生成多个方案:
方案A:自己烹饪
方案B:订购外卖
方案C:找专业餐饮服务
然后根据用户的喜好、预算、时间等因素选择最佳方案。
外部规划器辅助:对于"安排娱乐活动"这个子任务,助手可能会调用专门的活动规划API,获取适合的游戏和活动建议。
反思与优化:假设助手最初建议的装饰方案是"用气球装饰",但执行时发现家里没有气球。这时,助手会反思并优化方案,比如"用彩纸和鲜花替代气球"。
记忆增强:助手会记住用户的偏好和往年的派对经验。比如,如果去年的巧克力蛋糕很受欢迎,今年可能会再次推荐。
通过这个案例,我们可以看到这些方法如何协同工作,共同提升LLM Agent的规划能力。
我们深入了解了LLM Agent在规划能力方面的最新研究进展。从任务分解到记忆增强,每一种方法都为提升LLM的规划能力提供了独特的视角。这些方法不是相互排斥的,而是可以相互结合,形成更强大的规划系统。我们应该继续探索如何更好地利用LLM的潜力,同时也要注意到现有方法的局限性。例如,如何解决幻觉问题,如何更好地处理多模态输入,如何在保证性能的同时提高计算效率,这些都是值得我们深入研究的方向。
此外,我们还应该关注LLM Agent在实际应用中的伦理和安全问题。随着这些智能体变得越来越强大,如何确保它们的行为符合人类的价值观和伦理准则将变得至关重要。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-03
开发者转向 AI 应用工程,真正要迁移的是工程判断力
2026-07-02
不改一行代码,看透 AI Agent 的每一次调用
2026-07-02
AI 不缺智商缺纪律:一场 Harness 工程化实践
2026-07-02
天工 3.2 重磅升级:Skywork Tags 上线,给 Agent 一张工牌,邀其加入你的工作群聊
2026-07-02
Context Infra 会是 AI 领域的下一个热点
2026-07-01
一文了解|SkillScan 智能体技能安全扫描最佳实践
2026-07-01
协作的逆向演进:从 Agent 逻辑重构团队管理
2026-07-01
港科大郭毅可谈Agentic AI时代的核心命题:人机共生,人不可能退场
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-05
2026-04-14
2026-04-24
2026-04-22
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。