微信扫码
添加专属顾问
探索OpenManus多智能体框架的快速崛起与技术细节。 核心内容: 1. OpenManus多智能体框架的背景与缘起 2. OpenManus的设计思路与核心框架 3. Prompt和Tools在多智能体系统中的作用
一、背景与缘起
随着大模型在推理与生成上的能力不断提升,Agent(智能体)技术也在近段时间"刷屏"并引起广泛探讨。
3 月 5 日晚 Manus 展示的多智能体 Demo 给业内带来深刻印象;3 月 7 日,国内 DeepWisdom MetaGPT 团队与 CAMEL AI 团队先后开源了 OpenManus 与 OWL,进一步让多智能体技术的应用与实践在社交媒体及 GitHub 社区呈爆发性传播。
OpenManus 团队基于此前多智能体研究成果和工程积累,几乎以"闪电"速度完成核心系统:团队在 1 小时内实现了核心功能,3 小时内上线初版本。如此快速的研发进度,既来源于对多智能体框架的长期技术沉淀,也与系统内部设计的高度抽象、可组合性密不可分。正因此,OpenManus 一经发布便收获了过万星(目前已超过 2 万 Star),同时引发了业内对 Agent 技术发展趋势的再次聚焦。
二、OpenManus 的设计思路
从外部来看,Manus(以及复刻的 OpenManus)本质上是一个多智能体系统(Multi-Agent System)。不同于单一大模型那种一次性"大而全"的回答方式,多智能体系统通过"规划—执行—反馈"的循环,逐步解决复杂的真实世界问题。在 OpenManus 的设计中,最核心的思路可以概括为以下几点:
极简可插拔框架
OpenManus 的核心设计是构建一个非常精简的 Agent 框架,强调模块化和可扩展性。它通过可插拔的工具(Tools)和提示词(Prompt)的组合来定义 Agent 的功能和行为,降低了开发和定制 Agent 的门槛。
Prompt 决定 Agent 的行为逻辑和思考方式;
Tools 则提供行动能力(如计算机操作、代码执行、搜索等)。
通过对 Prompt 和 Tools 的自由组合,就能快速"拼装"出新的 Agent,赋予其处理不同类型任务的能力。
工具驱动的 ReAct Agent
OpenManus 基于 ReAct(Reason + Act)模式,并以工具为核心驱动 Agent 的行动。Prompt 引导 Agent 的推理和逻辑,而 Tools 则赋予 Agent 行动能力。ToolCall Agent 的引入,进一步提升了工具使用的效率和规范性。
规划能力处理复杂任务
OpenManus 延续了 Manus 的多智能体规划优势,将 PlanningTool 用于对用户需求进行高层规划。这种"先规划,后执行"的思路在复杂、长链任务上效果更佳。PlanningTool 将复杂的用户需求分解为线性的子任务计划,这种规划能力是处理现实世界复杂问题的关键。过去的研究表明,在相同模型能力下,如果缺乏系统的分解和规划,许多真实问题的成功率会大打折扣;而加入规划后,成功率会有显著提升。
动态 Agent 分配与工具调度
当一个任务拆解出若干子任务后,系统会根据子任务类型,动态将其分配给预先定义或适配的 Agent(有各自的工具集和能力倾向)。这种**"临时分配 + 工具协作"**的机制,可以最大化利用多模型、多工具的组合优势,提高应对不同问题场景的灵活度。Agent 预先装备了不同的工具集以应对不同类型的任务,提高了系统的灵活性和效率。
三、工作流程与执行路径
OpenManus 的运行流程可以清晰概括为"规划→分配→执行",具体步骤如下:
用户需求输入
用户在前端或命令行中输入复杂的需求,例如"写一段代码完成某种功能,并自动部署到服务器上"。
PlanningTool 规划
系统先调用 PlanningTool,对需求进行分析与分解,形成一个线性结构的计划或任务序列。比如,会将需求拆解为:
分析需求与环境
编写初始代码
测试并修复错误
部署并验证结果
这些子任务被记录在一个 plan 或类似结构中。
任务分配与执行
如果任务中涉及大规模数据分析或机器学习流程,可能会调用一个具备 Data Interpreter 能力的 Agent;
若任务需要复杂的代码修复或文件管理,则会调用另一个能够使用 ComputerUse 工具的 Agent;
系统按照顺序从计划中依次取出子任务;
根据任务关键字或意图判定,分配给最合适的 Agent。目前 Agent 分配主要基于正则匹配,未来考虑使用 LLM 实现更智能的任务分配。
每个 Agent 都会采用 ReAct 循环(Reason + Act)与 Tools 进行交互,以完成自己所负责的子任务。
结果汇总与状态更新
当某个子任务执行完毕后,系统会将执行结果、关键上下文信息进行必要的"总结与压缩"(以避免不断增加的冗长 Memory),然后存入当前的"Plan 内存"或全局可访问的共享内存。
如果任务完成顺利,进入下一子任务;
若出现执行失败或结果异常,系统可进行自动调试或重新规划,视设计实现程度而定。
整体产出
当所有子任务执行完毕,系统对整体结果进行汇总并返回给用户,或完成如网页部署、自动执行脚本等操作。
在这个过程中,多 Agent + 工具的结构会在复杂需求上展现明显的优势,尤其当需要长链思考、结合搜索或外部工具时,能够更好地完成通用大模型难以一次性解决的工作。
四、技术架构剖析
首先来看一下 OpenManus 的整体工程结构,剔除配置和资源文件后,整个项目的核心仅包含约 30 个文件(3月7号版本,所有内容都基于当时的版本),结构清晰且高度模块化:
.
├── app
│ ├── agent
│ │ ├── base.py
│ │ ├── manus.py
│ │ ├── planning.py
│ │ ├── react.py
│ │ ├── swe.py
│ │ └── toolcall.py
│ ├── flow
│ │ ├── base.py
│ │ ├── flow_factory.py
│ │ └── planning.py
│ ├── prompt
│ │ ├── manus.py
│ │ ├── planning.py
│ │ ├── swe.py
│ │ └── toolcall.py
│ └── tool
│ ├── base.py
│ ├── bash.py
│ ├── browser_use_tool.py
│ ├── create_chat_completion.py
│ ├── file_saver.py
│ ├── google_search.py
│ ├── planning.py
│ ├── python_execute.py
│ ├── run.py
│ ├── str_replace_editor.py
│ ├── terminate.py
│ └── tool_collection.py
项目依赖也相对简单,主要包括一些用于数据验证(pydantic)、AI 服务调用(openai)、浏览器控制(playwright、browsergym、browser-use)和一些基础工具库:
pydantic:数据验证和设置管理
openai:OpenAI API 的客户端库
browser-use:构建能使用网络浏览器的 AI 代理框架
browsergym:训练 AI 使用网络浏览器的环境
playwright:浏览器自动化库
googlesearch-python:无需 API 密钥进行搜索的库
这样的结构设计使得 OpenManus 在提供强大功能的同时保持了极高的可维护性和可扩展性。
OpenManus 的架构由四个主要模块构成:
核心多智能体框架(Agent)
Agent 模块采用清晰的继承层次,自底向上逐步增强功能:
示例代码(Manus 实现):
class Manus(ToolCallAgent):
"""
A versatile general-purpose agent that uses planning to solve various tasks.
"""
name: str = "Manus"
description: str = "A versatile agent that can solve various tasks using multiple tools"
system_prompt: str = SYSTEM_PROMPT
next_step_prompt: str = NEXT_STEP_PROMPT
# Add general-purpose tools to the tool collection
available_tools: ToolCollection = Field(
default_factory=lambda: ToolCollection(
PythonExecute(), GoogleSearch(), BrowserUseTool(), FileSaver(), Terminate()
)
)
BaseAgent:定义了智能体的基础属性(name、memory、system_prompt)和基本行为(执行逻辑、状态检查)。
ReActAgent:实现了经典的 "Reasoning + Acting" 模式,先思考后行动,每一步执行都分为 think 和 act 两个阶段。
ToolCallAgent:在 ReAct 基础上进一步细化,使 think 阶段专注于工具选择,act 阶段负责执行所选工具。
Manus:继承 ToolCallAgent,主要通过定制 system_prompt 和 available_tools 来赋予不同能力。
Tools(工具层)
工具模块是 OpenManus 的行动能力基础,各类工具均继承自 BaseTool:
其中,planning.py 实现了 Manus 著名的计划功能,用 Markdown 格式管理任务计划并跟踪执行进度。
ComputerUse:命令行和计算机操作
BrowserUse:网络浏览和交互
PythonExecute:执行 Python 代码
GoogleSearch:网络搜索
FileSaver:文件读写
PlanningTool:任务规划与追踪
Prompt(提示词模块)
Prompt 模块包含了各种 Agent 使用的指令模板,例如 Planning 的系统提示:
PLANNING_SYSTEM_PROMPT = """
You are an expert Planning Agent tasked with solving complex problems by creating and managing structured plans.
Your job is:
1. Analyze requests to understand the task scope
2. Create clear, actionable plans with the `planning` tool
3. Execute steps using available tools as needed
4. Track progress and adapt plans dynamically
5. Use `finish` to conclude when the task is complete
Available tools will vary by task but may include:
- `planning`: Create, update, and track plans (commands: create, update, mark_step, etc.)
- `finish`: End the task when complete
Break tasks into logical, sequential steps. Think about dependencies and verification methods.
"""
而 Manus 的系统提示则更加简洁:
SYSTEM_PROMPT = "You are OpenManus, an all-capable AI assistant, aimed at solving any task presented by the user.
You have various tools at your disposal that you can call upon to efficiently complete complex requests.
Whether it's programming, information retrieval, file processing, or web browsing, you can handle it all."
Flow(执行流程模块)
Flow 模块负责任务的高层编排和执行流程管理:
PlanningFlow 的执行流程:
每步执行前,系统会生成上下文丰富的提示:
step_prompt = f"""
CURRENT PLAN STATUS:
{plan_status}
YOUR CURRENT TASK:
You are now working on step {self.current_step_index}: "{step_text}"
Please execute this step using the appropriate tools. When you're done, provide a summary of what you accomplished.
"""
BaseFlow:抽象基类,定义了 Agent 管理和执行接口
PlanningFlow:实现基于规划的执行策略
创建初始计划(_create_initial_plan)
按计划步骤调用适当的 Agent
跟踪计划执行状态并动态调整
基础版本(Manus):
用户输入需求,调用 Manus agent 的 run 函数
run 函数循环执行 step 操作(来自 ReActAgent)
每个 step 包含 think(选工具)和 act(执行工具)两个环节
直接使用基础工具集(Python执行、搜索、浏览器、文件保存等)
高级版本(PlanningFlow):
使用 PlanningTool 对需求进行整体规划
针对每个子任务动态生成适合的上下文和指令
调用 Manus agent 执行各个子任务
维护计划状态和执行进度
值得注意的是,在当前版本中,虽然 PlanningFlow 具备多智能体调度的能力,但实际上只有单一的 Manus 智能体在执行任务。未来版本可引入更多专业化的 Agent 以充分发挥多智能体协作的优势。
与前文描述一致,OpenManus 实现了简单但有效的记忆管理和 Agent 分配机制:
Memory 管理:每个子任务执行后进行总结压缩,避免上下文过长
Agent 分配:当前主要基于正则匹配和规则,后续可考虑 LLM 辅助分配
五、未来优化与发展展望
虽然 OpenManus 在短时间内完成了初版本的核心功能,但团队也对后续的发展方向有清晰的思考,包括:
增强规划能力
更深入地将 Tree-of-Thought 等搜索方法引入,或使用自适应的规划方案,让多智能体的任务分解与决策更高效、更精准。
标准化评测 & 基准
在 GAIA、TAU-Bench、SWE-Bench 等多智能体任务集上进行持续评测,为后续工程优化提供量化标准,也能让社区更透明地了解 OpenManus 的改进幅度。
多模型适配与成本优化
从使用单一大模型(如 GPT、Claude)走向集成多个"专用小模型"(如针对代码、搜索、翻译、决策的模型),以更低成本实现超过大模型的效果;
对 Token 消耗进行工程化、缓存化的优化,通过更精细的上下文管理显著降低调用成本。
记忆管理与信息追踪
在多智能体长链任务中,如何高效追踪并管理上下文信息是关键挑战;团队将探索更灵活的 memory 结构,避免信息丢失与无效重复。
更多工具生态 & 智能创造工具
随着工具数量与类型增加,Agent 对于工具选择、调用参数、执行顺序的管理将愈发复杂;如何让 Agent 自动创建或改写工具,也将成为下一阶段研究的热点。
商业化场景深耕
多智能体在代码生成、网站搭建、数据分析等场景已有快速落地趋势。只有在"真实场景任务"和"用户效果"上极致打磨,才能促使用户持续使用 Agent 并产生商业价值。
六、与 MetaGPT 等项目的内在关联
OpenManus 在短时间里得以火速上线,与其团队早期在多智能体领域的系列研究息息相关。MetaGPT、Data Interpreter、AFlow、FACT、SELA、SPO 等项目不仅在论文、开源代码层面做了长期积累,也对多智能体的核心模块——规划、工具调用、搜索与记忆——进行了深入探索。其中:
MetaGPT:最早的多智能体协作框架,将 SOP(标准操作流程)进行角色化分配,以提升大模型解决复杂任务的成功率。
Data Interpreter:针对机器学习与数据建模场景,强化了智能体在数据处理、模型训练和工具使用上的能力。
AFlow:利用蒙特卡洛树搜索(MCTS)在多任务中动态探索最优的 Agent 组合与执行流程。
FACT:通过改进大模型的检索与记忆机制,增强多事实问答(QA)等任务的准确度。
SELA:让智能体具有蒙特卡洛式的调试能力,在机器学习任务中自动优化策略。
SPO:一种自监督的 Prompt 优化工具,适合短样本或质量难以度量的应用场景。
这些项目形成了一个庞大的多智能体技术储备,为 OpenManus 的快速构建提供了坚实的"技术底座"。
七、结语
OpenManus 的出现让多智能体技术再次成为关注焦点。其核心价值并不在于"复刻 Manus"本身,而在于以极简、可插拔的方式实现了多智能体的规划 + 工具功能,并将这一架构开源给社区,为开发者与研究人员提供了可自由扩展、快速迭代的基座。
通过对其代码结构的分析,我们可以更清晰地看到 OpenManus 设计的精巧之处:它用极少的代码(约 30 个核心文件)实现了多智能体框架的核心功能,通过清晰的继承关系和模块化设计实现了高度可扩展性。虽然当前版本在性能和复杂任务处理上可能仍有提升空间,但作为一个开源框架,它为社区提供了一个极具价值的起点。
Agent 未来的发展图景依旧充满未知:随着大模型能力的进一步进化,多智能体系统需要在更好的规划、多样化的工具、更高效的记忆管理等方面不断迭代,才能真正应对人类社会大量复杂与长尾的应用场景;同时,在商业化落地与成本控制的赛道上,Agent 产品将面临更直接的竞争与优化需求。
OpenManus 通过社区与行业的关注,也正证明:多智能体技术是一个兼具学术前沿探索与实际工程价值的领域。未来,期待更多像 OpenManus 这样开源、开放、有强大技术沉淀的项目出现,不断拓展智能体的边界,让 AI 在解决人类复杂问题的路上迈出更坚实的一步。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-05
一个开源平台,编织起了Agent「互联网」
2026-07-05
我做了一个开源 AI 语音输入法——SayIt
2026-07-04
ThinkParse 1.1.0 开源发布:把文档解析,做成可扩展的企业级服务
2026-07-04
Agent 工程终于有脚手架了, Google开源一个开发agent的工具
2026-07-03
用云新范式:Qoder Cloud Agents × Alibaba Cloud Skills
2026-07-03
Ornith-1.0 发布: 新一代 Agentic Coding 之王,MIT 开源
2026-07-02
Meta把内部设计系统开源了,支撑内部13000+应用,专为Agent调优
2026-07-02
别再把 AI 当搜索引擎了,这 20 个操作让它替你干活
2026-04-09
2026-04-18
2026-04-18
2026-06-22
2026-05-10
2026-05-06
2026-05-31
2026-05-20
2026-04-21
2026-04-21
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。