我要投稿

图解Manus产品/技术/体验的最新思考

发布日期：2025-12-29 18:18:34 浏览次数： 2006

作者：鹤啸九天

微信搜一搜，关注“鹤啸九天”

内容简介

Manus内部如何看待通用Agent？看下最新的内部讨论

核心议题：

（1）产品哲学

战略岔路口：通用与垂直优化的战略选择

这两种不同的Agent发展范式，有个形象隐喻：Hao123 还是百度？

Chatbot/Hao123模式：像传统Chatbot或导航网站，开发者作为“供给侧”，预先实现和集成各种特定功能（链接)。用户能被限制在已经提供的能力范围内。这种模式拓展缓慢，且容易陷入同质化竞争。
Agent/百度模式：首先打造具备强大通用能力的底层平台（像搜索引擎，能爬取和理解一切)。这个平台因其通用性，吸引大量用户尝试各种任务（Query)。然后，通过分析高频、高价值Query，反向进行优化，推出“框计算”或“阿拉丁卡片”那样的“预设能力”（Preset)，使得常见任务能够被“秒级”完成。

Hao123加链接，跟百度转链接卡片有本质区别，Chatbot让人感觉非常通用，但实际上没有那么通用。

范斌提出挑战：像专业视频剪辑这样的任务，通用Agent如何与FinalCutPro或Premiere专业软件竞争？Agent在理解和操作复杂图形界面(ComputerUse）方面，短期内难以实现质的突破。

Peak则给出更具未来感的设想：如果Agent运行环境是完整的“带桌面环境的虚拟机”，那么完全可以通过模拟人的键鼠操作来直接使用这些专业软件，从而将通用性推向新高度。

Red指出潜在问题—知识冲突。一个无所不学的通用Agent，可能会在不同领域的知识上产生混淆。例如，用于数据科学的严谨知识，可能与用于市场文案的创意知识在底层逻辑上冲突。未来可能需要某种形式的“领域隔离”或“知识分区”机制。

Manus 如何实现对 Web 复杂操作，确立技术实现路径。

Agent对Web的复杂操作是项目的技术基石。

当前竞品（如 Devin）最大弱点在于“一次性”的会话机制，每次都是全新、无菌环境，导致大量重复工作和糟糕的用户体验。

Manus 必须从根本上解决这个问题，实现全面的状态持久化。

登录状态（Cookies&LocalStorage)：实现真正“代理”的基石。Agent必须能保持在各种网站登录状态，避免每次都需要用户手动介入。团队目标是用户只需登录一次，Agent就能长期代表用户进行操作。
文件系统：为每个用户或项目提供持久化工作目录。所有生成的文件、下载的数据、编写的代码都应该被保存下来，方便在不同会话之间复用和迭代。
环境变量与密钥管理：API Keys等敏感信息，直接写入代码或使用传统的.env文件都存在安全隐患或体验问题。Devin提供独立的secret配置界面。Manus需要设计一套既安全又对开发者友好的密钥管理系统。

Agent遇到障碍（如复杂的验证码、两步验证登录）时，必须有流畅的机制让用户能够“接管”浏览器，完成操作后，再将控制权交还给Agent，弥补当前AI能力不足、确保任务能顺利完成的关键环节，“人”在回路中的作用。

界面的双重角色：建立信任与提供控制

Devin界面分为左右两栏：左侧是对话流，右侧是Agent工作区（Planner,Shell,Browser)。

这个设计巧妙地服务了两类不同用户心智：

对于管理者/非技术用户（如Red）：可能并不关心右侧窗口里具体的代码或命令，但这个窗口的存在，动态地展示了Agent“正在忙碌”，从而建立起一种“它在认真干活”的信任感。
对于工程师/专业用户(以潘潘、范斌)：要看到过程细节，以便进行调试、监督和修正。右侧工作区为提供了这种必要的“控制感”和透明度。

但有明显不足：

信息过载：一上来就将所有工作组件（Planner, Shell,Browser,Editor）全部平铺给用户，会造成巨大的认知负担，尤其是对新用户。
缺乏全局概览：潘潘(PanPan)尖锐地指出，其Editor没有文件目录树，这对于任何写过代码的人来说都是难以忍受的。“我都没有一个overview”，这使得理解和修改一个稍复杂的项目变得异常困难。
功能组织混乱：将表格、文档等不同类型的内容都塞进一个“Browser”标签页里，既不符合用户直觉，也限制了未来的扩展性。