2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

为什么Manus底层模型没用DeepSeek?——Manus六问六答

发布日期:2025-03-07 15:05:11 浏览次数: 2552
作者:降维实验室

微信搜一搜,关注“降维实验室”

推荐语

Manus如何从众多AI产品中脱颖而出?深入解析其技术选择与理念。

核心内容:
1. Manus选择底层模型的考量与理由
2. DeepSeek与Manus技术路线的差异分析
3. 多模态、函数调用等Manus看重的特性解析

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

在Manus迅速出圈之后,各种信息漫天飞舞,有严肃分析和解读,但并不多,更多的是各类博主(特别是短视频博主)震惊体式的摇旗呐喊。

那么在Manus各类信息过载的同时,潘寒试图从各种信息中抽出部分有价值的进行分析,总结了六个问题。

力求让读者看懂“是什么”之后也真正搞懂“为什么”,同时在眼花缭乱的AI信息爆炸中破除FOMO焦虑——


一、为什么Manus底层模型没用DeepSeek?

Manus各类出色任务背后到底用了什么模型?

根据相关博主的公开信息,在3月6日上午官方小范围产品沟通时披露,Manus背后主要用了Claude(api)和自己后训练的阿里Qwen。

很多读者会有疑问——为什么Manus不用DeepSeek呢?又强大又便宜。

为什么呢?

在2月22日,Manus的联合创始人季逸超在混沌学院进行了一次对话,在这次对话中,季逸超分享了如下观点——

“DeepSeek并不是万能的,具体问题要具体分析,比如要做Function calling(函数调用),选择千问Qwen模型可能更合适。”

“DeepSeek的模型(无论V3还是R1)本身更侧重推理能力,在多模态、函数调用、长期规划等能力上并不出众。”

“从DeepSeek最近的V3论文看,其架构已与传统模型有显著差异,但除官方外,国内推理厂商的Infra优化普遍不足,仍需大量工作。”(彼时DeepSeek开源周还没有开始)

个别无脑读者不要据此就将Manus和DeepSeek对立起来(回去认真看原文),季逸超只是在就事论事地分析他们选择的技术路线背后的逻辑。

可以看到,Manus之所以没有选DeepSeek作为底层模型,是因为DeepSeek擅长的是推理,并不擅长Function calling(函数调用)、多模态、长上下文。

而这三个东西恰恰就是Manus这类高度自动化Agent产品非常看重的特性——

Function calling(函数调用)可以让Agent实现远超传统Chatbot的多样任务。

长上下文则可以让Agent实现多步骤的复杂任务,如果一个任务分7步,上下文不足,做到第6步已经忘了第1、2步,那很多任务分分钟歇菜。

多模态就更容易理解了,Manus的很多任务是要读网页、看视频的,多模特让Agent有了眼睛。

在这三点中,长上下文所驱动的长链规划能力显得更重要一些,Monica(Manus母公司)创始人肖弘在张小珺的播客采访中也非常详细地阐述了这一点——

“我们测试下来全世界只有Claude3.5 Sonnet能够在把我们刚刚所说的那个架构跑起来,我们内部管这个叫Agent能力,传统的Chatbot它训练过程中,它就是假设一轮对话就要尽可能解决你的所有问题的,只有Claude3.5 Sonnet有长程规划能力和逐步解决问题的能力。”

根据Twitter博主Alexander Doria的说法——

OpenAI的DeepResearch之所以表现惊艳,是因为其并不是简单地在GPT基础上增加了外部搜索功能,而是训练了一个全新的模型学习了基础的浏览能力(搜索、点击、滚动、文件解析),以及如何通过强化学习来整合大量网页信息,生成结构清晰、来源可靠的研究报告。

从这个意义上,国内模型依然在针对Agent所需特性上有巨大的训练空间。


二、给Manus灵感的Devin是个什么?

Devin是去年AI编程领域一个热度挺高的自动化Agent产品,它主要集中在代码领域,号称能顶一个程序员。

它有三个特征——

第一,它是异步的,即你不需要像聊天产品一样时刻和它同步交互,交给它一个任务,你就可以干别的了;

第二,Devin有云端虚拟机,这一点很重要,这意味着你电脑关了它也可以继续工作,不需要动用户的电脑;

第三,它能随时打断,需要帮助的时候会寻求用户帮助或确认,同时会根据用户反馈积累Know How的知识。

而这三个特征,Manus全部都有,肖弘也坦言团队从Devin和Cursor中得到了灵感。

Devin在产品定义上是相当超前的,超越了Coze、Dify等产品的开发理念,也不同于cursor等编程产品。

关于Devin,肖弘是这样评价的——

“Devin有点可惜,它直接选择了最硬核的工程师群体,也不能叫可惜,我相信他在美国也是发展的很好的一家公司,但我会更愿意选择通用而不是垂直到一个具体的行业,我认为这个架构是很符合我对Agent的想象的,而他应该是给普通用户就能用的一个产品。”

戴雨森是Manus投资人真格基金的合伙人,他在播客十字路口中用了一个非常夸张的表述评价Devin——

“它的出现可能标志着人类历史的一个重要时刻。”

我当时很诧异,为什么戴雨森会用这种虎狼之词?

他自己的解释是——

人类历史上发明了很多工具,甚至有人说人就是能够使用工具的动物,工具基本上分为两种——

第一种就是说需要持续注意力的工具比如说像电钻,像锤子。

第二种就是说叫做机械重复的自动化工具,比如说洗衣机、自动售货机流水线,它可以去不需要我的关注,但是它只能解决重复的东西。

人类一直在寻找第三种——不需要持续的注意力,但同时又能自我规划去解决问题的。

而Devin就是这种真正自主的Agent,即Agent中的Agent。

没错,工程层面的创新意义其实被低估了,事实上,这一轮AI改变最为深刻的行业就是AI Coding,而支撑这一改变的关键变量就是Cursor这样的应用层产品创新。

Devin毫无疑问是一个创新的产品,也有很多报道,但问题是——为什么只有Monica团队想到要学习借鉴并且第一个把它做起来了?

这是很多国内大厂、中厂团队需要反思的。


三、如何理解AI时代的“安迪-比尔定律”?

Manus团队的张涛在即刻上发了这么一段——

“去年底我开始鼓吹今年的推理算力需求不是十倍增长,而是千倍。大部分朋友都觉得我疯了,这个非共识让我们走上了一条很不一样的道路。”

Agent对token消耗是呈指数增长符合肖弘在接受采访时称的AI时代的“安迪比尔定律”——Andy gives, Bill takes away”。该定律说的是在PC时代,英特尔的安迪格鲁夫将芯片性能提升1倍,微软的比尔盖茨就会将软件复杂性提升1倍。

AI时代也一样,LLM厂商通过性能优化将token的生成成本降低了10倍,而Manus为代表的Agent则会让token的消耗量提升10倍。

与PC时代不同,AI领域这一定律速度更快,PC软硬件升级周期通常为18个月,而AI模型和应用迭代周期缩短至2-6个月。

Manus为代表的Agent的发展其实也遵循了“杰文斯悖论”——蒸汽机效率提升反而刺激煤炭消耗总量增加,即当资源使用效率提高时,不会减少资源总消耗,反而会增加。

基于以上的推导,从更长远的角度,我对国内Agent的发展保持理性乐观——

哪怕如张涛所预测:推理算力需求呈千倍增长,以国内向来的卷价格、卷成本的优良传统,“中国卷王”们有望在下一轮Agent大战中获得结构性成本优势。

四、大厂抄Manus作业容易吗?

很多人说,这个几十个人的团队做出来的东西,大厂很快就可以复制。

事实上,我认为这个复制的难度不小,原因在于——

1.复合经验:

Monica团队的经验非常复合,Monica本身的产品就是对接各家模型的,对不同模型的能力边界的理解会更深刻。

同时该团队在长期与浏览器插件打交道过程中对浏览器产品异常熟悉,甚至立项探索过类似Arc的AI浏览器的项目,Manus的联创季逸超在NLP和机器视觉领域沉浸多年

而Monica的定位在海外,这也让其更容易对海外Agent产品的进展保持高频关注。

2.需求理解:

某种意义上这是Monica团队的基因,这种对产品需求的非常接地气的理解从创始人肖弘早年产品“壹伴助手”和“微伴助手”,我早期公众号时代用的就是“壹伴助手”,的确方便实用。

如果你深入用过Monica,你就能更直观地感受到产品巧思所展现的产品功力——比如,在Monica,你是可以一个指令,唤起多个模型答案的;

再比如,它支持常用的提示词进行快捷调用;更不用说其各种非常细致实用的小工具。

国内做AI应用的PM,其实都应该深入研究一下Monica功能和背后的产品理念。

比如,Manus的整个过程支持分享,分享其实没什么,但Manus的分享是支持过程回放的,而且,Manus生成的网页,直接就是可以公开访问的,这些小细节都是团队产品功力深厚的直观体现。

从豆包、Kimi、元宝、文心一言在功能层面的同质化来看,我不认为大厂在短时间内能大幅提升创新能力。

3.团队敏捷性:

Manus在昨天的闭门分享了一个观点——“AI产品的迭代周期超过了大厂的OKR的考核周期”

这句话背后是充分说明,和大厂相比,小团队的扁平团队的敏捷在AI产品的开发中非常关键。

Manus团队不大,产品负责人张涛原来是光年之外的产品负责人,做过8年C端产品,5年B端产品,而Manus的联创季逸超(产品视频中出镜的那位)也是一位技术大咖,十多年前在高中时就单枪匹马手搓过一款产品猛犸浏览器。

创始人肖弘能将这些人组织到一起,本身就证明了其产业认知和团队建设能力,这种隐形的软实力无法单纯靠堆人解决,不要忘了,DeepSeek也就100多人。

以上三点,解释了为什么是Monica团队率先做出了Manus,而这一样一个综合各方面禀赋的敏捷团队,大厂要短时间组件并不容易。

五、Manus接下来会推进大规模融资吗?

我觉得大概率会。

逻辑在于,尽管上面说大厂短时间推出并赶超并不容易,但大厂一定会入局。

如果说Monica原来的“All in One”聚合产品能在大厂看不上的赛道找到相对的舒适区,那么对于Agent这个符合AI产业未来演进方向的主战场,巨头绝无可能袖手旁观。

想一想对标Dify的Coze、元器,想一想对标Cursor的Trae。

不要怀疑大厂卷应用的资源和决心。

DeepSeek毫无疑问动摇了不少大厂、中厂自己训练基座模型的决心,但在应用层,它们的推进力度反而上了一个台阶,腾讯以极快的反应速度饱和式强推元宝就是一个明证。

我们来看上边所说的Devin,它的估值是多少?

答案是20亿美金。

我不知道Monica团队的估值,但按之前的各种公开资料看,大概率是没有到20亿美金这个级别的。

也就是说Manus目前手中大概率并没有和巨头打大仗的资金弹药。

想一想字节这样推土机般的App工厂、想一想国内云厂商无情的降价机器。

假如Manus未来面对一个“价格是十分之一、体验是80%”的大厂竞品,用户的忠诚度无疑是一个修罗场般的考验,而卷价格,只是大厂最常规的操作。

所以,按这个简单的逻辑推断,尽管Monica团队之前在融资层面相对保守(Monica现金流不错),肖弘也多次说要保持自己的节奏,但为了给Manus囤积弹药,团队大概率会进行下一轮融资。

好在这次迅速出圈会给其带来相对宽裕的融资环境,让其团队有可能以较小的股份稀释获得相对充足的资金以对抗巨头未来的竞争。


六、到底应该如何评价Manus的表现?

我们的确看到官方案例中有无数惊艳的案例,同时不同的博主

关于它的表现,我觉得有三个维度或许有助于我们更客观地观察它的表现——

1.GAIA的Benchmark分数决定了它的水准是在基准线以上的;

GAIA由Hugging Face等研究团队于2024年联合AutoGPT推出,它包含466个多领域、多模态的问题及标准答案,只在测试Agent的解决问题的能力。

GAIA这是一个反传统的评测,与传统AI基准测试(如法律、数学等专业领域)不同,GAIA专注于对人类简单但对AI困难的开放性问题,这些问题模拟日常场景。

比如——最新的乐高维基百科页面中有多少张图片?”

再比如——“在美国国家航空航天局 2006 年 1 月 21 日的天文照片中,可以看到两名宇航员,请问其中年龄更小的宇航员在太空中待了多少分钟,四舍五入精确到分钟。”

Manus在所有三个难度级别上都实现了超越OpenAI的性能,这个成绩无疑是让人印象深刻的。

2.高分并不直接决定个人使用的实际表现;

比如从实测博主李继刚阑夕等生成的案例看,它的各项表现完成的不错,无论是生成可交互的科普网页,还是开发文字游戏,完成度很高。

但从花生果壳的体验看,其中有一些任务完成的并不好,比如,花生让其生成一本书的营销计划,从结果看,很庞大,但细看非常笼统,并没有太多个性化内容,一本书的营销预算是54万,基本不可用。

而果壳的测试也发现Manus在一些任务用存在如下问题——1.过度推理,过于发散;2.信息来源质量不够;3.无法按要求的格式交付;4.经常需要接管。


3.正确的评价是理解其边界、管理好预期;

Manus目前的架构决定了它的边界在深入研究、轻度合成的信息处理领域,属于Artifacts+DeepResearch+Operator+Claude Computer Use的轻度缝合怪,还不是完全体。

比如它的虚拟机操作范围的核心还是浏览器,你让它剪个片子、帮你玩《艾尔登法环》这类输入就属于并没有理解Manus的能力边界。

关于Agent,一个极简版的理解逻辑是——任务成功率等于任务步数乘以每一步的成功率。

假如一个任务总共要分三步,而底层模型每一步成功率是90%,那么总体成功率就是90%*90%*90%=72.9%,同理,如果单步成功率为70%,总体成功率就变成70%*70%*70%=34.3%。

两年前的AutoGPT之所以不可用,一个重要原因为当时的模型单步骤成功率太低,导致总成功率不可用。

而Manus的发布就基于基础模型过去两年的快速进步,让其在某些单任务上的成功率快速上升,以至于到了基本可用阶段。

Manus恰如其分地抓住了这个时间点,同时将其推向了消费级市场。

关于Manus的体验,一个容易忽视的要素是价格——

根据官方闭门会披露,单任务的成本是2美元,也就是跑一个任务大概花费14块人民币。

这意味着,如果Manus按成本+利润定价,用户最终用到或许会超过这个价格,那么在这个价格下,我们再来看其产出质量,无疑需要重新评估。

静待后续市场检验。


结语

我昨天看到这样一条Twitter——

没错,我大体是同意这个观点的,“你不拥抱变化,变化就会壁咚你”,但我反对应激性焦虑。

除非你本身就是做AI媒体的,不然如果每一个新热点都要第一时间追,那么你永远追不完。

正确的做法是,一个新东西出来,先让子弹飞一会,然后综合各维度信息判断其价值,决定自己应该多大程度上校准自己的认知和行动。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅