我要投稿

实测MiniMax M3，全链路Agent要的三块拼图终于凑齐了

发布日期：2026-06-03 18:48:29 浏览次数： 1524

作者：卡尔的AI沃茨

微信搜一搜，关注“卡尔的AI沃茨”

RAGino Sans GB,Microsoft YaHei UI,Microsoft YaHei,Arial,sans-serif;margin: 0 0px;margin-bottom: 0px;padding: 0px 0px;border: 1px solid rgba(NaN, 10, NaN, 1);background-color: rgba(255, 255, 255, 1);border-radius: 12px;" data-pm-slice="0 0 []">

MiniMax M3发布了，后面还会开源，

看到技术报告后我就只想说三四五六个字，

真齐活了，啥都不缺了。

今年模型发布太多了，我对又一个更强模型其实已经有点麻了，赢的指标太多了，每个月都充Token Plan的我更关心的是，它有没有把Agent高频用到的几大能力都凑齐，

从纸面能力上看，

M3在SWE-Bench Pro（软件工程）拿到59.0，超过了GPT-5.5和Gemini 3.1 Pro，接近Opus 4.7；在GPT5.5擅长的终端编程上，跟Opus 4.7同分。在多模态测试集OmniDocBench上，得分超了Gemini 3.1 Pro；在自主Agent的端到端评测框架Claw-Eval上拿到最高分。

感觉就像是张无忌，拿着乾坤大挪移在对手最厉害的招数上打败TA。

说实话，GPT5.5 400k的上下文我忍很久了，放到Hermes里不够用啊，

Claude就别说了，看到我Agent里不是Claude Code的系统提示语之后第一时间就ban我了。

用的时间越久越觉得有点像个不可能三角一样，

写代码强但上下文短，进到代码库里，改几轮就开始忘前文了。

上下文长但代码力不够，结果就是读了很久文件然后给我一个丑不垃圾的网页

拜托，真的不要再让我看到这种雷霆大丑网页了好吗。

那接下来就是传统环节了，把MiniMax M3放哪个框架来测试呢？

我这里整合了一张表，我出于想试试看Claude Code新能力Dynamic Workflows，一口气开几百个subagent的壮观之感就单方面选这个了。

额外补充一下，M3在MiniMax Code里面是可以调用Minimax全家桶API的，文字、语音、视频分析都有。

大家如果跟我一样经常换模型测试的话，可以用cc switch来切换模型。

直接先来复刻一把，这次MiniMax放出来的主case本来是把ICLR 2025 Outstanding Paper Award论文丢给M3，让它独立复现。

技术报告里面给到的数据是，M3自主运行接近12小时，产出了18次commit和23张实验图表，并跑通了核心实验。

离谱的是，M3的多模态能力已经可以做到把论文里的公式，曲线图、实验设定放到同一个长线程里处理。

我第一时间想到的跟这个类似的就是Karpathy大神三个月前把他的nanoGPT升级成了nanochat，这是一套完整的大模型训练实验框架，覆盖了所有主要阶段，包括分词，预训练，微调，评估，推理和聊天 UI，只花48刀就把模型训练到了GPT-2水平。

我今天就让MiniMax m3用动态工作流在我这台mabookpro训练一个GPT出来，

触发动态工作流的方式主要有两种，

最简单的方式就是带上workflow这个词，词会变成一个彩虹的配色，系统识别到之后就会生成一个脚本，在执行之前会给我们预览，确定后再启动多Agent的并行。

在运行的过程中，随时可以用/workflow指令或者直接用/config 指令关掉这个动态工作流。

如果都想要MiniMax M3的额度打满，也可以输入/effort 选择ultracode，然后按shift+tab切换到auto mode自动模式，后面基本上都全自动多Agent了。

之前用Claude sonnet 4.6的时候都没敢切换成ultracode，现在用MiniMax m3顶上之后这大紫色是真好看啊。确认之后，对话框还会短暂地变换成全彩虹色，非常有仪式感，所以这就是氪金玩家的愉悦之感嘛。

真正跑起来的时候反而是有点唏嘘了，

大家都知道我是个算法程序员，几年前运行个比GPT小40倍LSTM（循环神经网络），从数据准备到模型训练，然后等训练曲线出来再到模型推理，再快也要个三五天，最崩溃的就是跑一半发现包的版本不对，模型智力倒退五十年，现在一个Agent就可以在90分钟把所有活干完了。

接着又训练了1000步之后，

这个模型就从一个我咋问都只会回答A的版本变成开始有逻辑的回复，还能算个乘法，简单做问答的版本了。

大模型训练，很神奇吧！

现在你也可以做到了。

很多模型最容易挂在前30次的尝试里，

跑几轮不行，就开始绕圈，摆烂，不然就是来个万金油话术建议我手动检查。

但真实工程里，很多进展就是出现在这种平台期后面。你试了很多次都没提升，然后突然某个方向打穿了。

如果一个Agent没有足够长的上下文，没有稳定的工具调用，它根本走不到后期。

第二个case我来给正在开发2.0版本的Humanize PPT加加速，

Humanize PPT的出发点是给HTML PPT加一个人话大纲和演讲模式，也就是在生成之前先把所有的资料整理一遍，缺失的细节会进一步补全，确定要用多少页，每页都是什么内容才能把我们想讲的内容讲明白。

至于演讲模式一看就清楚了，

有下一页的预览，演讲主题，大小进度条，口播稿，想要脱稿的也可以看关键点。

样式的部分本着不重复造轮子的想法，我兼容了中文的guizang-ppt-skill和英文的frontend-slides，用它们来生成HTML PPT的页面，Humanize PPT完成其他部分。

为了保证设计出来的中英文HTML PPT都好看，

我之前要Claude Code辅助设计，Codex来做资料整合和大纲生成的，这个对于模型的多模态能力还是要求很高的。每一页PPT我都需要模型先用浏览器自动化打开HTML PPT的当前页，然后来个截图让模型去判断动态背景有没有生效，字体有没有大小不一致啥的，跟上一页的视觉元素有没有不同。

但是GPT5.5偷懒得很严重，

就算我给它开启了超高的推理模式，在前几次运行的时候，它还是只给我做了一个临时的兼容处理，

就算我明确跟它说了，我们的定位是原生兼容这个 HTML PPT，完全可以以自然语言的方式去批量生成。

能看得出来我都有点破防了，甚至想自己上手去改代码了。

刚好现在就把这这条做到一半链路全交给MiniMax M3出个计划试试看。

又花了一小时，重新梳理了一遍解决了GPT偷懒留下来的历史代码，Humanize PPT现在可以在对话中调用子Agent，一次性生成guizang-ppt-skill里所有主题了。

执行的过程是有体感上的提速的，2分50s就读完了项目的所有代码还给出了具体到哪一行的修改方案。

看了一下，是因为M3还有一个新架构MSA，能把每个token的计算量压到上一代的1/20，也就说一百万 token 的上下文窗口，预填充（模型在正式回答之前，先把你发给它的内容理解一遍）快9倍，解码（模型个字一个字把答案写出来的过程）快15倍。

最后的最后，

到了经典价格环节，

M3上线之后，Token Plan从固定时间刷新额度变成了固定token。Plus 6 亿 token 49 元/月，Max 18 亿 token 119 元/月，Ultra 55 亿 token 469 元/月。

不得不说，

百万上下文+动态工作流带来的体感太不一样了，

富足到连开发完后做个最小测试，

M3都给我模拟了七种场景，

我打算就把M3当做动态工作流的专属模型了，

直接先来个一个月的Ultra试试看耐不耐用。

@ 作者 / 卡尔

最后，感谢你看到这里👏如果喜欢这篇文章，不妨顺手给我们点赞｜在看｜转发｜评论 📣

如果想要第一时间收到推送，不妨给我个星标🌟

如果你有更有趣的玩法，欢迎在评论区聊聊🤝

更多的内容正在不断填坑中……

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-03

Kimi Work Beta 版邀你体验：你的工作，分我一半

2026-06-03

Agent 越能干，你越不敢放手？ANOLISA给它穿上全套防护

2026-06-03

《审慎部署智能体AI服务》指南

2026-06-03

OpenClaw 和 Hermes 没凉，浅层使用先退场了

2026-06-03

Anthropic突然上线全新CLI：一行命令操控Claude全部API

2026-06-03

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

Codex三大重磅更新上线：合并ChatGPT倒计时

2026-06-02

让 Coding Agent 从黑盒到透明：阿里云 Agent 观测审计数据采集实践

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

大家都在问

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

面向 LLM 的架构设计：什么是真正的 AI Friendly 架构？

2026-06-01

如何使用Codex的Goals机制完成长程任务？

2026-05-26

Codex 的 computer use 功能，为什么这么好用？

2026-05-23

前有用友YonClaw，今有金蝶灵基，中国软件双雄的AI底牌谁能笑到最后？

2026-05-21

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw