微信扫码
添加专属顾问
我要投稿
MiniMax M2.1 实测体验:开源模型中的代码王者,性能直逼商业巨头! 核心内容: 1. M2.1 在延迟、长程任务管理和代码能力上的显著提升 2. 与商业模型 Claude 和 Gemini 的性能对比评测 3. 接入 Claude Code 的具体方法和优势
我是@卜寒兮,主要聊点【科技| AI |科研】方面的内容,这是我在公众号发布的第【29】篇原创内容,感兴趣的可以点击下方关注我。
很幸运前两天受邀参加了 M2.1 的内测,然后今天看到 MiniMax 官方正式发布了,先说结论:我觉得叫 M2.1 有点谦虚了,因为实际体验下来,MiniMax M2.1 的提升很明显。
1.延迟和长程任务的管理明显做了优化,同样的任务比之前效率更高,消耗更少的tokens,写代码不啰嗦;
2.另外指令遵循能力变强;
3.代码能力绝对称得上第一梯队(包括开源和闭源)
实际上,Minimax 在发布 M2 的时候讨论度就很高了,取得了很好的口碑,当时 M2 的拿到了全球前五,开源第一的成绩,尤其在AI coding Agent工具圈子很受欢迎。也是没想到还不到两个月,就更新了 M2.1。
从官方公布的SWE-bench Verified评测结果来看,M2.1(74%)的表现现在不仅是开源第一梯队,更是可以直接跟Claude sonnet 4.5、Gemini 3 pro这种商业模型掰手腕了。
同时M2.1 的激活参数在闭源模型里是最少了,这也是它推理效率高的重要原因之一。
上面提到,M2.1(也包括之前的M2)主打的是AI Coding Agent场景,所以我也是建议把它接入到这类工具中使用。
最推荐 Claude Code 或 Cursor 中的 Claude Code 插件。
一是因为官方提供了标准的接入方法;
二是对于国内的用户来说,Claude Code 用它自己的模型有点不方便,同时也很贵。
接入第三方模型是个不错的方案,能同时体验 Claude Code CLI 的强大和最大程度发挥模型的能力。
Mimax M2.1 接入 Claude Code 的方法如下,安装好Claude code之后,把下面这段配置写入到配置文件中(路径:~/.claude/settings.json):
把其中的<MINIMAX_API_KEY>换成自己的就可以了,API Key申请地址:https://platform.minimaxi.com/user-center/basic-information/interface-key
这样 Claude Code 的默认模型就是M2.1了。
以下是我这两天使用和测试 M2.1 的一些例子。
这是我最近遇到的一个需求和想法,作为一个健身佬,平时有记录饮食摄入量的习惯,之前用的一些健康类APP一般都是手动记录每餐吃了什么,很不方便。而现在多模态大模型完全有分析食物热量的能力,所以就想到如果可以把每餐的照片发给大模型让它自动分析和记录,就方便多了,于是就有了做这样一个应用的想法。
说干就干,我直接把下面这段提示词甩给M2.1,核心需求就是上传图片,调用大模型API进行图片分析,得到结构化的分析结果,然后记录下来。
这是它直出的效果⬇️
核心模块和功能已经实现了,其实我并没有在prompt中指定技术栈,采用什么样的方案完全是模型自己根据需求和功能决定的。
前端采用了原生HTML,后端用的Flash 3.0,数据库用本地SQLite,图片处理用Pillow。
我第一次测试的时候上传图片、点击分析后,半天没有反应,查看日志提示模型调用失败,一开始以为是网络问题或M2.1调用方式不对,导致的Gemini模型用不起来,所以第二轮对话我让它把模型换成Qwen的。
(后来发现其实第一轮的代码没问题,真正原因是我使用测试图片太大了。)
这是这一轮修改的效果,按照要求调用了Qwen的模型进行照片分析,给出分析报告以及自动记录到当天的饮食记录中。所有功能模块正常运行。
接下来就是在此基础上不断的优化或增加功能。比如说我接下来让它
增加日历视图,点击任意日期查看该日饮食摄入;
补录饮食记录,比如某天忘记记录了,可以选在对应日期进行补充;
支持通过手动输入食物描述进行食物营养分析;
UI和交互页面的改进; 等等
这是最后的效果(当然还以继续增加功能和优化,比如选择不同的模型,设置API Key,以及用户登录系统等等)
这个测试案例测下来有几点明显的感受:
1.一是速度很快,明显比之前的Minimax M2要快,不仅表现在延迟低,还有看回答和它的思考过程不冗长,我感觉这是一个“代码模型”应该具备的素质,专注干活就行了
2.二是指令遵循能力很好,在理解了意图之后自动分解任务和生成对应的代码
3.M2.1 在保持高智商的同时,降低了 Agent 调用的延迟和成本,这对于大规模自动化的软件工程(SWE-Agent)非常关键
让大模型生成一个从夯到拉的生成器,其实就是Tier list maker。
这个任务其实不算难,但我之前试过几个模型,包括Gemini 3 pro,DeepSeek v3.2,都没有一次做完美的。遇到的问题,包括图片图片无法正确拖动,或者拖动一张后其余图片就自动消失了等等。
试了下M2.1,直出的效果很不错,没发现有什么bug⬇️
这肯定要给MiniMax一个夯了。
同样的prompt我让Gemini 3 pro跑了一下,没有一次成功:
创建一个细节丰富、精致的体素艺术3D场景,prompt来自网友:
以下来自三个模型的对比:
在细节丰富度上,M2.1 的细节明显比 M2 和 Gemini 3 pro 更加丰富,渲染效果好很多;但是画面的平滑度,Gemini 3 pro 效果更好。
从官方披露的信息来看,这次模型升级的一大亮点是多语言编程能力的提升。
现在绝大多户模型都有一个问题,当你让它写一个 Python 数据清洗脚本,或者生成一段 React 前端代码,它能表现的像一个工作多年的老程序员;
但一旦场景切换到后端或那种高并发服务(Go/Java),或者底层系统开发(C++/Rust),AI 往往会瞬间降智。
目前金融、通信、工业软件领域存在大量使用 C++/Java 构建的遗留系统,俗称“屎山”,此前的 AI 很难介入这些领域,因为它们太复杂且容错率低。
这个问题很重要的原因是训练数据分布的不均匀。
M2.1在多语言编程能力上做了优化,注意是系统性的增强,这种能力的提升大概率不是通过喂更多代码来实现的,而是一种基于工程思维的逆向优化。
也就是说并不是看到代码 → 学习语法 → 预测下一个 Token;而是定义岗位,定义任务,让模型学习这段代码是前端还是后端,还是底层开发,然后解决什么问题或实现什么功能,最后才是使用什么语言特性。
这使得 M2.1不“偏科”,这对于一个以实用性和工程能力为目标的代码模型来说很关键。
这里多提一句,注意到官方发布M2.1的博文中,开源了一个新的Benchmark——VIBE (Visual & Interactive Benchmark for Execution in Application Development)。
在此之前,对于代码模型,我们一般关注逻辑修正和通过单元测试,类似的benchmark比如SWE-bench等。
但真实的全栈开发,特别是同时涉及到前端、移动端(iOS/Android),不仅仅是逻辑通顺,更关乎交互逻辑和视觉呈现。
Minimax 的思路是引入一个 Agent-as-a-Verifier (AaaV),对于VIBE上的任务,模型生成交付结果,然后部署到容器/模拟器,由AI Agent 像真实用户一样去点击、交互、“看”界面,从而评估视觉美感和交互逻辑。
这套评估逻辑我觉得还是很适应当前全栈AI coding agent和vibe coding的大趋势的。
以上是 M2.1 对比其他模型在 VIBE 上的表现,看得出来它更有优势,比如VIBE-Web (91.5分) 和 VIBE-Android (89.7分) 这类子项上,处于领先地位,说明模型已经不仅懂代码,还开始懂“产品”了。
这对目前移动端AI辅助开发效率低的问题很有启发了。
总体来说,M2.1 作为 M2 系列的一次升级,可圈可点。鉴于当前大模型趋势是把代码(尤其是agentic coding)当作主力来推,我认为Minimax的做法非常符合目前市场需求,同时从社区的反馈来看,这种做法是成功的。
从我了解的情况来看,国产的开源模型在编程智能体圈子里扮演的角色越来越重,老外那里每次期待值和评价都很高。
对于M2.1来说,带来的启示就是,未来的大模型不能只满足于写一个小游戏,而是开始在复杂项目中发力,以后就是要求 AI 去重构一个遗留的 Java 系统,去优化一个 Go 服务的吞吐量,去从零构建一个交互完美的 iOS App。
最后,如开头提到的,推荐知友结合Claude Code等Agent工具使用M2.1 模型,不仅降低了Claude Code 的使用门槛,还能最大程度释放和发挥M2.1 的编程能力。
既然已经看到这里,不如来个“点赞、在看、转发”三连再走,非常感谢。也欢迎你关注我
点击“阅读原文”了解更多信息↓
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-24
MiniMax M2.1 终于上线,咱憋了一肚子话终于能说了。。。。。
2025-12-24
GLM-4.7发布后,n8n就不用学了!搭个AI Skills一键生成工作流
2025-12-24
在引入 AI Agent 之前,企业至少要先想清楚这 5 件事
2025-12-24
阿里 Qwen3-TTS 两大更新直接封神!支持跨物种音色克隆,3 秒复刻!
2025-12-23
从“拼模型”走向“拼平台”,Agent真正跑进业务,需要什么样的底座?
2025-12-23
探秘 AgentRun丨流量一大就瘫痪?如何解决 AI 模型调用之痛
2025-12-23
智能时代的数据基座:烟台银行构建“可信数据存储安全体系”的实践与展望
2025-12-22
Claude Code Skill 设计机制深度分析
2025-10-26
2025-10-02
2025-09-29
2025-10-07
2025-09-30
2025-11-19
2025-10-20
2025-11-13
2025-10-02
2025-10-18
2025-12-23
2025-12-22
2025-12-16
2025-12-15
2025-12-14
2025-12-12
2025-12-12
2025-12-11