我要投稿

MiniMax M2.1：多语言编程SOTA，为真实世界复杂任务而生

发布日期：2025-12-23 14:55:27 浏览次数： 2324

作者：MiniMax 稀宇科技

微信搜一搜，关注“MiniMax 稀宇科技”

MiniMax一直在用更加 AI 原生的方式改造自己。这个过程的核心驱动力是模型、Agent 脚手架和组织。在探索过程中，我们对上述三点也有了越来越深刻的认知。今天我们开放模型部分的更新，也就是 MiniMax M2.1，希望有机会能帮助到更多的企业和个人早日找到更 AI 原生的工作与生活方式。

在 10 月底的 M2 中，我们主要解决模型成本和模型开放性的问题。在 M2.1 中，我们致力于提升真实世界复杂任务中的表现：重点聚焦于更多编程语言和办公场景的可用性，并在这个领域做到最好的水平。

MiniMax M2.1 具体模型亮点如下：

卓越多编程语言能力：在 M2.1 中，我们系统性提升了 Rust / Java / Golang / C++ / Kotlin / Objective-C / TypeScript / JavaScript 等语言的能力，多语言任务整体表现达到业内领先水平，覆盖从底层系统到应用层开发的完整链路。
WebDev 与 AppDev：针对业界普遍存在的移动端开发短板，M2.1 显著加强了原生 Android / iOS 开发能力。同时，我们系统性提升了模型在 Web 与 App 场景中的设计理解与美学表达能力，能够出色地构建复杂交互、3D 科学场景模拟与高质量可视化表达，推动 vibe coding 成为可持续、可交付的生产实践。
复合指令约束提升，办公场景变为可能：作为开源模型中率先系统性引入 Interleaved Thinking 的模型系列，M2.1 systematic problem-solving 能力再次升级。模型不仅关注代码执行是否正确，同时关注模型对“复合指令约束”的整合执行能力，在真实办公场景具备更高的可用性。
更简洁高效的回复：相比 M2，MiniMax M2.1 的模型回复以及思维链更加简洁，在实际编程与交互体验中，响应速度显著提升，Token 消耗明显下降，在 AI Coding 与 Agent 驱动的连续工作流中更加流畅和高效。
出色的 Agent / 工具脚手架泛化能力：M2.1 在各类编程工具与 Agent 框架中均有出色表现。在 Claude Code、Droid（Factory AI）、Cline、Kilo Code、Roo Code、BlackBox 等工具中展现一致且稳定的效果，并对 Skill.md、Claude.md / agent.md / cursorrule、Slash Command 等 Context Management 机制提供可靠支持。
高质量对话和写作：M2.1 不再只是“代码能力更强”，在日常对话、技术说明与写作场景中，也能提供更具细节与结构性的回答。

基准测试概览

在软件工程相关场景的核心榜单上，MiniMax M2.1 相比于 M2 有了显著的提升，尤其是在多语言场景上，超过 Claude Sonnet 4.5 和 Gemini 3 Pro，并接近 Claude Opus 4.5。

我们在不同 coding agent 框架上测试了 SWE-bench Verified，结果表明 MiniMax M2.1 具有良好的框架泛化性和稳定的表现。而在公开的测试用例生成、代码性能优化，以及自建的代码审阅（SWE-Review）、指令遵从（OctoCodingBench）等细分场景的榜单上，MiniMax M2.1 相比 M2 都表现出了全面的提升，持平或超过 Claude Sonnet 4.5。

为了衡量模型“从零到一”构建完整、可运行应用程序的全栈能力，我们构建并开源了全新基准 VIBE (Visual & Interactive Benchmark for Execution in Application Development)，涵盖了 Web、仿真 (Simulation)、Android、iOS 及后端 (Backend) 五大核心子集。不同于传统基准，通过创新的 Agent-as-a-Verifier (AaaV) 范式，VIBE 能够自动评估生成的 Application 在真实运行环境中的交互逻辑与视觉美感。这个评测集稍后将在 Github 上开源。

VIBE：https://huggingface.co/datasets/MiniMaxAI/VIBE

MiniMax-M2.1 在 VIBE 综合榜单中表现卓越，以平均 88.6 分的成绩展现了接近 Claude Opus 4.5 的全栈构建能力，并在几乎所有子集上都显著优于 Claude Sonnet 4.5。

在办公场景、长程工具调用和综合智能指数上，MiniMax M2.1 相比 M2 也表现出稳步提升，体现了模型解决更多真实世界复杂任务的能力。

使用者评价

过去几天，通过 MiniMax 全球的开发者社区，我们开放内测了 M2.1 的模型，也收到了非常多的热心反馈。下面是其中一些国际头部 AI 平台和合作方对 M2.1 的评价，可上下滑动阅读。

Factory AI (Droid)：

“我们非常期待像 M2.1 这样强大的开源模型，它在各类软件开发任务中都能带来前沿水准的表现，甚至还能在部分场景下比头部闭源模型更好。开发者应当拥有选择权，而 M2.1 正是大家急需的那个优质选项！”

——Eno Reyes, Co-Founder, CTO

Fireworks：

“MiniMax M2.1 在可读性与惯用结构方面与生产级工程要求高度契合，在 Go、Rust、C++ 等多语言场景下均表现稳定。精炼的交错推理机制显著压缩逻辑路径，减少冗余步骤，让多文件重构与缺陷修复等复杂任务得以更高精度完成。更可贵的是，M2.1 在激活参数量受限的前提下仍能提供可靠性能，为大规模智能体编码流程提供了兼顾效能与资源利用的均衡方案。我们期待与 MiniMax 团队展开持续、紧密的合作，在 Fireworks 平台同步支持其最新创新成果！”

——Benny Chen, Co-Founder

Cline：

“MiniMax M2 系列在代码生成能力上表现突出，过去几个月已迅速跻身 Cline 平台最受欢迎的模型之列。M2.1 再次实现能力层面的显著跃升，我们期待与 MiniMax 团队继续深化合作，共同推进 AI 编码技术的演进。”

——Saoud Rizwan, Founder, CEO

Kilo：

“我们对 M2.1 的发布而兴奋！我们的用户已经离不开 MiniMax 提供的最优秀的编程辅助能力和高性价比，内测显示，M2.1 在架构设计、服务编排、代码评审直至部署上线的全链路环节中均表现优异，速度与资源效率均处于领先水平。”

——Scott Breitenother, Co-Founder, CEO

Roo Code：

“我们的用户非常喜欢 MiniMax M2 在编码能力与效率方面的表现。最新发布的 M2.1 在此基础上实现了速度与可靠性的实质性提升，并在更多语言及框架中保持稳定输出。对于强调高吞吐、Agentic Coding 且对速度与成本敏感的研发流程，M2.1 是稳妥且具性价比的选择。”

——Matt Rubens, Co-Founder, CEO

BlackBox：

“将 MiniMax M2 系列集成到 BlackBox 平台对广大用户来说是一次巨大的利好！而 M2.1 的问世，更是定义了编程专用模型能力的新高度。在实际测试中，我们惊喜地发现 M2.1 处理复杂、多步编程任务的细腻程度和一致性在同类模型中极其罕见。凭借其规模化提供的高质量推理和深度上下文感知能力，MiniMax 已然成为我们助力开发者更高效攻克技术难题的核心引擎。我们已经迫不及待地想看到开发者社区如何利用这些升级后的强大能力，创造出更多可能！”

——Robert Rizk, Co-Founder, CEO

Showcases

物理世界 Agent：

在模型具备足够好的泛化性之后，在虚拟世界中学习到的模型竟然还可以驱动物理世界的机器人，这有些出乎意料。以下是 M2.1 驱动的维他动力的机器狗。

多语言 Coding：

MiniMax M2.1 基于 React Three Fiber 与 InstancedMesh 构建的“3D 梦幻圣诞树”，成功渲染 7000+ 实例，支持手势交互与复杂粒子动画，展现高难度 3D 渲染能力。

体验地址：https://yuyl27wq92.space.minimax.io/

Web UI 前卫设计：

M2.1 可以生成极简主义摄影师个人主页，运用非对称布局与黑白红撞色设计，结合沉浸式影像和粗犷排版，实现了极具冲击力的视觉效果。

体验地址：https://m6xkaf07udss.space.minimax.io/

原生 App 开发 - 安卓：

M2.1 使用 Kotlin 语言开发了一款安卓原生重力感应模拟器，利用陀螺仪传感器实现丝滑的重力操控体验，并设计巧妙的视觉彩蛋，通过自然的 UI 过渡与碰撞特效，优雅呈现“MERRY XMAS MiniMax M2.1”信息。

原生 App 开发 - iOS：

M2.1 编写了 iOS 桌面交互小组件，设计了“沉睡圣诞老人”点击唤醒机制，逻辑完整且具备原生级的交互动画效果——你的桌面小组件住进了圣诞老人——点他十下，他就醒来送你惊喜！🎅🎁

Web 音频模拟开发：

M2.1 基于 Web Audio API 开发了 16 步鼓机模拟器，集成了合成鼓声、非线性节奏算法与实时 Glitch 音效，提供了前卫的电子音乐体验！（可以点开以下视频的声音试听！）

体验地址：https://21okxwno2u.space.minimax.io

Rust 安全审计 TUI：

M2.1 用 Rust 打造了 CLI + TUI 双模式的 Linux 安全审计利器，支持一键对进程、网络、SSH 等关键项的底层扫描与智能风险评级。

Python 数据监控看板：

M2.1 基于 Python 开发了黑客帝国风格的实时数据监控面板，实现了对高频数据流的动态捕捉与渲染。该面板将核心指标转化为赛博朋克视觉符号，在满足实时监控精准度的同时，呈现了独特的科幻美学。

C++ 制作图像渲染：

M2.1 利用 C++ 与 GLSL 实现了复杂光线传输算法，在实时环境下精准还原了水晶球的物理折射、SDF 细致建模的雪人以及波光粼粼的雪地特效。

Java 制作实时弹幕：

M2.1 基于 Java 实现了高性能实时弹幕系统，简洁直观的用户界面及毫秒级响应能力。

SVG 生成：

M2.1 生成了 SVG 交互式等轴风格岛屿地图，构建了细节丰富的微缩世界，支持一键缩放自由探索四大主题区域。

Agentic Tool Use：

M2.1 展示了 Tool use 能力，自主调用 Excel 工具和 yahoo finance 工具完成了从市场调研数据清洗、分析到图表生成的全流程任务：

全链路办公自动化：

数字员工是 MiniMax M2.1 模型的重要功能之一。M2.1 能够接受以文字形式展示的网页内容，并以文本形态的输入控制鼠标的点击行为和键盘输入，在日常办公场景下，完成行政、数据科学、财务、人力资源、软件开发类的端到端任务。以下效果演示是 M2.1 在 AgentCompany Benchmark 中的行为轨迹记录。

1) 在通讯软件上主动收集员工的设备请求，然后前往企业内部服务器上搜索相关文档获取设备价格，计算总成本并判断部门预算是否充足，然后记录设备变更——