微信扫码
添加专属顾问
我要投稿
MiniMax M2.5以超小尺寸媲美Opus4.6,低成本高速度重新定义AI模型性价比!核心内容: 1. 性能突破:在SWE-Bench等关键测试中超越行业标杆 2. 架构思维:展现软件架构师级别的系统规划能力 3. 成本革命:每小时仅1美元实现100token/秒的高效运行
MiniMax M2.5 正式发布了,可以肯定的说这一个非常优秀的国产模型,国产模型每一家都有自己的聚焦,MiniMax在进行的是极致优化,没有过多花哨的技术实验,专注于推出的是一款极其方便部署,价格具实惠,能干活,性能对标世界顶尖的模型
我先放两张图大家感受一下
MiniMax的进化,看一下MiniMax M系列的来时路:
尺寸对比,这就有意思了,感觉具有极高的可用性,非常适合家庭实验室部署,据说推理服务提供商或许能在这个模型上挖掘出惊人的每秒token生成速度
我们来看看MiniMax M 2.5 做到了什么以及如何做到的
首先看硬指标,它在各项SOTA性能上表现抢眼:MiniMax 测试了Agent工作流程中最重要的三项基准测试:SWE-Bench(它能否真正修复真实代码库中的真实错误)、BrowseComp(能否搜索网络并找到正确的信息)和 BFCL(能否可靠地调用工具)。测试结果分别为 80.2%、76.3% 和 76.8%
针对复杂任务,M2.5进行了执行效率的优化,速度提升了37%,速度提升听起来似乎只是锦上添花,但当你运行一个Agent循环,模型在每个任务中调用自身 50 次以上时,速度的提升就显得至关重要了
每秒100token运行,每小时成本仅需1美元,这让长周期Agent的无限扩展在经济上成为了可能。
具体来看,M2.5在以下几个维度实现了突破。
像架构师一样思考的代码能力
在编程评估中,M2.5相比前代产品有了显著提升,达到了SOTA水平,尤其是在多语言编程任务中表现突出。
与以往最大的不同在于,M2.5展现出了软件架构师的思维与规划能力。在训练过程中,模型涌现出了编写规格说明书的倾向:在敲下第一行代码前,它会主动从资深架构师的视角出发,对项目的功能、结构和UI设计进行拆解与规划。
在超过20万个真实世界环境中,针对Go、Rust、Python、Java等10多种编程语言进行了训练。这使得M2.5的能力远超简单的代码修复,而是覆盖了复杂系统的完整开发生命周期:从0到1的系统设计与环境搭建,到1到10的开发,再到后续的功能迭代、代码审查和系统测试。
它能处理跨Web、Android、iOS和Windows的全栈项目,涵盖服务端API、业务逻辑和数据库,而不仅仅是前端网页的演示。
在更复杂的VIBE-Pro基准测试中,M2.5的表现与Opus 4.5持平。
在SWE-Bench Verified评估集的Droid和OpenCode不同代码代理框架下,M2.5的得分分别为79.7和76.1,均超越了Opus 4.6。
更精准的搜索与工具调用
为了应对更复杂的任务,高效的工具调用和搜索能力是必选项。
在BrowseComp和Wide Search等基准测试中,M2.5均取得了业界领先的成绩。即便面对不熟悉的脚手架环境,它的表现也更加稳定。
针对现实中专业人士不仅仅是使用搜索引擎,而是需要在信息密集的网页中进行深度探索的特点,MiniMax构建了RISE评估体系。结果显示,M2.5在真实场景下的专家级搜索任务中表现优异。
更重要的是决策效率的提升。相比前代M2.1,M2.5在解决同类任务时使用的轮次减少了约20%。这意味着模型不再仅仅是找对答案,而是在用更高效的路径进行推理。
真正的办公场景交付
M2.5在训练之初就确立了产出可交付成果的目标。
通过与金融、法律和社会科学领域的资深专家深度合作,将行业隐性知识注入模型训练流程。这使得M2.5在Word、PowerPoint和Excel金融建模等高价值工作场景中能力显著提升。
在内部构建的Cowork Agent评估框架GDPval-MM中,通过对交付物质量和代理轨迹专业性的双重评估,M2.5在与主流模型的对比中取得了59.0%的平均胜率。
极致的效率与成本控制
现实世界充满各种deadline,速度即正义,现在模型都太贵了,我们急需要一款能打的便宜的模型
M2.5的原生服务速度达到每秒100 token,几乎是其他前沿模型的两倍。加上强化学习对高效推理的激励,其在复杂任务上的时间节省效果明显。
以运行SWE-Bench Verified为例,M2.5完成每个任务平均消耗352万token,端到端运行时间从31.3分钟缩短至22.8分钟,速度提升37%。这一速度与Claude Opus 4.6相当,但单任务总成本仅为后者的十分之一。
为了实现智能不仅强大而且便宜到无需计费的愿景,M2.5推出了两个版本:
M2.5-Lightning:稳定吞吐量每秒100 token,每百万输入token 0.3美元,输出2.4美元。
M2.5:吞吐量每秒50 token,价格减半。
这意味着,以每秒100 token的速度连续运行一小时仅需1美元。如果以每秒50 token运行,价格降至0.3美元。换算下来,只需1万美元,就可以让4个M2.5实例连续运行一整年。
从去年10月下旬至今,M2系列经历了三次迭代,改进速度超出了预期,特别是在SWE-Bench Verified基准上,进步速度明显快于Claude、GPT和Gemini系列。
这一切进步的核心驱动力来自于强化学习的规模化。
MiniMax将公司内部的任务和工作空间转化为RL训练环境,目前已有数十万个此类环境。
为了支持这种规模的训练,团队自研了代理原生RL框架Forge。该框架引入中间层,将底层训练推理引擎与代理完全解耦,支持任意代理集成,并优化了模型在不同脚手架和工具间的泛化能力。通过优化异步调度策略和树状结构的样本合并策略,训练速度提升了约40倍。
在算法层面,沿用了CISPO算法以确保MoE模型在大规模训练中的稳定性,并引入过程奖励机制来解决长上下文中的信用分配难题。
目前,M2.5已全面部署在MiniMax Agent中。
通过将核心信息处理能力提炼为标准化的Office技能,当处理Word格式化、PPT编辑和Excel计算等任务时,Agent会自动加载相应技能。用户还可以结合特定领域的行业SOP与Office技能,构建针对特定场景的专家。
例如在行业研究中,Agent可以严格遵循成熟的研究框架SOP,配合Word技能,自动抓取数据、梳理逻辑并输出格式规范的研究报告,而非简单的文本堆砌。
在MiniMax公司内部,M2.5已经承担了日常运营中30%的任务,覆盖研发、产品、销售、HR和财务等部门。在编码场景中,M2.5生成的代码更是占到了新提交代码量的80%。
参考:
https://www.minimax.io/news/minimax-m25
--end--
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-13
跳出英伟达生态:OpenAI 发布新编程模型 GPT-5.3-Codex-Spark,速度达 1000 token每秒
2026-02-13
刚刚Gemini上新模型,全球只有7人比它会编程,谷歌姚顺宇参与
2026-02-13
Agent Skills实操心得:Claude Code篇
2026-02-12
我给 Claude Code 加装了 MiniMax M2.5:它像“法拉利”,但更像一台工作机
2026-02-12
AgentRun 实践指南:Agent 的宝藏工具——All-In-One Sandbox
2026-02-12
Higress 已支持全新 Gateway API 及其 AI 推理扩展
2026-02-12
GLM-5 发布:从“写代码”到“写工程”的范式跃迁
2026-02-12
模型能力、提示词、Skill、工作流、Vibe Coding——到底都是什么?
2026-01-24
2026-01-10
2025-11-19
2026-01-26
2026-01-01
2025-12-09
2025-12-21
2026-01-09
2026-02-03
2026-01-09
2026-02-12
2026-02-12
2026-02-11
2026-02-11
2026-02-11
2026-02-11
2026-02-07
2026-02-04