2026年3月27日,来腾讯会议(限30人)了解掌握如何用Openclaw构建企业AI生产力
免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

真实测评MiniMax M2.7,不吹不夸,它到底什么水平?

发布日期:2026-03-20 20:49:51 浏览次数: 1538
作者:沃垠AI

微信搜一搜,关注“沃垠AI”

推荐语

国产大模型MiniMax M2.7实测表现惊艳,在复杂任务执行上展现超强能力!

核心内容:
1. 多步骤龙虾任务测试:从搜索到自动生成报表一气呵成
2. 创意视频制作:完整实现从剧本到成片的AI全流程
3. 真实场景下的工具调用与长指令理解能力实测

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大家好,我是冷逸。

最近,模型圈又卷起来了。GLM、MiniMax甚至小米都相继发布了新模型。

众所周知,国产御三家有四位:Qwen、GLM、MiniMaxKimi

刚我去扫了眼,在实时更新的龙虾榜PinchBench上,MiniMax M2.7已经干到了全球第四(GLM和GPT分数一样,有两个第三名)

给大家简单介绍下这个龙虾榜,它不是传统benchmark那种,看模型答得准不准,而是看模型能不能完成一件完整的事情。

当然,PinchBench不代表模型的真实水平,仅代表模型在Agent任务上的成功率情况。

所以,今天我想重点测评一下MiniMax M2.7在真实场景中的表现。

本文会相继用到Claude Code、OpenClaw、MaxClaw和MiniMax Agent网页端等不同平台来测试,并会在每个Case前做说明。

一手实测

测试主要分为6个场景,重点评估模型的执行过程和最终结果。

1)龙虾任务:搜索→整理表格→做信息图→发到飞书

龙虾任务,主要在MaxClaw里测(他们已经接上了M2.7)。

第一个任务是:

打开豆瓣网页 https://movie.douban.com 搜索最近热门的电影,结合热度、评分和上映时间综合筛选10部电影,整理成Excel表格,并根据Excel表格的信息设计一个可视化HTML。最后,把Excel和HTML一并发到我的飞书上。

这里的任务一共有5步:联网检索→总结内容→生成表格→编写代码→自动发到飞书。

比较考验模型的多步骤执行能力和工具调用能力。

M2.7一次过,直接交付了Excel表格和信息图Html。

来看下最终的结果:Excel和HTML。

Excel表格

可视化HTML

还行,而且它给Excel表格做了一个底色设计,分成了封面和原始数据两个子表给我。

当然,如果我们的提示词要求得更多,它会生成得更精细。只不过,我们这里主要考验的,是模型对长任务的指令理解和执行能力。

2)龙虾任务:自动做视频

接着,我又让它用libtv-skills给我做个视频(skill教程可以看这篇文章:LibTV)。

任务是:

用libtv-skills帮我生成40秒的短漫剧,主题是:
《像素荒原》 (The Pixel Wasteland)
视觉核心:实拍与低多边形(Low-Poly)CGI的实时混合渲染。世界在“高清现实”与“崩坏马赛克”间切换。
剧情:主角行走在繁华都市,但他走过的地方,建筑瞬间退化为粗糙的几何色块,行人变成静止的贴图。他试图奔跑逃离“渲染延迟”,却发现自己的双手也开始像素化消散。结尾,镜头拉远,整个城市只是一个老旧显示器上即将断电的画面,最后一声电流音后,屏幕彻底黑屏,只映出观众自己的脸。
隐喻:探讨数字存在主义危机,利用故障艺术(Glitch Art)风格制造强烈的不安感与哲学反思。

来看下结果。

这个视频的所有工作流,全由MiniMax M2.7驱动的龙虾自己调用libtv-skills完成,剧本、分镜图、分镜视频,以及最后的视频合成,都一气呵成。

视频质量,还不错。

不过,有个小细节大家要注意,MaxClaw本身就支持视频生成(接的Hailuo模型)。如果你不强制调用skill,它会生成镜头片段,而不是完整的视频。

整体来看,M2.7在龙虾上的任务成功率还是挺高的,前面我这2个case都是one shot,一次生成。

那M2.7能够在龙虾榜上排名全球第四,也就可以理解了。

3)编程任务:3D

下面3个编程任务,都是在Claude Code里进行测试。

先测一个3D Case,看下模型的空间想象和逻辑推理能力,看它能否准确理解指令,并创建一个零BUG的视觉图形。

照例,还是我们的3D魔方。

提示词:Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself. 
中文:创建一个HTML文件,其中使用Three.js(通过CDN方式引入)来实现一个功能完备的3D魔方模拟程序。该魔方必须能够自动完成自己的“解谜”过程。

没问题。而且,这回它的UI比上一个版本M2.5看起来更高级一些。

不过,这个Case并非one shot。第一个版本,在打乱和还原的动画过程中会出现部分方块颜色丢失的情况,这是因为方块的位置和颜色没有正确更新。

简单反馈问题后,第二版就修复这个问题了。

4)编程任务:前端

既然审美在线,我们也同步测一下它写前端的能力。

让M2.7给一款AI鼠标「小沃」设计产品宣传页。

这个前端,还是比较好看的,尤其是这个VI和配色,我很喜欢。

有点遗憾的是,目前M2.7还不具备视觉理解能力。如果有视觉理解能力,它的应用场景会更丰富。

5)编程任务:用skills做网站

我们继续上点强度,让它调用Skills来生成一个网站。

需求是:

用Knowledge Site Creator Skills为「Token」创建一个知识学习网站,既要严谨,又要有趣味,页面高级审美。
关于token的知识,可以参考这篇文章:https://mp.weixin.qq.com/s/hlL2U4XizvBQJynNJixlOQ

这次One shot,效果还不错,配色和排版是我喜欢的调调。

不过,有个小缺陷,M2.7似乎不能直接读公众号url,内容是我手动给Claude Code的。

6)办公任务:出报告、图表和PPT

办公任务,换到了MiniMax Agent网页端进行测试。

体验地址:agent.minimaxi.com

这次,我们直接复刻MiniMax官方案例,看看能不能复现。

任务是:

基于腾讯2025年财报信息,构建腾讯的营收模型,读取多个研报,设计对应的假设,基于最新的信息对腾讯营收建模,然后选择合适的 PPT 模版产出 PPT ,并写一个 Word 文档研究报告和 Excel 图表。

首先看它建的Excel财务模型。

这份财务分析模型还是挺全面的,像业绩总览、收入分析、盈利分析、核心业务(游戏)分析、估值分析这些该有的部分都有。说明M2.7模型,知道一个初级分析师在干什么活。

数据方面,我也对了一下,没有差错。

就是涉及到有复杂表格时(比如有多个坐标轴),模型用Python写的图表并没有完整地呈现出来。

不过问题不大,我们自己再改改就好了。毕竟,初始数据的搜索和整理,这才是最耗时的。M2.7已经帮我们把最麻烦的事情搞定了。对于分析师来说,这差不多已经节约了至少半天时间。

然后是Word研究报告。

整体23页,近万字,研报该有的它都有。

数据方面,我也随便挑了几页对比了一下,完全准确。

左边是M2.7做的研报,右边是真实的财报

当然,Word文档里的一些字体、格式、排版还是会有点小问题,但我觉得问题不大,自己手动改改就好了。

最主要是,这份近万字的研报,它竟然没有出现任何的幻觉问题,这说明M2.7在长任务上的上下文能力是真滴恐怖。

它让产出结果真实、可信,可以直接走进我们的真实工作流。

最后,再来看下它整的PPT。

这排版、UI一看就很高级,如果你让我来手搓,我是真的整不出来。

而以上这三件套,是一个Prompt完成,并不是单独生成的。这M2.7在复杂任务上的指令遵循能力,是真的强。

写在最后

整个体验下来,我感觉M2.7在各个方面都又一次进化了。

从Coding能力到Agentic能力,从工具调用到长程任务,从高难度的龙虾场景到日常的办公场景,都能全方位hold住。

而且有点意思的是,这个模型是MiniMax第一个由模型自己深度参与迭代的模型。

这句话读起来可能有点绕,简单说就是,他们用AI搞了一个Agent harness,然后用这个系统去训练、评测模型,人类把控方向,模型负责构建,最终形成模型迭代自己的数据飞轮。

也就是,用AI打造下一代AI。

据说,他们还会加大AI自动化的力度,去推出自己的新一代模型。

如果这个飞轮真的转起来,接下来的事情,可能会比我们想象的更有意思。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询