我要投稿

真实测评MiniMax M2.7，不吹不夸，它到底什么水平？

发布日期：2026-03-20 20:49:51 浏览次数： 1538

作者：沃垠AI

微信搜一搜，关注“沃垠AI”

大家好，我是冷逸。

最近，模型圈又卷起来了。GLM、MiniMax甚至小米都相继发布了新模型。

众所周知，国产御三家有四位：Qwen、GLM、MiniMax和Kimi。

刚我去扫了眼，在实时更新的龙虾榜PinchBench上，MiniMax M2.7已经干到了全球第四（GLM和GPT分数一样，有两个第三名）。

给大家简单介绍下这个龙虾榜，它不是传统benchmark那种，看模型答得准不准，而是看模型能不能完成一件完整的事情。

当然，PinchBench不代表模型的真实水平，仅代表模型在Agent任务上的成功率情况。

所以，今天我想重点测评一下MiniMax M2.7在真实场景中的表现。

本文会相继用到Claude Code、OpenClaw、MaxClaw和MiniMax Agent网页端等不同平台来测试，并会在每个Case前做说明。

一手实测

测试主要分为6个场景，重点评估模型的执行过程和最终结果。

1）龙虾任务：搜索→整理表格→做信息图→发到飞书

龙虾任务，主要在MaxClaw里测（他们已经接上了M2.7）。

第一个任务是：

打开豆瓣网页 https://movie.douban.com 搜索最近热门的电影，结合热度、评分和上映时间综合筛选10部电影，整理成Excel表格，并根据Excel表格的信息设计一个可视化HTML。最后，把Excel和HTML一并发到我的飞书上。

这里的任务一共有5步：联网检索→总结内容→生成表格→编写代码→自动发到飞书。

比较考验模型的多步骤执行能力和工具调用能力。

M2.7一次过，直接交付了Excel表格和信息图Html。

来看下最终的结果：Excel和HTML。

Excel表格

可视化HTML

还行，而且它给Excel表格做了一个底色设计，分成了封面和原始数据两个子表给我。

当然，如果我们的提示词要求得更多，它会生成得更精细。只不过，我们这里主要考验的，是模型对长任务的指令理解和执行能力。

2）龙虾任务：自动做视频

接着，我又让它用libtv-skills给我做个视频（skill教程可以看这篇文章：LibTV）。

任务是：

用libtv-skills帮我生成40秒的短漫剧，主题是：
《像素荒原》 (The Pixel Wasteland)
视觉核心：实拍与低多边形（Low-Poly）CGI的实时混合渲染。世界在“高清现实”与“崩坏马赛克”间切换。
剧情：主角行走在繁华都市，但他走过的地方，建筑瞬间退化为粗糙的几何色块，行人变成静止的贴图。他试图奔跑逃离“渲染延迟”，却发现自己的双手也开始像素化消散。结尾，镜头拉远，整个城市只是一个老旧显示器上即将断电的画面，最后一声电流音后，屏幕彻底黑屏，只映出观众自己的脸。
隐喻：探讨数字存在主义危机，利用故障艺术（Glitch Art）风格制造强烈的不安感与哲学反思。

来看下结果。

这个视频的所有工作流，全由MiniMax M2.7驱动的龙虾自己调用libtv-skills完成，剧本、分镜图、分镜视频，以及最后的视频合成，都一气呵成。

视频质量，还不错。

不过，有个小细节大家要注意，MaxClaw本身就支持视频生成（接的Hailuo模型）。如果你不强制调用skill，它会生成镜头片段，而不是完整的视频。

整体来看，M2.7在龙虾上的任务成功率还是挺高的，前面我这2个case都是one shot，一次生成。

那M2.7能够在龙虾榜上排名全球第四，也就可以理解了。

3）编程任务：3D

下面3个编程任务，都是在Claude Code里进行测试。

先测一个3D Case，看下模型的空间想象和逻辑推理能力，看它能否准确理解指令，并创建一个零BUG的视觉图形。

照例，还是我们的3D魔方。

提示词：Create a single HTML file containing a fully functional 3D Rubik's Cube simulation using Three.js (via CDN). The cube must be able to automatically solve itself. 
中文：创建一个HTML文件，其中使用Three.js（通过CDN方式引入）来实现一个功能完备的3D魔方模拟程序。该魔方必须能够自动完成自己的“解谜”过程。

没问题。而且，这回它的UI比上一个版本M2.5看起来更高级一些。

不过，这个Case并非one shot。第一个版本，在打乱和还原的动画过程中会出现部分方块颜色丢失的情况，这是因为方块的位置和颜色没有正确更新。

简单反馈问题后，第二版就修复这个问题了。

4）编程任务：前端

既然审美在线，我们也同步测一下它写前端的能力。

让M2.7给一款AI鼠标「小沃」设计产品宣传页。

这个前端，还是比较好看的，尤其是这个VI和配色，我很喜欢。

有点遗憾的是，目前M2.7还不具备视觉理解能力。如果有视觉理解能力，它的应用场景会更丰富。

5）编程任务：用skills做网站

我们继续上点强度，让它调用Skills来生成一个网站。

需求是：

用Knowledge Site Creator Skills为「Token」创建一个知识学习网站，既要严谨，又要有趣味，页面高级审美。
关于token的知识，可以参考这篇文章：https://mp.weixin.qq.com/s/hlL2U4XizvBQJynNJixlOQ

这次One shot，效果还不错，配色和排版是我喜欢的调调。

不过，有个小缺陷，M2.7似乎不能直接读公众号url，内容是我手动给Claude Code的。

6）办公任务：出报告、图表和PPT

办公任务，换到了MiniMax Agent网页端进行测试。

体验地址：agent.minimaxi.com

这次，我们直接复刻MiniMax官方案例，看看能不能复现。

任务是：

基于腾讯2025年财报信息，构建腾讯的营收模型，读取多个研报，设计对应的假设，基于最新的信息对腾讯营收建模，然后选择合适的 PPT 模版产出 PPT ，并写一个 Word 文档研究报告和 Excel 图表。

首先看它建的Excel财务模型。

这份财务分析模型还是挺全面的，像业绩总览、收入分析、盈利分析、核心业务（游戏）分析、估值分析这些该有的部分都有。说明M2.7模型，知道一个初级分析师在干什么活。

数据方面，我也对了一下，没有差错。

就是涉及到有复杂表格时（比如有多个坐标轴），模型用Python写的图表并没有完整地呈现出来。

不过问题不大，我们自己再改改就好了。毕竟，初始数据的搜索和整理，这才是最耗时的。M2.7已经帮我们把最麻烦的事情搞定了。对于分析师来说，这差不多已经节约了至少半天时间。

然后是Word研究报告。

整体23页，近万字，研报该有的它都有。

数据方面，我也随便挑了几页对比了一下，完全准确。

左边是M2.7做的研报，右边是真实的财报

当然，Word文档里的一些字体、格式、排版还是会有点小问题，但我觉得问题不大，自己手动改改就好了。

最主要是，这份近万字的研报，它竟然没有出现任何的幻觉问题，这说明M2.7在长任务上的上下文能力是真滴恐怖。

它让产出结果真实、可信，可以直接走进我们的真实工作流。

最后，再来看下它整的PPT。

这排版、UI一看就很高级，如果你让我来手搓，我是真的整不出来。

而以上这三件套，是一个Prompt完成，并不是单独生成的。这M2.7在复杂任务上的指令遵循能力，是真的强。

写在最后

整个体验下来，我感觉M2.7在各个方面都又一次进化了。

从Coding能力到Agentic能力，从工具调用到长程任务，从高难度的龙虾场景到日常的办公场景，都能全方位hold住。

而且有点意思的是，这个模型是MiniMax第一个由模型自己深度参与迭代的模型。

这句话读起来可能有点绕，简单说就是，他们用AI搞了一个Agent harness，然后用这个系统去训练、评测模型，人类把控方向，模型负责构建，最终形成模型迭代自己的数据飞轮。

也就是，用AI打造下一代AI。

据说，他们还会加大AI自动化的力度，去推出自己的新一代模型。

如果这个飞轮真的转起来，接下来的事情，可能会比我们想象的更有意思。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-03-20

用MiniMax M2.7喂小龙虾，第一次觉得国产模型这么对味儿

2026-03-20

Claude Code 上线新功能要革OpenClaw的命!

2026-03-20

Cursor自研模型反超Opus 4.6！价格脚踝斩，氛围编程沸腾了

2026-03-20

突发！Claude Code 要彻底龙虾化

2026-03-20

1 个文件让 Claude Code 记住你：MEMORY.md 全解析

2026-03-20

为了狠狠嫖Google Antigravity 24 小时，我竟然做这个....

2026-03-19

GPT-5.4 mini 与 GPT-5.4 nano 登陆 Microsoft Foundry (国际版)

2026-03-19

AI的边界，就是人类的领地

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude Code Skills 国内实践全指南：从安装部署到高阶开发

2026-01-09

谷歌没想到：Antigravity 竟成了 Claude Code 的“免费充电宝”？

2025-12-30

深度解析——为什么Claude code CEO Dario 如此反中？