“
对话能装,但 代码不会撒谎。一晚上 4200 行代码、0 类型错误,全程一会话推到底。
—— Qwen 3.7
昨天阿里正式发布Qwen 3.7-Max,
我用它直接搓了一款 RPG 游戏,先给大家过过目。
其实事情得从前两天说起。
那天我去参加观猹的线下活动,跟聪哥碰头。聊到一半他突然神神秘秘跟我说:“甲木,我最近测了阿里刚出来的 Qwen 3.7-Max,有点东西,强烈建议你也试试。“
聪哥是行走的 Qwen 代言人,一旦 Qwen 出好东西了总是会给我安利,然后我就当场掏出手机找阿里云的同学”刷了下脸”,要到了内测白名单。
晚上回到酒店,模型到手,琢磨搞点什么东西来测测模型能力,想了想——
决定用 Qwen 3.7-Max 写一款武侠 RPG 页游,看看它效果怎么样。
最近这一年,AI 圈两个词:VibeCoding 和 VibeWorking。
前者是”氛围编程”,后者是”氛围工作”。本质上都是让 AI接管一段过去需要专业能力才能完成的工作流。
听着挺玄的,但底层逻辑只有一句话——
所有的 Vibe,都建立在底座模型够不够硬的基础上。
你让一个能力一般的模型去 VibeCoding,它跑两步就丢上下文;让它去 VibeWorking,它做完一个环节就忘了上下文。Vibe 不起来,反而比自己干还累。
所以我一直觉得,衡量一个模型”配不配 Vibe”,最好的场景就是编程开发。
它要求你有 长上下文 、多步推理(从需求 → 架构 → 实现 → 调试 → 优化,每一步都依赖前一步)、工具调用稳定,还能 自我修正(写错了得自己发现、自己改,不能傻等用户指出)。
对话能”装”,但 代码不会撒谎,能跑就是能跑,不能跑就是不能跑。
我要测的就是这个。让 Qwen 3.7-Max 从零搭一个完整的 RPG 游戏项目,从世界观设计到游戏代码,从战斗系统到 UI 动效,全程一个会话推到底。
能跑通,它就还算可以。
正式开测前先简单交代一下背景,不啰嗦,三段说完。
▎第一 · 编程榜单全面上探
Qwen 3.7-Max 在真实智能体编程榜 Terminal-Bench 2.0 Terminus 上拿了 69.7 分,超过了 DS-V4-Pro Max 的 67.9 分。
▎第二 · 推理能力刷了一堆纪录
详细数据大家可以看下面文章。
▎第三 · 长程任务能力是这次最炸的点
官方放出来的一个 case 是:在一颗它训练时从未见过的全新芯片(平头哥真武 M890)上,Qwen 3.7-Max 完全自主跑了 35 小时,独立做了 432 次内核评估、1158 次工具调用,从零写出一个 CUDA 注意力内核,最后比 SGLang Triton 官方实现 快 10 倍。
运行到 30 小时它还在发现新的优化点,甚至主动发起了一次架构重设计。
“模型能在长链路任务中不丢上下文、不胡说八道“,是用好的关键,
这也是我接下来这个 RPG 开发要重点验证的。
当然,榜单数据仅供参考,还是要通过实战来看看效果到底怎么样。
我用的是这套组合:
01Claude Code 当 IDE
02CC Switch 切换底层模型到 Qwen 3.7-Max
03Superpower Skills 作为我的方法论 plugin
CC Switch 是个挺好用的小工具,可以把底层模型一键切到 Qwen 3.7-Max。
然后我用的本地 Superpower Skills,这是一套我自己常驻在 Claude Code 里的 Skill,里面包括 brainstorming、writing-plans、subAgent-driven-development、verification-before-completion 等十几个 Skill。简单说,它们让 Claude Code 在执行任务前会先用规范化的方式做”立项 → 计划 → 拆任务 → 执行 → 验证”。
这套组合的好处是:Qwen 3.7-Max 出推理 + 编程的算力,Superpower Skills 出工程纪律。
底层模型再强,没有工作流约束,也容易跑偏;工作流再规范,模型不够稳,也跑不动复杂项目。两个加起来,效果远超单独的任何一个。
启动 Prompt 我没写得太复杂,就一段——
▎ 启动 PROMPT
“我们要协作开发一款武侠 RPG 游戏,工作标题《一念江湖》。单页面应用,30 天江湖日历内做出抉择触发 7 种结局之一。核心系统:12 NPC × 4 维好感度(信任 / 亲密 / 敬畏 / 忌惮)、江湖关系图、5 大门派 × 20 招武学、回合制战斗。视觉上走朱砂红古卷风。请用 TodoWrite 把后续阶段建成 todo 列表,本轮先完成 Phase 0:世界观设计 + 5 门派设定 + 12 NPC 名册 + 美术风格基线。“
剩下的,我打算交给 Qwen 3.7-Max 自己来。
先说结论:它没有让我失望。
晚上两个小时,Qwen 3.7-Max 在 Claude Code 里给我交付了一个可以直接 build、可以直接玩 的完整项目。
结构长这样:
▎ PROJECT STRUCTURE
yinnian-jianghu/
├── src/
│ ├── components/ # 5 个组件:Layout / ActionPanel
│ │ / AffinityPanel / PortraitModal / TimeBar
│ ├── scenes/ # 8 个场景:标题 / 创角 / 大地图
│ │ / 地点 / 对话 / 战斗 / 装备 / 结局
│ ├── data/ # 7 份数据:NPC / 武学 / 门派
│ │ / 地点 / 对话树 / 事件 / 商店
│ ├── stores/ # gameStore.ts — Zustand 全局状态机
│ ├── types/ # 类型定义
│ └── utils/
├── public/assets/ # AI 生成的人物立绘 + 地图背景
├── api/ # 后端 API(部署到 Vercel)
├── tests/
└── vercel.json
技术栈是 React + TypeScript + Vite + Vercel,全套现代前端工具链。npm run build 全绿过——275ms 构建完,产物 319 KB(gzip 后 102 KB)。
要设计一个好玩的游戏,世界观还是需要好好思量的,也就是内容厚度。
▎ 4-1 · 世界观和角色
Qwen 3.7-Max 自己定的世界观是 北宋末年虚构武林,5 大门派全部避开金庸古龙原型:
门派 01青云剑派:掌门陆青崖,剑系正派
门派 02玄天教:教主厉无常 + 左护法殷夜,内功系
门派 03千机阁:首席柳如是(造物堂),暗器机关系
门派 04醉花阴:掌门花无缺,毒掌系女子门派
门派 05断念寺:住持了空大师 + 武僧慧明,拳脚禅意系
12 个 NPC 完整名册,每个人都有自己的性格、门派、年龄、立绘 prompt、对话树和隐藏剧情伏笔。
其中谢长亭 是一个”神秘剑客”,指向主角身世的核心线索人物;赵铁衣 是朝廷密探,开了一条体制 vs 江湖 的支线。
我让它把对话树写出来的时候,它给陆青崖单独写了三条独立路线(拜师 / 问恩怨 / 挑战),每条路线下面还有 2-3 层选择分支。给厉无常写了 路过 / 拜会 / 揭面 三条,每条的态度变化、情绪曲线、好感度数值变化都对得上。
光是 data/dialogues.ts 这一个文件就 900 多行。
▎ 4-2 · 多轮对话
之后通过 Superpower 的 Brainstorm 跟 Qwen 3.7 进行了多轮对话,确定了开发 plan 文档,
之后就直接通过 Superpower一次性开启多个 sub-agent,进行内容的输出。
咔咔一顿跑,跑了大概十六分钟,输出了第一个版本。
这时候我想让它直接去生成一个游戏里面的一些素材等等,我直接让它用 GPT Image 2 来进行生成。
之后就根据游戏需要,自行写绘画 prompt,然后调用模型,
生成了一批游戏素材,供页面使用,
▎ 4-3 · 4 维好感度系统
这是我开始最担心做不好的部分。
简单的好感度系统大家都能写,“+10 -5” 就完事。但我希望它做出来的是一个 多维度叠加 + 互相影响 + 决定行为可见性 的真好感度。
Qwen 3.7-Max 给我的方案是把好感度拆成 信任 / 亲密 / 敬畏 / 忌惮 四个维度,每个维度独立累计。
不同的对话选择、礼物、行动会对不同维度产生不同方向的影响。
▎ 4-4 · 战斗 + 商店 + 任务
回合制战斗系统也做了。武学按”拳 / 剑 / 内 / 毒 / 掌”五类设计,相克关系做了完整矩阵 ——剑克招式、毒克续航、内克气血。20 招武学每一招有自己的内力消耗、伤害类型、状态附加效果。
商店系统是后来追加的,包含金币系统、物品分类、购买和使用动作。
赏金任务系统在 gameStore 里以 doQuest action 实现,完成任务自动加金币、消耗时辰、记入日志。
每一个子系统单独看都不算复杂,但 Qwen 3.7-Max 是 一次会话里把它们全做完的,而且互相之间数据是打通的,
你战斗赢了会涨敬畏,逛商店买东西会扣金币,赏金任务消耗时辰会触发新的剧情节点——各系统之间真正联动。
当然也会有一些问题,遇到交互不好的地方,直接嘴喷需求就行了。。
多轮对话,依旧保持上下文内容无失忆,
完整地玩上一轮之后,最终游戏结束,没有触发隐藏结局。。
等我今天没事了再耍耍。。
光说结果太抽象,挑三个开发过程中我印象最深的瞬间。
▎ PART 1 · 自己提议拆 Store 架构
我最早的需求里没有说要用 Zustand 做全局状态管理。我只是说”做一个 RPG 游戏”。
Qwen 3.7-Max 这次给我的判断节奏,是真”工程师”的节奏。
▎ PART 2 · emoji 那一波翻车-修正
开发到一半的时候,因为我自己当初提示词写得不严谨,给的关键词里有”emoji + Unicode + CSS 渐变”。
整个修正过程没有让我介入任何代码细节,也没有出现”漏改了某个地方”。这点对我来说才是真正能“放手让它干活” 的关键。
▎ PART 3 · 4200 行代码 build 零错
最后我跑了一次 npx tsc --noEmit,TypeScript 严格模式 0 错误。
Qwen 3.7-Max 在整个开发过程里没有让我手动改过一次类型错误。
它每写完一个模块自己跑 tsc 自查,发现错就自己回去修。
这种”工程纪律的自闭环”,是我对它打分最高的一项。
当然,这个游戏还有很多 bug 和值得优化的地方,才能把它做得跟传统 RPG 游戏一样好玩,Qwen 3.7-Max 在 Coding 能力上相比前代版本有很大提升。
但是其它方向还没来得及测,等明天继续。。
熟悉我公众号的朋友知道,我从 Qwen 2.5 开始就一直在跟千问。
每一代我都过一遍,体感一代比一代稳。
这次 Qwen 3.7-Max 在Coding 和长程任务 上也有不错的提升。
阿里云百炼即将上线 Qwen 3.7-Max 的 API,Qwen 3.7 系列会补充多模态能力,保持关注,我会继续跟下去。
回头看这一年,DeepSeek、千问、智谱、Kimi、豆包……每隔几天就有新模型、新突破、新排名。
这不是某一家独大的故事,是整个行业在狂奔。
而千问,又一次冲在了最前面。
也期待我们国内的 AI,越来越强。
以上。