免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

别再看榜单了!普通人也可以测出了各大编程模型真实差距

发布日期:2026-01-07 05:59:38 浏览次数: 1638
作者:刘小排r

微信搜一搜,关注“刘小排r”

推荐语

别再被榜单迷惑!实测教你识别编程模型的真实差距。

核心内容:
1. 榜单评分的局限性及优化陷阱
2. AI编程"出新手村"的关键标志
3. 模型互评代码的实用测试方法

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

在一些AI编码群里,有朋友问我:

好奇个问题,怎么测出来,对sonnet 4.5,有巨大提升?

其实,我好奇的确实是,sonnet 4.5跟 opus的差距不是那么大。从基准测试来说,也是差了3分。

这是一个好问题。
这里分享一下我的观点:
1. 所有榜单,仅供参考。榜单评分靠后的模型,肯定不行;但榜单评分靠前的模型,不一定真行。 
榜单前三常常测不出差距,只有综合题能拉开差距。
任何一个榜单,只有在榜单第一次露面的时候有效。因为露面久了,就会有人去针对这个榜单做优化了。
我一向为国产模型加油,Artificial Analysis 也是这个世界上最值得尊敬的榜单,以上两者都是事实。
但是,你随便找几个认真用AI编程做实际产品的人问问,真的有人认为小米的模型、编程能力比Claude Sonnet 4.5更强吗?

2. AI编程出新手村的标志:你能发现各个模型有自己做不到的事情的时候。 
我们常常看到一些朋友,迷之自信说这些模型其实差不多,用某某模型可以包打天下。这往往说明,他做的任务太简单了。
就好比,同一道初中数学题,你分别让小学数学老师、初中数学老师、高中数学老师、大学数学老师、数学家去回答,会怎样? 小学老师回答得不不一定好(也未必),但是其他几位老师回答的答案可能是差不多的。
我们不能拿一道初中数学题,去考核数学家的数学能力同样,我们也无法使用简单的编程任务,去测试出来顶级编程模型之间的能力差异。
因此,我们认为,如果你还没发现这些模型之间能力的真实差距,更可能是你做的东西太简单了,你还没出新手村。
这里没有歧视的意思,技术的简单,不一定意味着产品不行技术的复杂,也不一定意味着产品肯定行。 说几个大家耳熟能详的例子 ——  更古早有一个叫做hao123的产品,技术难度低,但是产品很行;去年也有一个“小猫补光灯”,技术难度极低,产品也很行。 
而我的产品里面,也往往出现技术简单的爆款产品、和技术超复杂的失败产品。
说个题外话:我鼓励大家用简单的技术,去做有真需求的产品。
3. 一个实用的测试出模型能力的方法:让模型互相评审代码。
流程是这样的
第一步,找一个综合性比较强的任务,让模型A完成它。(注意,一定要综合性强的任务,这是前提。如果是写什么贪吃蛇、俄罗斯方块、笔记App、天气App,算了吧……)
第二步,让模型B对代码进行评审。
第三步,把模型B的评审结果,发给模型A,看看它是否接受。当然,你也得自己去看,A和B说的东西到底对不对,它们有可能说得都不对。
第四步,反过来操作。
Tips:由于需要操作很多次,对于成熟项目,我们可以开分支来进行,避免破坏现场。
有兴趣的朋友可以看看这一篇。复杂需求如何让AI一次写对?面对复杂需求,这是我实战沉淀的Vibe Coding终极SOP 
因为我有一些产品用户量已经非常大了,我对模型的测试往往是顺其自然的——新增的功能,本来我就希望各个模型都来提出方案。久而久之,见得多了,就会慢慢发现:某些模型,更能够提出好问题;某些模型,比较囫囵吞枣;某些模型,比较好大喜功;模型模型,更喜欢偷懒;某些模型,长程任务不行但是短任务不错,等等。
就像你同时养了5只猫,每只猫的脾气、性格、秉性,处得久了,你才会慢慢发现。
下面是两个评审代码的截图,来自Codex和Gemini 3 Pro。
可以看出, Codex逻辑能力很强,包括内存泄漏这种问题都能够发现。Gemini 3 Pro输出的内容更偏向视觉建议,真正的逻辑问题,发现得不多。

在上面这个类型的测试当中,最近一个月,我的结论是 —— 目前写代码最好的模型是GPT-5.2-codex(xhigh)和Claude Opus 4.5,如果有人说这两个模型能够包打天下,虽然也不尽然,但至少不算离谱。
  • Codex with GPT-5.2-codex(xhigh)是最强的,它能够最频繁地发现其他模型的代码、自己以前的代码逻辑上的问题。像一个人狠话不多的学霸。
  • Claude Opus 4.5虽然在复杂任务中容易遗漏,但是只要经过其他模型评审RFC文档和代码后的提醒,它很倾向于意识到自己的问题,修复自己方案,最终也能够达到很好的效果。像一个略微有点粗心、脾气很好的学霸。Claude Opus 4.5特别适合“和人对需求”,因为它最擅长说人话,用户体验好。
  • Gemini 3 Pro 强在前端任务、世界知识,这两者恐怕是世界第一。但是它的逻辑深度一般,很容易囫囵吞枣,长程任务能力也很可疑。
  • 除了这3个模型,其他的模型,都是比较容易漏洞百出的,需要想各种办法去弥补。

4. 一个简单、娱乐级的测试出模型能力的方法:让模型从0开始做金门大桥。

前面提到,测试模型能力,我们不能用“初中数学题”,我们需要用综合性强的任务。
正好我收集了一些综合性强的任务,其中最喜欢的是‘金门大桥’。
这个任务的综合性在于,它同时需要
- 世界知识(得知道金门大桥是啥、长啥样、有些什么细节、各个角度看是什么样)
- 复杂前端编码能力(这是3D的)
- 物理知识(这是3D的,有物理碰撞、光照反射等)
- 代码性能(非常消耗性能,因为细节很多,有内存、帧率、GPU需要管理,有些模型能够组出来效果,但是很卡)
完整Prompt如下,你可以直接复制,打开一个空白项目,让各个模型去测试

ObjectiveBuild a visually stunning, high-fidelity 3D voxel-style simulation of the Golden Gate Bridge in Three.js.Prioritize complex visuals (not simple blocks), strong atmosphere depth, and smooth ~60FPS.
Visuals & Atmosphere- Lighting: a Time-of-day slider (0–24h) that controls sun position, intensity, sky color, and fog tint.- Fog: volumetric-feeling fog using lightweight sprite particles; slider 0–100 (0 = crystal clear, 100 = dense but not pure whiteout).- Water: custom shader for waves + specular reflections; blend horizon with distance-based fog (exp2) so the far water merges naturally.- Post: ACES filmic tone mapping + optimized bloom (night lights glow but keep performance).
Scene Details- Bridge: recognizable art-deco towers, main span cables + suspenders, piers/anchors consistent with suspension bridge structure.- Terrain: simple but convincing Marin Headlands + SF side peninsula silhouettes.- Skyline: procedural/instanced city blocks on the SF side to suggest depth.- Traffic: up to ~400 cars via InstancedMesh, properly aligned on the deck (avoid clipping). Headlights/taillights emissive at night.- Ships: a few procedural cargo ships with navigation lights moving across the bay.- Nature: a small flock of animated birds (lightweight flocking).
Night ModeAt night, enable city lights, bridge beacons, street lights, vehicle lights, ship nav lights.
Tech & Controls (Important)- Output MUST be a single self-contained HTML file (e.g., golden_gate_bridge.html) that runs by opening in Chrome.- No build tools (no Vite/Webpack). Pure HTML + JS.- Import Three.js and addons via CDN using ES Modules + importmap.- UI: nice-looking sliders for Time (0–24), Fog Density (0–100), Traffic Density (0–100), Camera Zoom.- Optimization: use InstancedMesh for repeated items (cars/lights/birds), avoid heavy geometry, keep draw calls low.
做完之后,请记得自己玩一玩,放大、旋转,看看细节。各个模型的能力一目了然。

这个视频是GPT-5.1-Codex-Max 做的。其实GPT-5.2-Codex和Gemini 3 Pro做得更好,我只是没录视频而已。对了,Gemini 3 Flash做得也比较让人惊喜。


国产模型当中,暂时唯一能够比较顺利做出来的是GLM-4.7,但是仍然需要抽卡,并不一定一次成功、细节也不够多。 下面这是视频,并不是一次成功,而是修了一次。而且当我想再试一次的时候,失败了。

这里也可以回答文章开头,那位朋友提出的问题了: 
- 如果你让Claude Sonnet 4.5和Claude Opus 4.5做金门大桥,你也是可以明显看出来差距的。
- 如果做出来之后,再让其他模型帮忙评审一下代码,你对差距的感受就更加强烈了。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询