微信扫码
添加专属顾问
我要投稿
Anthropic静悄悄升级Claude Opus 4.1,在真实编码任务和推理能力上实现显著提升,狙击OpenAI毫不手软。 核心内容: 1. Claude Opus 4.1在SWE-bench测试中准确率提升至74.5% 2. 通过贪吃蛇游戏、体素艺术等案例展示4.1版本的实际改进 3. 保持API价格不变,性价比优势凸显
昨天除了 OpenAI 的更新之外,Anthropic 也“悄悄”更新了模型。Claude Opus 4 升级到 Claude Opus 4.1 了。
为了狙击 OpenAI,Anthropic 也是真拼了。 我也是前天看到了它们在内测新模型的消息,没想到今天就放出来了。
目前新模型 Opus 4.1 已经可以通过客户端和 API 进行使用,而且API 价格和之前的 Opus 保持不变。
根据官方的说法,Claude Opus 4.1 在真实世界的编码任务、推理、代理任务中都有提升。在 SWE-bench Verified 这个测试代码能力的 Benchmark中,Claude Opus 4.1 提升到了 74.5% 的准确率。得益于这个提升,让 Claude 在深度研究和数据分析的能力上都得到了进一步的加强。
有一说一,看这个 Benchmark 图真的发现 Claude 在代码这个领域非常垂类了。在别家 AIME 2025 这个数学竞赛榜都刷到 88% 的时候,它还只停留在 78%,比别家还低 10 个百分点。
光从 Benchmark 上看,其实 Opus 4.1 提升不是很大。所以我也实际上手体验对比了下,看看到底效果提升在哪儿。
本次测试对比了 Claude Opus 4.1 和 Claude Opus 4,分别通过 Claude app 和Chatwise 进行对比
任务 1:创建一个旋转的六边形,其中包含一个完全功能的贪吃蛇游戏,贪吃蛇会与六边形边界互动,食物不能落在六边形外面。
Claude Opus 4 的效果:
果然,升级不是白升级的。Claude Opus 4 生成的六边形没有旋转,Claude 4.1 Opus 生成的就好很多。
任务 2: 设计并创建一个非常有创意、精心且细致的体素(voxel)艺术场景:主题是上海的建筑风景。让整个场景看起来震撼、多样化,并使用色彩丰富的体素。可以使用任何库来实现,但最终请把所有内容整合在一个单独的 HTML 文件里,这样我可以直接粘贴后在 Chrome 中打开运行
这个真的牛逼,提升还是非常大的。明显 Claude Opus 4.1 生成的细节更加丰富,效果更加全面。
任务 3:使用 Three.js 实现一个带有颜色的魔方的旋转和还原功能
太强了,Claude Opus 4.1 的完成度明显强很多,无论是 UI 界面的美观程度还是功能实现上都是 Claude Opus 4.1 更好。
任务 4: make an animated app of the solar system.
Claude Opus 4.1 的效果:
Claude Opus 4 的效果:
任务 5: 创建一个 3D HTML 山脉场景,包含悬崖、河流和昼夜光照变化。支持拖动和缩放、动画过渡、真实感渐变色,并可切换等高线显示
这个是 Kimi的官方 demo case,我拿来测测 Claude 新模型的效果
Claude Opus 4.1 的效果
Claude Opus 4 的效果
这感觉上差了不是一点半点呐。 注意看 Claude Opus 4.1 生成的效果,它是会随着时间的变化,自动进行昼夜的变化的,不需要依赖我去拖动时间条。
Claude Opus 4.1 看上去不仅仅只是Benchmark 上反应的那么一点点小幅度的更新,或者要么我合理怀疑 Anthropic 为了凸显 Opus 4.1 的牛逼把之前的 Opus 4 降智了。不然我真觉得这进步挺大的了
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-09-05
AI技术化工全场景智造探索和思考
2025-09-05
如何让AI“看懂”网页?拆解 Browser-Use 的三大核心技术模块
2025-09-05
一文看懂大模型术语,开启AI语言奥秘探索之旅
2025-09-05
AI领导力革命:OpenAI内部指南曝光,5步打造未来企业!企业AI战略框架!
2025-09-04
Claude Code之父最新访谈揭秘:Claude Code 迭代靠的是直觉「附个人独家使用秘笈」
2025-09-04
自进化智能体的四维成长:模型、上下文、工具与架构如何自主迭代
2025-09-04
AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了
2025-09-04
全球首个 L4 级智能体母体?MasterAgent 的真相与体验
2025-08-21
2025-06-21
2025-08-21
2025-08-19
2025-06-12
2025-06-19
2025-06-13
2025-07-29
2025-06-15
2025-08-19
2025-09-03
2025-09-03
2025-09-03
2025-09-03
2025-09-02
2025-08-28
2025-08-28
2025-08-28