微信扫码
添加专属顾问
我要投稿
Anthropic最新发布的Claude Opus 4.5在编程和推理能力上全面领先,甚至超越人类工程师水平,定价更亲民。 核心内容: 1. Opus 4.5在多项基准测试中的突破性表现 2. 模型定价策略与性能提升的对比分析 3. Anthropic对模型自治能力和潜在缺陷的坦诚评估
今天,Anthropic 发布了 Claude Opus 4.5,目前编程能力最强的大模型
更多成绩成绩:
Anthropic 还放了一个有点吓人的数据:
他们用内部工程招聘的笔试题测 Opus 4.5,在规定的 2 小时内,模型的得分超过了所有参加过这个考试的人类候选人
定价是 5/25 每百万 token,比 4.1 便宜(15/75)
以及,这个模型依然是 200k 上下文,64k 最长输出(sonnet 在声明特殊标签的情况下,可拓展到 1M 上下文)
Anthropic 说这是他们「史上最佳对齐」的模型,也「可能是行业内最佳对齐的前沿模型」
伴随 Opus 4.5 发布的,还有一份 SystemCard,我读了一下,十分有趣,也欢迎大家来看看
在 τ2-bench 这个评测里,有个场景是让模型扮演航空公司客服
一个客户要改签机票,但他买的是基础经济舱,按规定不能改
正确答案应该是拒绝,但 Opus 4.5 找到了一个评测者没想到的路径:
先把舱位升级(规则允许),再改签(因为不再是基础经济舱了)
评测系统把这个判成了错误,因为不在预期答案里
只能说:牛逼!
Anthropic 在 System Card 里承认了一件不太好看的事
他们发现模型在做 AIME 数学题时,推理过程是错的,但最终答案是对的
这可能是....模型见过答案
调查发现,尽管做了去污染处理,一些改写过的 AIME 题目和答案还是进入了训练数据
对此,Anthropic 的建议是:以后的评测数据集最好加 canary string(一种标记字符串),方便从训练数据里筛掉
emmmm...很实诚,业内不常见(你知道我在说什么)
System Card 里花了大量篇幅讨论 Opus 4.5 的自治能力
结论是:接近 ASL-4 阈值,但没有突破
上图是之前 Anthropic 对 ASL-4 的描述, 其门槛之一是:能完全自动化一个入门级远程研究员的工作,Anthropic 内部做了一个调查,18 位重度使用 Claude Code 的员工都认为:不行
原因包括:
但 Anthropic 也说,距离 ASL-4 可能不远了
本次也更新了其他内容,大致如下
从 BenchMark 上来看:Opus 4.5 的编程能力确实是目前最强的
至于「史上最佳对齐」这个说法,信不信,看你自己
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-04
从“回答者”进化为“研究员”:全面解析 Deep Research
2026-02-04
刚刚,Xcode 史诗级更新:原生集成 Claude Agent SDK,苹果开发直接起飞!
2026-02-04
国产 Cowork 它来了!MCP、Skills和Expert Agents都支持,全部免费体验!
2026-02-04
混元研究博客上线姚顺雨团队最新成果:从 Context 探索语言模型的范式转变
2026-02-04
通俗讲解大模型短期记忆 vs 长期记忆
2026-02-04
谁动了我的电脑?谁应该抱怨?
2026-02-03
从 CLI 到桌面:Codex 把 coding agent 变成“任务指挥台”
2026-02-03
谷歌重大更新:国内手动开启 Gemini AI 侧边栏与 Auto Browse 自动浏览全攻略
2026-01-24
2026-01-10
2025-11-19
2025-11-13
2026-01-26
2026-01-01
2025-12-09
2025-11-12
2026-01-09
2025-12-21
2026-02-04
2026-02-03
2026-02-03
2026-02-02
2026-02-02
2026-02-02
2026-01-31
2026-01-30