免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

大年初二炸场!Claude Sonnet 4.6 突发上线:拥有 Opus 水平,编程能力史诗级进化

发布日期:2026-02-18 10:10:02 浏览次数: 1529
作者:AI智见录

微信搜一搜,关注“AI智见录”

推荐语

大年初二AI圈再爆惊喜!Claude Sonnet 4.6以Opus级实力登场,编程能力实现史诗级突破。

核心内容:
1. 性能全面升级:编程、逻辑推理等关键领域超越前代,接近顶级模型水平
2. 百万Token上下文支持:可处理完整代码库或数十篇论文
3. 实用优化:减少代码省略、提升指令遵循能力,开发者实测体验大幅改善

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

大家好,我是智见君!

昨天(大年初一),阿里 Qwen 团队除夕夜刚给大家送上了一份“硬核年货” —— Qwen 3.5 开源版,让不少技术人除夕夜都没睡好。

万万没想到,大洋彼岸的 Anthropic 也是“上赶着祝贺”,在今天大年初二(2月18日),突然扔出了一枚重磅炸弹——Claude Sonnet 4.6 正式发布

看来硅谷的 AI 巨头们也深谙中国春节的“内卷”之道,生怕大家假期过得太清闲。

官方本次发布描述为 “目前最强的 Sonnet 模型”,在编程、电脑操作(Computer Use)、长上下文推理以及 Agent 规划能力上都迎来了全面升级。

Claude Sonnet 4.6 发布
Claude Sonnet 4.6 发布

以下是 Claude Sonnet 4.6 更新的几个核心亮点:

  • • 全方位能力提升:在编程、逻辑推理、文档处理等关键领域,性能显著超越前代 Sonnet 4.5。
  • • 100万 Token 上下文:Beta 版支持高达 1M 的上下文窗口,足以吞下整个代码库或几十篇研究论文。
  • • 定价不变:尽管能力大幅提升,API 价格依然维持在每百万 Token 输入 15 的水平。
  • • 全面开放:Free 和 Pro 用户即日起默认使用 Sonnet 4.6。

对于开发者来说,最关心的莫过于 Coding 能力。根据 Anthropic 的测试数据,Sonnet 4.6 在 SWE-bench Verified(基于真实 GitHub 问题的基准测试)中得分达到了 79.6%,相比 Sonnet 4.5 (77.2%) 有了明显提升,甚至非常接近 Opus 4.6 (80.8%) 和 GPT-5.2 (80.0%) 的水平。

在实际体验中,这种提升更为直观。Anthropic 表示,在早期测试中,开发者有 70% 的时间更倾向于使用 Sonnet 4.6 而非 Sonnet 4.5

为什么?因为它治好了 AI 的“懒病”:

  • • 更少偷懒:不再随意省略代码,完整性更高。
  • • 指令遵循更强:更精准地理解复杂需求。
  • • 上下文理解更深:在修改代码前会更认真地阅读上下文,减少了因理解偏差导致的错误。

Cursor 的联合创始人 Michael Truell 也给出了极高的评价:

“Claude Sonnet 4.6 在各方面都比 Sonnet 4.5 有了显著进步,尤其是在处理长周期任务和更困难的问题上。”

去年 10 月,Anthropic 首次推出了能够像人一样操作电脑的 Computer Use 功能。仅仅几个月过去,Sonnet 4.6 在这项能力上又迈出了一大步。

在 OSWorld(AI 电脑操作的标准基准测试)中,Sonnet 4.6 的得分飙升至 72.5%,而上一代 Sonnet 4.5 仅为 61.4%。

OSWorld 基准测试得分走势
OSWorld 基准测试得分走势

这意味着什么?现在的 Claude 在浏览网页、点击鼠标、输入文字时,表现得更像一个熟练的人类用户。它可以处理更复杂的电子表格、填写多步骤的网页表单,甚至在多个浏览器标签页之间自如切换,完成跨应用的复杂任务。

除了编程和电脑操作,Sonnet 4.6 在各项通用基准测试中也表现亮眼。在 GPQA Diamond(研究生水平推理)测试中,得分达到 89.9%,不仅超越了 Sonnet 4.5,甚至在某些维度上可以与更昂贵的 Opus 模型掰手腕。

各模型基准测试对比
各模型基准测试对比

特别值得一提的是它的长上下文推理能力。Sonnet 4.6 不仅能“装”下 100 万 Token 的内容,更重要的是它能有效地利用这些信息进行长周期的规划和决策。

在一个模拟经营游戏(Vending-Bench Arena)的测试中,Sonnet 4.6 展现出了惊人的策略性:它会在前十个月投入巨资扩大产能,然后在最后阶段果断转向追求利润。这种“放长线钓大鱼”的决策能力,以往往往是人类或顶级大模型才具备的特质。

除了 Cursor,多家科技公司的技术负责人都对 Sonnet 4.6 赞不绝口:

  • • GitHub 产品副总裁 Joe Binder:“Sonnet 4.6 在复杂代码修复方面表现出色,特别是当需要在大型代码库中搜索时。”
  • • Replit 总裁 Michele Catasta:“它的性价比简直不可思议(extraordinary)。它能处理我们最复杂的 Agent 工作流。”
  • • Bolt CEO Eric Simons:“它是我们在复杂应用构建和 Bug 修复上的首选,以前这些工作通常需要更昂贵的模型。”

在这个春节,Anthropic 用 Claude Sonnet 4.6 给全球开发者送上了一份大礼。对于大多数用户而言,Sonnet 4.6 凭借其接近 Opus 的能力和维持不变的价格,无疑将成为目前性价比最高的首选模型

如果你还在使用旧版本,不妨趁着假期试一试这个新伙伴。API 用户现在就可以调用 claude-sonnet-4-6 来体验了。

 

热文推荐

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询