2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

GPT-5.6 Sol深夜炸场发布!OpenAI最强模型碾压Claude 5!

发布日期:2026-06-27 07:20:16 浏览次数: 1534
作者:AIGC创意猎人

微信搜一搜,关注“AIGC创意猎人”

推荐语

GPT-5.6 Sol震撼发布,不仅以更低价格和更强性能挑战Claude 5,更标志着AI从单一聊天工具转向能处理复杂工程任务的多智能体协作系统。

核心内容:
1. GPT-5.6 Sol的核心定位与多模型组合策略
2. 在终端工作流基准测试中的性能表现与价格优势
3. 对开发者工作流的深远影响与未来Agent任务范式

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

大家好,我是创意猎人。

刚刚,传言变成现实:

OpenAI 放出了其最新最强的模型 GPT-5.6 Sol。

Image

看起来像一次很正常的新模型发布,但味道明显不一样:模型很强,发布很谨慎,甚至谨慎到美国政府也进了流程。

GPT-5.6 这次不是单枪匹马出来的,而是一套模型组。

Sol 是旗舰,Terra 是平衡档,Luna 是低成本档。

Image

Sol 主打代码、网络安全、生物工作流和长任务 Agent

它已经不仅仅是陪你聊天的模型,它更适合进 Codex、API、企业工作流里干复杂活。


Sol 最狠的地方,它是一个能干活的 Agent

Sol 还多了两个新模式:max 和 ultra

Image

max 给模型更多推理时间,ultra 会调用子 Agent 来处理复杂任务。

这个信号很直接:后面的强模型,不再只是“一个大脑回答问题”,更像一组小队协作。

这对开发者很关键。

以前你让 AI 改项目,它常见的问题是看得懂局部代码,但撑不住完整任务。Sol 的方向,是让模型能读仓库、跑测试、定位 bug、继续追错、给补丁。

它考验的不是一句回答多漂亮,考验的是能不能在真实工程环境里把事情做完。

最能说明问题的是 Terminal-Bench 2.1。

Image

GPT-5.6 Sol Ultra 拿到 91.9%,GPT-5.6 Sol 是 88.8%,略高于 Claude Mythos 5 的 88.0%。

这个差距看起来不大,但放在终端工作流这种高难度任务里,已经足够说明 Sol 的核心方向:它的价值不止是写几段代码,更在于把一串工程动作连起来做。

如果你用 Codex,这种变化会很直接。

以后别只说“帮我修 bug”,更好的方式是把任务写成可检查的流程:先阅读相关模块,列出可能根因;再写最小复现;然后做最小修改;跑测试;补充说明还有哪些风险没覆盖。

强 Agent 吃的就是这种任务描述。


GPT-5.6 压着 Claude 5 打

拿 Claude 5 系列来比,最直接的差距先出现在价格上。

Claude Fable 5 的 API 价格是每百万 token 输入 10 美元、输出 50 美元;GPT-5.6 Sol 是输入 5 美元、输出 30 美元。只看这一项,Sol 已经明显便宜一截。

Image

能力定位上,两边都在抢长任务、代码和 Agent 工作流。

Claude Fable 5 强调长上下文、复杂知识工作和编码;Sol 则把代码、网络安全、生物工作流、子 Agent、Codex 入口一起端出来。

Claude 5 还是很强,但 Sol 这次不只是模型参数更新,它把“模型能力 + 工具入口 + 分级价格 + 安全发布”一起打包了。

所以标题里说“碾压”,不是说 Claude 5 不能用,而是这轮发布的综合压迫感更强。

Sol 价格更低,产品入口更完整,还直接绑定 Codex 和 API 的 Agent 场景。对开发者和企业来说,这比单纯榜单高一点更重要。


真正敏感的,是它碰到了攻防边界

Sol 真正敏感的地方,在网络安全和生物分析。能力越强,双用途问题越绕不过去。你让模型帮你分析漏洞,可能是公司在做防御,也可能是攻击者在找突破口。模型越弱,这个问题越不尖锐;模型越强,边界越难管。

Sol 更擅长帮人发现和修复漏洞,但还不能稳定完成端到端攻击。系统卡里也把 GPT-5.6 系列按高风险能力处理,但没有达到 Cyber Critical 阈值。

说白了,它还没到最危险那档,但已经强到不能随便放。

Image

ExploitBench 这张图也把问题说得很清楚:Sol 在更少输出 token 下,把漏洞研究和利用相关任务的能力曲线拉得更高。

这个点很关键,因为安全任务不是写一段答案就结束,它往往要连续推理、验证、修正。模型越能省 token、越能持续推进,实际价值越大,风险也越需要被认真处理。

所以 OpenAI 加了多层防护:模型拒答、生成中实时分类器、账号风险信号、分级访问、监控和后续处理。遇到高风险内容时,生成可能会被暂停,交给更强的推理模型复核。

你以后用它做安全测试、生物分析、某些双用途任务,可能会遇到拒答或变慢。模型未必是变笨了,更可能是中间多了一层审核。


这次发布最不寻常:美国政府先看名单

这次最不寻常的点是发布方式。

GPT-5.6 会先给一小批可信合作方预览,参与方信息会和美国政府共享,之后再扩大到 ChatGPT、Codex 和 API。

这背后的问题很现实:谁能先用最强模型,谁算可信,美国以外的开发者怎么办,安全研究人员会不会因为不在名单里被挡住。

强模型正在变成一种生产资料,越强,越不可能像普通 App 更新那样随便开放。


普通用户真正该学什么?

很多人看到 limited preview 会觉得失望:又是别人先用,我只能看新闻。但我觉得更该提前准备的是工作方式。

强模型出来以后,真正拉开差距的不是谁收藏了更多提示词,差距来自谁能把它接进自己的工作流。

Image

对内容创作者来说,Sol 这类模型最适合做前置研究,直接让它写稿反而浪费。

比如你可以让它把发布资料、系统卡、主流媒体报道和 X 上争议观点分成四类:确定事实、公司立场、媒体解读、未经证实的传播。每一类只保留可引用的信息,并标注来源链接。

这类工作以前很耗时间,但强模型如果能稳定做资料归纳,创作者的瓶颈会从“找资料”变成“你有没有判断”。

信息整理会越来越便宜,观点、取舍和经验才会越来越值钱。


我的判断

GPT-5.6 Sol 真正重要的地方,不只是 OpenAI 又发了一个更强模型。

它把前沿 AI 的新阶段摊开给你看:能力继续变强,价格继续往下压,Agent 工作流继续往真实项目里走,同时监管和访问权限也开始变重。

Claude 5 当然还是强对手,但 Sol 这次赢在组合拳,是在代码、安全、长任务、子 Agent、Codex、API 成本和发布机制上一起出牌。

未来你问“哪个模型最强”可能都不够了,更重要的问题是:你有没有资格用它,你准备用它做什么,你能不能把它变成真实产出。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询