我要投稿

OpenAI深夜引爆GPT-5.6，三箭齐发全面围剿Anthropic

发布日期：2026-06-27 09:40:33 浏览次数： 1511

作者：BubbleBrain

微信搜一搜，关注“BubbleBrain”

Hello，大家好！

我是真没想到OpenAI会赶着周五把GPT5.6发布了，因为之前就有消息说是这周发不了，因为Fable 5那件事，要推迟的。

然后我兴致勃勃的打开官网一看，尼玛，果然还用不上。目前只对指定的合作伙伴和企业开放。

虽然我们还用不上，但不如提前了解一下新一代的GPT-5.6的能力吧。

这次一共发了三个版本，Sol、Terra、Luna。

「Sam 你小子，也开始跟着Anthropic 造概念了是吧」

Sol 最牛逼，我理解就是以前的Pro，Terra 是中等、Luna 是又快又便宜，我理解就跟之前的mini版本差不多。

再看跑分。

大家熟悉的Coding Benchmark，TerminalBench 2.1，

新一代的GPT-5.6已经刷爆了。。。

GPT-5.6 Sol的跑分已经比Anthropic 的Mythos 5 高了。甚至如果把推理模式开到新增的Ultra的话，分数已经超过了90%。

这是什么概念呢？

如果一个Benchmark 让模型能够刷到超过90%的话，就意味着这个Benchmark 基本不可用了。

在生物方向上，GPT-5.6也有足够的进步。

GeneBench V1是一个面向长周期基因组学和定量生物分析任务。

GPT-5.6 Sol在输出相同数量的token时，分数已经超过了前代的GPT-5.5了。

在同样的成本条件下，GPT-5.6 Sol和GPT-5.6 Terra 的表现也仍然比GPT-5.5更好。

这也就意味着，新一代的GPT-5.6 在面对科研场景的时候，性价比更高。对很多实验室和科研团队来说，会直接影响他们是否把新一代的模型接入到自己的工作流中来。

然后就是网络安全了。

大概率是因为之前Anthropic那档子烂事，OpenAI发布的博客里，花了大量的笔墨来写新一代模型在安全防御上的能力。

在ExploitBench 上，GPT-5.6 Sol 用了相比于Mythos 少超级多数量的Tokens，就逼近了它的能力。

还有OpenAI和UC Berkeley 研究者们合作的新Benchmark，ExploitGym，

GPT-5.6 的三个模型都展示了随着推理能力的增加而能进一步提升安全能力。

另外，OpenAI甚至投入了70万个A100等效GPU小时来用于自动化红队测试，目标是寻找通用型越狱攻击。

也就是说可以在多种提示词或不同上下文中都能生效的攻击方式，而不是只在某个单一场景下有效的攻击。

此外，还与第三方的测试人员合作，进行了大量人类专家参与的红队测试。人类红队测试补充了自动化测试，让整个防护机制更加全面。

最后是价格和开放。

GPT-5.6 目前还只是预览阶段。只能通过API的方式给指定的合作伙伴开放。具体什么时候能在ChatGPT、Codex 以及API开放给更多的用户，时间还不知道。

价格上，GPT-5.6 Sol 每一百万的token 输入输出分别对应 5刀、30刀。Terra 的价格是2.5刀、15刀。Luna 是最便宜的，在1刀和6刀。

GPT-5.6 还引入了更可预测的提示缓存机制，包括支持显式缓存断点，以及至少 30 分钟的缓存有效期。

对于 GPT-5.6 及后续模型，缓存写入的计费为模型未缓存输入价格的 1.25 倍，而缓存读取仍然享受 90% 的输入折扣。

还有就是OpenAI预计在7月份，会在Cerebras上搞一个更快速的GPT-5.6 Sol，速度可以达到每秒750个tokens。

好啦，今天的分享就先到这儿了。

那现在我只关心的是，

这么强的模型，什么时候能够让所有人都能用上呢？

以后模型的发布流程可能都会以这种方式发布了吧我想🤔

以上，

若觉得内容有帮助，欢迎点赞、推荐、关注。别错过更新，给公众号加个星标⭐️吧！祝您在2026年里天天开心，快乐，身体健康，万事如意！期待与您的下次相遇～

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-27

Agent 发邮件踩坑全记录：从 SMTP 翻车到 Agently Mail

2026-06-27

AgentTeams 和 Claude Tag 都进入群聊模式，是新范式还是新叙事？

2026-06-27

GPT-5.6 Sol深夜炸场发布！OpenAI最强模型碾压Claude 5！

2026-06-26

腾讯混元AI Infra如何优化Hy3 Preview：一次大模型推理性能提升的技术拆解

2026-06-26

多智能体的记忆接线：同一任务，每个角色看到的不一样

2026-06-26

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

Loop Engineering 到底是什么？看这一篇就够了

2026-06-26

基于组件化的工程（CBE）智能体

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

大家都在问

AgentTeams 和 Claude Tag 都进入群聊模式，是新范式还是新叙事？

2026-06-27

Agent 从 Demo 到生产级，中间到底差什么？

2026-06-26

微信在金矿上孵化了啥？

2026-06-25

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw