我要投稿

GPT-5.5 发布，详细解读

发布日期：2026-04-24 07:05:01 浏览次数： 1811

作者：赛博禅心

微信搜一搜，关注“赛博禅心”

OpenAI Release

凌晨，OpenAI 发布 GPT-5.5，是 GPT-5 系列迄今最大更新

下面这个，是介绍视频

https://openai.com/index/introducing-gpt-5-5/

本次核心变化：用更少的 token，干更难的活

在 Artificial Analysis 的 Coding Agent Index 上，GPT-5.5 达到了最高智能水平，成本是同级别竞品的一半

GPT-5.5 这个模型，目前已向 ChatGPT 付费用户开放

更高级别的 GPT-5.5 Pro，则向 Pro、Business、Enterprise 用户开放

API 即将上线，价格大幅上涨，为 $5/$30 (每百万Token)，比 5.4 翻了 3 倍

能力总览

OpenAI 拿出了一张 9 项核心指标的对比表，横向对比 GPT-5.5、GPT-5.4、GPT-5.5 Pro、GPT-5.4 Pro、Claude Opus 4.7 和 Gemini 3.1 Pro

核心 Benchmark 总览

在 Artificial Analysis Intelligence Index（第三方，10 项 eval 加权平均）上，GPT-5.5 在同等输出 token 量下智能得分最高，token 总消耗明显低于其他模型

Terminal-Bench 2.0复杂命令行工作流：82.7%，vs GPT-5.4 的 75.1%，vs Claude Opus 4.7 的 69.4%

SWE-Bench Pro真实 GitHub issue 解决：58.6%，vs GPT-5.4 的 57.7%。Claude Opus 4.7 报了 64.3%，但 Anthropic 承认部分问题存在记忆化

Expert-SWE内部长周期编码任务，中位人类完成时间 20 小时：73.1%，vs GPT-5.4 的 68.5%

在 Codex 里，GPT-5.5 可以接手从实现、重构到调试、测试的完整工程工作。上下文窗口 400K

知识工作

coding 之外，GPT-5.5 在日常电脑操作和知识工作上的提升同样明显

GDPval44 个职业知识工作测试，胜出或平手率 84.9%，vs GPT-5.4 的 83.0%，vs Claude Opus 4.7 的 80.3%

OSWorld-Verified模型独立操作真实电脑环境：78.7%，vs GPT-5.4 的 75.0%

Tau2-bench Telecom复杂客服工作流，无 prompt 调优：98.0%，vs GPT-5.4 的 92.8%

GPT-5.5 Pro 也有提升。早期测试者觉得 GPT-5.5 Pro 在业务、法律、教育、数据科学方向上比 GPT-5.4 Pro 更全面、更准确

财务建模 demo，手动替换：https://player.vimeo.com/video/1185616826

OpenAI 内部用例

OpenAI 公司超过 85% 的员工每周都在用 Codex，覆盖工程、财务、市场、公关、数据科学、产品管理

公关团队分析了 6 个月的演讲邀请数据，建了打分和风险框架，低风险请求自动处理，高风险请求交人审核

财务团队审了 24,771 份 K-1 税表，共 71,637 页，比去年提前两周完成

GTM 团队自动生成周报，每周省 5-10 小时

科学研究

GeneBench 是 OpenAI 新推出的 eval，测试多阶段遗传学和定量生物学数据分析。这些任务通常对应科研专家几天到几周的工作量。GPT-5.5 得分 25.0%，GPT-5.4 是 19.0%，GPT-5.5 Pro 达到 33.2%

BixBench（真实生物信息学和数据分析 benchmark）：GPT-5.5 得分 80.5%，GPT-5.4 是 74.0%

Academic 评测数据

Ramsey 数新证明

GPT-5.5 的内部版本配合自定义工具链，发现了关于 Ramsey 数的一个新证明。Ramsey 数是组合数学的核心对象，研究结果稀少且技术难度高。这个证明后来在 Lean 中完成了形式化验证

推理效率

GPT-5.5 更大更强，但实际延迟和 GPT-5.4 一样

此前，OpenAI 用固定数量的静态分区来平衡 GPU 上的计算负载

而在新版本中，Codex 分析了数周的生产流量数据，写了自定义的启发式分区算法。这一项改进让 token 生成速度提升了超过 20%

模型帮忙优化了自己运行的基础设施

网络安全

GPT-5.5 的网络安全能力被 OpenAI Preparedness Framework 评为 High（生物/化学能力同为 High）。没有达到 Critical 级别

CyberGym81.8%，vs GPT-5.4 的 79.0%，vs Claude Opus 4.7 的 73.1%

CTF 挑战任务内部扩展版：88.1%，vs GPT-5.4 的 83.7%

与此同时，GPT-5.5 也发布同时推出了一个新项目：生物安全漏洞赏金

规则是这样，OpenAI 准备了 5 个生物安全问题，参与者需要找到一条「通用越狱 prompt」，在 Codex Desktop 的干净对话里，一次性通过全部 5 个问题，且不触发审核，就算越狱成功

参与地址在这：https://openai.com/index/gpt-5-5-bio-bug-bounty/

第一个成功的通用越狱，奖金 $25,000。部分突破可能获得较小奖励

申请窗口2026 年 4 月 23 日开放，6 月 22 日截止，滚动审核

测试窗口2026 年 4 月 28 日至 7 月 27 日

准入条件需要现有 ChatGPT 账号，签署 NDA

保密要求所有 prompt、输出和发现均受保密协议覆盖

面向有 AI 红队、安全或生物安全经验的研究者

可用性与定价

ChatGPT

GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用户。GPT-5.5 Pro 面向 Pro、Business、Enterprise 用户

Codex

GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 计划，400K 上下文窗口。Fast 模式 token 生成速度提升 1.5 倍，成本 2.5 倍

API（即将上线）

gpt-5.5$5/1M input tokens，$30/1M output tokens，1M 上下文窗口

gpt-5.5-pro$30/1M input tokens，$180/1M output tokens

Batch / Flex标准价的一半

Priority标准价的 2.5 倍

GPT-5.5 单价比 GPT-5.4 高，但 token 效率也更高

OpenAI 表示在 Codex 里，GPT-5.5 对大多数用户来说，实际消耗的 token 比 GPT-5.4 更少

完整 Benchmark 数据

以下是 OpenAI 公布的全部评测数据，按类别整理。所有 GPT 评测在 reasoning effort 设为 xhigh 的研究环境中进行

Coding 评测表

Professional 评测表

Computer Use and Vision 评测表

Tool Use 评测表

Academic 评测表

Cybersecurity 评测表

Long Context 评测表

Abstract Reasoning 评测表

短板

SWE-Bench Pro 上 Claude Opus 4.7 报了 64.3%（GPT-5.5 是 58.6%），但 Anthropic 承认部分问题存在记忆化

MCP Atlas 上 Claude Opus 4.7（79.1%）和 Gemini 3.1 Pro（78.2%）均高于 GPT-5.5（75.3%）

Humanity's Last Exam（带工具）上 GPT-5.4 Pro 的 58.7% 高于 GPT-5.5 Pro 的 57.2%

长上下文 256K 以上，Claude Opus 4.7 在部分指标上仍有优势

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-04-24

一文读懂DeepSeek V4：1.6万亿参数、百万上下文、华为芯片

2026-04-24

AI编程的“作坊时代”即将终结！Google Cloud全套企业级“驾驭工程”底座，正在重构开发者的一切

2026-04-24

GPT5.5来了，最大特点解析

2026-04-24

微信9.0要来了，内置一个AI管家

2026-04-24

GPT-5.5来了！我撤回了退订ChatGPT的决定

2026-04-24

GPT-5.5来了！全榜第一碾压Opus 4.7，OpenAI今夜雪耻

2026-04-23

最新！万字综述Harness革命！

2026-04-23

Image2 的六大生产级场景，电商、营销、品牌，重新定义 AI 绘画，绝了！

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

豆包 2.0 模型发布，全信息整理（全网最完整，另附 79 页 Model Card）

2026-02-14

Codex 独立 App 来了，这是一个新东西

2026-02-03

谷歌重大更新：国内手动开启 Gemini AI 侧边栏与 Auto Browse 自动浏览全攻略

2026-02-03

OpenAI 发布新的 Codex 桌面版，我现在不骂 Codex 难用了

2026-02-03

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

全网最详细的Codex入门教程，手把手教你玩转Vibe Coding。

2026-02-09

大家都在问

本体化语义层，会是 AI 数据平台的新地基吗？

2026-04-22

设计行业的“棺材板”，要被Claude Design盖上了？

2026-04-18

当所有人都不写代码了，谁来看懂代码？

2026-04-13

什么场景该用 AI Native？

2026-04-12

12MB的Go二进制，让AI操控浏览器只花800 tokens，PinchTab凭什么这么省？

2026-04-07

华为AI 49元/月！贵？不贵？

2026-04-01

为什么这波 AI 产品都开始抢着做 CLI ？

2026-03-31

Harness Engineering 来了，SDD 还有意义吗？

2026-03-31

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw