免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

OpenAI 发布 GPT-5.3-Codex,一文详解

发布日期:2026-02-06 07:30:16 浏览次数: 1514
作者:赛博禅心

微信搜一搜,关注“赛博禅心”

推荐语

OpenAI GPT-5.3-Codex强势反超Claude,77.3%的Terminal-Bench成绩刷新AI编码能力天花板!

核心内容:
1. GPT-5.3-Codex在五大关键基准测试中的突破性表现
2. 模型自我优化的革命性技术突破
3. 自主开发的赛车游戏展示实际应用能力

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

Claude Opus 4.6 发布大约半小时后,GPT-5.3-Codex 来了

Opus 4.6 的博客里说自己拿了 Terminal-Bench 2.0 的最高分,GPT-5.3-Codex 直接交出 77.3%,把这个最高分抢了回去

这里对比下两边的跑分

先是 Claude 的 BenchMark
先是 GPT-5.3-Codex 的 BenchMark

GPT-5.3-Codex 把 GPT-5.2-Codex 的编码能力和 GPT-5.2 的推理 + 专业知识能力合进了一个模型,速度还比 5.2-Codex 快 25%

OpenAI 给了一个说法:这是第一个参与创造自己的模型。早期版本的 GPT-5.3-Codex 被用来 debug 自己的训练过程、管理自己的部署、分析自己的评测结果

跑分

回到 GPT-5.3-Codex

GPT-5.3-Codex BenchMark 跑分

几个关键数字拎一下

Terminal-Bench 2.0:77.3%
测的是编码 Agent 在终端里的操作能力。GPT-5.2-Codex 是 64.0%,GPT-5.3-Codex 直接跳到 77.3%。而且 OpenAI 强调,它用的 token 比之前所有模型都少

Terminal-Bench 2.0:77.3% vs 64.0% vs 62.2%

SWE-Bench Pro:56.8%
比 SWE-bench Verified 更难,跨四种语言,更抗数据污染。GPT-5.3-Codex 在准确率和 token 消耗上都领先

SWE-Bench Pro,横轴是输出 token 数,GPT-5.3-Codex 又准又省

OSWorld-Verified:64.7%
这是个视觉桌面操作的 benchmark,模型要用视觉完成各种电脑任务。人类基准是约 72%

GPT-5.2-Codex 是 38.2%,GPT-5.3-Codex 跳到 64.7%。从不到人类一半到接近人类水平

OSWorld-Verified 跑分

GDPval:70.9%
测的是 44 个职业的知识工作任务,做 PPT、做表格、写文档这些。GPT-5.3-Codex 和 GPT-5.2 打平,都是 70.9%

网络安全 CTF:77.6%
从 GPT-5.2 的 67.7% 涨到 77.6%

前端和游戏

OpenAI 让 GPT-5.3-Codex 自己做了两个游戏来展示长时间 Agent 工作能力。用的是「develop web game」skill,加上「fix the bug」「improve the game」之类的通用 follow-up prompt,让模型在数百万 token 的上下文里自主迭代

赛车游戏
8 张地图,不同赛车手,还能用空格键放道具

赛车游戏

试玩在这

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

潜水游戏
探索珊瑚礁,收集鱼类图鉴,同时要管理氧气、水压和危险

潜水游戏

当然,也可以这个网站上自己玩

https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

Landing page 对比

OpenAI 用同一个 prompt 让 GPT-5.3-Codex 和 GPT-5.2-Codex 分别生成了一个 SaaS Landing page

GPT-5.3-Codex 的版本自动把年付方案显示为折后月价(让折扣感更直观),加了三条用户评价的自动轮播。GPT-5.2-Codex 的版本就是常规实现

5.3-Codex 制作的 Landing page
5.2-Codex 制作的 Landing page

同一个 prompt,细节差异挺大

同样的,这里附上 5.3-Codex 地址:
https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/gpt53-codex-landing-page.html

知识工作

GDPval 测的不只是写代码。44 个职业,任务由各职业的资深从业者设计,做 PPT、做表格、写分析报告都算

OpenAI 放了几个 demo

金融顾问 PPT demo:比较 CD 和可变年金的风险收益
金融顾问 PPT demo:比较 CD 和可变年金的风险收益

其他 demo 还包括零售培训文档、NPV 分析表格、时尚行业 PDF 演示

零售培训文档
NPV 分析表格
时尚演示 PDF

交互方式变了

以前 Codex 是你下指令,等结果。GPT-5.3-Codex 可以在工作过程中实时交互

模型会主动汇报进展和关键决策,你可以中途提问、讨论方案、调整方向,不用等到最后才看到输出

交互协作演示

在 Codex app 里打开 Settings > General > Follow-up behavior 就能用

用 Codex 训练 Codex

这是这次发布里最有意思的部分

OpenAI 说早期版本的 GPT-5.3-Codex 在自己的开发过程中被大量使用。几个具体场景:

研究团队用 Codex 监控和 debug 训练过程,追踪训练中的行为模式,分析交互质量差异,还给人类研究员搭了可视化工具来精确理解模型行为的变化

工程团队用 Codex 优化推理框架,定位上下文渲染 bug,排查缓存命中率低的根因。发布当天,GPT-5.3-Codex 还在帮团队做 GPU 集群的动态扩缩容和延迟稳定

Alpha 测试阶段,一个研究员想量化 GPT-5.3-Codex 每轮多做了多少工作。GPT-5.3-Codex 自己写了几个正则分类器来估算澄清频率、正负反馈、任务进度,然后跑完所有 session log 出了份报告

数据科学家和 GPT-5.3-Codex 一起搭了新的数据管道和可视化,三分钟内对上千个数据点做出了摘要分析

OpenAI 的原话是「团队被 Codex 加速自身开发的能力震住了」

网络安全

GPT-5.3-Codex 是 OpenAI 在 Preparedness Framework 下第一个被标为 High capability 的网络安全模型,也是第一个被直接训练来识别软件漏洞的模型

OpenAI 说没有确定性证据表明它能端到端自动化网络攻击,但采取了预防性措施,部署了他们迄今最全面的网络安全安全栈:安全训练、自动监控、高级能力的可信访问、执行管道 + 威胁情报

几个配套动作:

发布了 Trusted Access for Cyber 试点项目,加速网络防御研究

Aardvark(安全研究 Agent)扩大了内测范围,作为 Codex Security 产品线的第一个工具

和开源项目合作提供免费代码扫描,上周一个安全研究员用 Codex 在 Next.js 里找到了漏洞(Vercel 已披露)

在 2023 年 $1M 网安资助计划基础上,追加 10M USD 的 API credits,专门给开源软件和关键基础设施的安全研究

可用性

GPT-5.3-Codex 今天起在所有 Codex 渠道可用:
Codex appCLIIDE 扩展web

API 访问还在准备中,OpenAI 说「soon」

另外的,在这里下载 Codex app:
https://persistent.oaistatic.com/codex-app-prod/Codex.dmg

 

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询