我要投稿

GPT-5-Codex 发布，可以7小时连续编程，但OpenAI 封杀了API。。

发布日期：2025-09-17 20:18:04 浏览次数： 2985

作者：夕小瑶科技说

微信搜一搜，关注“夕小瑶科技说”

凌晨一点，OpenAI 发布了 GPT-5-Codex，但这次，所有想调用 API 的开发者可能要失望了。

OpenAI 做了一个决定：Codex 并不通过 API 开放。

你不能靠 key 来偷偷调用 GPT-5-Codex 模型，只能通过 CLI、IDE 插件或者 Codex 网页端来用。

它的任务很简单：替你干活。

Codex 这次不再局限于写几行代码，而是从你提需求那一刻起，它会自己搭项目、跑测试、修 bug、贴截图、提 PR。一口气干完，而且能连续独立执行七小时不间断。

Codex 从 GPT-3 时代就有了雏形，但这次的 GPT-5-Codex，是 OpenAI 第一次把它变成了一个真正能交付的「工程智能体」。

跑分

GPT-5-Codex 到底有多强？可以先看几组跑分。

在基准测试 SWE-bench 里，Codex 的通过率从 GPT-5 的 72.8% 提高到了 74.5%。这提升不算夸张，但足够稳定，说明它在“修 Bug、补功能、读文档”这些传统任务上，更可靠了。

但一旦涉及到代码重构，差距就突然拉开了。

同样是让模型去处理大型代码库里的结构改造任务，GPT-5 的成功率只有 33.9%，而 Codex 做到了 51.3%。提升接近 20 个点。这种任务跟“写段小函数”完全不同，需要上下文联动、理解依赖关系、一步步通关调试。

Codex 的训练重点，显然押在了这里。

最值得我们注意的是这张图，GPT-5-Codex 是如何具有动态思维的 （统计 Codex 在不同任务复杂度下花了多少 token，相当于“模型输出量”）。

OpenAI 用自家员工使用 Codex CLI 的大量数据做了分析，把各级复杂度任务的 token 用量抽象分成百分位曲线，最后得到这样的结论：

在最简单的前 10% 任务中，GPT-5-Codex 一切从简处，比 GPT-5 少花了 93.7% 的计算量；

而在最复杂的后 10% 任务中，Codex 选择拿出加倍资源。比 GPT-5 多花了 102.2% 的 token，来做逻辑推理、编辑、运行测试和迭代。

换句话说，小任务快速，输出少；复杂大项目花更多时间思考和执行。这才是工程智能体该有的样子。

如果你团队是重度依赖代码审查的，Codex 还能省下不少人工精力。

官方对 Codex 的审查能力也做了测评。用三组数据说话：

错误建议比例：GPT-5 的错误率是 13.7%，Codex 降到了 4.4%；
高价值建议比例：GPT-5 只有 39.4%，Codex 提升到了 52.4%；
平均每个 PR 留言数量：GPT-5 是 1.32 条，Codex 变成 0.93 条。少说废话，多讲重点。

这套测试成绩背后的意义是什么？

并不是 Codex 拿了个更好的 Benchmark 成绩，而是它证明了 Agent 式 AI 的三件事：

它可以按任务复杂度分配时间；
它可以读懂系统级的上下文；
它能输出“工程意义上的结果”，不是看起来漂亮的代码片段，而是真正能跑、能测、能合并进主分支的代码。

这也是为什么 OpenAI 说：“我们推荐把 Codex 只用在 Codex 系统里”。

使用规则

现在，Codex 已经打通了所有你可能写代码的地方——终端、IDE、网页端、GitHub，甚至 ChatGPT 的手机 App。无论你在哪写代码，它都能跟上节奏，随时接活。

他们还对 Codex 进行了更新。

CLI 体验更新了 UI，支持附加截图、线程图、上传设计格式了，展示工作进度和交互记录都更精细。它会在复杂任务中创建待办列表，自动进行环境搭建和依赖分析，环境初始化和 pip install 这类操作也能当场自动执行。

IDE 插件支持 VS Code、Cursor 和各种分支版，你打开一个文件，Codex 就知道你在搞啥。当场进行代码进行编辑，不用重复解释 prompt。编辑器里直接跳转到云任务，所有上下文不会丢。

云代理 Codex Cloud 则是最能打达自动化效率上限的部分：它能跟开浏览器，看自己生成的网页或 UI 页面，根据你给的截图进行返回渲染。如果需要，它会把运行结果的截图和日志展示给你，并提交到 GitHub PR。

价格

Codex 已经整合进了 ChatGPT 的全套订阅计划里，从 Plus 到 Pro，从 Business 到 Enterprise 都包含。

使用次数是有上限的，但给得不算少。

比如 Plus 用户，每 5 小时可以跑 30 到 150 次本地任务，一周内有总量限制。Pro 用户能跑得更多，大概是每 5 小时支持 300 到 1500 次左右的本地调用，还带“云端任务特批额度”。

Business 和 Edu 版本，如果需要额外扩容，可以单独买积分；Enterprise 则干脆按共享池走，用多少算多少。

Codex 不是第一个做 Agent 编程的公司，也不会是最后一个。但这可能是第一次，有人把 Agent 从“产品功能”变成了“开发流程”。

现在，就看我们敢不敢把一部分真实的项目，交给它了。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-04

Skills使用体验

2026-02-04

AgentScope 正式发布 Skills 支持 - 实现渐进式披露

2026-02-04

从“回答者”进化为“研究员”：全面解析 Deep Research

2026-02-04

刚刚，Xcode 史诗级更新：原生集成 Claude Agent SDK，苹果开发直接起飞！

2026-02-04

国产 Cowork 它来了！MCP、Skills和Expert Agents都支持，全部免费体验！

2026-02-04

混元研究博客上线姚顺雨团队最新成果：从 Context 探索语言模型的范式转变

2026-02-04

通俗讲解大模型短期记忆 vs 长期记忆

2026-02-04

谁动了我的电脑？谁应该抱怨？

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

国内版的 NotebookLM 来了，甚至更强

2025-11-12

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

大家都在问

谁动了我的电脑？谁应该抱怨？

2026-02-04

刚刚！OpenAI 正式发布 Codex App，一人指挥一支 AI 军队，Cursor 慌了？

2026-02-03

谷歌Genie 3打崩游戏股！1小时500元的AI生成游戏，真能革游戏的命？

2026-02-03

史上最强编程模型Claude 5泄露，最慌的是黄仁勋？

2026-02-02

X上点赞近万的Claude Agent SDK教程，到底讲了什么？

2026-02-02

人人都在谈论ClawdBot，但你真的懂它的技术原理吗？

2026-02-02

刚刚，谷歌版「世界模型」震撼公测！网友实测炸翻天：游戏末日来了？

2026-01-31

Transformers V5正式发布！这次更新到底香不香？

2026-01-30

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean