微信扫码
添加专属顾问
我要投稿
OpenAI内部开发揭秘:Codex已进化成"通宵队友",每周都在重塑软件开发边界!核心内容: 1. Codex从工具到队友的惊人进化历程 2. OpenAI内部科幻级开发工具Codex Box实战应用 3. 未来软件开发四大变革方向与新人成长建议
编辑 | 云昭
“未来某个时间点,也许我们会为Agent构建软件。那时候,Agent可能会成为产品经理或产品工程师。”
昨天,OpenAI Codex 工程主管 Tibo Sottiaux 和 OpenAI 应用首席技术官 Vijaye Raji 做客 Pragmatic Summit,对外分享了 OpenAI 内部工程师的真实体感和感受。
回顾过去的 2025年, Tibo 表示变化程度可以用“震撼”来形容。
哪怕只看最近六个月,我们已经从“把 Codex 当工具”,到“把它当扩展”,再到“把它当Agent”,现在已经进化到“把它当队友”。
有工程师甚至一周能消耗上千亿的token,来跑多个Agent。
伴随着Codex原来越强的能力,软件开发这件事的瓶颈,甚至以周为单位发生变化:
以前瓶颈是代码生成,后来变成代码评审,现在更多是:怎么更快理解用户需求?怎么处理 issue?怎么跟踪 Twitter、Reddit 等重要平台上的反馈,并把这些信息综合成产品策略?
甚至Tibo还爆料说:OpenAI内部一些工程师每周消耗的 token 数量达到数千亿级别。而且这还不是单个Agent。
而且内部还有相较于外界更“科幻”的开发工具:Codex Box。
上周我们内部发布了 Codex Box,可以在服务器上预留开发环境,直接发 prompt 让它去干活。你在笔记本上编排流程,它在云端执行任务。很多人关上电脑去开会,回来时工作已经完成。
再比如,Codex 团队开会讨论 Codex 时,会直接在会议室里发起 Codex 线程来诊断问题和复盘分析。
提及未来,软件开发这个行业会怎么变化。Tibo 和 Raji 给出了几个方向。
首先,开发的的速度可能还会再提升一个数量级,这又会带来新一轮改变。
其次,OpenAI 会真正跑通大规模的多智能体协作网络,让它们围绕非常宏大的目标协同工作。
第三,接下来,会为上面构建出来的系统构建护栏,开发者不必再逐行查看代码,而是通过某种方式验证它的正确性,或者通过约束确保它的安全性。而代码本身则会被抽象掉,真正的焦点转向问题本身,以及系统应具备的性质。
第四,Raji 提到,也、也许就在今年,开发者会拥有一个帮助自己检查一两百个小型Agent状态的专属的“个人代表型助手”,它能够汇总代表所有在后台为你高效工作的 AI 智能体。你不必再去监控、逐个查看。(ps:有点像昨天小编报道的前Github CEO下场做的 Entire!)
另外,主持人还爆料到,OpenAI 倾向于招募产品型工程师。Raji 解释道,产品直觉依旧很重要,毕竟本质上,产品还是为人构建的。
对于在AI时代想从事软件行业的新人而言,Tibo 和 Raji 都表示:基础能力永远不会过时!OpenAI不会闭着眼睛完全依赖 Codex。
只要你有扎实的基础,有产品直觉,知道自己在构建什么,能够在技术栈上下游自由穿梭去解决问题,这些能力才是关键。而且这永远不会过时。
“我们能坐在这里,是因为我们有扎实的基础。但软件工程师的角色,确实已经发生了很大的变化!”
最后,多说一嘴,几个小时前,Tibo 还宣布重磅消息:Codex 已经开始邀测 Window版本。
毫无疑问,这意味着 OpenAI 在企业端开发者继续加码了。
以下是小编为大家梳理的Codex团队版本的“程序员进化故事”。
OpenAI内部开发发生了什么:
Codex已进化成队友
一些工程师每周消耗token数量高达前移级别
主持人: 有个很多人都在问的问题:OpenAI 现在内部到底发生了什么?更具体一点,从软件开发的角度来看,工程师的工作方式到底怎么变了?
Raji: 你问得好,确实发生了很多变化。我在 OpenAI 大概六个月了,其中一个最深的感受是,公司内部的研究能力实在太强了。你只要往未来稍微投射一下那些可能性,就会觉得震撼。
先说软件开发方式。Codex 彻底改变了我们写代码的方式。变化非常剧烈。哪怕只看最近六个月,我们已经从“把 Codex 当工具”,到“把它当扩展”,再到“把它当Agent”,现在已经进化到“把它当队友”。我甚至觉得,工程师很快就会给自己的Agent起名字,把它当成真正的搭档。这种变化发生得非常快。
我看过内部的排行榜,有些工程师每周消耗的 token 数量达到数千亿级别。而且这还不是单个Agent。上周我们内部发布了 Codex Box,可以在服务器上预留开发环境,直接发 prompt 让它去干活。你在笔记本上编排流程,它在云端执行任务。很多人关上电脑去开会,回来时工作已经完成。
这就是现在 OpenAI 内部的软件开发方式。它已经发生了根本性的改变。我相信几个月内,硅谷中心地带会率先普及,然后扩散开来。以后大家都会这么开发软件。
主持人: 如果我回到六个月甚至一年前,听你这么说,我可能会觉得你在讲童话故事。但现在不一样了,很多人都在用。我自己也在用。我也跟 OpenAI 的工程师聊过。我很喜欢跟工程师聊,因为他们几乎没有“媒体训练”,说话很直接。
让我有点安心的是,并不是所有工程师都 100% 用 Codex 写代码。大家用得很多,但层级不同。有一个团队确实走在最前沿,那就是 Codex 团队。
Tibo,你带 Codex 团队。能不能讲讲你们现在每天怎么工作?工程师的典型工作流是什么样?
Tibo: 情况变化非常快。Codex 团队有个很有意思的特点:我们几乎每周都在重塑自己的工作方式。
我们会不断识别瓶颈,而瓶颈一直在转移。以前瓶颈是代码生成,后来变成代码评审,现在更多是:怎么更快理解用户需求?怎么处理 issue?怎么跟踪 Twitter、Reddit 等重要平台上的反馈,并把这些信息综合成产品策略?
大家都在尝试最大化利用Agent来做这些事。
前几天有个有趣的场景,有人想加入 Codex 团队,他问我:“在 OpenAI 做产品,我能分到多少算力?”
这个问题很新鲜。我们确实有很多算力,但我从来没想过“每个员工的算力额度”。通常算力更多是留给训练大模型的研究员。
现在大家意识到,你可以用算力把自己的能力放大很多倍。如果你有好的品味、好的想法、懂软件开发,这个时代真的令人兴奋。你能做到的事情太惊人了。
主持人: 站在更宏观的角度,OpenAI 一直招聘的是“产品型工程师”。现在他们的工作发生了什么变化?
Raji: 本质上,我们还是在为人类构建产品。产品直觉仍然很重要。我最近在用新版 Codex 的桌面应用,它让写代码更容易了。但产品开发还是要从“我们要构建什么”开始,然后不断迭代优化。
只要我们还是在为人类做软件,这一点不会变。
当然,未来某个时间点,也许我们会为Agent构建软件。那时候,Agent可能会成为产品经理或产品工程师。
不过现在的节奏更快,也更有趣。构建软件变得更爽了,因为反馈周期大幅缩短。
我有一次在飞机上写代码。当时没法用远程 dev box。空乘让关电脑,我都舍不得,因为不想让Agent停下来,只能半掩着电脑。(笑)现在很多人都是电脑半合着跑任务。
说实话,现在开发软件比以前更好玩。你能快速看到成果,测试、验证,然后再回到 Codex 调整。
主持人: 工程实践方面,有什么新的、奇怪但合理的变化?
Tibo: 以前遇到复杂技术权衡,我们会写设计文档,讨论各种方案,然后选一个。
现在有趣的地方在于,大家会并行探索多个实现方案,然后通过实验数据选出最优解。
还有一个变化是角色边界在模糊。设计师现在写的代码,可能比六个月前工程师写的还多。这是因为模型已经足够好,生成的代码质量可以直接合并。
主持人: 还有其他观察吗?
Raji: 有。比如命令行工具。像 ffmpeg 这种工具,几乎没人能记住完整命令。现在用 Codex,你只要说“我要做这个”,它就帮你生成命令并执行。
我们已经从单纯“写代码”,扩展到“代码评审”“安全审查”。
当编码效率提升五倍之后,会发生什么?代码量暴增,代码评审成为瓶颈。再往后,集成与部署(CI/CD)会成为新的瓶颈。
瓶颈在不断迁移。这场变革还远没结束。
Tibo: 所以我们必须不断去解决下一批问题。这其实非常令人兴奋。
主持人: Tibo,我们之前聊到一个我从没听说过的做法——“通宵运行”和“自我测试”。能讲讲吗?这听起来很新。
Tibo: 很容易把 Codex 理解成“超级自动补全”,觉得它只是帮你实现一个小功能,10 分钟搞定。
但我们看到的是,只要给模型一个足够大的任务,它的能力远不止如此。它可以连续运行好几个小时。
我们为 Codex 搭建了完整的环境和能力,让它可以完全自主地测试自己。我们会在夜间运行,让它循环执行 QA,自动检测回归问题。
还有件事挺有意思。我常跟团队里负责训练模型的研究员聊天。他说,每次他觉得自己比 Codex 更厉害时,最后都会发现是自己 prompt 没写好,或者环境没配置对。
这既令人兴奋,也有点打击人。(笑)
现在它甚至可以独立完成一次完整的模型训练,最后写一份带有自己洞察的 PDF 报告。我们再从中挑出最有前景的方向,继续迭代,然后再丢回 Codex。
这种超长时间运行的任务,以及模型独立完成复杂工作的能力,看着真的很震撼。
主持人: 还有一个很科幻的场景。你说 Codex 团队开会讨论 Codex 时,会直接在会议室里发起 Codex 线程来诊断问题。这听起来像自我循环。能讲讲吗?
Tibo: 我们有两个典型场景。
第一是每周的分析复盘会议。我们会看功能采用率、留存率、转化漏斗。会议开始时,大家总会有一些仪表盘里看不到的问题。
数据分析师会说:“好,我们后台开一个 Codex 线程,20 分钟后给答案。”
会议最后 10 分钟,我们就能讨论这些新结果。一个会议里可能跑五六个问题。感觉像是有一群隐形顾问在后台为我们工作。
第二个场景是线上故障处理。Codex 会帮助我们分析问题原因,找出最快的恢复路径。信息收集和问题解决速度都被大幅提升。
主持人: 行业内一个反复出现的问题是:应届生怎么办?初级工程师怎么办?我听 OpenAI 工程负责人说,你们在大量招聘早期工程师。情况如何?
Raji: 我们确实在招很多应届生。今年还有一个规模不小的实习项目。
我相信新一代软件工程师会是“AI 原生”的。他们会天然熟悉这些工具,从第一天就能使用 AI。给他们这样的环境至关重要。
今年夏天我们会迎来第一批大规模应届生,大概 100 人左右。我很期待看到他们的表现。实习项目也会持续扩张。
这是一个很有意思的时代。
主持人: Tibo,你们团队本身比公司其他团队还领先几步。新人加入时,怎么快速上手?
Tibo: 我的团队结构非常扁平。我有 33 个直接汇报对象。我不想成为瓶颈。
如果一个人需要参与每个决策,这种结构在现在这个速度下行不通。
新人入职后,第一个“导师”其实是 Codex 本身。你直接问它问题,用它浏览代码库,理解项目,接收每日报告。
而真正负责 onboarding 和文化建设的,往往是最近刚入职的人。
说到应届生,我六个月前招了一个非常优秀的新人。他表现极其出色。一开始我有点惊讶。但后来我意识到,他有无限的精力和极快的学习能力。
说实话,我的脑子可能已经在走下坡路了,他的大脑正处在巅峰状态。(笑)他在团队里取得的成功让我非常开心。
主持人: 站在“唱反调”的角度看,过去我们看到很多应届生成长为优秀工程师,是因为打下了坚实基础。
现在如果新人一开始就大量依赖 AI,跳过了我们过去 10 到 20 年的训练过程,会不会缺乏基础?
Tibo: 基础依然非常重要。
我们非常重视代码库的整体架构设计,也非常重视代码评审。我们不会闭着眼睛完全依赖 Codex。有顶级工程师在把关。
只要代码结构设计合理,设置好护栏,新人会变得极其高效。关键在于你搭建什么样的环境,以及提前思考代码库未来如何演进。
主持人: 如果现在有个新人问:“Raji,我每天具体要做什么?”软件工程师的日常和六到八个月前相比有什么变化?
Raji: 基础永远不会过时。我们能坐在这里,是因为我们有扎实的基础。但软件工程师这个角色,确实已经发生了很大的变化。
我可能暴露年龄了,在这个行业 25 年,我见过太多范式转移。我当年在 Microsoft 做开发者工具,写过 Visual Studio 的编辑器和语言服务。第一次看到 IntelliSense 的时候,那种感觉真的很酷——你敲一个点,所有选项自动弹出来。
主持人: 我那时候刚入行,身边的开发者还在说:“用 IntelliSense 的不算真正的程序员。”
Raji: 对。(笑)再往前可能还有人觉得,不写汇编就不算好工程师。后来是 C++,再后来抽象层越来越高。还记得当年大家抱怨 JavaScript 吗?
这些争论其实都不重要。只要你有扎实的基础,有产品直觉,知道自己在构建什么,能够在技术栈上下游自由穿梭去解决问题,这些能力才是关键。而且这永远不会过时。
主持人: 我们刚才主要在聊工程师。那产品经理和设计师呢?当工程师和他们都能更快构建功能时,他们的角色会怎么变化?会不会越来越趋同?
Raji: 只要我们还在为人类构建产品,就一定需要人类设计师和产品经理。产品感和设计感没有简单替代品。
当然,他们也在进化,效率越来越高。产品经理在写代码,设计师也在写代码。他们把设计直接推进到原型阶段,验证之后再交给工程师。
产品经理也在用 Codex 做 PowerPoint,写 Excel 插件。效率提升发生在整个组织层面,不只是工程师。
主持人: 你们在内部做了很多知识共享,比如 show and tell。怎么想到的?机制是什么?有没有一些有趣的案例?
Tibo: 我们其实是在一边发现技术,一边跟它一起进化。
和外界一样,我们也在探索:AI 到底能为组织做什么?对项目意味着什么?只要有一个方向看起来有效,我们就尽快发布给世界。
所以,我们真正“多看见一点未来”的时间窗口其实非常短。
在这种环境下,好点子必须快速在组织内扩散。我们有很活跃的 Slack 频道,比如 Codex 频道、hot tips 频道。也定期举办黑客松和 show and tell。
这是一个高度创造性的阶段,没有所谓唯一正确的用法,一切都在探索中。
我们 Codex 团队有一位非常优秀的产品经理,Alexander Emberos。他是整个团队唯一的产品经理,却把自己“超级放大”。
前几天他组织了一次 bug bash,一个小时内大家体验即将发布的功能。他让 Codex 收集反馈,生成 Notion 文档,再让 Codex 创建 bug 和功能改进任务到 Linear,分配给相关负责人,并自动跟进进展。
他用 AI 把自己变成了 10 倍甚至 50 倍效率的项目经理。
但关键在于,你不能让产品经理成为新的瓶颈。组织结构也要随之调整。
Raji: 我补充一点。最近的 demo day 和黑客松,我发现一个趋势:展示的项目深度越来越高。
以前可能只是展示“这个能力可以做到什么”。现在很多 demo 已经处理了大量边界情况,几乎是可直接使用的产品。整体深度在持续提升。
主持人: 有个必须说明的现实是,在 OpenAI 内部大家有无限 token。外部世界成本还是问题。订阅额度用完就得额外付费。很多团队受限于预算。
如果别人受到成本约束,有什么建议?
Raji: 成本是我们持续思考的问题。我们希望模型更强,也希望提供给用户。
但思维方式也需要转变。你现在拥有的是一个 24/7 工作的队友。你可以给它分配 Linear 或 Jira 任务,并且应该期待它完成。
问题不再是“用了多少 token”,而是“你愿意为这个队友付多少钱”。
如果每个工程师拥有四五个这样的“队友”,从生产力角度衡量就更合理了。
当然,我们必须让这些Agent足够强,真正配得上“队友”的称呼。
Tibo: 还可以从公司整体成本结构看。比如市场调研、分析功能积压清单、筛选哪些任务容易实现——过去可能需要 15 个工程师一起做,现在几乎免费。
不是每家公司都能给员工无限推理额度。但过早严格限制,也是一种风险。
我们仍处在极早期阶段,很多人还没有真正学会如何把自己放大。
我的建议是:把充足的推理额度优先给公司里最优秀的人。让他们充分探索。
主持人: 变化真的很快。回看过去的 25 年,有没有类似的时刻?
Raji: 我从没见过这样的变化。
我经历过互联网泡沫破裂、Y2K、移动革命,也参与过社交网络浪潮。但这一次完全不同。
Raji: 这一波变化正在以巨大的规模发生,而且速度极快。快到有些图表看起来都已经不太讲得通了。所以我确实认为,这是一段非常特殊、非常独一无二的时期。能够生活在这样的时代,本身就很酷。
接下来,在“智能体”之上继续抽象,
工程师无需关注代码,只需专注输入和输出
主持人:作为最后一个问题,虽然变化非常快,但你们两位已经在 OpenAI 工作了相当一段时间。我想请你们做一个坦诚的预测:两年之后,软件工程会是什么样子?工程管理又会变成什么样?基于你们目前所了解的一切。
Raji:显然,两年这个时间尺度实在太长了。
我觉得六个月之后的事情都已经很难说。不过有几件事我相当有信心。第一,我们的速度可能还会再提升一个数量级,这又会带来新一轮改变。第二,我们会真正跑通大规模的多智能体协作网络,让它们围绕非常宏大的目标协同工作。
举个例子,在 Cursor 展示的能力基础上,完全可以想象这样一个场景:你说一句“从零开始重建一个浏览器”,然后 24 小时之后,你就得到一个成品。那可能是两百万行代码构成的系统,规模庞大到人类几乎无法完全理解其内部细节。
我认为接下来我们会做的是,为构建出来的系统设立“护栏”。这样你就不必再逐行查看代码,而是通过某种方式验证它的正确性,或者通过约束确保它的安全性。你只需要关注输入和输出。代码本身会被抽象掉,真正的焦点将转向问题本身,以及系统应具备的性质。
软件的发展史,本质上就是抽象层级不断提升的历史。抽象让我们用更少的代码构建更庞大的产品。多年来抽象层级持续上升,而现在,我们正处在一个抽象加速跃迁的阶段。
但我也有一点担忧。任何足够复杂或精密的系统,都更难调试。我们往往只能通过症状来定位问题。我想几年之后,软件将会复杂到前所未有,层层叠叠。我们会非常擅长通过“症状”识别问题,我们的工具也会变得非常擅长做这件事。我认为,这将成为软件开发者需要掌握的一种独特能力。
Tibo: Raji 讲得很好,我想补充一点关于未来的样子。
我觉得很快,你只需要和自己的助手对话,就可以检查工作进展。你会拥有一个专属的“个人代表型助手”,它能够汇总代表所有在后台为你高效工作的 AI 智能体。你不必再去监控、逐个查看一百个甚至两百个小型Agent的状态。
我认为这种形态会很快出现,甚至就在今年。
主持人: 非常感谢 Raji 和 Tibo,为我们揭示了内部正在发生的事情,以及你们团队的工作方式。感觉你们总是领先几周、几个月,甚至更久。但这一切确实正在发生。同时,也感谢你们对这个激动人心时代的展望。非常感谢。
Raji/ Tibo: 谢谢。
https://www.youtube.com/watch?v=Bo6Gtq3nMXc
——好文推荐——
图灵奖得主、强化学习之父:AI模型本身其实很脆弱!现在的AI,只是局部智能!真正的下一阶段是经验时代!人类终将被AI继任!AI要去中心化
OpenAI开发者平台负责人:我们活在硅谷泡泡里!很多AI部署确实负回报!曝OpenAI内部吃自己的狗粮,模型会把脚手架吃掉!SaaS黄金时代降至
前GithubCEO携6000万美元回归!曝:投资人发邮件要追加投资!瞄准下一代开发者平台:Agent管理!用Agent管公司!IDE和编程语言快不需要了
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-27
AGENTS.md 真的能帮助编码智能体吗?
2026-02-27
DeepMind新论文炸锅:AI全自动进化算法,写出专家都想不到的解,网友:这可能就是“王牌”
2026-02-27
Rust 版 OpenClaw 来了!单文件、零依赖、强沙箱、自带“故障转移”!
2026-02-27
Minimax出了个OpenClaw变体,把6个超好用Agent都传云上用了
2026-02-27
ABACI内核缺陷智能体:让模糊测试真正“自动化”
2026-02-27
谷歌 Nano Banana 2 凌晨突袭!生图速度飙升,价格直接腰斩,Pro 功能竟然也免费了?
2026-02-27
DeepSeek新模型曝光:传华为抢先适配
2026-02-26
为什么 AI 的性价比极高,却只能卖到“奶茶价”
2026-01-24
2026-01-10
2026-01-01
2026-01-26
2026-02-03
2025-12-09
2025-12-21
2026-01-09
2026-01-09
2026-02-16
2026-02-27
2026-02-27
2026-02-26
2026-02-26
2026-02-24
2026-02-24
2026-02-20
2026-02-14