我要投稿

AI写代码，越改越错？前OpenAI首席科学家：我们高估了它的理解

发布日期：2025-12-21 13:41:28 浏览次数： 2343

作者：科技和AI

微信搜一搜，关注“科技和AI”

在生成式人工智能狂飙突进的2025年，一个令人困惑的现象正引发业界高度关注：大模型在各类评测基准（eval）中屡创佳绩，却在真实应用场景中频频“掉链子”。尤其在软件开发领域，“氛围编程”（Vibe Coding）——即开发者仅凭模糊描述或直觉提示让AI自动生成代码——看似高效，实则隐患重重。前OpenAI联合创始人、首席科学家Ilya Sutskever近日在一档深度访谈中罕见发声，直指这一现象背后的技术结构性缺陷，简单的对话式编程无法解决复杂的工程问题。并提出两种关键解释，为行业敲响警钟。

一、“修复bug却引入新bug”：大模型的循环陷阱

Sutskever以一个极具代表性的场景揭示问题本质：当开发者使用AI进行“氛围编程”时，若生成的代码存在bug，用户指出后，模型会诚恳道歉并尝试修复；但修复过程中，它可能引入第二个bug；当用户再次反馈，模型又“恍然大悟”，却把第一个bug重新带回来——如此循环往复，陷入逻辑死胡同。

“这说明模型并未真正理解程序的语义结构或意图，而只是在表面模式上做拟合。”Sutskever指出。这种行为暴露出当前大模型在真实世界任务中的脆弱性：它们擅长模仿人类语言和代码的表层分布，却缺乏对系统性逻辑、状态一致性和因果推理的深层把握。

二、两大根源：强化学习的“单线程思维” + 泛化能力不足

Sutskever提出两个相互关联的解释：

强化学习（RL）训练导致模型“过度专注”
当前主流大模型普遍采用基于人类反馈的强化学习（RLHF）进行对齐优化。这一过程虽提升了模型的“讨好性”和指令遵循能力，却也可能使其变得“过于单线程”——即只聚焦于满足当前提示的字面要求，而忽略整体上下文的一致性与长期目标。模型像一个急于表现却缺乏全局观的实习生，不断“修正”却无法“统筹”。
泛化能力被高估
尽管模型在标准评测集上表现惊艳，但这些评测往往基于静态、封闭的数据分布。一旦进入开放、动态、充满噪声的真实开发环境，模型的泛化能力便迅速衰减。Sutskever强调：“评测性能与现实表现之间的巨大鸿沟，正是当前AI经济价值落地缓慢的核心原因。”

三、从“氛围编程”到“可信编程”：未来趋势展望

Sutskever的警示并非否定AI编程的价值，而是呼吁行业转向更稳健、可验证的范式。基于此，《数智前沿》研判未来三年将出现以下关键趋势：

趋势1：AI编程工具从“生成主导”转向“协同验证”

未来的IDE将集成形式化验证、类型检查、测试驱动反馈闭环，AI不再单独输出代码，而是在开发者监督下进行“可证明正确”的增量生成。例如，GitHub Copilot已开始实验“代码契约”功能，要求AI在生成前明确输入/输出约束。

趋势2：多智能体架构替代单模型幻想

单一LLM难以兼顾创意、严谨与调试。未来系统将由多个专业化智能体组成：一个负责草稿生成，一个负责静态分析，一个模拟测试用例，另一个进行版本比对。通过博弈与协商机制，避免“自我循环修正”的陷阱。

趋势3：训练范式革新：从RLHF到“因果对齐”

研究界正探索超越RLHF的新对齐方法，如引入因果推理模块、程序合成先验、甚至神经符号混合架构。DeepMind近期提出的“程序感知Transformer”即尝试将AST（抽象语法树）结构内嵌于注意力机制，提升代码理解深度。

趋势4：开发者角色进化：从编码者到AI训练师

“氛围编程”的失败恰恰说明：模糊指令无法替代清晰规范。未来开发者需掌握“AI可执行需求工程”能力——即如何将业务逻辑转化为AI可验证、可迭代的形式化提示。这将是新一代程序员的核心素养。

结语：技术狂热之后，回归工程理性

Ilya Sutskever的反思，恰逢其时。在资本与舆论持续鼓吹“AI取代程序员”的喧嚣中，他提醒我们：真正的生产力革命，不在于模型能写出多少行代码，而在于它能否在复杂系统中保持一致性、可靠性和可演进性。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-23

微信6年来最大改版——关于微信AI助手小微的15条思考

2026-06-23

Loop Engineering 实战笔记：让 Agent 自己发现、执行和复盘

2026-06-23

微信 AI 小微初体验

2026-06-23

暴论：Agent Skill 会被淘汰

2026-06-23

ClaudeCode团队负责人最新访谈：AI原生团队，到底如何运转？（5条底层逻辑）

2026-06-22

为什么我选 WorkBuddy 而不是 Codex

2026-06-22

没想到，DeepSeek建模潜力被ORGEval挖出来了

2026-06-22

当 AI 开始承担任务：从工具、产品到组织的 AI-native 方法论

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

大家都在问

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部