我要投稿

GPT 5.2 ！奥特曼杀红了眼

发布日期：2025-12-12 08:38:49 浏览次数： 2048

作者：字节笔记本

微信搜一搜，关注“字节笔记本”

如果说GPT 5.1 是没活硬整，GPT 5.2 就是Sam Altman 直接掀牌桌。

昨天GPT 5.2 三个版本齐发。

GPT-5.2 Instant：对标Haiku，快速日常对话。

GPT-5.2 Thinking：对标Sonnect，编码主力。

GPT-5.2 Pro：对标Opus，负责最难最复杂的那部分

上周 Sam Altman 还在内部拉响 Code Red 红色警报，暂停所有无关开发，全员集结。

数据说明一切。

ARC AGI 2 被称为 AI 领域的图灵测试，专门考查抽象推理，没法死记硬背。

三周前，Google 的 Gemini 3 Pro 拿到 31.1% 时，业界已经惊为天人。

毕竟之前的 GPT 5.1 只有 17.6%。

今天发布的 GPT 5.2 直接干到了 52.9%。

Pro 版本更是达到了 54.2%。

从 17.6% 到 52.9%，这不是迭代，这是物种进化。

更恐怖的是数学。

在 AIME 2025 美国数学竞赛中，GPT 5.2 拿到了 100% 的满分。

注意，是不使用任何外部工具，纯靠脑子推理。

这是人类历史上第一个在该测试中拿满分的 AI 模型。

第一个达到人类专家水平的模型

OpenAI 这次并没有只刷题，他们拿出了一个叫 GDPval 的新测试。

这个测试覆盖了 44 种真实职业，包括做 PPT、做表格、写研报这些实打实的脑力活。

结果显示，GPT 5.2 在超过 70% 的任务中，表现得比人类行业专家更好，或者至少持平。

以前我们说 AI 像实习生，现在 OpenAI 告诉你，它已经是高级经理了。

效率是人类的 11 倍，成本不到人类的 1%。

三剑齐发，加量也加价

这次更新分得很细，一共三个版本。

Instant 主打快，负责日常对话。

Thinking 主打深，负责编程、数学和规划。

Pro 主打强，专门解决那些你愿意用时间换质量的难题。

自信心爆棚的 OpenAI 顺势涨价了。

API 价格比上一代贵了约 40%。

官方的说法是，因为模型更聪明，你可以少说很多废话，总成本反而可能更低。

代号大蒜

有意思的是，这个让竞争对手流泪的模型，内部代号叫 Garlic 大蒜。

Sam Altman 前两天还在发炒大蒜的照片预热。

现在这盘菜端上来了，味道确实够冲。

Google 刚坐上王座不到两周，椅子还没捂热，就被一把拽了下来。

虽然 Sam Altman 表示 Code Red 还要持续到明年一月，但第一枪已经响了。

奥特曼这次，是真的杀红了眼！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-23

微信 AI 小微初体验

2026-06-23

暴论：Agent Skill 会被淘汰

2026-06-23

ClaudeCode团队负责人最新访谈：AI原生团队，到底如何运转？（5条底层逻辑）

2026-06-22

为什么我选 WorkBuddy 而不是 Codex

2026-06-22

没想到，DeepSeek建模潜力被ORGEval挖出来了

2026-06-22

当 AI 开始承担任务：从工具、产品到组织的 AI-native 方法论

2026-06-21

从提示 Agent 到循环工程

2026-06-21

微信小微，几个要点

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

OpenAI Codex CLI 完整使用指南

2026-04-07

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

GPT5.5来了，最大特点解析

2026-04-24

Claude Opus 4.7 发布，全网最详细解读

2026-04-17

突发！Claude Code 源码泄露，扒出这些隐藏功能

2026-03-31

GPT-6，曝光了

2026-04-05

GLM-5.1 实测：面向 Agent 长程任务的国内第一模型

2026-04-02

重磅！GPT-6曝光了

2026-04-05

大家都在问

企业智能体的下半场，如何让智能体越用越聪明？

2026-06-18

Agent 记忆，我们全都理解错了？

2026-06-18

如何利用 Harness “一句话交付产品功能”？

2026-06-10

Loop Engineering 循环工程又是什么鬼？

2026-06-10

Agent 工程化五件套：Prompt、Skill、MCP、CLI 到底怎么配合？

2026-06-07

为什么云端 Agent 基建这么难？

2026-06-06

当 AI 开始拥有“自主调度权”：Claude 4.8 这个新功能，到底有多可怕？

2026-06-03

哪些活，该交给Claude Code的 /workflows?

2026-06-02

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw