微信扫码
添加专属顾问
我要投稿
GPT 5.2三版本齐发,性能飙升碾压人类专家水平,AI领域迎来新霸主! 核心内容: 1. GPT 5.2三大版本的功能定位与性能突破 2. 在ARC AGI 2和AIME数学竞赛中的惊人表现 3. 真实职业测试GDPval显示AI效率远超人类
如果说GPT 5.1 是没活硬整,GPT 5.2 就是Sam Altman 直接掀牌桌。
昨天GPT 5.2 三个版本齐发。
GPT-5.2 Instant:对标Haiku,快速日常对话。
GPT-5.2 Thinking:对标Sonnect,编码主力。
GPT-5.2 Pro:对标Opus,负责最难最复杂的那部分
上周 Sam Altman 还在内部拉响 Code Red 红色警报,暂停所有无关开发,全员集结。
数据说明一切。
ARC AGI 2 被称为 AI 领域的图灵测试,专门考查抽象推理,没法死记硬背。
三周前,Google 的 Gemini 3 Pro 拿到 31.1% 时,业界已经惊为天人。
毕竟之前的 GPT 5.1 只有 17.6%。
今天发布的 GPT 5.2 直接干到了 52.9%。
Pro 版本更是达到了 54.2%。
从 17.6% 到 52.9%,这不是迭代,这是物种进化。
更恐怖的是数学。
在 AIME 2025 美国数学竞赛中,GPT 5.2 拿到了 100% 的满分。
注意,是不使用任何外部工具,纯靠脑子推理。
这是人类历史上第一个在该测试中拿满分的 AI 模型。
第一个达到人类专家水平的模型
OpenAI 这次并没有只刷题,他们拿出了一个叫 GDPval 的新测试。
这个测试覆盖了 44 种真实职业,包括做 PPT、做表格、写研报这些实打实的脑力活。
结果显示,GPT 5.2 在超过 70% 的任务中,表现得比人类行业专家更好,或者至少持平。
以前我们说 AI 像实习生,现在 OpenAI 告诉你,它已经是高级经理了。
效率是人类的 11 倍,成本不到人类的 1%。
这次更新分得很细,一共三个版本。
Instant 主打快,负责日常对话。
Thinking 主打深,负责编程、数学和规划。
Pro 主打强,专门解决那些你愿意用时间换质量的难题。
自信心爆棚的 OpenAI 顺势涨价了。
API 价格比上一代贵了约 40%。
官方的说法是,因为模型更聪明,你可以少说很多废话,总成本反而可能更低。
有意思的是,这个让竞争对手流泪的模型,内部代号叫 Garlic 大蒜。
Sam Altman 前两天还在发炒大蒜的照片预热。
现在这盘菜端上来了,味道确实够冲。
Google 刚坐上王座不到两周,椅子还没捂热,就被一把拽了下来。
虽然 Sam Altman 表示 Code Red 还要持续到明年一月,但第一枪已经响了。
奥特曼这次,是真的杀红了眼!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-04
从“回答者”进化为“研究员”:全面解析 Deep Research
2026-02-04
刚刚,Xcode 史诗级更新:原生集成 Claude Agent SDK,苹果开发直接起飞!
2026-02-04
国产 Cowork 它来了!MCP、Skills和Expert Agents都支持,全部免费体验!
2026-02-04
混元研究博客上线姚顺雨团队最新成果:从 Context 探索语言模型的范式转变
2026-02-04
通俗讲解大模型短期记忆 vs 长期记忆
2026-02-04
谁动了我的电脑?谁应该抱怨?
2026-02-03
从 CLI 到桌面:Codex 把 coding agent 变成“任务指挥台”
2026-02-03
谷歌重大更新:国内手动开启 Gemini AI 侧边栏与 Auto Browse 自动浏览全攻略
2026-01-24
2026-01-10
2025-11-19
2025-11-13
2026-01-26
2026-01-01
2025-12-09
2025-11-12
2026-01-09
2025-12-21
2026-02-04
2026-02-03
2026-02-03
2026-02-02
2026-02-02
2026-02-02
2026-01-31
2026-01-30