我要投稿

Google 悄悄升级了 Deep Think，ARC-AGI-2 直接干到 84.6%

发布日期：2026-02-18 11:14:13 浏览次数： 1858

作者：AGI Hunt

微信搜一搜，关注“AGI Hunt”

刚刚，Google DeepMind 升级了 Gemini 3 的专用推理模式 Deep Think，跑分直接屠榜了。

要知道，ARC-AGI-2 是目前公认测试 AI 推理能力的前沿基准，之前没有模型能在这上面拿到特别好看的分数。

而升级后的 Deep Think 拿下了 84.6%，对比一下：Claude Opus 4.6 是 68.8%，GPT-5.2 是 52.9%，就连自家的 Gemini 3 Pro Preview 也才 31.1%。

提升巨大。

不止推理

Deep Think 的野心显然不止于推理。

在 Humanity's Last Exam 这个号称「人类最后的考试」的基准上，Deep Think 拿到了 48.4%，这个测试覆盖了数学、科学和工程领域最难的问题。Claude Opus 4.6 得了 40.0%，GPT-5.2 是 34.5%。

编程方面也很猛：

Codeforces 上 Deep Think 达到了 Elo 3455，而 Gemini 3 Pro Preview 是 2512，Claude Opus 4.6 是 2352。

另外在多模态理解和推理的 MMMU-Pro 基准上，Deep Think 也以 81.5% 领跑，不过这里各家差距没那么大：Gemini 3 Pro Preview 81.0%，GPT-5.2 79.5%，Claude Opus 4.6 73.9%。

除了跑分，Deep Think 还在 2025 年物理和化学奥林匹克竞赛的笔试部分拿到了金牌水平的成绩。

要解决科学问题

Google DeepMind 这次特别强调，升级后的 Deep Think 不再只是解题机器，而是要解决真实世界的科学和工程问题。

他们展示了 Duke 大学 Wang Lab 的案例：研究人员用 Deep Think 来设计新型半导体材料，优化复杂晶体的生长过程，这些晶体是高温半导体的候选材料。

还有机械工程领域的研究者用它来迭代物理原型，让硬件迭代达到了软件迭代的速度，这在辅助设备等领域意味着更快的改进周期。

如何使用

升级后的 Deep Think 模式现在已经开始在 Gemini App 中向 Google AI Ultra 订阅用户推送。

对于科研人员和开发者，Google 开放了 Vertex AI 早期访问计划，可以通过 API 使用。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-04-12

什么场景该用 AI Native？

2026-04-11

那个“爱马仕”，想拯救“智障”小龙虾

2026-04-10

重磅！Anthropic官方Harnerss发布了！

2026-04-10

刚刚，100 美金的 ChatGPT 来了

2026-04-09

技术教科书：顶级开发团队设计的Harness工程项目源码什么样

2026-04-09

Anthropic 官方 Harness 发布：全面解读 Managed Agents

2026-04-09

SDD-RIPER 团队落地指南：如何让整个团队在一周内跑通大模型编程

2026-04-09

Claude Managed Agents 公测发布！Agent 开发成本直降 500 倍

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

深度解析——为什么Claude code CEO Dario 如此反中？

2026-01-23

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

不会封号的Claude Code使用方法！已稳定测试一个月，还能共享给团队。

2026-01-14

我装了 9 个 Skill，终于看懂了 Google Antigravity 的野心

2026-01-21

Codex 独立 App 来了，这是一个新东西

2026-02-03

豆包 2.0 模型发布，全信息整理（全网最完整，另附 79 页 Model Card）

2026-02-14

OpenAI 发布新的 Codex 桌面版，我现在不骂 Codex 难用了

2026-02-03

大家都在问

什么场景该用 AI Native？

2026-04-12

12MB的Go二进制，让AI操控浏览器只花800 tokens，PinchTab凭什么这么省？

2026-04-07

华为AI 49元/月！贵？不贵？

2026-04-01

为什么这波 AI 产品都开始抢着做 CLI ？

2026-03-31

Harness Engineering 来了，SDD 还有意义吗？

2026-03-31

OpenAI不会干黄了吧？

2026-03-22

专访OpenAI首席科学家：我们离“AI自己做研究”有多远？

2026-03-22

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部