微信扫码
添加专属顾问
我要投稿
北京时间凌晨一点,OpenAI 进行了重大更新,预热已久的GPT草莓项目——传说中能够进行高级推理的大语言模型,终于露出真容。OpenAI 发布推特表示,刚刚推出了OpenAI o1-preview模型,名字的含义之前外媒已爆料过,o1应该代表着OpenAI下一代大模型的Orion(猎户座)一代。
OpenAI在发布文档中强调,新模型在推理能力上代表了人工智能的新水平,因此计数器将重置为1,这暗示未来可能不再有GPT-5,o1将代表OpenAI未来的最强水平。即日起,ChatGPTPlus和Team用户就能直接访问该模型,并可手动选择使用o1-preview预览版或小尺寸版o1-mini。o1-preview每周限制30条消息,而o1-mini则为50条。
o1 模型:解决博士级别的科学问题超越人类
虽然目前我尚不能亲自体验o1模型,但OpenAI已放出大量展示其表现的资料。最令人瞩目的无疑是新模型的推理能力。Sam Altman在社交媒体上直接对比了o1与GPT-4o在数学、编程及解决博士级别科学题目上的能力。结果显示,o1预览版在解决数学和编程问题上的能力比GPT-4o提升了5-6倍,而真正的o1模型则提升了8-9倍。更惊人的是,o1在解决博士级别科学题目上的成功率已超越人类专家,达到69.7%以上。
OpenAI的技术博客提供了更具体的数字:o1模型在美国数学邀请赛上能进入前500名,且在物理、生物和化学问题上的准确度也超过了人类博士水平。这意味着大模型技术可能将刷新人们的认知,不再仅仅是“什么都懂一点的大学生”,而能在知识专精上达到新的高度。
这一进步的背后,是o1模型在尝试解决问题时使用的一系列思维策略。通过强化学习,o1学会了完善思维链并纠正错误,将复杂问题分解为简单步骤,并尝试多种方案找到最佳答案。这一特点在OpenAI给出的案例中得到了充分体现:在回答阅读理解或化学问题时,o1模型会展开详尽的思维链,自己提问并回答,最终得出准确答案。
价格未涨,OpenAI用o1-mini解决推理成本问题
在发布前,有媒体猜测新模型因高推理成本可能提高使用费用,甚至高达每月2000美金。但令人惊讶的是,OpenAI并未涨价,而是通过限制使用次数和推出o1-mini版来管控成本。o1-mini版尤其擅长准确生成和调试复杂代码,对开发人员特别有用,且比o1-preview便宜80%。OpenAI还计划为所有ChatGPT免费用户提供o1-mini访问权限。
Scaling Law后最重要的进展?
此次发布不仅是新模型的亮相,更是OpenAI在训练中发现的一个重要现象:通过更多的强化学习和思考时间,o1的性能能持续提高。这不同于传统的scaling law(尺度定律),后者主要关注训练过程中的参数量、数据量和计算量。OpenAI的新模型展示了推理层面的scaling law,即模型在自我内部思考时间增加时,能力也能得到提升。这一发现可能为大模型的未来提升开辟了新的路径。
英伟达具身团队领导者Jim Fan对此给予高度评价,认为这标志着我们已翻过一页,复制了AlphaGo通过自我对弈提升棋艺的成功模式到大模型上。超人的AI,或许真的不再遥远。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-20
一文看懂 Google I/O 2026:Gemini 3.5领衔 谷歌打响智能体和全模态大战
2026-05-20
帮大家总结了一下凌晨的Google I/O 2026开发者大会。
2026-05-19
Harness Engineering:AI 能在真正"出事会炸"的后端系统里写代码吗?
2026-05-19
可能是一份最详细的保姆级Codex教程,看完你就知道它为什么最近这么火
2026-05-19
为什么我在团队大力推进 Harness Engineering 的同时,却不认为它就是未来
2026-05-18
从0开发大模型的17种Agent架构演进详细拆解
2026-05-18
Anthropic 的 Dreaming 功能,解决的是"谁托管你的 Agent 循环"的问题
2026-05-18
腾讯上线 AI 设计平台 Ardot,一句话生成 UI 设计稿,AI 版 Figma
2026-04-15
2026-03-31
2026-03-13
2026-04-07
2026-03-17
2026-03-17
2026-04-07
2026-03-21
2026-04-24
2026-02-20
2026-05-19
2026-05-09
2026-05-09
2026-05-09
2026-05-08
2026-05-07
2026-04-26
2026-04-22