微信扫码
添加专属顾问
就在昨天(9月12日),OpenAI高调发布了全新的AI模型o1,同一时刻,各路媒体开始纷纷跟进。如果你以OpenAI o1作为关键词进行搜索,定然会看到诸如“最强大”、“地表最强”、“猎杀时刻”、“AI新时代”等等定语形容词。然而,虽然不可否认o1模型在推理方面确实很强,但当前版本的o1距离“最强”的完全体还有着不小的距离。且听我一一道来。
o1是最强的推理模型说o1最强,记得加上“推理”二字。
为什么推理如此重要?我在《OpenAI提出从AI到AGI通用人工智能的五级分类系统!》一文中曾详细解释OpenAI提出的从AI到AGI(通用人工智能)的五个发展阶段。这也代表着OpenAI的“野心”。
AI发展的第一阶段是基础AI,如当前的ChatGPT,能进行自然语言处理和简单对话,但推理和解决复杂问题的能力有限。第二阶段是推理者,具备更强的逻辑推理能力,能够解决博士级学术问题,并在多个领域展现专业知识。第三阶段是代理AI,能理解并执行用户需求,如预约、发邮件等。第四阶段是创新AI,具备自主研究和开发新技术的能力,推动科学进步。最高阶段是组织AI,代表AGI的最终形态,能够跨领域协同创新,提供复杂的专业服务。
ChatGPT处于第一阶段,是“基础AI”,那么,这次新推出的o1模型是第几阶段应该一目了然了吧。o1这个推理模型的发布也代表着OpenAI愿景的进一步推动,从第一阶段跨入了第二阶段,这也是为什么新模型不叫“GPT-5”,而是从1开始重新记录版本号,称为o1的原因。
基于o1模型的训练方式,其强大的推理能力几乎是必然。让我们来看OpenAI官方的介绍。
o1 models think before they answer, and can produce a long internal chain of thought before responding to the user.
简单来说,o1模型和GPT-4o不同的是,GPT-4o几乎可以做到实时响应,而o1则会在回答之前执行精细化的“思考”,即内部思维链(internal chain of thought)。思维链是什么?是让AI模型模拟人类思考过程的一种技术手段,使得AI模型更“聪明”,从而获得更高质量的输出结果。思维链技术经常被用在提示工程中。更详细的介绍可以参考我这篇文章《思维链(Chain-of-Thought)技术的背后,是人类思考问题的方式!》。
在这样的训练方式下,o1模型取得了亮眼的标准化测试成绩:在国际数学奥林匹克(IMO)考试中正确率达到了惊人的83%,而GPT-4o的正确率仅有13%,在物化生等复杂学科的高难度基准任务上,表现与博士生相当。
也正因此,有了OpenAI宣传的AI基准测试的结果对比图。o1、o1-preview和o1-mini在多个测试中大幅超越GPT-4o,比如GPQA (General Purpose Question Answering),测试模型在多领域科学问题上的推理能力,以及MATH-500,专注于数学推理的测试。
也正因为o1模型能够在回答问题前自主推理,它的安全性能很高,更不容易被“越狱”。这也是OpenAI大力宣传的一点。上一代的GPT-4o在越狱测试中的得分仅为22(满分100分),而o1-preview模型则取得了84的高分。
所以,o1是最强的,“推理”,模型。
o1还达不到“最强”模型“看,这只是一只普通的、会拉屎的兔子而已。”
当前的o1模型是以时间换输出质量。基于之前讨论的训练方式,o1模型在回答前需要先“思考”,即推理,然后回答问题。
以OpenAI官方给出的案例为例,当我们输入问题“Give me five countries with letter A in the third position in the name”,GPT-4o在3秒内即给出了答案,但回答错误;o1-mini则用时9秒,回答正确;o1-preview更是花了32秒回答正确这个问题,其中思考时间长达30-31秒。
注意,o1模型是不区分简单问题还是复杂问题的,一律按照先思考、后回答的流程来给出答案。如果是一个非常复杂的任务或问题,那么这种思维链思考肯定是有意义的,但如果是普通模型就能解决的任务,那么完全没有必要来进入内部思维链。
当前的o1模型是一个纯文本模型,不具备多模态能力。
在介绍o1时,OpenAI明确提到:“As an early model, it doesn't yet have many of the features that make ChatGPT useful, like browsing the web for information and uploading files and images”。意思是o1模型还无法处理文件、图片等类型的输入。
所以,在ChatGPT中如果你选择了o1模型,在输入框左侧的文件上传按钮会被自动隐藏。
而当你当前的会话中如果上传过文件或图片,此时你打开模型选择的下拉菜单,就会看到下面的提示:This model doesn't support file attachments。该模型不支持文件上传。
以上两点会直接导致一个结果:当前o1模型的使用场景有限。
响应速度慢,推理能力强,意味着o1模型非常适合复杂的任务,和OpenAI宣传的一样,o1对于处理“难题”很擅长。而对于一般的任务,有种“大炮打蚊子”的感觉。另外,纯文本模型决定了o1的使用场景是受限的,对于需要多模态输入的任务中,当前的o1还难以胜任。
以上分析也和OpenAI特意强调的o1模型的适用人群吻合。OpenAI表示,o1特别适合那些需要处理复杂问题的专业领域,无论是科学研究、代码开发,还是数学运算等相关领域。而OpenAI给出的3个例子无一不是垂直领域的使用案例,比如帮助医疗研究人员标注细胞测序数据,生成量子光学所需的复杂数学公式,帮助开发者构建和执行多步骤的工作流程。
基于此,o1模型更像是一个工程产品,而不是一个全新的AI基座模型。小伙伴们可以细想,OpenAI在发布GPT-4或者GPT-4o时有强调过特定的适用人群吗?
当前的o1模型使用成本太高。
当下的o1模型还不是完全体,从目前已发布的模型名称就能看出来:o1-preview和o1-mini。预览版本算是提前发布。
o1模型使用成本高体现在两个方面。
首先是使用权限。目前只有ChatGPT Plus和Team付费会员可以在ChatGPT获得o1模型的使用权限,并且已全面放开。开发者则可以通过API调用使用o1模型,但,划重点,只有使用等级5(usage tier 5)的账号有权限调研o1模型。o1在使用数量上的限制也很严格。ChatGPT Plus和Team会员每周可以使用30次o1-preview及50次o1-mini对话。而o1API调用的数量限制为每分钟20次调用(20 RPM),这个数量是不足以大规模商用的。
其次是token的消耗方面。o1模型的训练方式决定了它在每一次回答时消耗的token数是巨大的,因为模型首先需要进入内部思维链进行“思考”,这一步就开始消耗token,然后输出答案,这一步继续消耗token。所以随便一个问题,很有可能就消耗上万个输出tokens,意味着几美元的问答成本。
目前o1-preview模型API定价为:15美元每百万输入tokens和60美元每百万输出tokens;o1-mini模型API定价为:3美元每百万输入tokens和12美元每百万输出tokens。
OpenAI o1模型虽强,但也要理性看待,它并没有那么“神”乎其神。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-03
用云新范式:Qoder Cloud Agents × Alibaba Cloud Skills
2026-07-03
Ornith-1.0 发布: 新一代 Agentic Coding 之王,MIT 开源
2026-07-02
Meta把内部设计系统开源了,支撑内部13000+应用,专为Agent调优
2026-07-02
别再把 AI 当搜索引擎了,这 20 个操作让它替你干活
2026-07-02
ollama v0.31.1发布:Apple Silicon上Gemma 4提速近90%,默认开启无感升级
2026-07-01
在 OpenCode 中接入本地模型:Ollama 部署与配置完全指南
2026-07-01
实测腾讯开源的 BrowserSkill:让 AI 直接用你登录好的浏览器
2026-07-01
阶跃开源JetSpec,大模型推测解码提速近10倍
2026-04-09
2026-04-18
2026-04-18
2026-06-22
2026-05-10
2026-05-06
2026-05-31
2026-05-20
2026-04-21
2026-04-21
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。