2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

【深度分析】OpenAI o1是最强的推理模型,却不是最强模型!

发布日期:2024-09-20 06:21:23 浏览次数: 6524
作者:AI信息Gap

微信搜一搜,关注“AI信息Gap”

就在昨天(9月12日),OpenAI高调发布了全新的AI模型o1,同一时刻,各路媒体开始纷纷跟进。如果你以OpenAI o1作为关键词进行搜索,定然会看到诸如“最强大”、“地表最强”、“猎杀时刻”、“AI新时代”等等定语形容词。然而,虽然不可否认o1模型在推理方面确实很强,但当前版本的o1距离“最强”的完全体还有着不小的距离。且听我一一道来。

o1是最强的推理模型

o1最强,记得加上“推理”二字。

为什么推理如此重要?我在《OpenAI提出从AI到AGI通用人工智能的五级分类系统!》一文中曾详细解释OpenAI提出的从AI到AGI(通用人工智能)的五个发展阶段。这也代表着OpenAI的“野心”。

AI发展的第一阶段是基础AI,如当前的ChatGPT,能进行自然语言处理和简单对话,但推理和解决复杂问题的能力有限。第二阶段是推理者,具备更强的逻辑推理能力,能够解决博士级学术问题,并在多个领域展现专业知识。第三阶段是代理AI,能理解并执行用户需求,如预约、发邮件等。第四阶段是创新AI,具备自主研究和开发新技术的能力,推动科学进步。最高阶段是组织AI,代表AGI的最终形态,能够跨领域协同创新,提供复杂的专业服务。

ChatGPT处于第一阶段,是“基础AI”,那么,这次新推出的o1模型是第几阶段应该一目了然了吧。o1这个推理模型的发布也代表着OpenAI愿景的进一步推动,从第一阶段跨入了第二阶段,这也是为什么新模型不叫“GPT-5”,而是从1开始重新记录版本号,称为o1的原因。

基于o1模型的训练方式,其强大的推理能力几乎是必然。让我们来看OpenAI官方的介绍。

o1 models think before they answer, and can produce a long internal chain of thought before responding to the user.

简单来说,o1模型和GPT-4o不同的是,GPT-4o几乎可以做到实时响应,而o1则会在回答之前执行精细化的“思考”,即内部思维链(internal chain of thought)。思维链是什么?是让AI模型模拟人类思考过程的一种技术手段,使得AI模型更“聪明”,从而获得更高质量的输出结果。思维链技术经常被用在提示工程中。更详细的介绍可以参考我这篇文章《思维链(Chain-of-Thought)技术的背后,是人类思考问题的方式!》。

在这样的训练方式下,o1模型取得了亮眼的标准化测试成绩:在国际数学奥林匹克(IMO)考试中正确率达到了惊人的83%,而GPT-4o的正确率仅有13%,在物化生等复杂学科的高难度基准任务上,表现与博士生相当

也正因此,有了OpenAI宣传的AI基准测试的结果对比图。o1o1-previewo1-mini在多个测试中大幅超越GPT-4o,比如GPQA (General Purpose Question Answering),测试模型在多领域科学问题上的推理能力,以及MATH-500,专注于数学推理的测试。

也正因为o1模型能够在回答问题前自主推理,它的安全性能很高,更不容易被“越狱”。这也是OpenAI大力宣传的一点。上一代的GPT-4o在越狱测试中的得分仅为22(满分100分),而o1-preview模型则取得了84的高分。

所以,o1是最强的,“推理”,模型。

o1还达不到“最强”模型

“看,这只是一只普通的、会拉屎的兔子而已。”

1. 以时间换质量

当前的o1模型是以时间换输出质量。基于之前讨论的训练方式,o1模型在回答前需要先“思考”,即推理,然后回答问题。

以OpenAI官方给出的案例为例,当我们输入问题“Give me five countries with letter A in the third position in the name”,GPT-4o在3秒内即给出了答案,但回答错误;o1-mini则用时9秒,回答正确;o1-preview更是花了32秒回答正确这个问题,其中思考时间长达30-31秒。

注意,o1模型是不区分简单问题还是复杂问题的,一律按照先思考、后回答的流程来给出答案。如果是一个非常复杂的任务或问题,那么这种思维链思考肯定是有意义的,但如果是普通模型就能解决的任务,那么完全没有必要来进入内部思维链。

2. 纯文本模型

当前的o1模型是一个纯文本模型,不具备多模态能力

在介绍o1时,OpenAI明确提到:“As an early model, it doesn't yet have many of the features that make ChatGPT useful, like browsing the web for information and uploading files and images”。意思是o1模型还无法处理文件、图片等类型的输入。

所以,在ChatGPT中如果你选择了o1模型,在输入框左侧的文件上传按钮会被自动隐藏。

而当你当前的会话中如果上传过文件或图片,此时你打开模型选择的下拉菜单,就会看到下面的提示:This model doesn't support file attachments。该模型不支持文件上传。

3. 使用场景有限

以上两点会直接导致一个结果:当前o1模型的使用场景有限

响应速度慢,推理能力强,意味着o1模型非常适合复杂的任务,和OpenAI宣传的一样,o1对于处理“难题”很擅长。而对于一般的任务,有种“大炮打蚊子”的感觉。另外,纯文本模型决定了o1的使用场景是受限的,对于需要多模态输入的任务中,当前的o1还难以胜任。

以上分析也和OpenAI特意强调的o1模型的适用人群吻合。OpenAI表示,o1特别适合那些需要处理复杂问题的专业领域,无论是科学研究代码开发,还是数学运算等相关领域。而OpenAI给出的3个例子无一不是垂直领域的使用案例,比如帮助医疗研究人员标注细胞测序数据,生成量子光学所需的复杂数学公式,帮助开发者构建和执行多步骤的工作流程。

基于此,o1模型更像是一个工程产品,而不是一个全新的AI基座模型。小伙伴们可以细想,OpenAI在发布GPT-4或者GPT-4o时有强调过特定的适用人群吗?

4. 使用成本太高

当前的o1模型使用成本太高

当下的o1模型还不是完全体,从目前已发布的模型名称就能看出来:o1-previewo1-mini。预览版本算是提前发布。

o1模型使用成本高体现在两个方面。

首先是使用权限。目前只有ChatGPT PlusTeam付费会员可以在ChatGPT获得o1模型的使用权限,并且已全面放开。开发者则可以通过API调用使用o1模型,但,划重点,只有使用等级5(usage tier 5)的账号有权限调研o1模型。o1在使用数量上的限制也很严格。ChatGPT Plus和Team会员每周可以使用30o1-preview50o1-mini对话。而o1API调用的数量限制为每分钟20次调用(20 RPM),这个数量是不足以大规模商用的。

其次是token的消耗方面。o1模型的训练方式决定了它在每一次回答时消耗的token数是巨大的,因为模型首先需要进入内部思维链进行“思考”,这一步就开始消耗token,然后输出答案,这一步继续消耗token。所以随便一个问题,很有可能就消耗上万个输出tokens,意味着几美元的问答成本。

目前o1-preview模型API定价为:15美元每百万输入tokens和60美元每百万输出tokens;o1-mini模型API定价为:3美元每百万输入tokens和12美元每百万输出tokens。

结语

OpenAI o1模型虽强,但也要理性看待,它并没有那么“神”乎其神。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅