重磅！OpenAI正式发布博士水平的推理模型o1！附详细说明

发布日期：2024-09-13 06:09:45 浏览次数： 5416

作者：AI信息Gap

微信搜一搜，关注“AI信息Gap”

昨天刚在《ChatGPT Pro都来了，ChatGPT Pro Max还会远吗？》一文中介绍过OpenAI即将推出一款具备推理能力的新模型，今天它就来了！

北美时间9月12日下午，OpenAI官方正式宣布了新模型o1-preview（o1预览版）的发布。和我在昨天的文章中分析的一致，o1-preview作为新一代模型，擅长通过推理解决复杂的任务，尤其在科学、代码和数学方面有着显著提升。

短短2个小时，OpenAI的帖子阅读量就已突破百万。

本次发布的新模型共有2个，除了上面提到的o1-preview，另一个是o1-mini，即o1-preview的弟弟版本，更加注重经济高效。可以简单理解为GPT-4o和GPT-4o mini的关系。

o1模型发布后，OpenAI的CEO Sam Altman也是随即在社交媒体发表多个帖子表示这将会是目前最强大、最对齐的模型。虽然该模型还不完美，但它将惊人感到惊艳。

`o1`工作原理

o1模型的工作原理可以简单概括为，OpenAI通过让模型在回复前花更多时间思考，从而提升其解决复杂问题的能力。与传统的AI模型不同，o1更加注重推理过程，类似于人类在面对难题时，先花时间分析、思考，再做出回应。

在训练过程中，模型能够逐步优化思维方式，尝试不同的策略，并能够自我识别和纠错。通过这种反复训练，o1逐渐掌握了精细化的推理能力，能够在解决问题时更加准确和灵活。

从测试结果来看，本次更新的o1模型在物理、化学和生物学等复杂学科的高难度基准任务上，表现几乎与博士生相当。在数学和编码领域，该模型的表现更加出色。在国际数学奥林匹克（IMO）资格考试中，GPT-4o只能正确解决13%的问题，而该推理模型o1的正确率达到了惊人的83%。同时，在Codeforces编程竞赛中，o1的表现达到了第89百分位（即表现超过了89%的评估对象，排名前11%），展现出其在编码任务中的强大能力。

作为一款早期模型，o1模型目前还没有浏览网页、上传文件和图像等ChatGPT的一些常用功能，但在复杂的推理任务中，o1的表现已经显著超越了之前的模型，包括GPT-4o，这一表现无疑代表着AI模型的新高度。

OpenAI对此模型寄予厚望，认为它能够大幅提升科学、数学和编程等领域的工作效率。也正因此，OpenAI决定将版本编号从头开始，并将这个系列模型重新命名为o1。

新模型的安全性能

安全性一直是AI模型开发中的核心问题，尤其是在模型推理能力不断提升的背景下。针对o1系列模型，OpenAI表示采用了全新的安全训练方法，通过引入模型的推理能力，使其能够更好地遵循安全和对齐指南。与传统的规则式限制不同，o1模型能够根据上下文进行推理，从而更有效地应用这些安全规则。

OpenAI采取了更严格的安全评估机制，以确保新模型在面对复杂场景时依然能够遵守安全规则。例如，在用户试图绕过安全限制（即“越狱”）的情况下，OpenAI对模型进行了专门的测试。根据测试结果，上一代的GPT-4o在越狱测试中的得分仅为22（满分100分），而o1-preview模型则取得了84的高分。

为了进一步增强这些模型的安全保障，OpenAI还强化了内部治理体系，并加强了与政府的合作。这包括使用准备框架进行的全面测试、顶级的红队测试，以及由安全与安保委员会主持的董事会级别的审查流程。

`o1`适用人群

o1系列模型所具备的增强推理能力，特别适合那些需要处理复杂问题的专业领域，无论是科学研究、代码开发，还是数学运算等相关领域。这一新一代模型能够通过其强大的推理能力解决此前难以处理的复杂任务。

举例来说，o1可以帮助医疗研究人员标注细胞测序数据，这在生命科学领域中的基因研究、药物研发等方面尤为重要。对于物理学家来说，o1能够生成量子光学所需的复杂数学公式，大幅提升研究过程中的计算效率和准确性。同时，o1还可以支持各类开发者，帮助他们构建和执行多步骤的工作流程，自动化和优化工作任务。无论是处理大规模数据集，还是编写复杂算法，o1都能够以其卓越的推理能力为开发者提供支持。

这也意味着，在这些需要精确计算和严密推理的领域，o1将能够显著提升生产力，减少人为错误，并大幅加快科研进程和开发速度。不仅如此，随着o1模型的持续改进和功能拓展，它未来将有望在更多领域中发挥作用，帮助从事各类复杂任务的专业人员提升工作效率和成果质量。

`o1-mini`：更经济高效的选择

o1系列模型在复杂代码生成和调试方面表现出色，为了给开发者提供更高效的解决方案，OpenAI还推出了o1-mini。相比于o1-preview，o1-mini速度更快，且成本更低，特别适合那些需要推理但不需要广泛世界知识的应用场景。作为一个较小的模型，o1-mini的价格比o1-preview便宜80%，因此在需要强大推理能力的同时，又考虑成本的应用中，o1-mini可能是一个更好的选择。

如何使用`o1`模型

从今天（9月12日）起，ChatGPT Plus和Team用户可以在ChatGPT中手动选择o1系列模型，包括o1-preview还是o1-mini。在当前阶段，o1-preview消息限额为每周30条，o1-mini则为每周50条。是的，你没有看错，30条和50条是每周的限额。