微信扫码
添加专属顾问
我要投稿
论文笔记分享,标题A COMPARATIVE STUDY ON REASONING PATTERNS OF OPENAI’S O1 MODEL》,代码开源:https://github.com/Open-Source-O1/o1_Reasoning_Patterns_Study
OpenAI的o1模型在推理时候花费更多的时间,可以大幅提高LLMs的推理能力。然后呢,这篇文章就以gpt4o为基础,先论证一些推理时候的思考策略,然后分析o1的6种推理模式,最后是一些实验。
常见的推理策略
这些策略测试的结论结论:
然后是论证6种推理模式((Systematic Analysis (SA), Method Reuse (MR), Divide and Conquer (DC), Self-Refinement (SR), Context Identification (CI), and Emphasizing Constraints (EC))),o1最常用的推理模式是DC和SR。
系统分析(Systematic Analysis, SA):从问题的整体结构开始,o1首先分析输入和输出以及约束,然后决定选择算法和使用数据结构。
方法重用(Method Reuse, MR):对于一些可以转化为经典问题(如最短路径或背包问题)的问题,o1能够快速重用现有方法来解决它们。
分而治之(Divide and Conquer, DC):将复杂问题分解为子问题,并通过解决子问题来构建整体解决方案。
自我完善(Self-Refinement, SR):o1在推理过程中评估其推理过程,以确定是否存在问题并纠正任何错误。
上下文识别(Context Identification, CI):对于一些需要额外信息输入的数据集(例如HotpotQA),o1首先总结与查询相关的不同方面的上下文,然后给出相应查询的响应。
强调约束(Emphasizing Constraints, EC):对于一些对生成文本有约束的数据集(例如Collie),o1在推理过程中通常会强调相应的约束。
这几种模式在几个数据集上出现的频次如下,不同难度的数据,o1采用的推理模式会存在一定的差异。
最后是一些分析实验
对于BoN系列方法,需要一个策略来选择生成响应中最合适的响应。使用不同的策略进行实验,发现人工可以显著提高LLMs的准确率。除此之外BoN的性能受到N(生成响应的数量)的限制,增加N可以探索BoN能力的上限。
当前基准测试中包含许多简单的样本,无法区分不同 LLM 的性能差异。数据过滤后,不同 LLM 的分数相对较低,且区分度更大。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-09
Virustotal对OpenClaw恶意技能(Skills)的跟踪分析
2026-02-09
ollama v0.15.6发布:上下文限制修复、自动模型下载、Claude环境变量优化、Droid与Qwen全面更新详解
2026-02-09
【开源】港大开源“纳米级OpenClaw”:超轻量AI助手,仅4000行代码复刻OpenClaw核心战力!
2026-02-06
Qwen3-Coder-Next 上线模力方舟:仅 3B 激活参数,媲美主流大模型的 Agent 编码能力
2026-02-06
给自己搭一个 AI 搭档:OpenClaw 安装使用全记录
2026-02-06
Qwen3-TTS:2026年最强开源文本转语音模型完全指南
2026-02-06
OpenClaw 爆火之后,我们看到了这些创业信号
2026-02-05
从Clawdbot到OpenClaw:爆款本地AI Agent的产品逻辑与争议
2025-11-19
2026-01-27
2025-12-22
2026-01-12
2026-01-29
2025-11-17
2025-12-10
2026-01-28
2025-12-23
2026-01-06
2026-02-05
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16
2026-01-02