微信扫码
添加专属顾问
我要投稿
最近在reddit论坛中,有网友向Claude 提供了 OpenAI 发布的信息(包括系统信息、博客文章、GPT o1作者之一Noam Brown 等人的推文、ARC竞赛团队的测试评论)以及与 o1 模型相关的在线讨论(Reddit、YouTube 视频),最终通过逆向工程的方法推测出了OpenAI o1可能的架构流程:
https://www.reddit.com/r/LocalLLaMA/comments/1fgr244/reverse_engineering_o1_architecture_with_a_little/
下面是关于这张架构图的详细说明,主要包括四个阶段:
数据生成模块负责创建用于训练的数据,包括:
这些数据被汇集起来,形成训练数据,用于后续模型的训练阶段。
训练阶段主要由以下几个模块组成:
语言模型(Language Model),这是核心的AI模型,负责处理和理解语言数据。
RL环境(RL Environment),强化学习环境用于模型优化。
奖励函数(Reward Function),包括验证(Verification)和人类反馈(Human labeling),用来指导模型学习。
策略优化器(Policy Optimizer),包括梯度压缩、Panzar系统、探索与利用等,用于优化模型策略。在这个阶段,模型通过强化学习和高级技术进行训练,不断优化性能和效率。
训练好的模型(Trained Model),这个阶段已经是通过强化学习和高级技术优化后的模型。
多任务生成(Multi-tasking Generation),处理多个任务的能力。
最终响应(Final Response),生成最终的输出结果。
CoT生成和微调(Generated CoT and Refinement),根据链式思维生成并微调结果。
效率监控(Efficiency Monitoring):实时监控模型的性能。
4、关键注释
大规模CoT存储进入RL环境是作者自己的假设,作者认为OpenAI可能会使用从现实世界中生成的大量链式思维来进一步调整和优化RL模型。举例说明:假设你是一名研究员,想要构建一个能够进行多任务处理的AI系统。
我们可以通过参考这个o1架构按照上面三个模块进行以下工作:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-20
刚发布的Antigravity 2.0:从开发到管理的一跃
2026-05-20
Qwen3.7-Max 重新定义 AI Agent 基座
2026-05-20
直击 Google I/O 2026 | 轰炸式发布 Agent,狙击 Claude Code,开战!
2026-05-20
谷歌一口气发了 20 多个产品,但只想讲一件事
2026-05-20
I/O 2026:欢迎来到智能体 Gemini 时代
2026-05-20
首个Gemini桌面端曝光,系统级Agent空降PC!
2026-05-20
一文看懂 Google I/O 2026:Gemini 3.5领衔 谷歌打响智能体和全模态大战
2026-05-20
帮大家总结了一下凌晨的Google I/O 2026开发者大会。
2026-04-15
2026-03-31
2026-03-13
2026-04-07
2026-03-17
2026-03-17
2026-04-07
2026-03-21
2026-04-24
2026-02-20
2026-05-19
2026-05-09
2026-05-09
2026-05-09
2026-05-08
2026-05-07
2026-04-26
2026-04-22