OpenAI重新开源！深夜发布gpt-oss，o4-mini水平

发布日期：2025-08-06 17:15:41 浏览次数： 2044

作者：Datawhale

微信搜一搜，关注“Datawhale”

他来了！他来了！

就在今夜，奥特曼带着两款全新的开源模型走来了！

它们分别是总参数1170亿，激活参数51亿的「gpt-oss-120b」和总参数210亿，激活参数36亿的「gpt-oss-20b」。

gpt-oss-120b适用于需要高推理能力的生产级和通用型场景

在核心推理基准测试中，120B模型的表现与OpenAI o4-mini相当，并且能在单张80GB显存的GPU上高效运行（如H100）。

gpt-oss-20b适用于低延迟、本地或专业化场景

在常用基准测试中，20B模型的表现与OpenAI o3-mini类似，并且能在仅有16GB显存的边缘设备上运行。

除此之外，两款模型在工具使用、少样本函数调用、CoT推理以及HealthBench评测中也表现强劲，甚至比OpenAI o1和GPT-4o等专有模型还要更强。

其他亮点如下：

宽松的Apache 2.0许可证：可自由用于构建，无copyleft限制或专利风险——是实验、定制和商业化部署的理想选择。
可配置的推理投入：可根据用户的具体用例和延迟需求，轻松调整推理投入（低、中、高）。
完整的思维链：可完整访问模型的推理过程，从而简化调试并提升输出结果的可信度。
支持微调：支持参数级微调，可根据您的特定用例对模型进行完全定制。
智能体能力：利用模型原生的函数调用、网页浏览、Python代码执行和结构化输出等能力。
原生MXFP4量化：在训练时，模型的混合专家（MoE）层便采用了原生的MXFP4精度，使得gpt-oss-120b在单张H100 GPU上即可运行，而gpt-oss-20b仅需16GB内存。

值得一提的是，OpenAI还特地准备了一个playground网站供大家在线体验。

体验地址：https://gpt-oss.com/

GitHub项目：https://github.com/openai/gpt-oss

Hugging Face（120B）：https://huggingface.co/openai/gpt-oss-120b

Hugging Face（20B）：https://huggingface.co/openai/gpt-oss-20b

GPT-2以来，首次开源

gpt-oss系模型，是OpenAI自GPT-2以来首次开源的语言模型· 。

今天，OpenAI同时放出了34页技术报告，模型采用了最先进的预训练和后训练技术。

模型卡：https://cdn.openai.com/pdf/419b6906-9da6-406c-a19d-1bb078ac7637/oai_gpt-oss_model_card.pdf

预训练与模型架构

相较于此前开源的Whisper和CLIP，gpt-oss模型在推理能力、效率以及在广泛部署环境中的实用性上更强。

每个模型都采用了Transformer架构，并融入MoE设计，减少处理输入时激活参数量。

如上所述，gpt-oss-120b总参数1170亿，每token激活51亿参数，gpt-oss-20b总参数210亿，每token激活36亿参数。

此外，模型还借鉴了GPT-3设计理念，采用了交替的密集注意力和局部带状稀疏注意力模式。

为了提升推理和内存效率，模型还采用了分组多查询注意力机制，组大小为8，以及旋转位置编码（RoPE），原生支持128k上下文。

gpt-oss模型的训练数据以「英语」为主，聚焦STEM、编程和通用知识领域。

OpenAI采用了o200k_harmony分词器对数据进行分词，它是OpenAI o4-mini和GPT-4o所用分词器的「超集」。

今天，这款分词器同步开源。

利好开发者的是，gpt-oss两款模型与Responses API⁠兼容，专为智能体工作流打造，在指令遵循、工具使用、推理上极其强大。

比如，它能自主为需要复杂推理，或是目标是极低延迟输出的任务调整推理投入。

同时完全可定制，并提供完整的思维链（CoT），以及支持结构化输出⁠。

据悉，gpt-oss模型整个预训练成本，低于50万美元。

后训练

在后训练阶段，gpt-oss模型的流程与o4-mini相似，包含了「监督微调」和「高算力强化学习」阶段。

训练过程中，团队以「OpenAI模型规范⁠」为目标对齐，并教导模型在生成答案前，使用CoT推理和工具。

通过采用与专有o系推理模型的相同技术，让gpt-oss在后训练中展现出卓越能力。

与API中的OpenAI o系列推理模型相似，这两款开源模型支持三种推理投入——低、中、高。

开发者只需在系统提示词中加入一句话，即可在延迟与性能间灵活切换。

开源小模型，比肩旗舰o3/o4-mini

在多个基准测试中，gpt-oss-120b堪比旗舰级o系模型的性能。

具体来说，在编程竞赛（Codeforces）、通用问题解决（MMLU和HLE）以及工具调用（TauBench）方面，它直接超越了o3-mini，达到甚至超越了o4-mini的水平。

此外，在健康相关查询（HealthBench⁠）、数学竞赛（AIME 2024 & 2025）基准中，它的表现甚至优于o4-mini。

尽管gpt-oss-20b规模较小，但在相同的评估中，其表现与o3-mini持平或更优，甚至在AIME、健康领域基准上的表现超越了o3-mini。

在AIME数学测试中，gpt-oss-120b和gpt-oss-20b随着推理token的增加，准确率折线逐渐逼近。

在博士级知识问答基准中，gpt-oss-120b的性能始终领先于gpt-oss-20b。

此外，OpenAI近期研究表明，未经直接监督训练的CoT有助于发现模型潜在不当行为。

这一观点也得到了业内其他同行的认同。

同样，遵循o1-preview⁠的设计原则，研究团队并未对gpt-oss模型CoT直接监督，让模型更加透明。

OpenAI，Open AI了

gpt-oss-120b和gpt-oss-20b的开源，标志着OpenAI终于在开源模型上，迈出了重要一步。

在同等规模下，它们在推理性能上，可与o3-mini、o4-mini一较高下，甚至是领先。

OpenAI开源模型为所有开发者，提供了强大的工具，补充了托管模型的生态，加速前沿研究、促进创新。

更重要的是，模型开源降低了一些群体，比如新兴市场、缺少算力小企业的准入门槛。

一个健康的开放模型生态系统，是让AI普及并惠及所有人的一个重要方面。

对于这次的开源，奥特曼骄傲地表示：gpt-oss是OpenAI「数十亿美元」研究成果的结晶，是全世界最出色、最实用的开放模型！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-29

8G 内存足以，最适合 NAS 的本地「多模态模型」，极空间+MiniCPM

2026-06-29

腾讯刚开源了个好东西：BrowserSkill 让 AI Agent 直接用你的浏览器

2026-06-29

WeKnora详解（一）：腾讯开源的 LLM 知识框架，5 分钟跑通你的第一个问答机器人

2026-06-29

腾讯WeKnora开源详解（四）：企业治理与开发者工具

2026-06-29

DeepSeek 再蒸新模型：这次选的是 Qwen3 和 Gemma4！Llama 这次上不了桌

2026-06-28

BrowserBC：克隆人类点击，让一次网页操作转化为所有Agent的能力

2026-06-27

腾讯混元发布 PhoneBuddy：4B 开源手机 Agent，在 AndroidWorld 上超越 Gemini3.1 Pro

2026-06-27

本地部署 Gemma 4 26B QAT 实践记录

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

Agent终于有了自己的邮箱！腾讯Agently Mail详解

2026-06-22

炸裂！Seedance 2.0 免费用！全网第一只接入的开源龙虾，效果离谱

2026-04-02

Claude 的金融 Skills 开源了

2026-05-10

Ollama 换引擎，苹果 M5 封神了

2026-05-06

Qwen3.7来了，全球排名第13，国内第一

2026-05-20

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw