OpenAI发布开源模型“王者归来”，DeepSeek剧情会反转吗

发布日期：2025-08-06 05:00:50 浏览次数： 2050

作者：未尽研究

微信搜一搜，关注“未尽研究”

OpenAI终于重新发布开源模型gpt-oss-120b和 gpt-oss-20b。这是其自从GPT-2之后，首次发布开源语言模型。

这也是上半年DeepSeek-R1发布，引发中国掀起一股开源狂潮，7月份中国K2、GLM-4.5、Step-3及Qwen3更新版本等密集发布之后，美国AI实验室首次发出最强开源模型。

Llama4上半年发布失败，美国朝野一致对开源AI落后于中国感到焦虑之际，OpenAI看起来要扳回一局。

最大的开源社区Hugging Face创始人兼CEO Clement Delangue称之为“王者归来”。

“这就像剧情反转，

像是一场王者归来，

像是某件大事的开端。

让我们一起推进开源AI吧 🔥🔥🔥”

gpt-oss vs. DeepSeek

StabilityAI创始人Emad Mostaque等人，对比了gpt-oss与DeepSeek ：

训练效率：gpt-oss-120b每个token激活约5.1B参数，而DeepSeek 是 37B，少了 7 倍以上，因此可以处理超过5倍的tokens，即大约80万亿 tokens（作为参考，Qwen3使用了30万亿）。

计算消耗：gpt-oss比DeepSeek V3/R1的训练算力需求低了约20%，即使如此，仍能训练更多tokens（最多 80T vs DeepSeek 的 14.8T）。

训练成本：gpt-oss-120b训练成本约400万美元，gpt-oss-20b仅需 40 万美元，均低于DeepSeek 。

再对比下性能表现：官方评测表明：gpt-oss-120b ≈ OpenAI o4-mini，gpt-oss-20b ≈ OpenAI o3-mini。多项推理任务中，gpt-oss-120b 在 HealthBench 和数学评测中甚至超过 o4-mini。而 DeepSeek-V3 的能力已被认为达到 o3-mini ~ o4-mini 之间的水平。所以，在模型表现上两者旗鼓相当。

综合以上对比，gpt-oss 的性价比应该是超过了DeepSeek。不过，后来中国发布的开源模型，几乎个个都称自己超过了DeepSeek。

从开源开放角度，gpt-oss 在全球的生态也占据优势。

相当于o3 mini 和o4 mini

OpenAI介绍这两个开源模型是“开源权重、性能卓越、成本低廉的最新一代语言模型。它们采用灵活的Apache 2.0许可证发布，在推理任务中超越了同等规模的开源模型，具备出色的工具使用能力，并针对消费级硬件实现了高效部署优化。”

这两个模型的训练，结合了强化学习方法，技术还受到了OpenAI最先进内部模型（包括 o3 及其他前沿系统）的启发。

gpt-oss-120b在核心推理基准测试中已接近 OpenAI o4-mini的水平，并能在一张 80 GB GPU 上高效运行。

gpt-oss-20b在常见基准上表现接近OpenAI o3-mini，且可在仅有16GB内存的边缘设备上运行，非常适合端侧部署、本地推理或无需昂贵基础设施的快速迭代。

两个模型在工具使用、少样本函数调用、思维链（CoT）推理方面均表现出色（例如在 Tau-Bench Agentic 评测套件上的结果），在 HealthBench医疗推理测试中甚至超越了 OpenAI 的闭源模型如 o1 和GPT-4o。

这些模型兼容OpenAI的Responses API，专为智能体工作流而设计，具备出色的指令遵循能力、工具调用能力（如网页搜索、Python 执行）和推理能力 —— 包括自动调整推理强度，以满足对低延迟、简单任务的需求。它们完全可自定义，支持完整的思维链输出和结构化输出。

OpenAI认为安全对于开源模型至关重要，这也是其之前不愿意发布开源模型的原因之一。除了全面的安全训练和评估，OpenAI还使用了对抗性微调版本的gpt-oss-120b，并在其Preparedness Framework下进行了额外评估。

gpt-oss模型在内部安全基准测试中表现与前沿模型相当，为开发者提供与OpenAI最新闭源模型相同的安全标准。其方法也已接受外部专家审阅，为开源模型设定了新的安全基准。

OpenAI还与 AI Sweden、Orange、Snowflake等早期合作伙伴共同探索模型在真实世界中的应用，包括在本地部署以确保数据安全，以及在特定数据集上的微调。

OpenAI称：“这些业界领先的开源模型，赋能从个人开发者到大型企业再到政府，在自有基础设施上运行并定制 AI。结合我们 API提供的模型，开发者可以根据所需的性能、成本与延迟，灵活选择适合的AI工作流方案。”

预训练与模型架构

gpt-oss系列模型采用了OpenAI最先进的预训练与后训练技术，重点提升推理能力、运行效率，以及在各种部署环境下的实际可用性。虽然OpenAI此前已开源Whisper和CLIP等模型，但gpt-oss是自GPT‑2以来首次发布开源权重的语言模型。

每个gpt-oss模型均基于Transformer架构，并采用混合专家模型（MoE）技术，以减少每次处理输入时所需激活的参数数量。例如：

gpt-oss-120b每个token激活5.1B参数，模型总参数量为117B；

gpt-oss-20b每个token激活3.6B参数，模型总参数量为21B。

模型在注意力机制上采用了密集与局部带状稀疏（locally banded sparse）注意力模式交替结构，与GPT-3相似。为提升推理与内存效率，模型还使用了分组多查询注意力机制（grouped multi-query attention），分组大小为 8。

在位置编码方面，模型使用了旋转位置嵌入（RoPE, Rotary Positional Embedding）,并原生支持最长128k上下文长度，为长上下文推理提供了基础。

训练使用的是以英语为主的纯文本数据集，重点覆盖 STEM（科学、技术、工程和数学）领域、编程内容以及通识知识。分词器是OpenAI o4-mini和GPT‑4o所用分词器的超集——o200k\_harmony，于当日一同开源。

Emad Mostaque认为，高效训练不一定需要巨量算力，而是需要大量优质的数据。gpt-oss在预算受控的情况下实现了高性能，未来训练成本还将进一步降低。

后训练

gpt-oss模型的后训练过程类似于o4-mini，包括一个监督微调阶段和一个高算力强化学习（RL）阶段。我们的目标是使模型符合OpenAI模型规范（Model Spec）的标准，并在生成最终答案前掌握思维链推理（CoT reasoning）和工具使用能力。

OpenAI认为，借助与其最先进闭源推理模型相同的后训练技术，这些模型在后训练完成后展现出了卓越的能力。

与OpenAI API中的o系列推理模型类似，这两款开源权重模型支持三种推理强度等级——低、中、高，可在响应延迟与性能之间灵活权衡。开发者只需在 system message 中用一句话即可设置所需的推理强度。

评估

OpenAI使用标准学术基准评估了gpt-oss-120b 与gpt-oss-20b在以下领域的表现：编程、数学竞赛、医疗健康、代理式工具使用，并将其与 OpenAI 的推理模型 o3、o3-mini、o4-mini 进行了比较。

gpt-oss-120b在以下方面优于o3-mini，达到或超过 o4-mini：

* 竞赛编程（Codeforces）

* 通用问题求解（MMLU 和 HLE）

* 工具调用（TauBench）

同时，在健康相关问题（HealthBench）和数学竞赛题（AIME 2024 和 2025）方面，甚至优于 o4-mini。

gpt-oss-20b虽然规模较小，但在上述评测中也匹敌甚至超越 o3-mini，在数学竞赛题和健康任务上表现更胜一筹。

思维链

OpenAI近期的研究表明，只要模型的思维链不是通过直接监督训练而对齐的，那么对其推理过程进行监控可以有效帮助检测模型的不当行为。这也基本上是业界共识。

延续自推出第一个推理模型OpenAI o1-preview以来所坚持的原则，OpenAI对 gpt-oss模型的思维链没有进行任何形式的直接监督训练。“我们认为这是监测模型不当行为、欺骗行为和潜在误用的重要基础。”

OpenAI希望此次发布的未受监督的思维链开源模型，能为开发者与研究人员提供研究机会，自行构建与部署思维链监控系统。

OpenAI提醒：开发者不应将模型生成的思维链直接展示给终端用户。这些推理内容可能包含虚构（hallucinated）或有害信息，包括不符合 OpenAI 安全政策的语言，甚至可能泄露模型被明确要求不在最终输出中显示的信息。

为什么开放模型很重要

保住美国在开源AI的优势，刚刚被写入了白宫《AI行动计划》。

gpt-oss-120b与gpt-oss-20b的发布，标志着开源权重模型向前迈出了重要一步。

在这个参数量级上，它们在推理能力与安全性方面都实现了突破，为行业设立了新标杆。

OpenAI表示，开放模型与其托管模型相辅相成，为开发者提供了更广泛的工具，加速前沿研究、激发创新、推动更安全、更透明的 AI 应用。

同时，它们降低了新兴市场、资源受限行业、小型组织进入AI时代的门槛——即使缺乏大预算和资源，这些强大而可获取的工具也能帮助人们在本地构建、创新和创造机会。

最后，OpenAI的这番话，显然是针对中国：这些在美国开发的开放权重模型，为构建民主化AI的“护栏”体系奠定了基础。一个健康的开放模型生态，是让AI 普惠全球的重要路径之一。OpenAI邀请开发者和研究者使用这些模型，展开实验、协作创新，推动 AI 能力的边界。

“我们期待看到你们构建出什么样的未来。”

One More Thing：红队挑战，奖金50万美元

为助力建设更安全的开源生态，OpenAI发起了一项红队挑战，邀请全球研究人员、开发者和爱好者共同发现新的安全问题。

挑战总奖金为50万美元，将由OpenAI及其他领先实验室的专家评审团评审并颁发。

挑战结束后，OpenAI将发布一份总结报告，并开源一套基于验证发现的评估数据集，供整个社区立即使用。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-30

告别云端付费！3秒克隆你的声音，这款开源AI不用GPU，手机CPU就能实时跑

2026-06-30

阿里开源 ReMe：像写双链笔记一样给 AI Agent 做长期记忆

2026-06-30

一次关于 AI 需求交付Skills的优化升级

2026-06-30

阿里开源 Open Code Review：让 AI 代码审查从“会看”走向“看得准”

2026-06-30

拆解开源知识库OpenKB：Karpathy的wiki 理念，如何被PageIndex做成无向量知识库

2026-06-29

8G 内存足以，最适合 NAS 的本地「多模态模型」，极空间+MiniCPM

2026-06-29

腾讯刚开源了个好东西：BrowserSkill 让 AI Agent 直接用你的浏览器

2026-06-29

WeKnora详解（一）：腾讯开源的 LLM 知识框架，5 分钟跑通你的第一个问答机器人

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

Agent终于有了自己的邮箱！腾讯Agently Mail详解

2026-06-22

炸裂！Seedance 2.0 免费用！全网第一只接入的开源龙虾，效果离谱

2026-04-02

Claude 的金融 Skills 开源了

2026-05-10

Ollama 换引擎，苹果 M5 封神了

2026-05-06

Qwen3.7来了，全球排名第13，国内第一

2026-05-20

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw