我要投稿

在笔记本上，部署 gpt-oss-120b 模型

发布日期：2025-08-06 19:47:24 浏览次数： 2196

作者：赛博禅心

微信搜一搜，关注“赛博禅心”

今天，OpenAI 开源了俩模型：120B/20B

117B 的 gpt-oss-120b 对标 o4-min，按官方说法至少需要 80G 内存，推荐使用单卡 H100 GPU

而刚买的的游戏本，刚好满足gpt-oss-120b 的部署条件

这里面是 AMD 的 395+ & 8060s（非常 YES），128G 统一内存
（说上面这些，就是来炫耀下我的本子）
（略略略～）

在测试后，发现部署 oss 并不需要 80G 显存，64G 就够了

以下是详细的部署
以及：并不需要 80G 显存，64G 就够了

部署工作

OpenAI 为 gpt-oss 系列模型，提供了完善的私有化部署支持，使用原生MXFP4量化，极大的降低了显存的使用

在工具层面，支持多种主流部署方法，包括： Transformers、vLLM、PyTorch / Triton、Ollama、LM Studio

这里，我用的是 LM Studio，可以在官网进行下载安装

进入 LM Studio 之后，可以直接搜索 gpt-oss-120b 并下载
模型较大，有几十个G，下载要一点时间

模型配置

模型下完后，还无法立即运行
虽说是统一内存，但默认分给显卡的，只有4G（剩下的全部算显存了）

明显不满足条件，需要手工修改一下内存分配
这里我把 64G 内存分配给了显存
（并不需要宣称的 80G）

完成后，点击 LM Studio 中的「载入模型」

模型顺利载入，显示部署成功

推理效果

OpenAI 这模型，可选多种推理强度，包括“低”、“中”、“高”

询问单词「strawberry」包含几个字母「r」：

低强度模式：约需10秒

高强度模式：耗时约1分钟

这个模型还支持更多的工具调用，比如可以自行配置 MCP

额外注意

在部署中，也有两个细节问题，分享如下：

Runtime 选择

LM Studio 提供了多种 Runtime 选项，包括 CUDA、Vulkan、ROCm llama.cpp、CPU llama.cpp 等

我使用的是 AMD 平台，显然无法使用 NVIDIA 的 CUDA 加速

理论上，ROCm 更适合 AMD，但目前尚未支持 OpenAI 最新的 gpt-oss 系列模型

最终，我选择了 Vulkan 作为 runtime。这是一个跨平台的通用加速方案，且在最新版本的 LM Studio 中已经对 OpenAI 的 oss 做了适配

而 CPU llama.cpp 显然不是首选，毕竟这是 CPU 的

显存过高导致的问题

最开始的时候，我把显存分配拉高到 96GB，但这导致模型载入失败

仔细排查了下，发现模型载入过程本身还需要约 40G 的内存

所以，这里推荐将显存分配设为 64GB，能保证完美运行

总结

其一、OpenAI 的量化，是贴心的
其二、AMD，Yes！

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-03

Claude Code——智能路由与切换工具

2026-02-03

作为投资方，我们试了试Kimi K2.5

2026-02-03

暴涨11.7k Star！复刻Manus上下文工程的开源Skills，Claude code等多个平台即插即用

2026-02-03

ollama v0.15.4 更新：OpenClaw全面上线，优化集成流程与工具解析能力大升级！

2026-02-03

阶跃星辰 Step 3.5 Flash 上线！更快更强更稳的 Agent 大脑，开源！

2026-02-02

一分钟部署OpenClaw+QQ，国内最爽的一键启动！

2026-02-02

这家字节系AI初创，推出首个开源Agent Skills Builder！对话Refly.AI李锦威：大多数Agent都停留在专业用户层面，没有做到真正的普惠

2026-02-02

OCR又出宠OpenDoc，速度超MinerU6倍

联系获取

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全新AI编程工具 Google Antigravity 实测，特别适合产品经理

2025-11-19

Clawdbot 完整安装教学：2026 年最火的开源AI 个人助理

2026-01-27

一文彻底看懂 Google 最新开源 A2UI 协议：如何让 AI Agent “说出UI” ？

2025-12-22

豆包手机同款AutoGLM硬核开源：AI如何用“眼睛+大脑+手”接管你手机

2025-12-10

让白宫“破防”的阿里千问，我替你们测了...

2025-11-17

SkillsMP：一个聚合了 5 万+ AI Agent 技能的开源社区

2026-01-12

最强开源0.9B级OCR模型！PaddleOCR-VL本地一键部署，私密性拉满【喂饭级教程】

2025-11-07

我把Claude Code换成GLM-4.7用了6小时，我竟然没发现明显区别

2025-12-23

Clawdbot 深度拆解： 7 个问题看懂它。

2026-01-29

Claude Code最强开源对手！GitHub 50.2k Star了，作者为它烧掉2.4w美元。

2026-01-06

大家都在问

一夜爆火，Clawdbot是否才是真正的AI入口产品？

2026-01-28

Clawdbot爆火：Karpathy点赞的开源AI助理，到底是什么？

2026-01-26

速递 | DeepSeek突然扔出MODEL1，这到底是V4还是R2？

2026-01-21

DeepSeek-R2要来了？

2026-01-21

TranslateGemma-27B谷歌开源翻译模型有多强？

2026-01-20

构建开放智能体生态：AgentScope 如何用 A2A 协议与 Nacos 打通协作壁垒？

2026-01-16

又是量化基金，第二个DeepSeek时刻到来了？

2026-01-02

被 Gemini 官方推荐为下一代Agent！Eigent 如何实现企业级浏览器自动化？

2025-12-24

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean

应聘简历请发送至： [email protected]

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部