微信扫码
添加专属顾问
我要投稿
OpenAI即将发布的开源大模型技术细节曝光,1200亿参数混合专家架构与128K上下文窗口技术令人瞩目。 核心内容: 1. 两款开源模型的技术规格:1200亿参数MoE模型与200亿参数稠密模型 2. 突破性训练技术:Float4量化与英伟达Blackwell芯片的协同应用 3. 128K长文本处理方案:YaRN扩展技术与滑动窗口注意力机制创新
OpenAI 可能即将发布的开源大模型的详细技术细节来了,以下是根据泄露信息整理
据爆料,OpenAI 可能会发布两款模型:
一款 1200亿(120B)参数的混合专家(MoE)模型:其在推理时仅激活约 50-60亿(5B/6B)参数。这意味着它能在保持巨大知识容量的同时,实现极高的推理效率,大幅降低运行成本
一款 200亿(20B)参数的稠密模型:作为更小巧、更易于部署的版本
目前来看,这两款模型将专注于文本处理,暂时不涉及多模态能力
为了极致的效率,模型可能采用了 Float4进行训练或量化。这是一种非常激进的量化方案,可以极大地压缩模型体积并提升运算速度
据推测,这可能是借助英伟达最新发布的 Blackwell 架构 GPU 完成的,因为该系列芯片原生支持 Float4 运算。另一种可能性是,模型在训练后通过 训练后量化(PTQ) 技术压缩到了 Float4
为了配合 Float4 量化,模型可能采用了 SwiGLU 激活函数,并对其输出范围进行了 裁剪,限制在 -7 到 7 之间
这类似于经典的 ReLU6 函数,其目的是为了消除激活值中的极端异常值,确保数值分布更稳定,从而降低量化过程中带来的精度损失。这对于 Float4 这种低精度格式至关重要
模型将拥有128K 的超长上下文窗口,但它并非从头开始训练的。据推测,该模型的基础上下文窗口为 4K,之后在训练中途采用 YaRN等技术将其无缝扩展至 128K
为了高效处理 128K 的长文本,模型采用了两大关键技术:
滑动窗口注意力(SWA):窗口大小为 128。这意味着在计算注意力时,每个词元(token)只需关注其邻近的 128 个词元,从而将计算复杂度从二次方降低到线性级别
注意力汇聚(Attention Sinks):为了解决 SWA 会遗忘早期重要信息的问题,模型引入了注意力汇聚技术。该技术强制模型始终关注最开始的几个(例如 4 或 8 个)关键 token,确保模型在处理长序列时不会失忆。NVIDIA 的 TensorRT-LLM 也已支持此功能
模型的基础架构很可能借鉴了 Llama 和 Mixtral 等成功的开源模型。关键特征包括:
合并的 QKV 矩阵:将注意力机制中的查询(Q)、键(K)、值(V)矩阵合并,以优化计算效率
广泛使用偏置项(Biases):与一些模型(如 Llama)去掉偏置项的做法不同,该模型似乎在所有模块(包括 MLP、注意力层甚至 MoE 的路由层)都保留了偏置项,这可能有助于提升模型的拟合能力
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-06-28
BrowserBC:克隆人类点击,让一次网页操作转化为所有Agent的能力
2026-06-27
腾讯混元发布 PhoneBuddy:4B 开源手机 Agent,在 AndroidWorld 上超越 Gemini3.1 Pro
2026-06-27
本地部署 Gemma 4 26B QAT 实践记录
2026-06-26
Higress v2.2.3 发布:AI Gateway 能力增强,Gateway API 及其推理扩展持续打磨
2026-06-26
我把自己的知识库系统开源了
2026-06-26
近 8 千 Star!一次性干翻整本 PDF,百度这个 OCR 让文档解析彻底变了天
2026-06-25
谷歌开源 agents-cli:让 AI 助手帮你完成企业级 Agent 从搭建到部署全流程!
2026-06-25
官宣|我们推出了开源版Claude Tag,以及它背后记忆与工具引擎 MFS
2026-04-09
2026-04-03
2026-04-01
2026-03-31
2026-04-18
2026-04-18
2026-03-31
2026-06-22
2026-04-02
2026-05-10
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01