微信扫码
添加专属顾问
我要投稿
无需编码器,Gemma 4 12B将先进多模态AI直接装进你的笔记本电脑,解锁本地智能体新体验。 核心内容: 1. 全新统一架构:免编码器设计,直接处理视觉与音频输入 2. 强大性能与轻量化:性能接近26B模型,仅需16GB内存即可本地运行 3. 开源生态与应用:Apache 2.0协议发布,已支持丰富开发者应用场景
作者 / 产品管理总监 Olivier Lacombe 与 Google DeepMind 产品经理 Gus Martins
我们正式推出最新款模型 - Gemma 4 12B,旨在将智能体多模态智能 (agentic multimodal intelligence) 直接引入笔记本电脑。Gemma 4 12B 填补了适用于边缘设备的 E4B 模型与更先进的 26B 混合专家模型 (MoE) 之间的空白,在缩减内存占用的同时,集成了强大的功能。它也是我们首款原生支持音频输入的端侧中型模型。
得益于开发者社区的支持,Gemma 4 系列模型的下载量现已突破 1.5 亿次。从用于身体辅助的可穿戴机械臂,到企业级的 AI 安全方案,开发者们利用 Gemma 构建了丰富多彩的应用。我们非常期待看到大家用这款最新加入的模型构建新的精彩作品。
可穿戴机械臂
https://www.youtube.com/watch?v=OhaIA3bYwmg
企业级的 AI 安全方案
https://deepmind.google/models/gemma/gemmaverse/hirundo/
Gemma 4 12B 的独特亮点一览:
全新的统一架构: 无需多模态编码器。视觉和音频输入可以直接汇入大语言模型 (LLM) 主干网络。
卓越的推理能力: 在基准测试中的表现接近我们的 26B 模型,解锁了强大的多步骤推理和智能体工作流。
适配笔记本电脑: 模型体量足够轻量,仅需 16GB 的显存 (VRAM) 或统一内存 (Unified Memory) 即可在本地运行。
开放且易于获取: 采用 Apache 2.0 许可协议发布,并在整个开发者生态系统中获得广泛支持。
支持草稿模型: Gemma 4 12B 配备了多 Token 预测 (MTP) 草稿模型,能够显著降低推理延迟。
这些特性协同作用,在不牺牲运行速度或推理能力的前提下,将先进的多模态能力带到了日常硬件上。接下来,让我们深入了解 Gemma 4 12B 是如何实现这一目标的。
在标准基准测试中,Gemma 4 12B 的性能非常接近我们体量更大的 26B MoE 模型,而其所需的总内存占用不到后者的一半。它足够轻量,可以在配备 16GB 内存的消费级笔记本电脑上本地运行,在您的设备上直接解锁强大的多模态和智能体体验。
Gemma 4 12B 之所以能脱颖而出,在于其处理视觉和音频输入时的极简化设计。传统的多模态模型通常依赖于独立的编码器来转换图像和音频,然后再将这些表征 (representations) 传递给语言模型。由于这些分离的编码器会增加延迟并提高内存占用,我们采用了一种免编码器 (encoder-free) 架构来训练 Gemma 4 12B,从而直接整合音频和视觉输入。
以下是 Gemma 4 12B 原生处理多模态输入的方式:
视觉: 我们用一个轻量级的嵌入模块取代了 Gemma 4 的视觉编码器。该模块仅由单个矩阵乘法、位置嵌入和归一化 (normalizations) 组成。这使得大语言模型主干网络能够直接接管视觉处理。
音频: 我们对音频处理的简化则更为彻底,通过完全移除音频编码器,直接将原始音频信号投影到与文本 Token 相同的维度空间中。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-05-30
还在用 MinerU 解析 PDF?这个 2B 小模型直接把 olmOCR-bench 刷到 87.6%,速度还快 3.68 倍
2026-05-30
Qwen-VLA:迈向通用具身智能的统一动作框架
2026-05-25
罗福莉说的“伪多Agent”,我试了OmniWork后发现,真全干专家长这样
2026-05-19
从画稿到代码,AI Agent 正在吃掉产品设计的中间环节
2026-05-16
PDF解析折腾半年,最后靠这套方案搞定了
2026-04-27
一个神奇的视频生成 Skills,实测,狂喜
2026-04-26
你的一人公司品牌部,带着Image-2模型的lovart中文版来了
2026-04-22
MNN-Sana-Edit-V2:端侧运行的图像漫画风编辑大模型
2026-04-22
2026-04-01
2026-04-02
2026-03-18
2026-03-29
2026-03-15
2026-04-21
2026-04-27
2026-04-09
2026-03-31
2026-03-12
2025-12-31
2025-08-04
2025-05-26
2025-05-13
2025-04-08
2025-04-05
2025-03-30