我要投稿

Gemma 4 QAT 模型现已推出: 支持日常端侧设备与消费级 GPU 本地流畅运行

发布日期：2026-06-18 17:56:10 浏览次数： 1510

作者：谷歌开发者

微信搜一搜，关注“谷歌开发者”

作者 / Google DeepMind 产品管理总监 Olivier Lacombe 和技术专家 Omar Sanseviero

自两个月前 Gemma 4 发布以来，我们一直在持续努力扩展其能力。首先，我们引入了多 Token 预测 (Multi-Token Prediction, MTP) 来加速推理；并在近期发布了 Gemma 4 12B 模型，成功填补了 E4B 与 26B MoE 模型之间的空白。

多 Token 预测 (Multi-Token Prediction, MTP)
https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

现在，我们正式发布了经过量化感知训练 (QAT) 优化的全新检查点 (checkpoints)，从而进一步提升 Gemma 4 的效率，让您能够在日常端侧设备和消费级 GPU 上本地运行模型。

通过在训练过程中模拟量化，QAT 能够最大程度地减少模型压缩时的精度和质量损失。本次发布不仅包含了针对主流 Q4_0 量化格式的 QAT 检查点，还包含一种专为移动端使用场景量身定制的全新量化格式。通过这种移动端格式，我们成功将 Gemma 4 E2B 的内存占用降至仅 1GB。这两项技术相辅相成，在大幅降低内存需求的同时，依然完好地保留了 Gemma 4 的强大能力与卓越品质。

在缩小模型体积的同时

保持模型品质

量化 (Quantization) 是推动模型能够在消费级硬件上运行的关键技术，它不仅能够降低显存和内存占用，还能加快解码速度。然而，标准的训练后量化 (Post-Training Quantization, PTQ) 通常会导致性能退化。QAT 并非在训练后对模型进行量化，而是将量化过程直接融入到训练过程中。尽管 PTQ 在保持模型质量方面已然十分有效，但我们的 QAT 成果相比标准 PTQ 基线展现出了更高的整体质量。

我们已将这一 QAT 方案应用到了广受欢迎的 Q4_0 格式中，以最大化所有模型的性能表现。而针对端侧模型 (E2B 和 E4B)，我们则通过一套专为移动端优化的量化方案，重塑了量化技术的处理方式。

节省显存和存储空间

以下是加载各款模型所需的显存 (VRAM)/内存近似需求列表:

移动端设备的底层优化机制

标准的压缩格式往往很难在移动端处理器上实现高效运行。为了确保 Gemma 4 在移动设备上流畅运行，我们专门为端侧硬件设计了一套定制的移动端量化方案 (Mobile-Quantization Schema):

静态激活 (Static activations): 通常，模型在运行时需要耗费算力去实时计算如何缩放数据。我们选择在训练阶段预先计算好这些设置，大大减轻了移动端芯片的计算负担并加快响应速度。
逐通道量化 (Channel-wise quantization): 我们构建了压缩数据的结构，使其能够契合移动端加速器的设计。这使手机能够原生执行计算，无需缓慢的折中变通方案。
定向 2-bit 量化 (Targeted 2-bit quantization): 我们对模型中负责生成 Token 的特定部分进行了大幅压缩 (降至 2-bit)，同时将最核心的推理层保持在更高的精度。这在不让模型变 "笨" 的同时节省了存储空间。
Embedding 与 KV 缓存优化 (Embedding and KV cache optimization): 我们对模型的词汇表和短期记忆进行了重点压缩。这大幅降低了活动内存的占用，让您在进行长对话时无需担心空间不足。

由于在许多应用场景中并不需要音频和视觉编码器，您还可以通过 "按需部署模态" 来进一步优化内存占用。例如，不含逐层嵌入 (Per-Layer Embeddings) 的纯文本版 Gemma 4 E2B 模型所需的内存不到 1GB。

立即开始体验

为了让这些模型能够轻松融入您首选的工作流，我们已与整个生态系统中的主流开发者工具达成合作，即日起无缝支持 Gemma 4 QAT 检查点:

下载模型权重: 您现在就可以直接在 Hugging Face 上获取 Q4_0 和移动端模型权重。我们已针对您的工作流定制了相应的格式: GGUF 格式已准备就绪，可直接用于 llama.cpp，并为 vLLM 提供了压缩张量。对于其他需求，我们分享了未量化的检查点，您可以将其转换并量化为支持 Q4_0 的格式。
集成与学习: 欢迎查阅我们的官方文档，了解如何以最佳方式部署这些 QAT 检查点。
在您的桌面端尝试: 借助 llama.cpp、Ollama 和 LM Studio 等用户友好型界面，即可轻松地在您的桌面端本地下载、管理和运行 Gemma 4 QAT 模型。
在设备端部署: 使用 Google 轻量级的 LiteRT-LM 运行时进行优化的端侧部署，或者利用 Transformers.js 直接在浏览器 Web 端运行模型。
使用您喜爱的开发工具:

使用 SGLang 和 vLLM 高效托管更大规模的模型。
使用 MLX 针对 Apple 芯片 (Apple Silicon) 进行优化。
使用 MTP QAT 检查点，在对模型进行量化的同时，依然保留 MTP 带来的加速效果。
使用 Hugging Face Transformers 和 Unsloth 直接微调权重。

Q4_0
https://huggingface.co/collections/google/gemma-4-qat-q4-0
移动端
https://huggingface.co/collections/google/gemma-4-qat-mobile
官方文档
https://ai.google.dev/gemma/docs/core#qat
llama.cpp
https://huggingface.co/collections/google/gemma-4-qat-q4-0
Ollama
https://ollama.com/library/gemma4
LM Studio
https://lmstudio.ai/models/gemma-4
LiteRT-LM
https://huggingface.co/collections/litert-community/gemma-family
Transformers.js
https://huggingface.co/collections/onnx-community/gemma-4-onnx
SGLang
https://docs.sglang.io/cookbook/autoregressive/Google/Gemma4
vLLM
https://huggingface.co/collections/google/gemma-4-qat-q4-0
MLX
https://huggingface.co/collections/mlx-community/gemma-4-qat
MTP
https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
Unsloth
https://unsloth.ai/docs/models/gemma-4/qat