2026年6月18日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

Gemma 4 QAT 模型现已推出: 支持日常端侧设备与消费级 GPU 本地流畅运行

发布日期:2026-06-18 17:56:10 浏览次数: 1510
作者:谷歌开发者

微信搜一搜,关注“谷歌开发者”

推荐语

Gemma 4 QAT模型大幅优化,让大语言模型能流畅运行在你的手机和消费级显卡上,体验本地AI的便捷与高效。

核心内容:
1. QAT技术如何减少模型压缩的精度损失
2. Gemma 4 E2B模型内存占用降至1GB的突破
3. 专为移动端设计的定制量化方案与性能优势

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

作者 / Google DeepMind 产品管理总监 Olivier Lacombe 和技术专家 Omar Sanseviero


自两个月前 Gemma 4 发布以来,我们一直在持续努力扩展其能力。首先,我们引入了多 Token 预测 (Multi-Token Prediction, MTP) 来加速推理;并在近期发布了 Gemma 4 12B 模型,成功填补了 E4B 与 26B MoE 模型之间的空白。


  • 多 Token 预测 (Multi-Token Prediction, MTP) 

    https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/


现在,我们正式发布了经过量化感知训练 (QAT) 优化的全新检查点 (checkpoints),从而进一步提升 Gemma 4 的效率,让您能够在日常端侧设备和消费级 GPU 上本地运行模型。


通过在训练过程中模拟量化,QAT 能够最大程度地减少模型压缩时的精度和质量损失。本次发布不仅包含了针对主流 Q4_0 量化格式的 QAT 检查点,还包含一种专为移动端使用场景量身定制的全新量化格式。通过这种移动端格式,我们成功将 Gemma 4 E2B 的内存占用降至仅 1GB。这两项技术相辅相成,在大幅降低内存需求的同时,依然完好地保留了 Gemma 4 的强大能力与卓越品质。



在缩小模型体积的同时

保持模型品质


量化 (Quantization) 是推动模型能够在消费级硬件上运行的关键技术,它不仅能够降低显存和内存占用,还能加快解码速度。然而,标准的训练后量化 (Post-Training Quantization, PTQ) 通常会导致性能退化。QAT 并非在训练后对模型进行量化,而是将量化过程直接融入到训练过程中。尽管 PTQ 在保持模型质量方面已然十分有效,但我们的 QAT 成果相比标准 PTQ 基线展现出了更高的整体质量。


我们已将这一 QAT 方案应用到了广受欢迎的 Q4_0 格式中,以最大化所有模型的性能表现。而针对端侧模型 (E2B 和 E4B),我们则通过一套专为移动端优化的量化方案,重塑了量化技术的处理方式。



节省显存和存储空间


以下是加载各款模型所需的显存 (VRAM)/内存近似需求列表: 



移动端设备的底层优化机制


标准的压缩格式往往很难在移动端处理器上实现高效运行。为了确保 Gemma 4 在移动设备上流畅运行,我们专门为端侧硬件设计了一套定制的移动端量化方案 (Mobile-Quantization Schema): 

  • 静态激活 (Static activations): 通常,模型在运行时需要耗费算力去实时计算如何缩放数据。我们选择在训练阶段预先计算好这些设置,大大减轻了移动端芯片的计算负担并加快响应速度。

  • 逐通道量化 (Channel-wise quantization): 我们构建了压缩数据的结构,使其能够契合移动端加速器的设计。这使手机能够原生执行计算,无需缓慢的折中变通方案。

  • 定向 2-bit 量化 (Targeted 2-bit quantization): 我们对模型中负责生成 Token 的特定部分进行了大幅压缩 (降至 2-bit),同时将最核心的推理层保持在更高的精度。这在不让模型变 "笨" 的同时节省了存储空间。

  • Embedding 与 KV 缓存优化 (Embedding and KV cache optimization): 我们对模型的词汇表和短期记忆进行了重点压缩。这大幅降低了活动内存的占用,让您在进行长对话时无需担心空间不足。


由于在许多应用场景中并不需要音频和视觉编码器,您还可以通过 "按需部署模态" 来进一步优化内存占用。例如,不含逐层嵌入 (Per-Layer Embeddings) 的纯文本版 Gemma 4 E2B 模型所需的内存不到 1GB。



立即开始体验


为了让这些模型能够轻松融入您首选的工作流,我们已与整个生态系统中的主流开发者工具达成合作,即日起无缝支持 Gemma 4 QAT 检查点: 

  • 下载模型权重: 您现在就可以直接在 Hugging Face 上获取 Q4_0 和移动端模型权重。我们已针对您的工作流定制了相应的格式: GGUF 格式已准备就绪,可直接用于 llama.cpp,并为 vLLM 提供了压缩张量。对于其他需求,我们分享了未量化的检查点,您可以将其转换并量化为支持 Q4_0 的格式。

  • 集成与学习: 欢迎查阅我们的官方文档,了解如何以最佳方式部署这些 QAT 检查点。

  • 在您的桌面端尝试: 借助 llama.cppOllama 和 LM Studio 等用户友好型界面,即可轻松地在您的桌面端本地下载、管理和运行 Gemma 4 QAT 模型。

  • 在设备端部署: 使用 Google 轻量级的 LiteRT-LM 运行时进行优化的端侧部署,或者利用 Transformers.js 直接在浏览器 Web 端运行模型。

  • 使用您喜爱的开发工具: 

  1. 使用 SGLang 和 vLLM 高效托管更大规模的模型。

  2. 使用 MLX 针对 Apple 芯片 (Apple Silicon) 进行优化。

  3. 使用 MTP QAT 检查点,在对模型进行量化的同时,依然保留 MTP 带来的加速效果。

  4. 使用 Hugging Face Transformers 和 Unsloth 直接微调权重。


  • Q4_0

    https://huggingface.co/collections/google/gemma-4-qat-q4-0

  • 移动端

    https://huggingface.co/collections/google/gemma-4-qat-mobile

  • 官方文档

    https://ai.google.dev/gemma/docs/core#qat

  • llama.cpp

    https://huggingface.co/collections/google/gemma-4-qat-q4-0

  • Ollama

    https://ollama.com/library/gemma4

  • LM Studio

    https://lmstudio.ai/models/gemma-4

  • LiteRT-LM

    https://huggingface.co/collections/litert-community/gemma-family

  • Transformers.js

    https://huggingface.co/collections/onnx-community/gemma-4-onnx

  • SGLang

    https://docs.sglang.io/cookbook/autoregressive/Google/Gemma4

  • vLLM

    https://huggingface.co/collections/google/gemma-4-qat-q4-0

  • MLX

    https://huggingface.co/collections/mlx-community/gemma-4-qat

  • MTP

    https://blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/

  • Unsloth

    https://unsloth.ai/docs/models/gemma-4/qat


我们由衷期待看到您使用本地运行的 Gemma 4 构建精彩!也欢迎您持续关注 "谷歌开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态。





53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询