我要投稿

Google DeepMind正式推出Gemma 3：开源LLM的新标杆！

发布日期：2025-03-22 03:36:29 浏览次数： 2528

作者：三黄工作室

微信搜一搜，关注“三黄工作室”

今天和大家讲一下Google DeepMind刚刚发布的Gemma 3，这是他们开源语言模型系列的最新迭代版本。这次升级带来了许多显著的改进，包括多模态能力、更长的上下文长度以及增强的多语言性能。Gemma 3的模型规模从10亿到270亿参数不等，专为在消费级硬件上高效部署而设计，同时还能提供行业领先的表现。更重要的是，它在LMArena排行榜的人类偏好评估中，超越了Llama3-405B、DeepSeek-V3和o3-mini等知名模型。

话不多说，我们一起来看看Gemma 3到底有哪些亮点吧！

Gemma 3的关键特性 ?

1. 多模态能力：视觉理解来了！

我们都知道现在AI模型的能力越来越“全能”了，而Gemma 3最大的升级之一就是加入了视觉理解功能。与之前的版本不同，Gemma 3可以通过一个自定义的SigLIP视觉编码器来处理图像。这个编码器会将图像转换成固定大小的向量表示，然后语言模型将其作为“软标记”进行解释。

效率提升：不是逐像素处理，而是将视觉嵌入压缩成256个向量，大大提高了效率。
灵活分辨率支持：借鉴了LLaVA的Pan & Scan (P&S)方法，能够高效处理高分辨率图像和非方形比例的图片。
应用场景：非常适合用于图像描述生成、文档理解以及视觉问答任务。

当然，如果你经常用LLM做纯文本任务的话，这里视觉部分可能暂时用不上了，就暂不介绍了。

2. 超长上下文：支持高达128K Tokens

Gemma 3在上下文长度方面也有了质的飞跃，最高支持128,000个tokens（1B模型除外，支持32K tokens）。要知道，处理这么长的上下文可不是件容易的事，需要一系列架构上的优化：

混合注意力机制：采用了5:1的局部到全局注意力层比例，既减少了内存使用，又保持了性能。
内存优化：调整了KV缓存内存，避免了长上下文模型常见的内存爆炸问题。
RoPE扩展：将RoPE（旋转位置嵌入）的基础频率从10K提升到1M，用于全局注意力层。

这些优化让Gemma 3在处理超长文档时更加得心应手。

3. 架构与效率改进

为了进一步提升性能，Gemma 3引入了一系列新特性：

分组查询注意力（Grouped-Query Attention, GQA）：不仅加快了推理速度，还减少了内存占用。
QK-Norm增强稳定性：用QK-Norm替换了传统的软帽机制，训练过程更加稳定。
量化感知训练（Quantization Aware Training, QAT）：提供了int4、int8和float8量化版本，大幅优化了内存使用。

如果你对写代码或模型优化感兴趣的话，这些技术细节绝对值得深入研究！

4. 增强的多语言支持

Gemma 3在多语言处理方面也有了显著提升，这得益于重新调整的训练数据组合和采用的Gemini 2.0分词器：

词汇表扩展：支持262K个标记条目，更好地处理非英语语言。
平衡的数据策略：通过改进的语言分布技术，避免过度拟合英语。
更好支持非英语脚本：对需要字节级编码的语言（如中文、日文等）表现更佳。

对于那些希望在全球化场景中应用LLM的人来说，Gemma 3无疑是一个强有力的选择。

5. 指令微调模型（IT）：SOTA性能

Gemma 3的指令微调（IT）模型经过了一个高级后训练流水线，结合了知识蒸馏、强化学习（RLHF）和数据集过滤等技术。

新的后训练方法：采用了BOND、WARM和WARP等技术进行指令微调。
数学与推理能力增强：在数学、写代码和推理基准测试中表现出色。
减少幻觉问题：通过上下文归因技术，有效降低了事实性错误。

性能基准 ?

Gemma 3在多个AI基准测试中都取得了令人印象深刻的成绩：

基准测试	Gemma 3 27B	Gemma 2 27B	提升幅度
MMLU-Pro	67.5%	56.9%	✅ +10.6%
LiveCodeBench	29.7%	20.4%	✅ +9.3%
Bird-SQL (dev)	54.4%	46.7%	✅ +7.7%
FACTS Grounding	74.9%	62.4%	✅ +12.5%