ollama v0.31.1发布：Apple Silicon上Gemma 4提速近90%，默认开启无感升级

发布日期：2026-07-02 07:17:43 浏览次数： 1534

作者：福大大架构师每日一题

微信搜一搜，关注“福大大架构师每日一题”

前言

ollama v0.31.1 已正式发布，发布时间为 2026 年 7 月 1 日。虽然这次版本更新从表面上看并不是一次“大而全”的功能堆叠式升级，但从实际价值来看，它非常有分量，尤其是对使用 Apple Silicon 设备运行 Gemma 4 的用户来说，这次更新意义非常直接：更快、更稳、更省心。

这次版本更新的核心关键词非常清晰，那就是：Faster Gemma 4 on Apple Silicon。根据发布内容，Gemma 4 现在在 Ollama 的 Apple Silicon 环境中获得了显著加速，依靠 multi-token prediction，也就是 MTP，多 token 预测机制，在一个 coding-agent benchmark 上，平均 token 生成速度提升接近 90%。这个提升幅度非常醒目，因为它不是轻微优化，也不是个别场景下的偶然加速，而是一次足以让用户明显感知到体验变化的版本更新。

更重要的是，这次性能提升并不要求用户额外学习新的使用方式。Ollama 会在运行过程中自动调整要 draft 的 token 数量，也就是说，整个加速过程是自动完成的，默认开启、无需配置，并且不会改变模型输出。对于很多用户来说，这样的优化才是真正高价值的优化：不用折腾，不用改参数，不用适配流程，更新后就能直接享受到收益。

下面我们就围绕这次 v0.31.1 的发布内容，做一次详细解读。

一、版本信息概览

本次更新版本为：

• v0.31.1 Latest
• 发布时间：2026 年 7 月 1 日

从公开信息来看，v0.31.1 的重点主要集中在以下几个方面：

• Gemma 4 在 Apple Silicon 上显著提速
• 通过 multi-token prediction 提升生成性能
• Ollama 自动调节 draft token 数量
• 该加速默认启用，无需配置
• 该优化不会改变模型输出
• 收紧 Gemma 4 MoE 模型在 MLX 引擎中的加载
• MLX 引擎升级到最新版本
• 新版本 MLX 引擎包含新的 small-batch matmul kernel
• 底层 llama.cpp 引擎更新到 build 9840
• 改进 Gemma 4 的 MTP 性能

可以看到，这次更新并不是单点优化，而是围绕 Gemma 4 在 Apple Silicon 上的运行体验，进行了多层面的联合改进：既有推理速度层面的提升，也有底层引擎层面的更新，还有模型加载环节的收紧优化。这些变化组合在一起，构成了 v0.31.1 的核心价值。

二、最值得关注的升级：Apple Silicon 上的 Gemma 4 更快了

如果只用一句话概括这次更新，那就是：

Gemma 4 在 Ollama 的 Apple Silicon 环境中，生成 token 的速度平均提升接近 90%。

这是此次更新最亮眼的部分。

在实际使用本地大模型时，用户最敏感的体验之一就是“输出快不快”。不管是代码生成、问答、总结、翻译，还是长文本推理，只要 token 生成速度提升，用户等待时间就会缩短，交互流畅度就会明显变好。而这次 Ollama v0.31.1 的提升并不是几个百分点，而是“nearly 90% faster on average”，也就是平均接近 90% 的提升，这个数字足以说明此次优化的力度相当大。

这里还有两个关键限定条件不能忽略：

• 提升对象是 Gemma 4
• 运行环境是 Apple Silicon

也就是说，这次更新的重点受益群体，就是在 Apple 芯片设备上使用 Ollama 运行 Gemma 4 的用户。对于这部分用户而言，v0.31.1 的更新价值非常明确，不仅是功能层面的“支持”，而是实际性能层面的“显著变快”。

三、为什么会更快：核心来自 MTP

这次速度提升的关键技术点，是 multi-token prediction，也就是 MTP，多 token 预测。

从发布内容来看，Ollama 正是通过这一机制，让 Gemma 4 在 Apple Silicon 上获得了显著性能改善。这里最值得注意的是，官方并不是简单说“做了优化”，而是明确指出是借助 MTP，实现了在 coding-agent benchmark 上平均接近 90% 的 token 生成提速。

这意味着什么？

意味着这次性能提升不是一个笼统的“代码优化”概念，而是有明确技术路径的：通过多 token 预测来提高生成效率。

更关键的是，这种优化并不是要求用户手动调整运行方式。Ollama 的处理方式是：

• 在运行过程中自动调整要 draft 的 token 数量
• 这一过程自动完成
• 用户不需要自己设置参数
• 用户不需要理解复杂配置
• 性能收益默认可用

这背后的产品思路非常清楚：把复杂性留在系统内部，把速度提升直接交给用户。

对技术用户来说，这种设计非常友好。因为很多优化方案虽然理论上很好，但如果需要用户自己反复调试参数、分析场景、做兼容测试，那么它的实际落地价值就会被打折。而 Ollama 在 v0.31.1 中给出的方式是自动调优，这意味着用户升级版本之后，基本可以直接获得收益，而不需要增加新的使用负担。

四、自动调优是这次升级的一大亮点

在这次更新说明中，有一句非常重要的话：

Ollama auto-tunes how many tokens to draft as it runs

这句话的信息量很大。

它说明 Ollama 并不是固定使用某个静态的 draft token 数，而是在运行时自动调整。这种“边运行边调优”的方式，意味着系统会根据实际过程选择更合适的 token draft 数量，以达到更好的速度表现。

从用户视角看，这种能力带来的好处主要体现在三个层面：

第一，无需手动配置

很多性能优化最怕的就是“需要配置”。一旦涉及额外参数，用户就得花时间理解每个设置项的意义，甚至还要为不同模型、不同任务、不同设备分别测试。而这次更新的一个直接好处就是：不需要配置。

第二，默认即可享受加速

发布内容中已经明确说明，这项提速是 on by default。也就是说，用户不必主动开启，也不需要担心“是不是还没启用优化”。只要更新到对应版本，这项能力就是可用状态。

第三，不改变模型输出

这是很多用户非常关心的一点。性能提升如果以输出质量变化为代价，很多生产场景并不愿意接受。而 v0.31.1 给出的明确信息是：does not change the model's output。也就是说，这次速度提升并不会改变模型输出结果。

这点很关键，因为它意味着此次优化的价值，不只是“跑得更快”，而是“在不改变输出的前提下跑得更快”。这对于追求结果一致性的场景来说，意义尤其大。

五、接近90%的提升意味着什么

发布内容中提到，Gemma 4 在 Apple Silicon 上，借助 MTP，在一个 coding-agent benchmark 上，平均 token 生成速度提升接近 90%。

这里虽然只给出了一个概括性的结果，但这个结果本身已经非常有代表性。因为 token 生成速度直接影响用户使用大模型时的主观流畅度。在很多交互式任务中，生成速度越快，使用体验就越接近“实时反馈”。

接近 90% 的平均提升，可以从以下角度理解其意义：

• 同样的任务，等待输出的时间会缩短
• 连续交互的节奏会更顺畅
• 代码相关场景中的反馈速度更高
• 本地模型运行时的“卡顿感”会明显下降
• 用户对 Apple Silicon 本地部署的信心会更强

需要注意的是，发布内容描述的是 across a coding-agent benchmark，也就是在一个 coding-agent benchmark 上取得的平均结果。这里最重要的是不要误读：官方给出的是基于该 benchmark 的平均表现。它清楚说明了提速的衡量场景，也使这个数字更具可参考性。

六、默认开启且不改变输出，这一点为什么很重要

在本地模型领域，很多用户升级新版本时会担心两个问题：

• 优化之后会不会引入新的配置复杂度
• 加速之后会不会影响模型输出一致性

而 Ollama v0.31.1 对这两个问题都给出了非常直接的回答：

• 默认开启
• 无需配置
• 不改变模型输出

这三点放在一起，其实就是这次更新最具传播力的卖点。

默认开启，意味着用户几乎没有迁移成本。
无需配置，意味着用户不需要额外学习和试错。
不改变输出，意味着用户可以放心接受这次性能提升。

从产品体验角度来看，这种升级模式很理想。因为真正好的优化，不应该让用户在“性能”和“稳定使用方式”之间二选一。v0.31.1 的亮点就在于，它把这两者结合在一起了。

七、What’s Changed 全量解读：这次更新到底改了什么

除了最吸引眼球的 Apple Silicon 上 Gemma 4 加速之外，本次版本更新还列出了几个重要变更项。下面逐条来看。

1. Tightened Gemma 4 MoE model loading in the MLX engine

也就是：

在 MLX 引擎中收紧了 Gemma 4 MoE 模型加载。

这是一条很值得注意的更新。虽然发布内容没有展开更多说明，但它明确指出了调整对象和调整方向：

• 对象是 Gemma 4 MoE model loading
• 环境是 MLX engine
• 调整方向是 tightened

从版本说明来看，这代表 Ollama 对 Gemma 4 MoE 模型在 MLX 引擎中的加载过程进行了更收紧的处理。对于版本稳定性和运行行为而言，这通常是一项非常关键的底层改动，因为模型加载是推理流程开始前的重要环节。此次更新没有把重点只放在“生成更快”上，也同时覆盖到了“加载环节更紧致”的部分，这说明 v0.31.1 是围绕 Gemma 4 整体运行体验在做优化，而不是单纯做某一个点的速度提升。

2. Updated the MLX engine to the latest version, including a new small-batch matmul kernel

也就是：

将 MLX 引擎更新到最新版本，其中包括新的 small-batch matmul kernel。

这一条同样非常重要。因为它说明这次更新并不只是对 Ollama 自身逻辑进行调整，也包含了对底层依赖引擎的同步升级。

这里包含两层信息：

• MLX 引擎已更新到最新版本
• 最新版本中包含新的 small-batch matmul kernel

为什么这条信息值得重视？因为它是底层性能基础的一部分。发布内容虽然没有继续展开这个 kernel 的具体细节，但可以明确看出，v0.31.1 的性能提升并不是孤立存在的。它背后有底层引擎升级作为支撑。

也就是说，这次版本更新并不是“只在表面上做提速描述”，而是在引擎层面同步引入了新的能力。尤其是 small-batch matmul kernel 这样的更新，进一步说明这次版本不仅有上层行为优化，也有底层计算路径上的改进支撑。

3. Updated the underlying llama.cpp engine to build 9840

也就是：

底层 llama.cpp 引擎更新到 build 9840。

这条变更说明，Ollama v0.31.1 还同步更新了底层的 llama.cpp 引擎构建版本。对于很多关注本地推理生态的开发者来说，底层引擎版本的变化通常都非常值得关注，因为它会影响到整体运行基础。

从本次更新内容看，官方没有展开 build 9840 的具体细项，因此我们只需要准确把握一件事：

v0.31.1 的底层 llama.cpp 引擎已经更新到了 build 9840。

这意味着此次版本发布不只是局部修补，而是涉及到底层推理引擎的持续同步。这一点和 MLX 引擎更新结合起来看，更能体现出这次版本更新的完整性：上层有 Gemma 4 的 MTP 提升，下层有 MLX 和 llama.cpp 的同步升级。

4. Improved Gemma 4 multi-token prediction performance

也就是：

改进了 Gemma 4 的多 token 预测性能。

这条更新可以看作是和此次版本主题最直接对应的变更项之一。前面提到的 Apple Silicon 上 Gemma 4 显著提速，核心就来自 MTP；而在 What’s Changed 中，官方又单独列出了对 Gemma 4 MTP performance 的改进，这进一步强化了这次更新的主线非常明确：

围绕 Gemma 4 的多 token 预测能力做性能增强。

这说明此次发布不是偶然获得速度提升，而是在 MTP 层面进行了明确、定向的优化。对用户来说，可以直接把这条理解为：这次版本让 Gemma 4 的多 token 预测机制表现更好了，而这正是 Apple Silicon 上提速的重要来源。

八、把所有更新串起来看，v0.31.1的技术逻辑非常清晰

如果把本次更新拆开来看，每一条都很重要；但如果把它们串起来看，就会发现 v0.31.1 的优化路径其实非常统一。

它的整体逻辑大致可以归纳为：

• 围绕 Gemma 4 做重点优化
• 重点提升 Apple Silicon 上的实际生成性能
• 核心采用 MTP，也就是多 token 预测
• 通过自动调节 draft token 数量获得更优运行效果
• 该优化默认启用，用户无需配置
• 在不改变模型输出的前提下实现加速
• 同时收紧 Gemma 4 MoE 在 MLX 引擎中的加载
• 再通过更新 MLX 引擎和 llama.cpp 底层引擎，为整体优化提供支撑

这样的版本更新有一个明显特点：目标集中、收益明确、落地成本极低。

对用户来说，这种更新是非常受欢迎的。因为它不要求用户改变习惯，不要求用户新增操作，只是在原有使用方式上，直接提供更快的体验。

九、为什么说这次更新很适合做“立即升级”

从发布内容看，v0.31.1 很适合被归类为“值得尽快升级”的版本，原因也很简单：

第一，收益明确。
Gemma 4 在 Apple Silicon 上显著提速，这是可以直接感知的收益。

第二，使用成本低。
默认开启，无需配置，不需要额外适配使用方法。

第三，输出不变。
不会改变模型输出，这对稳定使用尤为重要。

第四，底层同步升级。
MLX 引擎更新到最新版本，包含新的 small-batch matmul kernel；底层 llama.cpp 更新到 build 9840；Gemma 4 MoE 模型加载在 MLX 引擎中得到收紧；Gemma 4 的 MTP 性能进一步改进。

这些点叠加起来，让 v0.31.1 不是一个“可升可不升”的小版本，而是一个很有现实价值的小版本更新。特别是对于 Apple Silicon 用户来说，这次更新的价值更加突出。

十、适合重点关注的用户群体

虽然这次更新内容不算特别长，但适合重点关注的用户其实很明确：

• 在 Apple Silicon 上运行 Ollama 的用户
• 使用 Gemma 4 的用户
• 关注本地模型生成速度的用户
• 希望升级后无需重新配置的用户
• 对输出一致性有要求的用户
• 关注 MLX 与底层引擎更新的技术用户

尤其是前两类用户，可以说是这次版本最直接的受益群体。因为更新说明已经明确指出，Gemma 4 在 Apple Silicon 上的速度提升非常明显，而且提升是默认开启的。

十一、这次更新最值得传播的几个关键信息

如果要把 v0.31.1 的亮点浓缩成几句最适合传播的话，那么可以概括为下面这些重点：

• ollama v0.31.1 于 2026 年 7 月 1 日发布
• Gemma 4 在 Apple Silicon 上显著加速
• 在 coding-agent benchmark 上，token 生成速度平均提升接近 90%
• 提速依靠 multi-token prediction
• Ollama 会在运行时自动调优 draft token 数量
• 加速默认开启
• 无需任何配置
• 不改变模型输出
• 收紧 Gemma 4 MoE 在 MLX 引擎中的模型加载
• MLX 引擎更新到最新版本，并带来新的 small-batch matmul kernel
• 底层 llama.cpp 引擎更新到 build 9840
• Gemma 4 的 MTP 性能进一步提升

这几条信息，几乎就是这次版本更新的完整核心。

十二、总结

代码地址：github.com/ollama/ollama

ollama v0.31.1 虽然是一个小版本号更新，但从实际影响来看，它绝对不是一个可以轻易忽略的版本。

这次更新最核心的突破，在于让 Gemma 4 在 Apple Silicon 上变得更快，而且不是小幅提升，而是在 coding-agent benchmark 上实现了平均接近 90% 的 token 生成提速。更难得的是，这种提速依赖的 MTP 机制由 Ollama 自动调优，整个过程默认开启、无需配置、不会改变模型输出，让性能提升真正变成了一种“开箱即得”的能力。

与此同时，v0.31.1 还完成了多项底层与配套更新：

• 收紧 Gemma 4 MoE 模型在 MLX 引擎中的加载
• 将 MLX 引擎更新到最新版本
• 引入新的 small-batch matmul kernel
• 将底层 llama.cpp 引擎更新到 build 9840
• 改进 Gemma 4 的多 token 预测性能

综合来看，v0.31.1 的更新方向非常聚焦，围绕 Gemma 4、Apple Silicon、MTP、MLX 和底层引擎升级，形成了一套完整且直接有效的优化路径。

我们相信人工智能为普通人提供了一种“增强工具”，并致力于分享全方位的AI知识。在这里，您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。

欢迎关注“福大大架构师每日一题”，发消息可获得面试资料，让AI助力您的未来发展。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业