2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

ollama v0.31.1发布:Apple Silicon上Gemma 4提速近90%,默认开启无感升级

发布日期:2026-07-02 07:17:43 浏览次数: 1534
作者:福大大架构师每日一题

微信搜一搜,关注“福大大架构师每日一题”

推荐语

Ollama v0.31.1重磅更新,为Apple Silicon用户带来近90%的Gemma 4提速,体验升级无感开启。

核心内容:
1. 性能飞跃:Gemma 4在Apple Silicon上通过多token预测机制实现显著加速
2. 无感体验:优化默认开启,无需配置即可享受更快的模型生成速度
3. 底层加固:伴随MLX等引擎更新,带来更稳定可靠的运行环境

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

 

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

前言

ollama v0.31.1 已正式发布,发布时间为 2026 年 7 月 1 日。虽然这次版本更新从表面上看并不是一次“大而全”的功能堆叠式升级,但从实际价值来看,它非常有分量,尤其是对使用 Apple Silicon 设备运行 Gemma 4 的用户来说,这次更新意义非常直接:更快、更稳、更省心。

这次版本更新的核心关键词非常清晰,那就是:Faster Gemma 4 on Apple Silicon。根据发布内容,Gemma 4 现在在 Ollama 的 Apple Silicon 环境中获得了显著加速,依靠 multi-token prediction,也就是 MTP,多 token 预测机制,在一个 coding-agent benchmark 上,平均 token 生成速度提升接近 90%。这个提升幅度非常醒目,因为它不是轻微优化,也不是个别场景下的偶然加速,而是一次足以让用户明显感知到体验变化的版本更新。

更重要的是,这次性能提升并不要求用户额外学习新的使用方式。Ollama 会在运行过程中自动调整要 draft 的 token 数量,也就是说,整个加速过程是自动完成的,默认开启、无需配置,并且不会改变模型输出。对于很多用户来说,这样的优化才是真正高价值的优化:不用折腾,不用改参数,不用适配流程,更新后就能直接享受到收益。

下面我们就围绕这次 v0.31.1 的发布内容,做一次详细解读。


一、版本信息概览

本次更新版本为:

  • • v0.31.1 Latest
  • • 发布时间:2026 年 7 月 1 日

从公开信息来看,v0.31.1 的重点主要集中在以下几个方面:

  • • Gemma 4 在 Apple Silicon 上显著提速
  • • 通过 multi-token prediction 提升生成性能
  • • Ollama 自动调节 draft token 数量
  • • 该加速默认启用,无需配置
  • • 该优化不会改变模型输出
  • • 收紧 Gemma 4 MoE 模型在 MLX 引擎中的加载
  • • MLX 引擎升级到最新版本
  • • 新版本 MLX 引擎包含新的 small-batch matmul kernel
  • • 底层 llama.cpp 引擎更新到 build 9840
  • • 改进 Gemma 4 的 MTP 性能

可以看到,这次更新并不是单点优化,而是围绕 Gemma 4 在 Apple Silicon 上的运行体验,进行了多层面的联合改进:既有推理速度层面的提升,也有底层引擎层面的更新,还有模型加载环节的收紧优化。这些变化组合在一起,构成了 v0.31.1 的核心价值。


二、最值得关注的升级:Apple Silicon 上的 Gemma 4 更快了

如果只用一句话概括这次更新,那就是:

Gemma 4 在 Ollama 的 Apple Silicon 环境中,生成 token 的速度平均提升接近 90%。

这是此次更新最亮眼的部分。

在实际使用本地大模型时,用户最敏感的体验之一就是“输出快不快”。不管是代码生成、问答、总结、翻译,还是长文本推理,只要 token 生成速度提升,用户等待时间就会缩短,交互流畅度就会明显变好。而这次 Ollama v0.31.1 的提升并不是几个百分点,而是“nearly 90% faster on average”,也就是平均接近 90% 的提升,这个数字足以说明此次优化的力度相当大。

这里还有两个关键限定条件不能忽略:

  • • 提升对象是 Gemma 4
  • • 运行环境是 Apple Silicon

也就是说,这次更新的重点受益群体,就是在 Apple 芯片设备上使用 Ollama 运行 Gemma 4 的用户。对于这部分用户而言,v0.31.1 的更新价值非常明确,不仅是功能层面的“支持”,而是实际性能层面的“显著变快”。


三、为什么会更快:核心来自 MTP

这次速度提升的关键技术点,是 multi-token prediction,也就是 MTP,多 token 预测

从发布内容来看,Ollama 正是通过这一机制,让 Gemma 4 在 Apple Silicon 上获得了显著性能改善。这里最值得注意的是,官方并不是简单说“做了优化”,而是明确指出是借助 MTP,实现了在 coding-agent benchmark 上平均接近 90% 的 token 生成提速。

这意味着什么?

意味着这次性能提升不是一个笼统的“代码优化”概念,而是有明确技术路径的:通过多 token 预测来提高生成效率。

更关键的是,这种优化并不是要求用户手动调整运行方式。Ollama 的处理方式是:

  • • 在运行过程中自动调整要 draft 的 token 数量
  • • 这一过程自动完成
  • • 用户不需要自己设置参数
  • • 用户不需要理解复杂配置
  • • 性能收益默认可用

这背后的产品思路非常清楚:把复杂性留在系统内部,把速度提升直接交给用户。

对技术用户来说,这种设计非常友好。因为很多优化方案虽然理论上很好,但如果需要用户自己反复调试参数、分析场景、做兼容测试,那么它的实际落地价值就会被打折。而 Ollama 在 v0.31.1 中给出的方式是自动调优,这意味着用户升级版本之后,基本可以直接获得收益,而不需要增加新的使用负担。


四、自动调优是这次升级的一大亮点

在这次更新说明中,有一句非常重要的话:

Ollama auto-tunes how many tokens to draft as it runs

这句话的信息量很大。

它说明 Ollama 并不是固定使用某个静态的 draft token 数,而是在运行时自动调整。这种“边运行边调优”的方式,意味着系统会根据实际过程选择更合适的 token draft 数量,以达到更好的速度表现。

从用户视角看,这种能力带来的好处主要体现在三个层面:

第一,无需手动配置

很多性能优化最怕的就是“需要配置”。一旦涉及额外参数,用户就得花时间理解每个设置项的意义,甚至还要为不同模型、不同任务、不同设备分别测试。而这次更新的一个直接好处就是:不需要配置

第二,默认即可享受加速

发布内容中已经明确说明,这项提速是 on by default。也就是说,用户不必主动开启,也不需要担心“是不是还没启用优化”。只要更新到对应版本,这项能力就是可用状态。

第三,不改变模型输出

这是很多用户非常关心的一点。性能提升如果以输出质量变化为代价,很多生产场景并不愿意接受。而 v0.31.1 给出的明确信息是:does not change the model's output。也就是说,这次速度提升并不会改变模型输出结果。

这点很关键,因为它意味着此次优化的价值,不只是“跑得更快”,而是“在不改变输出的前提下跑得更快”。这对于追求结果一致性的场景来说,意义尤其大。


五、接近90%的提升意味着什么

发布内容中提到,Gemma 4 在 Apple Silicon 上,借助 MTP,在一个 coding-agent benchmark 上,平均 token 生成速度提升接近 90%。

这里虽然只给出了一个概括性的结果,但这个结果本身已经非常有代表性。因为 token 生成速度直接影响用户使用大模型时的主观流畅度。在很多交互式任务中,生成速度越快,使用体验就越接近“实时反馈”。

接近 90% 的平均提升,可以从以下角度理解其意义:

  • • 同样的任务,等待输出的时间会缩短
  • • 连续交互的节奏会更顺畅
  • • 代码相关场景中的反馈速度更高
  • • 本地模型运行时的“卡顿感”会明显下降
  • • 用户对 Apple Silicon 本地部署的信心会更强

需要注意的是,发布内容描述的是 across a coding-agent benchmark,也就是在一个 coding-agent benchmark 上取得的平均结果。这里最重要的是不要误读:官方给出的是基于该 benchmark 的平均表现。它清楚说明了提速的衡量场景,也使这个数字更具可参考性。


六、默认开启且不改变输出,这一点为什么很重要

在本地模型领域,很多用户升级新版本时会担心两个问题:

  • • 优化之后会不会引入新的配置复杂度
  • • 加速之后会不会影响模型输出一致性

而 Ollama v0.31.1 对这两个问题都给出了非常直接的回答:

  • • 默认开启
  • • 无需配置
  • • 不改变模型输出

这三点放在一起,其实就是这次更新最具传播力的卖点。

默认开启,意味着用户几乎没有迁移成本。
无需配置,意味着用户不需要额外学习和试错。
不改变输出,意味着用户可以放心接受这次性能提升。

从产品体验角度来看,这种升级模式很理想。因为真正好的优化,不应该让用户在“性能”和“稳定使用方式”之间二选一。v0.31.1 的亮点就在于,它把这两者结合在一起了。


七、What’s Changed 全量解读:这次更新到底改了什么

除了最吸引眼球的 Apple Silicon 上 Gemma 4 加速之外,本次版本更新还列出了几个重要变更项。下面逐条来看。


1. Tightened Gemma 4 MoE model loading in the MLX engine

也就是:

在 MLX 引擎中收紧了 Gemma 4 MoE 模型加载。

这是一条很值得注意的更新。虽然发布内容没有展开更多说明,但它明确指出了调整对象和调整方向:

  • • 对象是 Gemma 4 MoE model loading
  • • 环境是 MLX engine
  • • 调整方向是 tightened

从版本说明来看,这代表 Ollama 对 Gemma 4 MoE 模型在 MLX 引擎中的加载过程进行了更收紧的处理。对于版本稳定性和运行行为而言,这通常是一项非常关键的底层改动,因为模型加载是推理流程开始前的重要环节。此次更新没有把重点只放在“生成更快”上,也同时覆盖到了“加载环节更紧致”的部分,这说明 v0.31.1 是围绕 Gemma 4 整体运行体验在做优化,而不是单纯做某一个点的速度提升。


2. Updated the MLX engine to the latest version, including a new small-batch matmul kernel

也就是:

将 MLX 引擎更新到最新版本,其中包括新的 small-batch matmul kernel。

这一条同样非常重要。因为它说明这次更新并不只是对 Ollama 自身逻辑进行调整,也包含了对底层依赖引擎的同步升级。

这里包含两层信息:

  • • MLX 引擎已更新到最新版本
  • • 最新版本中包含新的 small-batch matmul kernel

为什么这条信息值得重视?因为它是底层性能基础的一部分。发布内容虽然没有继续展开这个 kernel 的具体细节,但可以明确看出,v0.31.1 的性能提升并不是孤立存在的。它背后有底层引擎升级作为支撑。

也就是说,这次版本更新并不是“只在表面上做提速描述”,而是在引擎层面同步引入了新的能力。尤其是 small-batch matmul kernel 这样的更新,进一步说明这次版本不仅有上层行为优化,也有底层计算路径上的改进支撑。


3. Updated the underlying llama.cpp engine to build 9840

也就是:

底层 llama.cpp 引擎更新到 build 9840。

这条变更说明,Ollama v0.31.1 还同步更新了底层的 llama.cpp 引擎构建版本。对于很多关注本地推理生态的开发者来说,底层引擎版本的变化通常都非常值得关注,因为它会影响到整体运行基础。

从本次更新内容看,官方没有展开 build 9840 的具体细项,因此我们只需要准确把握一件事:

v0.31.1 的底层 llama.cpp 引擎已经更新到了 build 9840。

这意味着此次版本发布不只是局部修补,而是涉及到底层推理引擎的持续同步。这一点和 MLX 引擎更新结合起来看,更能体现出这次版本更新的完整性:上层有 Gemma 4 的 MTP 提升,下层有 MLX 和 llama.cpp 的同步升级。


4. Improved Gemma 4 multi-token prediction performance

也就是:

改进了 Gemma 4 的多 token 预测性能。

这条更新可以看作是和此次版本主题最直接对应的变更项之一。前面提到的 Apple Silicon 上 Gemma 4 显著提速,核心就来自 MTP;而在 What’s Changed 中,官方又单独列出了对 Gemma 4 MTP performance 的改进,这进一步强化了这次更新的主线非常明确:

围绕 Gemma 4 的多 token 预测能力做性能增强。

这说明此次发布不是偶然获得速度提升,而是在 MTP 层面进行了明确、定向的优化。对用户来说,可以直接把这条理解为:这次版本让 Gemma 4 的多 token 预测机制表现更好了,而这正是 Apple Silicon 上提速的重要来源。


八、把所有更新串起来看,v0.31.1的技术逻辑非常清晰

如果把本次更新拆开来看,每一条都很重要;但如果把它们串起来看,就会发现 v0.31.1 的优化路径其实非常统一。

它的整体逻辑大致可以归纳为:

  • • 围绕 Gemma 4 做重点优化
  • • 重点提升 Apple Silicon 上的实际生成性能
  • • 核心采用 MTP,也就是多 token 预测
  • • 通过自动调节 draft token 数量获得更优运行效果
  • • 该优化默认启用,用户无需配置
  • • 在不改变模型输出的前提下实现加速
  • • 同时收紧 Gemma 4 MoE 在 MLX 引擎中的加载
  • • 再通过更新 MLX 引擎和 llama.cpp 底层引擎,为整体优化提供支撑

这样的版本更新有一个明显特点:目标集中、收益明确、落地成本极低。

对用户来说,这种更新是非常受欢迎的。因为它不要求用户改变习惯,不要求用户新增操作,只是在原有使用方式上,直接提供更快的体验。


九、为什么说这次更新很适合做“立即升级”

从发布内容看,v0.31.1 很适合被归类为“值得尽快升级”的版本,原因也很简单:

第一,收益明确。
Gemma 4 在 Apple Silicon 上显著提速,这是可以直接感知的收益。

第二,使用成本低。
默认开启,无需配置,不需要额外适配使用方法。

第三,输出不变。
不会改变模型输出,这对稳定使用尤为重要。

第四,底层同步升级。
MLX 引擎更新到最新版本,包含新的 small-batch matmul kernel;底层 llama.cpp 更新到 build 9840;Gemma 4 MoE 模型加载在 MLX 引擎中得到收紧;Gemma 4 的 MTP 性能进一步改进。

这些点叠加起来,让 v0.31.1 不是一个“可升可不升”的小版本,而是一个很有现实价值的小版本更新。特别是对于 Apple Silicon 用户来说,这次更新的价值更加突出。


十、适合重点关注的用户群体

虽然这次更新内容不算特别长,但适合重点关注的用户其实很明确:

  • • 在 Apple Silicon 上运行 Ollama 的用户
  • • 使用 Gemma 4 的用户
  • • 关注本地模型生成速度的用户
  • • 希望升级后无需重新配置的用户
  • • 对输出一致性有要求的用户
  • • 关注 MLX 与底层引擎更新的技术用户

尤其是前两类用户,可以说是这次版本最直接的受益群体。因为更新说明已经明确指出,Gemma 4 在 Apple Silicon 上的速度提升非常明显,而且提升是默认开启的。


十一、这次更新最值得传播的几个关键信息

如果要把 v0.31.1 的亮点浓缩成几句最适合传播的话,那么可以概括为下面这些重点:

  • • ollama v0.31.1 于 2026 年 7 月 1 日发布
  • • Gemma 4 在 Apple Silicon 上显著加速
  • • 在 coding-agent benchmark 上,token 生成速度平均提升接近 90%
  • • 提速依靠 multi-token prediction
  • • Ollama 会在运行时自动调优 draft token 数量
  • • 加速默认开启
  • • 无需任何配置
  • • 不改变模型输出
  • • 收紧 Gemma 4 MoE 在 MLX 引擎中的模型加载
  • • MLX 引擎更新到最新版本,并带来新的 small-batch matmul kernel
  • • 底层 llama.cpp 引擎更新到 build 9840
  • • Gemma 4 的 MTP 性能进一步提升

这几条信息,几乎就是这次版本更新的完整核心。


十二、总结

代码地址:github.com/ollama/ollama

ollama v0.31.1 虽然是一个小版本号更新,但从实际影响来看,它绝对不是一个可以轻易忽略的版本。

这次更新最核心的突破,在于让 Gemma 4 在 Apple Silicon 上变得更快,而且不是小幅提升,而是在 coding-agent benchmark 上实现了平均接近 90% 的 token 生成提速。更难得的是,这种提速依赖的 MTP 机制由 Ollama 自动调优,整个过程默认开启、无需配置、不会改变模型输出,让性能提升真正变成了一种“开箱即得”的能力。

与此同时,v0.31.1 还完成了多项底层与配套更新:

  • • 收紧 Gemma 4 MoE 模型在 MLX 引擎中的加载
  • • 将 MLX 引擎更新到最新版本
  • • 引入新的 small-batch matmul kernel
  • • 将底层 llama.cpp 引擎更新到 build 9840
  • • 改进 Gemma 4 的多 token 预测性能

综合来看,v0.31.1 的更新方向非常聚焦,围绕 Gemma 4、Apple Silicon、MTP、MLX 和底层引擎升级,形成了一套完整且直接有效的优化路径。

 

·

我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。


欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。

·

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅