微信扫码
添加专属顾问
Ollama v0.31.1重磅更新,为Apple Silicon用户带来近90%的Gemma 4提速,体验升级无感开启。核心内容:1. 性能飞跃:Gemma 4在Apple Silicon上通过多token预测机制实现显著加速2. 无感体验:优化默认开启,无需配置即可享受更快的模型生成速度3. 底层加固:伴随MLX等引擎更新,带来更稳定可靠的运行环境
前言
ollama v0.31.1 已正式发布,发布时间为 2026 年 7 月 1 日。虽然这次版本更新从表面上看并不是一次“大而全”的功能堆叠式升级,但从实际价值来看,它非常有分量,尤其是对使用 Apple Silicon 设备运行 Gemma 4 的用户来说,这次更新意义非常直接:更快、更稳、更省心。
这次版本更新的核心关键词非常清晰,那就是:Faster Gemma 4 on Apple Silicon。根据发布内容,Gemma 4 现在在 Ollama 的 Apple Silicon 环境中获得了显著加速,依靠 multi-token prediction,也就是 MTP,多 token 预测机制,在一个 coding-agent benchmark 上,平均 token 生成速度提升接近 90%。这个提升幅度非常醒目,因为它不是轻微优化,也不是个别场景下的偶然加速,而是一次足以让用户明显感知到体验变化的版本更新。
更重要的是,这次性能提升并不要求用户额外学习新的使用方式。Ollama 会在运行过程中自动调整要 draft 的 token 数量,也就是说,整个加速过程是自动完成的,默认开启、无需配置,并且不会改变模型输出。对于很多用户来说,这样的优化才是真正高价值的优化:不用折腾,不用改参数,不用适配流程,更新后就能直接享受到收益。
下面我们就围绕这次 v0.31.1 的发布内容,做一次详细解读。
一、版本信息概览
本次更新版本为:
从公开信息来看,v0.31.1 的重点主要集中在以下几个方面:
可以看到,这次更新并不是单点优化,而是围绕 Gemma 4 在 Apple Silicon 上的运行体验,进行了多层面的联合改进:既有推理速度层面的提升,也有底层引擎层面的更新,还有模型加载环节的收紧优化。这些变化组合在一起,构成了 v0.31.1 的核心价值。
二、最值得关注的升级:Apple Silicon 上的 Gemma 4 更快了
如果只用一句话概括这次更新,那就是:
Gemma 4 在 Ollama 的 Apple Silicon 环境中,生成 token 的速度平均提升接近 90%。
这是此次更新最亮眼的部分。
在实际使用本地大模型时,用户最敏感的体验之一就是“输出快不快”。不管是代码生成、问答、总结、翻译,还是长文本推理,只要 token 生成速度提升,用户等待时间就会缩短,交互流畅度就会明显变好。而这次 Ollama v0.31.1 的提升并不是几个百分点,而是“nearly 90% faster on average”,也就是平均接近 90% 的提升,这个数字足以说明此次优化的力度相当大。
这里还有两个关键限定条件不能忽略:
也就是说,这次更新的重点受益群体,就是在 Apple 芯片设备上使用 Ollama 运行 Gemma 4 的用户。对于这部分用户而言,v0.31.1 的更新价值非常明确,不仅是功能层面的“支持”,而是实际性能层面的“显著变快”。
三、为什么会更快:核心来自 MTP
这次速度提升的关键技术点,是 multi-token prediction,也就是 MTP,多 token 预测。
从发布内容来看,Ollama 正是通过这一机制,让 Gemma 4 在 Apple Silicon 上获得了显著性能改善。这里最值得注意的是,官方并不是简单说“做了优化”,而是明确指出是借助 MTP,实现了在 coding-agent benchmark 上平均接近 90% 的 token 生成提速。
这意味着什么?
意味着这次性能提升不是一个笼统的“代码优化”概念,而是有明确技术路径的:通过多 token 预测来提高生成效率。
更关键的是,这种优化并不是要求用户手动调整运行方式。Ollama 的处理方式是:
这背后的产品思路非常清楚:把复杂性留在系统内部,把速度提升直接交给用户。
对技术用户来说,这种设计非常友好。因为很多优化方案虽然理论上很好,但如果需要用户自己反复调试参数、分析场景、做兼容测试,那么它的实际落地价值就会被打折。而 Ollama 在 v0.31.1 中给出的方式是自动调优,这意味着用户升级版本之后,基本可以直接获得收益,而不需要增加新的使用负担。
四、自动调优是这次升级的一大亮点
在这次更新说明中,有一句非常重要的话:
Ollama auto-tunes how many tokens to draft as it runs
这句话的信息量很大。
它说明 Ollama 并不是固定使用某个静态的 draft token 数,而是在运行时自动调整。这种“边运行边调优”的方式,意味着系统会根据实际过程选择更合适的 token draft 数量,以达到更好的速度表现。
从用户视角看,这种能力带来的好处主要体现在三个层面:
第一,无需手动配置
很多性能优化最怕的就是“需要配置”。一旦涉及额外参数,用户就得花时间理解每个设置项的意义,甚至还要为不同模型、不同任务、不同设备分别测试。而这次更新的一个直接好处就是:不需要配置。
第二,默认即可享受加速
发布内容中已经明确说明,这项提速是 on by default。也就是说,用户不必主动开启,也不需要担心“是不是还没启用优化”。只要更新到对应版本,这项能力就是可用状态。
第三,不改变模型输出
这是很多用户非常关心的一点。性能提升如果以输出质量变化为代价,很多生产场景并不愿意接受。而 v0.31.1 给出的明确信息是:does not change the model's output。也就是说,这次速度提升并不会改变模型输出结果。
这点很关键,因为它意味着此次优化的价值,不只是“跑得更快”,而是“在不改变输出的前提下跑得更快”。这对于追求结果一致性的场景来说,意义尤其大。
五、接近90%的提升意味着什么
发布内容中提到,Gemma 4 在 Apple Silicon 上,借助 MTP,在一个 coding-agent benchmark 上,平均 token 生成速度提升接近 90%。
这里虽然只给出了一个概括性的结果,但这个结果本身已经非常有代表性。因为 token 生成速度直接影响用户使用大模型时的主观流畅度。在很多交互式任务中,生成速度越快,使用体验就越接近“实时反馈”。
接近 90% 的平均提升,可以从以下角度理解其意义:
需要注意的是,发布内容描述的是 across a coding-agent benchmark,也就是在一个 coding-agent benchmark 上取得的平均结果。这里最重要的是不要误读:官方给出的是基于该 benchmark 的平均表现。它清楚说明了提速的衡量场景,也使这个数字更具可参考性。
六、默认开启且不改变输出,这一点为什么很重要
在本地模型领域,很多用户升级新版本时会担心两个问题:
而 Ollama v0.31.1 对这两个问题都给出了非常直接的回答:
这三点放在一起,其实就是这次更新最具传播力的卖点。
默认开启,意味着用户几乎没有迁移成本。
无需配置,意味着用户不需要额外学习和试错。
不改变输出,意味着用户可以放心接受这次性能提升。
从产品体验角度来看,这种升级模式很理想。因为真正好的优化,不应该让用户在“性能”和“稳定使用方式”之间二选一。v0.31.1 的亮点就在于,它把这两者结合在一起了。
七、What’s Changed 全量解读:这次更新到底改了什么
除了最吸引眼球的 Apple Silicon 上 Gemma 4 加速之外,本次版本更新还列出了几个重要变更项。下面逐条来看。
1. Tightened Gemma 4 MoE model loading in the MLX engine
也就是:
在 MLX 引擎中收紧了 Gemma 4 MoE 模型加载。
这是一条很值得注意的更新。虽然发布内容没有展开更多说明,但它明确指出了调整对象和调整方向:
从版本说明来看,这代表 Ollama 对 Gemma 4 MoE 模型在 MLX 引擎中的加载过程进行了更收紧的处理。对于版本稳定性和运行行为而言,这通常是一项非常关键的底层改动,因为模型加载是推理流程开始前的重要环节。此次更新没有把重点只放在“生成更快”上,也同时覆盖到了“加载环节更紧致”的部分,这说明 v0.31.1 是围绕 Gemma 4 整体运行体验在做优化,而不是单纯做某一个点的速度提升。
2. Updated the MLX engine to the latest version, including a new small-batch matmul kernel
也就是:
将 MLX 引擎更新到最新版本,其中包括新的 small-batch matmul kernel。
这一条同样非常重要。因为它说明这次更新并不只是对 Ollama 自身逻辑进行调整,也包含了对底层依赖引擎的同步升级。
这里包含两层信息:
为什么这条信息值得重视?因为它是底层性能基础的一部分。发布内容虽然没有继续展开这个 kernel 的具体细节,但可以明确看出,v0.31.1 的性能提升并不是孤立存在的。它背后有底层引擎升级作为支撑。
也就是说,这次版本更新并不是“只在表面上做提速描述”,而是在引擎层面同步引入了新的能力。尤其是 small-batch matmul kernel 这样的更新,进一步说明这次版本不仅有上层行为优化,也有底层计算路径上的改进支撑。
3. Updated the underlying llama.cpp engine to build 9840
也就是:
底层 llama.cpp 引擎更新到 build 9840。
这条变更说明,Ollama v0.31.1 还同步更新了底层的 llama.cpp 引擎构建版本。对于很多关注本地推理生态的开发者来说,底层引擎版本的变化通常都非常值得关注,因为它会影响到整体运行基础。
从本次更新内容看,官方没有展开 build 9840 的具体细项,因此我们只需要准确把握一件事:
v0.31.1 的底层 llama.cpp 引擎已经更新到了 build 9840。
这意味着此次版本发布不只是局部修补,而是涉及到底层推理引擎的持续同步。这一点和 MLX 引擎更新结合起来看,更能体现出这次版本更新的完整性:上层有 Gemma 4 的 MTP 提升,下层有 MLX 和 llama.cpp 的同步升级。
4. Improved Gemma 4 multi-token prediction performance
也就是:
改进了 Gemma 4 的多 token 预测性能。
这条更新可以看作是和此次版本主题最直接对应的变更项之一。前面提到的 Apple Silicon 上 Gemma 4 显著提速,核心就来自 MTP;而在 What’s Changed 中,官方又单独列出了对 Gemma 4 MTP performance 的改进,这进一步强化了这次更新的主线非常明确:
围绕 Gemma 4 的多 token 预测能力做性能增强。
这说明此次发布不是偶然获得速度提升,而是在 MTP 层面进行了明确、定向的优化。对用户来说,可以直接把这条理解为:这次版本让 Gemma 4 的多 token 预测机制表现更好了,而这正是 Apple Silicon 上提速的重要来源。
八、把所有更新串起来看,v0.31.1的技术逻辑非常清晰
如果把本次更新拆开来看,每一条都很重要;但如果把它们串起来看,就会发现 v0.31.1 的优化路径其实非常统一。
它的整体逻辑大致可以归纳为:
这样的版本更新有一个明显特点:目标集中、收益明确、落地成本极低。
对用户来说,这种更新是非常受欢迎的。因为它不要求用户改变习惯,不要求用户新增操作,只是在原有使用方式上,直接提供更快的体验。
九、为什么说这次更新很适合做“立即升级”
从发布内容看,v0.31.1 很适合被归类为“值得尽快升级”的版本,原因也很简单:
第一,收益明确。
Gemma 4 在 Apple Silicon 上显著提速,这是可以直接感知的收益。
第二,使用成本低。
默认开启,无需配置,不需要额外适配使用方法。
第三,输出不变。
不会改变模型输出,这对稳定使用尤为重要。
第四,底层同步升级。
MLX 引擎更新到最新版本,包含新的 small-batch matmul kernel;底层 llama.cpp 更新到 build 9840;Gemma 4 MoE 模型加载在 MLX 引擎中得到收紧;Gemma 4 的 MTP 性能进一步改进。
这些点叠加起来,让 v0.31.1 不是一个“可升可不升”的小版本,而是一个很有现实价值的小版本更新。特别是对于 Apple Silicon 用户来说,这次更新的价值更加突出。
十、适合重点关注的用户群体
虽然这次更新内容不算特别长,但适合重点关注的用户其实很明确:
尤其是前两类用户,可以说是这次版本最直接的受益群体。因为更新说明已经明确指出,Gemma 4 在 Apple Silicon 上的速度提升非常明显,而且提升是默认开启的。
十一、这次更新最值得传播的几个关键信息
如果要把 v0.31.1 的亮点浓缩成几句最适合传播的话,那么可以概括为下面这些重点:
这几条信息,几乎就是这次版本更新的完整核心。
十二、总结
代码地址:github.com/ollama/ollama
ollama v0.31.1 虽然是一个小版本号更新,但从实际影响来看,它绝对不是一个可以轻易忽略的版本。
这次更新最核心的突破,在于让 Gemma 4 在 Apple Silicon 上变得更快,而且不是小幅提升,而是在 coding-agent benchmark 上实现了平均接近 90% 的 token 生成提速。更难得的是,这种提速依赖的 MTP 机制由 Ollama 自动调优,整个过程默认开启、无需配置、不会改变模型输出,让性能提升真正变成了一种“开箱即得”的能力。
与此同时,v0.31.1 还完成了多项底层与配套更新:
综合来看,v0.31.1 的更新方向非常聚焦,围绕 Gemma 4、Apple Silicon、MTP、MLX 和底层引擎升级,形成了一套完整且直接有效的优化路径。
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。
欢迎关注“福大大架构师每日一题”,发消息可获得面试资料,让AI助力您的未来发展。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-02
Meta把内部设计系统开源了,支撑内部13000+应用,专为Agent调优
2026-07-02
别再把 AI 当搜索引擎了,这 20 个操作让它替你干活
2026-07-01
在 OpenCode 中接入本地模型:Ollama 部署与配置完全指南
2026-07-01
实测腾讯开源的 BrowserSkill:让 AI 直接用你登录好的浏览器
2026-07-01
阶跃开源JetSpec,大模型推测解码提速近10倍
2026-06-30
花叔的这个神器直接让你的AI Agent出高保真原型、PPT和动画,20k stars不是盖的
2026-06-30
阿里达摩院开源语音识别:比Whisper快170倍还免费,CPU就能跑
2026-06-30
MiniMax M3 实测:第一流的模型,已经对执行层动手了
2026-04-09
2026-04-18
2026-04-18
2026-06-22
2026-05-10
2026-05-06
2026-05-20
2026-05-31
2026-04-21
2026-04-21
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。