我要投稿

ollama v0.12.9 发布：修复 CPU Only 系统性能回退并优化 GPU 与 ROCm 支持

发布日期：2025-11-03 08:44:04 浏览次数： 1952

作者：福大大架构师每日一题

微信搜一搜，关注“福大大架构师每日一题”

在这里插入图片描述

2025年11月2日，Ollama 发布了 v0.12.9 最新版本，本次更新主要针对 CPU-only 系统的性能回退问题进行了修复，同时在 GPU 设备检测、ROCm 错误处理以及 CUDA 内存分配优化方面进行了多项改进。以下是版本的详细变化说明。

一、主要更新内容

1. 修复 CPU-only 系统性能回退问题

本次版本重点修复了在仅使用 CPU 的环境下出现的性能回退（regression）问题，确保在缺乏 GPU 的系统上依旧能够高效运行模型。

2. GPU 设备检测路径优化

在 GPU 设备枚举的过程中，旧版本使用 LibOllamaPath 作为库路径，本次更新统一改为 ml.LibOllamaPath，保证路径引用一致性，提升跨平台与多设备环境下的稳定性。
改动包括：

• discover/runner.go 中多处将 LibOllamaPath 替换为 ml.LibOllamaPath
• 在 ROCm 目录查找、设备列表更新等逻辑中进行相同修改
• ml/device.go 中 LibraryPaths 函数初始化时确保 LibOllamaPath 包含于 GPU 库路径列表中

这些改动有助于在 GPU 初始化阶段正确加载相关库文件，尤其是在混合 GPU 环境中（CUDA 与 ROCm 并存）。

3. ROCm 错误捕获与日志改进

新增对 ROCm error 的日志监控，llm/status.go 的 errorPrefixes 列表中增加了 "ROCm error" 条目，使错误信息能够被及时捕获与输出，便于定位问题。

4. CUDA 内存操作优化

在 CUDA 后端实现中增加了对内存设置与拷贝操作的优化逻辑：

• 新增 cudaMemsetAsyncReserve 方法：在图预留（reserving_graph）阶段，避免执行不必要的 cudaMemsetAsync 操作，从而减少 GPU 内存分配压力
• 对 cudaMeMCPyAsync、cudaMemcpy2DAsync、cudaMemsetAsync 进行了宏替换，使其在预留阶段直接返回成功，而不执行实际操作
• 这一改动在 ggml/src/ggml-cuda/common.cuh 和 ml/backend/ggml/ggml/src/ggml-cuda/common.cuh 中均有实现，使 CUDA 后端在图优化阶段更高效

效果：

• 避免无意义的 GPU 内存清零操作
• 在模型装载与推理时减少延迟

5. 测试用例调整

integration/api_test.go 中移除了冗余的 TestAPIEmbeddings 测试方法，此前该测试会调用嵌入 API（Embeddings），包括模型拉取与输出验证，此处删除主要是简化测试集，避免重复测试相同功能。

6. 文件结构调整与命名空间修改

discover/path.go 文件更名为 ml/path.go，并将包名从 discover 改为 ml，归类到机器学习核心逻辑下，使模块结构更加清晰。

二、总结

ollama v0.12.9 在保持功能稳定的同时，解决了 CPU-only 系统的性能问题，并且显著优化了 GPU 设备检测、ROCm 错误日志及 CUDA 内存分配机制。这些改进对在多种硬件环境中部署 Ollama 的用户尤为重要：

• CPU-only 用户 可获得更好的推理性能
• GPU 用户 能够享受更稳定的设备检测与库加载机制
• CUDA/ROCm 用户 可减少初始化延迟、提升整体运行效率

·

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-12-19

谷歌发布Gemini 3 Flash，全球免费，打破速度与智能不可兼得悖论

2025-12-19

刚刚，OpenAI最强编程大模型发布！

2025-12-19

AI架构师的诞生：AI+传统DDD模式 = 实现开发效率提升75%

2025-12-19

Anthropic 指路，Letta 破局：Agent 下半场的关键词是 Skills

2025-12-19

突发｜ChatGPT 版应用商店正式上线

2025-12-18

端侧AI革命！Android App上可直接集成Gemini大模型了！

2025-12-18

突发！ChatGPT版应用商店正式发布，第三方开发者新入口！

2025-12-18

实测豆包1.8后，我终于明白字节为什么要推豆包手机了。

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

马斯克 Grok imagine 完整使用指南：工具、案例、提示词，看这一篇就够了！

2025-10-26

实测 Sora 2 ：AI视频的“ChatGPT时刻”来了？八大场景教你解锁各种玩法（附邀请码）

2025-10-02

RagFLow v0.20.X全面解析！双向MCP、Agentic智能体...这次真的起飞了！（附长图）

2025-09-29

一文速览OpenAI Dev Day 2025，下半年开始大洗牌

2025-10-07

Claude Sonnet4.5发布，号称世界最强模型，超越gpt-5-codex

2025-09-30

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

万字长文深度解析最新Deep Research技术：前沿架构、核心技术与未来展望

2025-10-20

深度体验TRAE SOLO 正式版，总结一点技巧(附完整可重现提示词和源码)

2025-11-13

Sora 2带来3个颠覆性创新，这个行业或将被彻底重构

2025-10-02

从spec-kit到OpenSpec：规格驱动开发如何解决项目迭代痛点？

2025-10-18

大家都在问

Prompt是与LLM对话的唯一方式：如何给大模型装上能指挥“手脚”的脑子？

2025-12-16

200k Tokens 的上下文真的够用吗？

2025-12-15

巨头翻身！谷歌全新AI浏览器Disco问世，PC版灵光？

2025-12-14

2025年，企业级AI的主战场在哪里？

2025-12-12

GPT 5.2的长上下文厉害了，但是写文真的强吗？

2025-12-12

涌现观点｜AI 开发的"App Store 时刻"：为什么你应该停止构建 Agent？

2025-12-11

Human In the Loop竟然可以是个MCP?

2025-12-09

AI会消灭搜索吗？

2025-12-08

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： [email protected]

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部