微信扫码
添加专属顾问
我要投稿
Ollama五月更新带来多模态、工具调用新特性,AI本地化技术更进一步! 核心内容: 1. 全新多模态引擎支持视觉模型,提升可靠性和准确性 2. 工具调用支持流式响应,实现实时互动 3. 为未来语音、图像生成等奠定基础
首先,Ollama 推出了全新的多模态引擎,正式宣告支持视觉模型!这意味着,你现在可以在本地通过 Ollama 运行那些不仅能理解文本,还能“看见”和分析图像的模型了。
首批支持的明星模型包括:
为什么需要新引擎?
Ollama 此前主要依赖 ggml/llama.cpp 项目,专注于易用性和模型可移植性。但随着多模态模型的涌现,原有的架构在支持这些复杂模型时遇到了挑战。新引擎旨在:
紧接着多模态引擎的发布,Ollama 又带来了一项实用性极强的功能:工具调用 (Tool Calling) 支持流式响应。
这意味着,当模型需要调用外部工具(如查询天气、执行代码、搜索网页)来回答你的问题时,它不必等工具完全执行完毕并返回所有结果后才开始响应。现在,模型可以一边调用工具,一边实时地将已经生成的内容流式地推送给你,同时在适当的时候插入工具调用的指令。
支持此功能的模型包括 Qwen 3, Devstral, Llama 3.1, Llama 4 等。
它是如何工作的?
Ollama 开发了一个新的增量解析器。这个解析器不再是简单地等待完整的 JSON 输出,而是能够:
用户可以通过 cURL、Python 或 JavaScript 库轻松使用这一功能。例如,你可以用 Python 定义一个加法函数,然后让模型调用这个函数来计算 “3+1”,模型会流式输出其“思考”过程(如果开启)并准确地调用你定义的函数。
此外,该更新还提到了模型上下文协议 (MCP) 对此功能的助益,并建议使用 32k 或更高的上下文窗口以提升工具调用的性能和结果。
五月的最后一份大礼是模型“思考” (Thinking) 功能的上线。用户现在可以选择启用或禁用模型的“思考”过程。
当“思考”功能启用时,模型的输出会将其思考过程和最终答案分开展示。这对于理解模型是如何一步步得出结论的非常有帮助,也能让开发者基于此设计出更有趣的应用,比如在游戏 NPC 对话前显示一个思考气泡。
当“思考”功能禁用时,模型会直接输出答案,这在追求快速响应的场景下非常有用。
支持此功能的模型包括 DeepSeek R1, Qwen 3 等。
如何使用?
--think (启用) 或 --think=false (禁用) 参数控制。在交互式会话中,可以使用 /set think 或 /set nothink。还有一个 --hidethinking 参数,用于在启用思考但只显示最终答案的场景。/api/generate 和 /api/chat 接口新增了 think 参数 (true/false)。think 参数。官方演示了 DeepSeek R1 模型在启用和禁用思考模式下回答问题的不同表现,直观展示了该功能的价值。
Ollama 五月份的这三大更新,无疑使其在本地化 AI 领域又迈进了一大步:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-04
从“回答者”进化为“研究员”:全面解析 Deep Research
2026-02-04
刚刚,Xcode 史诗级更新:原生集成 Claude Agent SDK,苹果开发直接起飞!
2026-02-04
国产 Cowork 它来了!MCP、Skills和Expert Agents都支持,全部免费体验!
2026-02-04
混元研究博客上线姚顺雨团队最新成果:从 Context 探索语言模型的范式转变
2026-02-04
通俗讲解大模型短期记忆 vs 长期记忆
2026-02-04
谁动了我的电脑?谁应该抱怨?
2026-02-03
从 CLI 到桌面:Codex 把 coding agent 变成“任务指挥台”
2026-02-03
谷歌重大更新:国内手动开启 Gemini AI 侧边栏与 Auto Browse 自动浏览全攻略
2026-01-24
2026-01-10
2025-11-19
2025-11-13
2026-01-26
2026-01-01
2025-12-09
2025-11-12
2026-01-09
2025-12-21
2026-02-04
2026-02-03
2026-02-03
2026-02-02
2026-02-02
2026-02-02
2026-01-31
2026-01-30