ollama 实现对开源大模型的本地化部署

发布日期：2024-04-16 15:13:51 浏览次数： 4248

作者：布博士

微信搜一搜，关注“布博士”

本文将介绍如何使用ollama实现对开源大模型的本地化部署，让每个有技术能力的企业都可以“套壳”大模型，在各自的专业领域内“遥遥领先“。在本案例中我将使用两个开源的软件：

ollama：是一个轻量级可扩展的框架，它可以轻易地帮你管理本地的众多开源大模型，并支持众多的开源大模型，包括llama 2 、gemma、codegemma、Mistral等，并允许用户自定义和创建自己的模型。
open-webui：是一个开源的Web界面，用于同各种大语言模型进行交互，并可以同ollama所管理的大语言模型进行快速集成。它提供了一个用户界面，允许用户输入prompt指令，并获得所选择模型生成的响应，由于本地化部署，其返回的结果和人工反馈又可以做为人工标注的数据，对开源大模型进行微调和强化学习用的训练数据。

本文主要介绍如下内容：

安装ollama
选择并安装大模型
安装Open-WebUI
测试大语言模型效果
大语言模型优化

安装Ollama

首先，打开Ollama的官方网站（https://ollama.com/download），如下图所示，选择自己操作系统版本即可：

下载完成之后，双击安装，安装完成之后会在Mac上看到如下的图标，代表安装完成：

选择并安装大模型

在Ollama的官方网站有一个Models菜单，如下图所示：

点击即可看到Ollama所支持的所有大模型列表，这里的下拉列表有很多，读者可以自行研究：

在本例的部署中，我选择了两个7000万左右参数的大模型：

Gemma:7b - 7b，代表7000万参数，是google大模型Gemini的开源版本，一个通用领域的大模型
CodeGemma:7b，是google出品的专注于代码编写的大模型，同样7000万参数。

我所使用的电脑为14寸MacBook Pro，配置如下图所示：

在此配置下，经亲测，两个7000万参数的大模型在不进行微调和强化学习的情况下，都运行流畅。如果想试验更好的模型，可以选择13b或70b的版本，当然占用的内存和GPU资源也会更高，13b约1.4亿参数，最少内存要求为16G，但是在运行时基本很难忍受返回结果的速度，约1-2分钟会写一个单词出来。

我们以CodeGemma为例，来介绍其部署指令，从上图点击“Codegemma“进入该大模型的详细介绍页面，如下图所示：

点击红框的按钮，即可复制指令，直接在命令提示符下运行即可，如下图所示，即会开始下载大模型并自动化完成部署：

安装完成之后，会马上有一个基于命令行的交互界面，可以输入prompt指令，并获得返回结果，如下图所示：

安装成功！！！

安装Open-WebUI

安装Open- WebUI之前请先安装Docker，如果不了解Docker的请自行上网查询，本文将不再缀述Docker的安装和部署。

安装完Docker之后，我们将继续安装Open-WebUI，进入Open-WebUI的官网（https://docs.openwebui.com/getting-started/），开始安装，如下图所示：

如果将Ollama和OpenWebUI要部署在同一台主机上，请选择红框中的指令，如果是不同的主机请选择红框下方的内容：

同一主机部署

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

不同主机部署：这里要指明OLLAMA_BASE_URL参数，根据实际情况进行调整即可

docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=https://example.com -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

安装完成之后运行http://localhost:3000，即可进入如下界面，首次运行需要注册：

安装成功！！！

测试大语言模型效果

第一个示例 - Gemma：

从交流的结果来看，7b模型的Gemman已经成功识别你的交流意图了，只是模型内部存放的知识有误，竟然认为ChatGPT是Google开发的。

第二个示例 - Gemma：

第二个示例我上传了一个参与某客户的调研，给出的结果不是重点内容，但是说的内容也没有错，表现一般。

第三个示例 - CodeGemma：

我们希望写一段代码展示特斯拉最近5年的股票数据，及其趋势，代码一次性测试通过，看来这个写代码的微调版本效果还是不错的。

下图为CodeGemma生成的代码：

下图为复制之后，直接运行的结果，一次性运行通过：

第四个示例 - 访问网络内容

无法通过互联网访问外部数据。

效果总结：

在对7000万参数的大型模型进行测试后，我们发现它已经具备了识别人类指令并进行推理的基本能力。但是，由于模型规模和联网能力的限制，其回答问题的内容可能会出错。我相信经过模型微调等优化，一定能够获得更好的效果。

现在它就像是一个九年义务教育的合格毕业生，剩下的就是接受更专业领域的教育，以便能够在某个专业领域工作。

下一步：优化大模型

优化大模型主要包括如下图所示的4种方法：

prompt 方法

指令优化方法在不调整模型参数的情况下，用于优化大型模型的结果。这种方法特别适用于如chatGPT这类大型语言模型，因为它们已经储存了大量的知识信息，并能通过外部工具与互联网数据交互，所以你需要的知识基本上都能得到满意的回答。

然而，对于我目前在本地部署的7000万参数的大型模型，由于其训练过的知识范围非常有限，无论如何优化指令，都难以取得好的效果。

因此，在后续优化针对本地部署的这些模型时，将不会进行指令优化。

知识库

知识库的优化方法（严格意义上不算优化，而是一种外挂，就像玩流时开一个外挂一样）是在一个已经具有基本认知能力的通用大模型的基础上，增加专业领域的知识库。在接收到用户的指令并正确识别意图后，优先到本地关联的知识库中获取匹配的知识信息。然后通过大模型的推理能力，处理后返回给用户。

这是一种在专业领域（如运维、医疗等）中非常快速的使用方法。

微调

这是一种有监督的学习方法。通过使用人为标注的可靠数据，对特定领域（如医疗、法律、运维）的数据集进行模型微调。这样做是希望模型能更好地理解和处理这些领域的语言特征。在特定领域的数据集上进行微调可以有助于提升模型的表现。

强化学习

这是一种结合人机交互中从人类反馈中学习的方法，如聊天机器人、智能问答系统中针对每次返回的结果人类都可以反馈好的或坏的，这些反馈的数据可以使模型更好地理解人类指令，生成更自然、更符合人类期望的回答，从而提升用户体验。如下图所示，为人类的反馈：

下一次发表内容将专注在运维领域知识库的构建，并通过大模型使用该知识库。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-30

DSpark：DeepSeek 如何让大模型推理提速 85%

2026-06-30

告别云端付费！3秒克隆你的声音，这款开源AI不用GPU，手机CPU就能实时跑

2026-06-30

阿里开源 ReMe：像写双链笔记一样给 AI Agent 做长期记忆

2026-06-30

一次关于 AI 需求交付Skills的优化升级

2026-06-30

阿里开源 Open Code Review：让 AI 代码审查从“会看”走向“看得准”

2026-06-30

拆解开源知识库OpenKB：Karpathy的wiki 理念，如何被PageIndex做成无向量知识库

2026-06-29

8G 内存足以，最适合 NAS 的本地「多模态模型」，极空间+MiniCPM

2026-06-29

腾讯刚开源了个好东西：BrowserSkill 让 AI Agent 直接用你的浏览器

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Google Gemma 4 开源｜全面解读

2026-04-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

Agent终于有了自己的邮箱！腾讯Agently Mail详解

2026-06-22

炸裂！Seedance 2.0 免费用！全网第一只接入的开源龙虾，效果离谱

2026-04-02

Claude 的金融 Skills 开源了

2026-05-10

Ollama 换引擎，苹果 M5 封神了

2026-05-06

Qwen3.7来了，全球排名第13，国内第一

2026-05-20

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw

ollama 实现对开源大模型的本地化部署

安装Ollama

选择并安装大模型

安装Open-WebUI

测试大语言模型效果

第一个示例 - Gemma：

第二个示例 - Gemma：

第三个示例 - CodeGemma：

效果总结：

下一步 ：优化大模型

prompt 方法

知识库

微调

强化学习

下一步：优化大模型