本地部署Ollama与DeepSeek R1：安装、优化与应用实测

发布日期：2025-02-22 12:23:26 浏览次数： 5118

作者：峰哥Python笔记

微信搜一搜，关注“峰哥Python笔记”

Ollama 是一款本地大语言模型（LLM）运行工具，支持用户在本地设备上下载、管理和运行 AI 模型，而无需依赖云端服务。它提供简单的命令行接口，支持 DeepSeek R1、Llama 等多种开源模型，并可结合 GPU 加速，实现高效推理。Ollama 适用于 离线 AI 交互、代码补全、文本生成 等应用场景，是本地 AI 部署的理想选择。

安装Ollama

下载安装Ollama，到官网https://ollama.com/download/windows下载对应的安装包，默认安装。

安装成功后，在cmd中输入ollama --version检查安装是否正确，提示版本号表示安装成功。

安装ChatBoxAI

ChatBoxAI 是一款开源的多功能 AI 聊天助手，支持本地和云端大语言模型（LLM），允许用户与 AI 进行交互。它兼容 Ollama、GPT-4、Claude、Mistral 等多种模型，并提供插件扩展、消息存储、自定义指令等功能。ChatBoxAI 适用于日常聊天、编程助手、知识查询等场景，界面简洁，支持多平台使用，是本地 AI 聊天应用的理想选择。

安装ChatBoxAI，到官网https://chatboxai.app/zh下载对应版本软件安装。

硬件信息检测

查看本机配置，自己知道什么配置最好，如果不知道，用鲁大师，CPU-Z，

DeepSeek R1

DeepSeek R1 是 DeepSeek AI 推出的开源大语言模型，专注于增强推理、编程和数学能力。它提供 14B（140亿参数） 和 32B（320亿参数） 两种版本，支持 中英文对话、代码补全、逻辑推理 等任务，并优化了思维链（CoT）推理能力。DeepSeek R1 兼容 Ollama、vLLM、TGI 等推理框架，可在本地部署，适用于 离线 AI 交互、编程辅助 和 自然语言处理（NLP） 任务。

在Ollama主页找到DeepSeek R1，版本选择32b，其实我这电脑也就跑到14b，可以安装一下试一下每秒多少token。

复制32b对应的安装代码，在cmd中输入ollama run deepseek-r1:32b，从服务器摘取模型，32b，大概20G左右需要下载一会儿：

下载LLM Stadio：

实践证明32b跑不起来，差不多1-2个token，没法用。

再下个14b:ollama run deepseek-r1:14b

安装Cuda/cnDNN

本地运行大模型（如LLaMA、ChatGLM、Stable Diffusion等）通常需要强大的计算能力，而显卡（GPU）是关键组件之一。要充分利用显卡的计算能力，通常需要 CUDA 和 cuDNN 进行加速。

CUDA 的作用

CUDA（Compute Unified Device Architecture）是 NVIDIA 专有的并行计算平台，它允许开发者利用 GPU 进行通用计算（GPGPU）。深度学习框架（如 PyTorch、TensorFlow）通常基于 CUDA 进行计算加速：

CUDA 提供 GPU 编程接口，使得软件（如 PyTorch）可以直接调用 GPU 进行计算，而不是依赖 CPU。
核心库（cuBLAS、cuFFT、cuSPARSE 等）：加速矩阵运算、傅里叶变换、稀疏矩阵运算等，都是大模型计算的关键部分。

cuDNN（CUDA Deep Neural Network Library）的作用

cuDNN 是 专门为深度学习优化的 NVIDIA 库，它在 CUDA 之上提供了一组高效的 GPU 计算优化：

优化神经网络计算：cuDNN 针对 卷积（Convolution）、池化（Pooling）、归一化（Normalization）、激活（Activation） 等操作进行了高度优化，使得大模型的推理和训练更加高效。
减少手写 CUDA 代码的需求：开发者不需要手动优化 CUDA 代码，cuDNN 提供了一套标准的 API，供 TensorFlow、PyTorch 等深度学习框架直接调用。

检查本机是还正确安装了cuda，在cmd下输入nvcc --version，如果正确显示版本信息，就说明正确安装。

在cmd下输入nvidia-smi，可以显示当前的显卡适配cuda的最高版本，可到官网下载对应版本cuda，最高支持cuda12.6，我下载的是12.3版，下载地址：

https://developer.nvidia.com/cuda-toolkit-archive

再安装cuDNN，下载地址：

https://developer.nvidia.com/zh-cn/cudnn

cuDNN下载时需要使用Nvidia开发者帐号，按要求注册一个，就可以正常下载。下载成功后，解压缩到cuda安装目录。我电脑cuda位置是C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.3

把cuDNN下载的包解压缩至这个目录就可以了。安装成功后，再测nvcc -V，可以看到版本信息。

配置好cuda，ollama运行时，GPU就会占用一部分。

cpu、gpu、内存均被占用。

配置ChatBox

在chatbox设置里模型提供方选Ollama api，模型中选择deepseek r1:14b或者选8b，保存。

来个测试，2024年高考数学二最后一道大题，看他能不能解出来。

本地版不支持多模态，用gpt把它转成文字：

再让它来解答，deepseek r1有个思维链，显示思考过程。我的电脑不太行，这个思考过程让我等不到他思考结束。

思考一会，还会发现自己算错了，再去找那里错了，修改后再去计算。可能这个模型不太适合进行数学计算，我把这个题发到在线的，看它能不能解出来。

在线的不能提供服务：

把同样的题给chatgpt，似乎很快得出结果：

具体结果不做展示。

编代码能力

1. Cline 插件

Cline 是 VS Code 上的一款插件，主要用于 代码补全 和 智能代码生成，可以通过 Claude AI 提供更强大的代码补全、解释和优化能力。

特点：

基于 Claude AI：由 Anthropic 公司的 Claude 模型驱动，支持高级代码补全。
上下文感知：可以根据当前代码环境提供智能补全建议。
自动生成代码：能够帮助编写函数、类或者完整代码片段，提高开发效率。
可选 AI 代理：支持交互式 AI 助手，帮助理解代码逻辑、优化性能。

安装方式：
在 VS Code 扩展市场 搜索 Cline，安装后登录 Anthropic Claude 账号 即可使用。

当然Cline也支持本地的Ollama模型，在设置中选择API Provider选择Ollama，Model ID选择能用的模型，就可以进行代码补全操作。

使用 Deepseek r1:8b模型，回答质量很差，基本办法使用。

这个插件再试一下调用官方api试一下效果。

最近Deepseek大火，官网上不去，现在硅基流动提供DeepSeek api服务，免费送2000万token额度。注册地址：

https://cloud.siliconflow.cn/i/JPgtFsMs

或者使用我的邀请码：JPgtFsMs。

注册好帐号，创建API密钥：

CLine设置如下：

模型提供商为OpenAU兼容，baseURL为https://api.siliconflow.cn/v1，模型ID，复制下面的ID。

为：deepseek-ai/DeepSeek-R1，保存。测试一下满血的R1。

可以使用，速度不快。不知道什么原因一直卡，可能是网络原因，也可能是使用的人比较多。

2. Continue 插件

Continue 是一款开源的 VS Code 插件，提供 AI 辅助编程，支持多种 AI 模型（如 GPT-4、Claude、Llama 2、Mistral 等），可以用于代码补全、调试、解释和优化。

特点：

支持多个 AI 模型：可以选择 OpenAI、Anthropic、Llama 2 等不同模型。
代码改进与修复：可以分析代码并建议优化方案，帮助修复 bug。
多语言支持：支持 Python、JavaScript、C++、Go 等多种编程语言。
自定义 AI 助手：可自定义提示词，让 AI 适应个人编码风格。
聊天交互：直接在 VS Code 侧边栏打开 AI 对话，询问代码问题或生成代码。

安装方式：
在 VS Code 扩展市场 搜索 Continue，安装后配置 API Key（如 OpenAI API 或本地 AI 模型）。 VS Code安装continue插件：

插件安装成功后，选择ollama，会自动填加本地的ollama模型。

在模型下拉中选上8b。

同样的问题，在continue插件上速度比较快，很快出你想要的东西，不卡。

提出修改意见，也能很快修改。

使用过程，8g显存占用7.1g，运行比较流畅，可以放在内网环境做为代码助手。

又使用了contiune的硅基流动千问32b，也比较流畅。

这2个插件推荐使用Continue，本地ollama和deepseek api均可。

关于本地DeepSeek R1

本地跑r1，最好有显卡支持，没有显卡纯CPU，试试就好，用起来有点费劲。3070ti 8g版能流畅跑deepseek r1:7b或8b，再高就跑不起来。14b显存到少要12g，32b显存要24g，3090，4090，或者魔改版的2080。

在写这些文字时，跑了个14b，等一会没反应，回头再看，已经运行起来，速度也速可以，比8b慢，每秒20多token吧。

那就是上面提的配置要求可以再降一档。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-05

我做了一个开源 AI 语音输入法——SayIt

2026-07-04

ThinkParse 1.1.0 开源发布：把文档解析，做成可扩展的企业级服务

2026-07-04

Agent 工程终于有脚手架了， Google开源一个开发agent的工具

2026-07-03

用云新范式：Qoder Cloud Agents × Alibaba Cloud Skills

2026-07-03

Ornith-1.0 发布：新一代 Agentic Coding 之王，MIT 开源

2026-07-02

Meta把内部设计系统开源了，支撑内部13000+应用，专为Agent调优

2026-07-02

别再把 AI 当搜索引擎了，这 20 个操作让它替你干活

2026-07-02

ollama v0.31.1发布：Apple Silicon上Gemma 4提速近90%，默认开启无感升级

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

Ollama 本地部署 Gemma 4 完全指南

2026-04-18

Google Gemini CLI 完整使用指南

2026-04-18

Agent终于有了自己的邮箱！腾讯Agently Mail详解

2026-06-22

Claude 的金融 Skills 开源了

2026-05-10

Ollama 换引擎，苹果 M5 封神了

2026-05-06

亲测有效！Codex桌面版免费接入DeepSeek V4

2026-05-31

Qwen3.7来了，全球排名第13，国内第一

2026-05-20

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Kimi K2.6 发布并开源，全面精进代码和 Agent 集群能力

2026-04-21

大家都在问

26.1%的AI编程技能有漏洞：NVIDIA开源 SkillSpector 能扫出什么？

2026-06-16

企业级 AI Agent 为什么集体转向“基座 + Skills”？

2026-05-30

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw