微信扫码
添加专属顾问
我要投稿
Kimi K2.5 模型震撼开源,手把手教你部署这款1T参数的AI巨兽,解锁Agent智能体与编程开发新境界! 核心内容: 1. 模型下载指南与参数概览 2. 硬件配置方案与优化建议 3. 详细部署步骤与实战技巧
最近,Kimi K2.5 模型正式开源,再一次刷新了开源大模型的能力天花板!🎉
特别是在 Agent 智能体、编程开发 和 视觉理解 领域,其表现堪称惊艳。
本篇文章,我们就最近这几天在本地部署 Kimi K2.5 模型的踩坑实践做一个全方位分享,助你一次跑通!💪
你可以在 魔搭社区 或者 Hugging Face 找到这个模型。
👉 国内推荐:魔搭社区,下载速度会更快一些
🔗 链接:https://modelscope.cn/models/moonshotai/Kimi-K2.5
在模型卡片中我们可以看到:
从模型大小就能看出,这位“巨兽”对硬件的要求不低。😨
8 * 96GB H20 是能摸到这个模型的底线,且需要裁剪上下文长度。
为了拥有丝滑的使用体验,我们推荐以下几种配置:
| 方案一 | 8 * 141GB H200 | 最推荐 | |
| 方案二 | 2 * 8 * 96GB H20 | ||
| 方案三 | 2 * 8 * 80GB H100 |
💡 小贴士:比如 H100 这种算力够但显存吃紧的卡,完全可以通过多机部署来解决。
首先在你的服务器上安装好 Nvidia 驱动 和 CUDA 环境(此处省略一万字...)。
# 1. 安装 modelscope
pip install modelscope
# 2. 下载模型到指定目录
modelscope download moonshotai/Kimi-K2.5 --local-dir ./dir⏳ 经过漫长的等待... 下载完成后,整个 Kimi K2.5 模型大约 555GB。📖 官方部署文档参考:
https://modelscope.cn/models/moonshotai/Kimi-K2.5/file/view/master/docs%2Fdeploy_guidance.md?status=1
vLLM 是一个高性能的大模型推理引擎,支持大规模模型的高效推理。
安装 vLLM(注意版本号!):
uv pip install -U vllm==0.15.0
# ⚠️ 注意:一定要安装 0.15.0 及以上版本,才能支持 Kimi K2.5启动脚本 (单机 8 * 141GB H200/H20):
vllm serve $MODEL_PATH -tp 8 \
--trust-remote-code \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2 \
--enable-auto-tool-choice \
--port 8000 \
--host 0.0.0.0不想污染本地环境?用 Docker!
# 拉取镜像
docker pull vllm/vllm-openai:v0.15.0启动脚本:
docker run --runtime nvidia --gpus all \
-v $MODEL_PATH:$MODEL_PATH \
-p 8000:8000 \
--ipc=host \
vllm/vllm-openai:v0.15.0 \
--model $MODEL_PATH \
--trust-remote-code \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2 \
--enable-auto-tool-choice \
--port 8000 \
--host 0.0.0.0如果是双机部署(如 2 * 8 * 96GB H20),需确保节点间网络互通(IB 网络配置正确)。
👉 配置 IB 网络可参考我之前的 DeepSeek 部署文章,里面有详细记录
真·生产级满血版Deepseek-r1 671B部署实例
主节点脚本:
vllm serve $MODEL_PATH \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2 \
--enable-auto-tool-choice \
--enable-expert-parallel \
--enable-chunked-prefill \
--host 0.0.0.0 --port 8000 \
--distributed-executor-backend mp \
--pipeline-parallel-size 2 \
--tensor-parallel-size 8 \
--nnodes 2 --node-rank 0 \
--served-model-name kimi-k2.5 \
--master-addr $HEAD_NODE_IP \
--trust-remote-code 从节点脚本:
vllm serve $MODEL_PATH \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2 \
--enable-auto-tool-choice \
--enable-expert-parallel \
--enable-chunked-prefill \
--host 0.0.0.0 --port 8000 \
--distributed-executor-backend mp \
--pipeline-parallel-size 2 \
--tensor-parallel-size 8 \
--nnodes 2 --node-rank 1 \
--served-model-name kimi-k2.5 \
--master-addr $HEAD_NODE_IP --headless\
--trust-remote-code (从节点脚本类似,仅需修改 --node-rank 1 并添加 --headless 参数)
截止目前,SGLang 尚未发布最新的正式版,需使用开发版本。
# 安装依赖 (源码安装)
pip install "sglang @ git+https://github.com/sgl-project/sglang.git#subdirectory=python"
pip install nvidia-cudnn-cu12==9.16.0.29启动脚本:
sglang serve --model-path $MODEL_PATH \
--tp 8 \
--trust-remote-code \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2 \
--host 0.0.0.0 \
--port 8000多机部署,同样的需要首先配置IB网络
# 主节点
sglang serve --model-path $MODEL_PATH --served-model-name kimi-k2.5 \
--tp 16 \
--trust-remote-code \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2 \
--dist-init-addr $HEAD_NODE_IP:$HEAD_NODE_PORT \ # 例如我的是10.0.41.2:8000
--nnodes 2 \
--node-rank 0 \
--host 0.0.0.0 \
--port 8000
# 从节点
sglang serve --model-path $MODEL_PATH --served-model-name kimi-k2.5 \
--tp 16 \
--trust-remote-code \
--tool-call-parser kimi_k2 \
--reasoning-parser kimi_k2 \
--dist-init-addr $HEAD_NODE_IP:$HEAD_NODE_PORT \ # 例如我的是10.0.41.2:8000
--nnodes 2 \
--node-rank 1 \
--host 0.0.0.0 \
--port 8000# 1. 拉取最新开发版镜像
docker pull sglang/sglang:dev
# 2. 启动容器
docker run -d --gpus all \
--shm-size=128g \
--ipc=host \
--network=host \
--name kimi-k2.5 \
lmsysorg/sglang:dev \
bash -c "while true; do sleep 3600; done"
# 3. 进入容器
docker exec -it kimi-k2.5 bash
# 4. 在容器内执行方法一中的启动脚本即可实测性能:
2 * 8 * 80GB H100相信大家本地部署 Kimi K2.5,绝不仅仅是为了简单聊聊天。🗣️
在 2026 年的今天,编程 和 Agent 才是 AI 的核心生产力。
Kimi K2.5 在这两方面的能力非常强大,加上原生支持多模态,让它在视觉编程方面拥有了天然优势。
想象一下:
📸 你只需要截个图,发给 AI,它就能帮你生成一个一模一样的界面...
这种感觉有多爽?只有亲自体验过才知道!😎
然而,理想很丰满,现实却有些“骨感”。🤔
虽然直接购买官方 API 门槛最低,但在企业级实战中,我们往往面临着两座大山:
网络延迟的不确定性 和 核心数据的安全红线。
把核心代码交给公网模型?很多团队心里总会犯嘀咕。
既然公有云有顾虑,那 “把能力搬回家” 就成了必然选择。
但问题来了
如何把 Kimi K2.5 这种“巨无霸”平稳落地,并像 API 一样丝滑地接入到我们的开发流中?
这正是我们下一阶段要攻克的重点——从“能跑通”到“好用”,实现真正的本地化生产力闭环。
感谢你看到这里!祝你部署顺利!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-02-03
Claude Code——智能路由与切换工具
2026-02-03
作为投资方,我们试了试Kimi K2.5
2026-02-03
暴涨11.7k Star!复刻Manus上下文工程的开源Skills,Claude code等多个平台即插即用
2026-02-03
ollama v0.15.4 更新:OpenClaw全面上线,优化集成流程与工具解析能力大升级!
2026-02-03
阶跃星辰 Step 3.5 Flash 上线!更快更强更稳的 Agent 大脑,开源!
2026-02-02
一分钟部署OpenClaw+QQ,国内最爽的一键启动!
2026-02-02
这家字节系AI初创,推出首个开源Agent Skills Builder!对话Refly.AI李锦威:大多数Agent都停留在专业用户层面,没有做到真正的普惠
2026-02-02
OCR又出宠OpenDoc,速度超MinerU6倍
2025-11-19
2026-01-27
2025-12-22
2025-12-10
2025-11-17
2026-01-12
2025-11-07
2025-12-23
2026-01-06
2026-01-29
2026-01-28
2026-01-26
2026-01-21
2026-01-21
2026-01-20
2026-01-16
2026-01-02
2025-12-24