【AI工作流】【喂饭】Xinference后台大模型平台搭建

发布日期：2025-02-05 04:56:52 浏览次数： 3671

作者：Vindin与小叽的数字化工程

微信搜一搜，关注“Vindin与小叽的数字化工程”

在之前，我们介绍了#Ollama#大模型后台，现在介绍一下#Xinference#大模型后台。说到#Xinference#，并不是一个全新的平台了，实际上#Xinference#平台已经出现很久了。先简单介绍一下：

Xorbits Inference（Xinference）由国内开发，是一个性能强大且功能全面的分布式推理框架。可用于大语言模型（LLM），语音识别模型，多模态模型等各种模型的推理。通过 Xorbits Inference，你可以轻松地一键部署你自己的模型或内置的前沿开源模型。无论你是研究者，开发者，或是数据科学家，都可以通过 Xorbits Inference 与最前沿的 AI 模型，发掘更多可能。以下是一些横向对比：

功能特点	Xinference	FastChat	OpenLLM	RayLLM
兼容 OpenAI 的 RESTful API	✅	✅	✅	✅
vLLM 集成	✅	✅	✅	✅
更多推理引擎（GGML、TensorRT）	✅	❌	✅	✅
更多平台支持（CPU、Metal）	✅	✅	❌	❌
分布式集群部署	✅	❌	❌	✅
图像模型（文生图）	✅	✅	❌	❌
文本嵌入模型	✅	❌	❌	❌
多模态模型	✅	❌	❌	❌
语音识别模型	✅	❌	❌	❌
更多 OpenAI 功能 (函数调用)	✅	❌	❌	❌

具体介绍见https://github.com/xorbitsai/inference

‍

和#Ollama#类似，#Xinference#也是一个提供大模型下载和使用的平台，但是有了#Ollama#平台为什么要上#Xinference#，两者之间到底有什么区别，还是分为几块进行讨论。

‍

1、为什么

首先是为什么要上#Xinference#平台。

原因一：Xinference平台提供了种类更多的模型。Ollama有很多模型，但是从种类上来说Ollama只包括文字处理类和视觉模型两类，而在文字处理上Ollama只包括了文字生成类（包括对话与补充等）和Embedding模型（字段处理）模型，但是Xinference的模型种类则远远高于Ollama，不仅包括了Ollama的模型，同时也包括了文字处理Rerank模型（如Jina、BGE等）、图像（如Stable Diffusion）、音频（如CosyVoice、ChatTTS等）、视频（如混元大模型等）和自定义一众模型，并且好用的模型种类高于Ollama，例如ChatGLM-4V等。

原因二：Dify对Ollama的定义为文字输出和Embedding，在文字处理上尚少一项Rerank模型。也就是对于RAG知识库而言，除非手搓Dify，否则对于知识库整理Ollama最高只能支持Embedding文字处理，无法做到在Embedding处理后的rerank处理，而rerank处理是RAG高效知识库的必备做法之一。

原因三：多条路总没错。毕竟Ollama是国外的舶来之物，万一哪天出了什么事Ollama不幸躺枪直接没了就没辙了。

以上是使用Xinference的原因，那么还是需要对比一下Ollama和Xinference的优点和缺点。以下是Xinference针对Ollama的优势和劣势：

优点：支持的模型种类较多，可用性很好。下载有国内源，速度很快。有自己单独的UI，基本模型操作无需代码和cmd命令。能力范围比Ollama更广。国内公司开发，“针对中国宝宝而定制”。

缺点：上手难度较大，模型体量较大，模型优化不如Ollama，并且下载无进度条，需要单纯靠后台下载数据流量观察下载情况。开发难度较大，对代码能力要求较高。模型挂在后台，对硬件资源占用较大。必须依赖Docker，而不是像Ollama一样有自己单独的后台。Docker资源占用较多。对于模型使用平台需要自己手动选择，对于不清楚调用原理和框架结构的用户而言上手很难。部分服务框架和技术框架需要手动安装，例如Pytorch等。

2、怎么做

2.1 Xinference的安装

2.1.1 首先需要安装Docker，安装方法见【AI工作流】【喂饭】基于Ollama后台的Dify平台搭建（一）安装篇

2.1.2 找一个空间较大的盘位，例如D盘或者E盘等，在下面建立文件夹，起名无所谓，但是文件夹名称中不要带有空格，并且需要是英文。例如：

D:\Xinference

然后在这个目录下建立一个model文件夹

D:\Xinference\model

2.1.3 docker拉取镜像。安装完毕Docker并重启后，在命令提示符或者powershell中直接输入以下命令：

docker run -d --name xinference --gpus all -v D:/Xinference/model:/root/models -v D:/Xinference/.xinference:/root/xinference -v D:/Xinference/.cache/huggingface:/root/.cache/huggingface -e XINFERENCE_HOME=/root/models -p 9997:9997 registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:latest xinference-local -H 0.0.0.0

这个命令的大概意思是将D:\Xinference下的一些文件夹为一些基本文件夹，并且从阿里云上直接拉取镜像，规定9997为Xinference的端口。

输入整个命令后Docker即开始拉取镜像下载。

2.2 Xinference运行

在Docker镜像拉取完毕后，打开浏览器，输入Localhost:9997或者127.0.0.1:9997即可开启Xinference的UI界面。

如果没有打开UI界面，需要注意几个问题：
1、是否有其他应用或者服务占用了9997端口；
2、打开Docker观察是否Xinference的服务已经正常运行；

2.3 模型下载

打开Xinference的界面后，先改成中文界面。。。在界面左下角有一个切换按钮，点击之后选择中文即可

点击启动模型，选择需要的模型种类，然后选择具体的模型

模型支持搜索，以音频模型中的CosyVoice-300M-SFT为例：

点击CosyVoice-300M-SFT的卡片，即可打开模型窗口，最重要的是设置下载中心，下载中心国内用户建议选择modelscope国内下载源，速度较快。点击下方的小火箭按钮即可开始下载模型：

下载速度一般在5~15Mb左右，速度很快，如果带宽足够会更高：

对于消费级显卡和个人电脑，下载的模型一般大小在4~15g左右，以CosyVoice-300M-SFT为例，大小在5.35GB：

下载完毕后，在运行模型中即可看到已经运行：

在其他平台调用Xinference端口时，一般而言采用9997的端口即可。

‍

3、结论

#Xinference#是一个非常强大的大模型后台平台，虽然在性能优化上比Ollama略差，例如自动释放硬件性能等，但是其模型支持范围更广，能力也更广泛，并且对接fastgpt、dify等平台也十分流畅，是一个不可多得的强大后台。Xinference更为适配国内用户，例如模型下载并不限制于huggingface，而是同时支持从诸如modelscope这类国内大模型网站下载，下载的模型也是全量下载，而不是像Ollama一样进行加密整合，这样做有好处也有坏处，好处是更加方便开发者，坏处则是对应性能要求的硬件更高。

针对目前各类后台，如果不想做高度开发，而是采用后台平台的形式进行一些模型的应用，那么类似于Ollama、Xinference这类平台无疑是最佳选择；对于一般开发者而言，其实Ollama、Xinference可以有效加速开发过程，但是限制也很多；对于高度开发而言，其实平台是个可有可无的存在，但是在配置端口和接口上能节省不少时间。

‍