我要投稿

部署 4.8k star 的 Xinference 给知识库接入本地 Rerank 模型

发布日期：2024-09-24 08:07:19 浏览次数： 4252

作者：三金得鑫

微信搜一搜，关注“三金得鑫”

首先说说为什么会想要部署 Xinference？

起因是因为前几天白嫖的 Jina API token 用完了，而付费的话又感觉自己的那些知识库没有必要使用商用的（好吧好吧，其实还是舍不得花钱?），开源免费的对我来说也足够了，所以想要找找可以本地部署的。

刚开始想使用 Ollama 的，不过查了下它好像不支持 Rerank 模型，因此又找上了 Xinference 这款产品。

简介

Xorbits Inference (Xinference) 是一个开源平台，用于简化各种 AI 模型的运行和集成。借助 Xinference，我们可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理，并创建强大的 AI 应用。

它支持的模型种类有：

语言模型：比如 qwen2、baichuan、deepseek、gemma 等场景的语言模型
Embedding 模型：有 Jina 的 Embedding 模型（结合 Rerank，知识库检索不就起来了嘛?）；
Rerank 模型：有 Jina 的 Rerank 模型；
图像模型：除了 Stable Diffusion 之外，还有 Flux 模型；
语音模型：有 ChatTTS 以及 whisper 等等；
视频模型：这类模型还没了解过，Xinference 里是 CogVideoX 模型；
自定义模型：需要先注册，然后才可以在这里看到；

相较于 Ollama 来说，Xinference 在部署之后会为我们提供一个可视化界面，我们可以通过图形化界面安装部署大模型，这个下来会详细进行讲解。

部署

官方介绍了三种部署方式，分别是：

本地运行：也就是使用终端命令行的方式进行部署，需要 Python 环境；
在集群中部署：对于个人用户来说用不上，虽然现在都在上云，但是 Kubernetes 的使用还是多存在于企业中；
使用 Docker 部署：废话不多说，Run 起来！

在使用 Docker 部署 Xinference 时，如果你的机器有 GPU，可以执行（把 your_version 改为你想运行的镜像版本，比如 latest）：

docker run -e XINFERENCE_MODEL_SRC=modelscope -p 9998:9997 --gpus all xprobe/xinference:<your_version> xinference-local -H 0.0.0.0 --log-level debug

如果是只有 CPU 的机器，则执行：

docker run -e XINFERENCE_MODEL_SRC=modelscope -p 9998:9997 xprobe/xinference:<your_version>-cpu xinference-local -H 0.0.0.0 --log-level debug

在启动容器之后，我们访问 localhost:9998 就可以看到这样一个页面：

大概介绍一下界面构成：

Launch Model：其实就是目前 Xinference 里内置支持的模型，种类繁多，大家自行选择；
Running Models：在 Xinference 中已经下载和运行起来的模型
Register Model：对于 Custom Models 来说，需要先注册，才能运行；
Cluster Information：在这个页面里可以看到项目运行时的资源消耗情况

实战：安装 Rerank 模型并集成到 Dify 中

在 RERANK MODELS 中选择一个模型进行部署启动，以 bce-reranker-base_v1 为例：

点击左下角的那个小火箭开启下载～

下载好之后，可以到 Running Models 中的 RERANK MODELS 里看到对应的模型：

我们到 Dify 中集成一下 Xinference（在模型供应商的地方）：

因为我们下载的是 Rerank 模型，所以这里「模型类型」为 Rerank 模型；

模型名称和模型 UID 分别填入下图中红框框住的部分（ID 对应 UID，名称对应 Name）：

服务器 URL 这里填 http://host.docker.internal:9998，这样写的原因在之前的文章中《Dify 教程二：使用本地大模型 Ollama》也说过。如果不是 Docker 部署而是本地运行或者集群部署则可以直接写「 服务器 IP：端口号 」。

保存！开测～

在 Dify 中新建一个知识库，并上传数据集（本次上传了《断舍离》这本书进行测试），知识库的检索设置如下：

最终得到 261 个分段，召回测试如下：

我们将这个知识库加到应用中试试看：

效果还不错，感兴趣的小伙伴可以试试看。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-16

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-15

再见 Hermes、小龙虾！面向 DeepSeek V4 的终端原生编程智能体来了

2026-05-15

GenericAgent 实测：Token 少用 89.6%，还能打赢 Claude Code？上下文密度才是关键

2026-05-14

腾讯开源Agent Memory，让Token消耗降低61%

2026-05-14

agents-hive 开源了：一个面向生产的Harness Agent 工程

2026-05-12

Hermes Agent 完整安装指南

2026-05-11

对话OpenClacky李亚飞：把Harness做透，Token账单就不是问题了

2026-05-10

Claude 的金融 Skills 开源了

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Hermes Agent 出来了，聊聊它凭什么跟 OpenClaw 掰手腕

2026-03-30

Google Gemma 4 开源｜全面解读

2026-04-03

字节跳动开源 DeerFlow 2.0：下一代超级 Agent 引擎，一键搞定复杂工作流！

2026-03-23

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

刚刚，Claude Code开源了！51万行代码，全网狂欢

2026-03-31

1700人收藏！港大开源 ClawWork：开局 10 美元，AI 靠打工 7 小时狂赚 1 万刀！

2026-02-18

4 天 6.8K Star，这个 AI 漫剧项目火了：waoowaoo！

2026-03-03

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

GLM-5 技术报告全解读｜a16z：“最好的开源模型”

2026-02-22

开启极简养虾，用 TRAE 快速部署 OpenClaw

2026-03-04

大家都在问

Hermes Agent 深度解析：为什么它能“越用越懂你”？

2026-05-16

百度把Nano Banana塞进4090，疯了？

2026-04-22

Kimi K2.6 开源了！还附送了 300 个 Agent 员工？

2026-04-21

Hermes 凭什么两个月接棒 OpenClaw？

2026-04-15

很多人突然不玩小龙虾而用Hermes Agent了。我替你试了，跟小龙虾到底有啥不同？

2026-04-09

震惊！刚刚，Anthropic掀了桌子：OpenClaude横空出世，大模型闭源时代彻底终结？

2026-04-01

英伟达的NemoClaw，能帮AI代理这匹“野马”套上缰绳吗？

2026-03-17

你的 AI Agent 真的在受控运行吗？

2026-03-13

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw