我要投稿

RAG构建知识库还在忍受慢和重？试试Rust原生ChromaDB，轻量、高速、易用！

发布日期：2025-09-03 12:18:03 浏览次数： 2550

作者：码农渔夫

微信搜一搜，关注“码农渔夫”

最近在做大模型RAG相关项目，了解一个向量数据库叫Chroma DB，使用Rust来开发的。

它的优点，开源的，简单轻量，容易上手，对CPU的依赖较低，更多是依赖内存来完成大规模数据，适合做一些矢量搜索、全文搜索等操作。

比较适合中小型项目，不需要过多复杂配置，功能丰富，支持嵌入式文档、查询、搜索嵌入、多模态检测，元数据过滤等。

基本使用很简单。

1、安装chroma DB库

pip install chromadb

2、创建 Client

import chromadb
 
// 有三种方式创建
#1 非持久化客户端
client = chromadb.Client() 

#2 持久化客户端
client = chromadb.PersistentClient(path="/chroma/myCollection") 

#3 http模式
client = chromadb.HttpClient(host='localhost', port=8000)

3、创建Collect

from datetime import datetime

collection = client.create_collection(
    name="my_collection",
    embedding_function=emb_fn,
    metadata={
        "description": "my first Chroma collection",
        "created": str(datetime.now())
    }
)

可以配置相关参数，name 标识 collect 名称，必填项；embedding_function是指定嵌入函数，可默认嵌入模型；metadata 元数据，如索引方式等（可选）。

4、写入

collection.add(
    ids=["id1", "id2", "id3", ...],
    embeddings=[[1.1, 2.3, 3.2], [4.5, 6.9, 4.4], [1.1, 2.3, 3.2], ...],
    documents=["doc1", "doc2", "doc3", ...],
    metadatas=[{"chapter": 3, "verse": 16}, {"chapter": 3, "verse": 5}, {"chapter": 29, "verse": 11}, ...],
    
)

参数解释：

ids 是指文本块唯一标识
embeddings是对于已经向量化的文本块，可以直接写入结果。注意，如不填，写入时默认的选嵌入函数进行向量化
document 是指原始的文本块
metadatas 是用来描述文本块的元数据，k-v键值对

5、查询

通过一个小案例；

import chromadb

# 初始化持久化客户端（数据保存到本地）
chroma_client = chromadb.PersistentClient(path="./chroma_data")

# 获取或创建集合（类似于数据库表）
collection = chroma_client.get_or_create_collection(name="my_documents")
# 准备要添加的数据
documents = [
"一只柯基在蹦蹦跳跳",
"一只小狗在奔跑",
"一只鸟在飞",
"汽车在高速公路上行驶",
"苹果是一种水果"
]
ids = ["id1", "id2", "id3", "id4", "id5"]
metadatas = [{"type": "动物"}, {"type": "动物"}, {"type": "动物"}, {"type": "交通工具"}, {"type": "植物"}]

# 将数据添加到集合中
collection.add(
documents=documents,
metadatas=metadatas,
ids=ids
)
# 执行相似性查询：查找与"蹦蹦跳跳的小狗"相似的文档
results = collection.query(
query_texts=["蹦蹦跳跳的小狗"],
n_results=3
)

# 打印查询结果
print("最相似的文档：", results['documents'])
print("对应的ID：", results['ids'])
print("相似度距离：", results['distances']) # 距离越小相似度越高