我要投稿

LEANN：200GB 压到 6GB，笔记本跑 RAG 不是梦

发布日期：2026-01-02 16:51:57 浏览次数： 2106

作者：云栈开源日记

微信搜一搜，关注“云栈开源日记”

开篇：做 RAG 应用，向量数据库动辄几十上百 GB，云服务费用一个月小几千。有个开源项目挺有意思，反着来——不存向量，只存关系图，6000 万文档只要 6GB。

先说痛点

去年给公司搭 RAG 系统，踩了不少坑：

云服务贵：Pinecone 免费额度用完，一个月账单 200 刀起
本地吃资源：试过 Milvus，100 万文档就要 30 多 GB，服务器内存直接吃满
数据出不去：金融客户要求数据不能上云，但本地机器配置有限

后来发现 LEANN 这个项目，思路挺特别。

怎么做到的？

常规方案 vs LEANN

常规做法：
文档 → 转成向量 → 全存硬盘 → 搜索时直接查
存储：201GB（6000 万文档）

LEANN 做法：
文档 → 建图索引 → 压缩关系 → 搜索时现算
存储：6GB（6000 万文档）

具体实现：

存图不存向量：用 CSR 格式存文档之间的关系，类似社交网络的好友关系图
砍掉冗余连接：保留重要节点，删掉多余的边（有点像 PageRank 的思路）
两步搜索：

先在图里快速找候选文档
再临时算这些候选的向量做精排

为啥能省这么多空间？

其实很简单：用户搜索只看前几条结果。

比如搜索只要前 10 条
图结构先筛出 100 个候选
只算这 100 个的向量就行，不用全存

边缘设备特别适合这个方案——硬盘小但 CPU 够用。

实际用起来怎么样

场景 1：本地文档搜索

from leann import LEANN

# 建索引
index = LEANN(backend="hnsw", dim=768)
index.build(documents)

# 搜索
results = index.search("分布式事务怎么做", top_k=5)

实测：

10 万份技术文档
占用 1.2GB（之前用 Qdrant 要 40GB）
查询 500ms 左右
前 3 条准确率 92%

场景 2：接入 Claude Code

配置成 MCP 服务器，给 Claude Code 加个语义搜索：

{
  "mcpServers": {
    "leann": {
      "command": "python -m leann.mcp",
      "env": {"INDEX_PATH": "./codebase"}
    }
  }
}

比 grep 关键词搜索聪明多了，能理解你想找什么。

场景 3：企业内网部署

某金融公司的案例：

需求：6000 万份合同要能全文检索
限制：数据不能出内网，服务器内存 32GB
方案：LEANN + DiskANN
结果：索引 6GB，1 秒内出结果，过了安全审计

几个设计亮点

后端可以换

# 数据少用 HNSW（省内存）
index = LEANN(backend="hnsw")

# 数据多用 DiskANN（省硬盘）
index = LEANN(backend="diskann")

代码没改，换个参数就行。

支持增量更新

# 先建基础索引
index.build(initial_docs)

# 后面慢慢加
for new_batch in stream:
    index.add(new_batch)

日志分析、监控这种持续写入的场景很方便。

完全离线跑

不用：

API Key
网络
外部数据库

对隐私要求高的团队来说，这点挺重要。

性能对比

指标	LEANN	传统方案
存储	6GB	201GB
延迟	<1 秒	<0.5 秒
召回率	>90%	>95%
部署难度	简单	复杂

取舍：慢一点点，准确率低一点点，但省了 97% 空间，不用运维。

适不适合你？

适合：

个人知识库（Obsidian、Notion 增强）
公司内网文档搜索
边缘设备 AI
数据不能上云的场景

不适合：

要求毫秒级响应（广告推荐）
高并发（QPS 上千）
必须 99% 准确率

上手试试

pip install leann

# 五行代码搞定
from leann import LEANN
index = LEANN()
index.build(your_documents)
index.save("my_index")
results = index.search("查询内容")

云栈社区（ https://yunpan.plus ）有人把它接到 Logseq、Zotero 里了，本地搜索体验不错。想深入了解向量数据库原理，可以看看数据库与中间件这块的资料。

几点思考

LEANN 这个项目给了我一些启发：

不是啥都要上云：本地能跑就本地跑
资源可以换：存储换计算，网络换延迟，看场景
没有银弹：合适比完美重要

现在大模型本地化、隐私计算越来越火，这类项目的思路值得关注。如果你在搭云原生架构或者研究 RAG 落地，可以参考一下

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-25

1.5K Star！网页提取神器 webclaw：让 AI 精准抓取网页核心内容！

2026-06-25

聊一聊检索即推理：基于LLM-Wiki的自演化智能体原生检索

2026-06-24

企业级 Agent 最缺的不是聪明，是"不敢编"——企查查智能体数据平台的三层反幻觉工程

2026-06-24

别再怪向量检索不行！90% RAG 检索拉胯，都是关键词提取在拖后腿

2026-06-24

别再把 RAG 当搜索框了：Bayer 这套 Agentic RAG，把上下文、反思、恢复和评测全焊进生产系统

2026-06-24

上生产GraphRAG的重活，SAG请外援解决了

2026-06-23

RAG之后，知识库开始自己长大

2026-06-23

AI 知识库开始分叉：LLM Wiki 和 GBrain 真正的差别

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

RAG进化了，深扒Claude Code源码中RAG高级技巧

2026-04-02

2026 年做搜索就是做 Agent Memory

2026-04-23

OpenDataLoader：PDF文档提取的一站式方案

2026-03-31

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

大家都在问

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

到底是谁会相信RAG已死啊？

2026-05-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw