我要投稿

别再傻傻分块了：这个开源引擎让RAG准确率飙升260%

发布日期：2026-06-10 06:23:39 浏览次数： 1561

作者：码间 AI

微信搜一搜，关注“码间 AI”

别再傻傻分块了：这个开源引擎让 RAG 准确率飙升 260%

原文作者：@_avichawla（X/Twitter）
编译 + 楠哥解读

PART 01

PART 01 传统 RAG 的致命缺陷

先说一个你可能已经隐约感觉到但没有量化过的事实：传统 RAG 管线里的「分块」策略，从根本上就是错的。

大多数 RAG 系统的做法是：把文档切成固定大小的文本块，扔进向量数据库，然后指望余弦相似度能帮你捞出正确的上下文。

但问题是——

分块会在句子中间一刀切断，上下文支离破碎
同一段内容可能在 SharePoint、Confluence、邮件、Jira 里各存一份，向量数据库里全是近似重复
更致命的是：分块本身不携带任何版本信息、权限级别或来源权威性。一个过期的草稿和最新审批版本，在嵌入模型眼里长得一模一样

当过期内容和最新内容同时被检索为上下文，LLM 没有任何信号来判断该信哪个。于是它把两份矛盾的信息混在一起，开始胡编乱造。

问题不在检索，而在表示。 单元本身就是错的，修复必须发生在检索之前、数据层。

楠哥说：这段话一针见血。很多人在 RAG 上调参、换模型、加 reranker，但根源问题在于：你喂给向量数据库的「食材」本身就是坏的。与其在下游打补丁，不如从数据预处理层重新来过。

PART 02

PART 02 Blockify：从数据层重新定义 RAG 的输入

Blockify 是一个开源的数据预处理引擎，专门解决上述问题。

它的定位非常清晰：坐在文档解析器和向量数据库之间，把原始文本转化成一种叫做 IdeaBlock 的结构化知识单元。

一个 IdeaBlock 长这样：

 
    programmers write, debug, and optimize code.

注意几个关键设计：

critical_question + trusted_answer：每个知识单元自带一个它能回答的问题和经过验证的答案。这和 HyDE（假设文档嵌入）思路异曲同工——让查询嵌入和真实查询在向量空间里更接近
tags + entity + keywords：携带元数据，支持按版本、权限、来源进行排序，不再只靠相似度
语义完整性：每个 IdeaBlock 是一个自包含的知识单元，通常是 2-3 句话，隔离了一个事实或概念

楠哥说：IdeaBlock 的设计哲学是「问答对」而不是「文本段」。这不是偶然——用户查 RAG 系统的方式就是提问。让数据的表示方式匹配查询方式，这才是正道。

PART 03

PART 03 两阶段处理管线：Ingest + Distill

Blockify 的处理管线分为两个阶段：

阶段一：Ingest（摄取）

上下文感知分块：不是暴力切 512 token，而是找到自然断点——段落边界、章节切换、话题转变
LLM 结构化提取：每个分块交给一个专用 LLM，提取出 IdeaBlock 格式的结构化知识单元
问答对生成：每个单元配对一个情境化的问题和答案，确保查询嵌入更接近真实用户查询
元数据标注：自动提取实体名称、实体类型、版本号、权限级别

阶段二：Distill（蒸馏）

这是 Blockify 的精华所在：

向量嵌入：为所有 IdeaBlock 生成嵌入向量
LSH 局部敏感哈希：当数据集超过 50 条时，自动启用 LSH 分桶，将 O(n^2) 的两两比较降低到亚二次复杂度
相似度聚类：用余弦相似度找相似对，然后用 Louvain 社区发现算法（大数据集）或 BFS（小数据集）生成非重叠聚类
LLM 智能合并：每个聚类交给 LLM 做去重合并——不是简单取平均，而是保留每个独立事实，消除冗余
迭代蒸馏：整个过程多轮迭代，每轮逐步提高相似度阈值，直到没有可合并的聚类

从源码可以看到，蒸馏服务是一个完整的 FastAPI 微服务，支持：

并行 LLM 合并：可配置的并行线程数，加速大集群处理
层级子聚类：使用 sqrt(n)*2 公式控制集群大小，避免 LLM 上下文溢出
UUID 确定性排序：保证处理结果可复现
进度报告和中间保存：支持长时间运行的任务

楠哥说：读完源码我最欣赏的一点是，Blockify 没有为了「纯学术」而堆砌复杂度。LSH 在小数据集自动关闭，聚类算法按规模自动切换，LLM 调用有重试和超时机制——这些都是工程化的决策，说明团队是真的想把这个东西用在生产环境里。

PART 04

PART 04 惊人的性能数据

来看 Blockify 公布的基准测试数据：

指标	数据	含义
语料压缩率	40x（原始大小的 2.5%）	100 万文档 → 约 2.5 万个 IdeaBlock
信息保真度	99%+	压缩后几乎不丢事实
向量搜索相关性	2.3x 提升	用余弦距离衡量
每次查询 token 消耗	从 1500 降到 500（3x）	传统 top-5 分块 vs top-5 IdeaBlock
医疗 RAG 基准	最高 650% 准确率提升	用量化版 Llama 3.2 3B 在设备端运行
综合性能提升	78x	所有因素加权

最关键的是医疗领域的数据：同样的管线，在临床级 RAG 基准测试中，用一个 3B 参数的量化模型跑出了 260% 的准确率提升，极端场景下达到 650%。

这意味着什么？你不需要更大的模型，你需要更好的数据。 一个小模型配高质量 IdeaBlock，效果远超大模型配原始分块。

楠哥说：「更好的数据 > 更大的模型」这个结论在 AI 领域反复被验证。从 LIMA 论文的「高质量数据 1000 条就够」到 Blockify 的 40 倍压缩，核心逻辑是一致的：垃圾进垃圾出，精粮进精粮出。

PART 05

PART 05 源码拆解：技术架构一览

从 GitHub 仓库来看，Blockify 的技术栈相当扎实：

核心模块

DedupeAlgorithm（去重算法）：迭代式聚类 + LLM 合并的核心引擎
LSHIndex（局部敏感哈希）：10 张哈希表、8 位哈希，用随机超平面做余弦相似度的近似分桶
BlockifyLLM（LLM 集成）：调用 Blockify 的 distill 模型做智能合并，支持重试和超时
OpenAIEmbeddingGenerator（嵌入生成）：用 OpenAI 的嵌入模型生成向量

基础设施

FastAPI 微服务 + Docker + Helm Chart
Prometheus 指标 + OpenTelemetry 追踪
SQLite / PostgreSQL / Redis / 文件系统后端可选
12 个平台集成指南：LlamaIndex、LangChain、Obsidian、Milvus、Elastic、Supabase、Cloudflare Vectorize 等

特别值得一提的是：仓库里自带一个 Claude Code Skill，可以直接在开发环境里跑完整的 Ingest + Distill 管线。对于想快速试用的开发者来说非常友好。

楠哥说：作为一个开源项目，Blockify 的工程质量让我印象深刻。它不是那种「发个论文附个 demo」的学术项目，而是一个有完整 Docker 部署、Helm 图表、可观测性的生产级工具。社区协议授权（Community License）也意味着你可以免费用在商业场景。

PART 06

PART 06 对比传统方案：为什么 IdeaBlock 优于固定分块

让我们做一个直观对比：

传统固定分块

原始文档 → 切成 512 token 的块 → 嵌入 → 存入向量库 → 检索 top-5 → 丢给 LLM 

问题：

分块边界随机，语义不完整
重复内容膨胀 token 消耗
无版本/权限元数据，过期内容混入
LLM 收到的是一段可能包含答案的段落

Blockify IdeaBlock

原始文档 → 上下文感知分块 → LLM 提取 IdeaBlock → 嵌入 → LSH+聚类去重 → 存入向量库 → 检索 top-5 → 丢给 LLM 

优势：

每个单元是完整独立的知识点
去重后体积只有原始的 2.5%
自带元数据支持治理和排序
LLM 收到的是直接回答问题的精炼答案

核心差异：传统方案让 LLM 从一段话里「找答案」，Blockify 让 LLM 直接「用答案」。

PART 07

PART 07 这件事的更大意义

Blockify 的出现代表了一个趋势：RAG 的竞争正在从「模型层」下沉到「数据层」。

过去两年，大家拼的是谁的向量模型更好、谁的 reranker 更强、谁的 prompt engineering 更巧妙。但 Blockify 提醒我们：如果你的底层数据表示就是错的，上层的所有优化都是在沙子上建城堡。

这让我想起一个类比：传统 RAG 就像把图书馆的书撕成纸条随机贴在墙上，然后让人去找信息。Blockify 则是给每张纸条写上标题、摘要、分类、来源，再去重归档。前者靠运气，后者靠系统。

对于正在构建 RAG 系统的团队，我的建议是：在调模型之前，先审视你的数据管线。 Blockify 是目前开源世界里最有说服力的「数据层 RAG 优化」方案，值得认真评估。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-06-10

如何构建一个更“好”的知识库？

2026-06-10

7.9K星：Google黑科技TurboQuant开源实现，Rust重写向量检索提速30倍

2026-06-10

企业级智能体系统 RAG的分片优化逻辑

2026-06-10

Vector Graph RAG 开源！一套向量数据库同时搞定语义检索+RAG多跳

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

知识库分层编排：从 RAG 到 Agent-native Knowledge Context Layer

2026-06-10

RAG 优化 20 法：从"搜得到"到"答得好"

2026-06-10

企业 RAG 知识库落地，真正难的不是调用大模型

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

知识基座：让“AI 越用越懂业务”的团队经验实践【天猫AI Coding实践系列】

2026-03-23

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

从RAG到GraphRAG：货拉拉元数据检索应用实践

2026-03-18

为什么总感觉 Claude Code 比 Cursor 聪明？真正的原因根本不是模型能力！

2026-03-20

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

RAG进化了，深扒Claude Code源码中RAG高级技巧

2026-04-02

OpenDataLoader：PDF文档提取的一站式方案

2026-03-31

面向手机Agent的记忆系统工程:OPPO的Agentic-RAG实战与演进

2026-03-21

企业AI落地三重门，用友如何破局？

2026-03-17

2026 年做搜索就是做 Agent Memory

2026-04-23

大家都在问

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

到底是谁会相信RAG已死啊？

2026-05-11

1G内存检索2500万向量，Milvus中如何用FLAT在强标量过滤场景搞定毫秒响应？

2026-05-07

多Agent场景，子agent 之间数据读写不同步，如何解决？

2026-05-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw