2026年6月11日 周四晚上19:30,报名腾讯会议了解“业务抓夹如何成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

别再傻傻分块了:这个开源引擎让RAG准确率飙升260%

发布日期:2026-06-10 06:23:39 浏览次数: 1561
作者:码间 AI

微信搜一搜,关注“码间 AI”

推荐语

别再在RAG分块上浪费时间了,这个开源引擎从数据源头重构知识单元,让准确率实现质的飞跃。

核心内容:
1. 传统RAG分块策略的根本缺陷与问题根源
2. Blockify引擎如何用IdeaBlock重构知识表示
3. 从数据预处理层解决检索准确性的核心思路

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
封面图

别再傻傻分块了:这个开源引擎让 RAG 准确率飙升 260%

原文作者:@_avichawla(X/Twitter)
编译 + 楠哥解读

PART 01

PART 01 传统 RAG 的致命缺陷

先说一个你可能已经隐约感觉到但没有量化过的事实:传统 RAG 管线里的「分块」策略,从根本上就是错的。

传统RAG的问题

大多数 RAG 系统的做法是:把文档切成固定大小的文本块,扔进向量数据库,然后指望余弦相似度能帮你捞出正确的上下文。

但问题是——

  • 分块会在句子中间一刀切断,上下文支离破碎
  • 同一段内容可能在 SharePoint、Confluence、邮件、Jira 里各存一份,向量数据库里全是近似重复
  • 更致命的是:分块本身不携带任何版本信息、权限级别或来源权威性。一个过期的草稿和最新审批版本,在嵌入模型眼里长得一模一样

当过期内容和最新内容同时被检索为上下文,LLM 没有任何信号来判断该信哪个。于是它把两份矛盾的信息混在一起,开始胡编乱造。

问题不在检索,而在表示。 单元本身就是错的,修复必须发生在检索之前、数据层。

楠哥说:这段话一针见血。很多人在 RAG 上调参、换模型、加 reranker,但根源问题在于:你喂给向量数据库的「食材」本身就是坏的。与其在下游打补丁,不如从数据预处理层重新来过。

PART 02

PART 02 Blockify:从数据层重新定义 RAG 的输入

Blockify 是一个开源的数据预处理引擎,专门解决上述问题。

Blockify架构概览

它的定位非常清晰:坐在文档解析器和向量数据库之间,把原始文本转化成一种叫做 IdeaBlock 的结构化知识单元。

一个 IdeaBlock 长这样:

 

   

   

   

    programmers write, debug, and optimize code. 

   

   

     

     

   

   

 

注意几个关键设计:

  • critical_question + trusted_answer:每个知识单元自带一个它能回答的问题和经过验证的答案。这和 HyDE(假设文档嵌入)思路异曲同工——让查询嵌入和真实查询在向量空间里更接近
  • tags + entity + keywords:携带元数据,支持按版本、权限、来源进行排序,不再只靠相似度
  • 语义完整性:每个 IdeaBlock 是一个自包含的知识单元,通常是 2-3 句话,隔离了一个事实或概念
楠哥说:IdeaBlock 的设计哲学是「问答对」而不是「文本段」。这不是偶然——用户查 RAG 系统的方式就是提问。让数据的表示方式匹配查询方式,这才是正道。

PART 03

PART 03 两阶段处理管线:Ingest + Distill

Blockify处理管线

Blockify 的处理管线分为两个阶段:

阶段一:Ingest(摄取)

  1. 上下文感知分块:不是暴力切 512 token,而是找到自然断点——段落边界、章节切换、话题转变
  2. LLM 结构化提取:每个分块交给一个专用 LLM,提取出 IdeaBlock 格式的结构化知识单元
  3. 问答对生成:每个单元配对一个情境化的问题和答案,确保查询嵌入更接近真实用户查询
  4. 元数据标注:自动提取实体名称、实体类型、版本号、权限级别

阶段二:Distill(蒸馏)

这是 Blockify 的精华所在:

  1. 向量嵌入:为所有 IdeaBlock 生成嵌入向量
  2. LSH 局部敏感哈希:当数据集超过 50 条时,自动启用 LSH 分桶,将 O(n^2) 的两两比较降低到亚二次复杂度
  3. 相似度聚类:用余弦相似度找相似对,然后用 Louvain 社区发现算法(大数据集)或 BFS(小数据集)生成非重叠聚类
  4. LLM 智能合并:每个聚类交给 LLM 做去重合并——不是简单取平均,而是保留每个独立事实,消除冗余
  5. 迭代蒸馏:整个过程多轮迭代,每轮逐步提高相似度阈值,直到没有可合并的聚类

从源码可以看到,蒸馏服务是一个完整的 FastAPI 微服务,支持:

  • 并行 LLM 合并:可配置的并行线程数,加速大集群处理
  • 层级子聚类:使用 sqrt(n)*2 公式控制集群大小,避免 LLM 上下文溢出
  • UUID 确定性排序:保证处理结果可复现
  • 进度报告和中间保存:支持长时间运行的任务
楠哥说:读完源码我最欣赏的一点是,Blockify 没有为了「纯学术」而堆砌复杂度。LSH 在小数据集自动关闭,聚类算法按规模自动切换,LLM 调用有重试和超时机制——这些都是工程化的决策,说明团队是真的想把这个东西用在生产环境里。

PART 04

PART 04 惊人的性能数据

性能对比

来看 Blockify 公布的基准测试数据:

指标数据含义
语料压缩率40x(原始大小的 2.5%)100 万文档 → 约 2.5 万个 IdeaBlock
信息保真度99%+压缩后几乎不丢事实
向量搜索相关性2.3x 提升用余弦距离衡量
每次查询 token 消耗从 1500 降到 500(3x)传统 top-5 分块 vs top-5 IdeaBlock
医疗 RAG 基准最高 650% 准确率提升用量化版 Llama 3.2 3B 在设备端运行
综合性能提升78x所有因素加权

最关键的是医疗领域的数据:同样的管线,在临床级 RAG 基准测试中,用一个 3B 参数的量化模型跑出了 260% 的准确率提升,极端场景下达到 650%。

这意味着什么?你不需要更大的模型,你需要更好的数据。 一个小模型配高质量 IdeaBlock,效果远超大模型配原始分块。

Blockify演示
楠哥说:「更好的数据 > 更大的模型」这个结论在 AI 领域反复被验证。从 LIMA 论文的「高质量数据 1000 条就够」到 Blockify 的 40 倍压缩,核心逻辑是一致的:垃圾进垃圾出,精粮进精粮出。

PART 05

PART 05 源码拆解:技术架构一览

从 GitHub 仓库来看,Blockify 的技术栈相当扎实:

核心模块

  • DedupeAlgorithm(去重算法):迭代式聚类 + LLM 合并的核心引擎
  • LSHIndex(局部敏感哈希):10 张哈希表、8 位哈希,用随机超平面做余弦相似度的近似分桶
  • BlockifyLLM(LLM 集成):调用 Blockify 的 distill 模型做智能合并,支持重试和超时
  • OpenAIEmbeddingGenerator(嵌入生成):用 OpenAI 的嵌入模型生成向量

基础设施

  • FastAPI 微服务 + Docker + Helm Chart
  • Prometheus 指标 + OpenTelemetry 追踪
  • SQLite / PostgreSQL / Redis / 文件系统后端可选
  • 12 个平台集成指南:LlamaIndex、LangChain、Obsidian、Milvus、Elastic、Supabase、Cloudflare Vectorize 等

特别值得一提的是:仓库里自带一个 Claude Code Skill,可以直接在开发环境里跑完整的 Ingest + Distill 管线。对于想快速试用的开发者来说非常友好。

楠哥说:作为一个开源项目,Blockify 的工程质量让我印象深刻。它不是那种「发个论文附个 demo」的学术项目,而是一个有完整 Docker 部署、Helm 图表、可观测性的生产级工具。社区协议授权(Community License)也意味着你可以免费用在商业场景。

PART 06

PART 06 对比传统方案:为什么 IdeaBlock 优于固定分块

让我们做一个直观对比:

传统固定分块

原始文档 → 切成 512 token 的块 → 嵌入 → 存入向量库 → 检索 top-5 → 丢给 LLM 

问题:

  • 分块边界随机,语义不完整
  • 重复内容膨胀 token 消耗
  • 无版本/权限元数据,过期内容混入
  • LLM 收到的是一段可能包含答案的段落

Blockify IdeaBlock

原始文档 → 上下文感知分块 → LLM 提取 IdeaBlock → 嵌入 → LSH+聚类去重 → 存入向量库 → 检索 top-5 → 丢给 LLM 

优势:

  • 每个单元是完整独立的知识点
  • 去重后体积只有原始的 2.5%
  • 自带元数据支持治理和排序
  • LLM 收到的是直接回答问题的精炼答案

核心差异:传统方案让 LLM 从一段话里「找答案」,Blockify 让 LLM 直接「用答案」。

PART 07

PART 07 这件事的更大意义

Blockify 的出现代表了一个趋势:RAG 的竞争正在从「模型层」下沉到「数据层」。

过去两年,大家拼的是谁的向量模型更好、谁的 reranker 更强、谁的 prompt engineering 更巧妙。但 Blockify 提醒我们:如果你的底层数据表示就是错的,上层的所有优化都是在沙子上建城堡。

这让我想起一个类比:传统 RAG 就像把图书馆的书撕成纸条随机贴在墙上,然后让人去找信息。Blockify 则是给每张纸条写上标题、摘要、分类、来源,再去重归档。前者靠运气,后者靠系统。

对于正在构建 RAG 系统的团队,我的建议是:在调模型之前,先审视你的数据管线。 Blockify 是目前开源世界里最有说服力的「数据层 RAG 优化」方案,值得认真评估。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询