我要投稿

Zero-RAG，对冗余知识说“不”

发布日期：2025-11-06 06:57:14 浏览次数： 1513

作者：PaperToday

微信搜一搜，关注“PaperToday”

一、LLM 越学越满，RAG 却越搬越重

图 1：知识冗余示意图

(a) Llama3.3-70B 在四个 Wikipedia 风格 QA 数据集上裸模型 Exact-Match 召回 ≥40%——说明近一半问题模型本来就会。
(b) 把对应维基段落再送进上下文，准确率反而掉 20 分——冗余知识成了"噪声"。

结论：外部 corpus 与模型内部知识高度重叠，继续"全量检索"≈ 白花钱、拖延迟、降效果。

二、30% 维基百科可删，22% 延迟立降，效果不减

复旦大学邱锡鹏提出Zero-RAG。首先提出了"掌握度评分"这一指标，用以精准识别RAG知识库中的冗余知识并进行剪除。经过剪枝后，对于模型已"掌握"的问题，其回答将主要依赖模型自身的内部知识。

表 1：主实验汇总（Llama3-70B vs Llama3.3-70B）

在 TriviaQA、EntityQuestions、PopQA、HotpotQA 上砍掉 30% corpus，EM 掉点 <2；砍 70% 也才掉 3 分左右。
检索延迟平均降低22%（表 4）。
经过 Noise-Tolerant Tuning 后，部分数据集反超市售全库 RAG。

一句话："零冗余"不是口号，是真能剪、真加速、真不掉点。

三、技术方案Zero-RAG

图 4：Zero-RAG 四阶段流水线

3.1 Mastery-Score —— 给每条句子打"掌握度"

图 3：Mastery-Score 计算流程

用 LLM 对句子 s 生成 n 组 QA。
让同一 LLM 回答这 n 个问题，算 Exact-Match 均值 ⇒ M(s)。
训练一个小回归模型预测 M(s)，按百分位阈值 τ 直接删掉高分句子（算法见附录 A.1）。

结果：138M 句维基 → prune 30% 后索引体积同比例缩小。

3.2 Query Router ——"会不会"先问模型，别急着搜

表 3：消融实验

把训练集问题先让 Noise-Tolerant 模型自答，能答对的标 mastered。
二分类器学习"是否 mastered"，推理时 mastered 问题直接不走检索，减少延迟 + 避免噪声。

消融显示：拿掉 Router 后 EM 显著下降，证明多检索一次反而添乱。

3.3 Noise-Tolerant Tuning —— 万一搜到废文档，也要稳住

训练数据三种配方：

只给问题 → 答案（无 RAG）
问题 + 相关文档 → 答案
问题 + 随机噪声文档 → 答案

统一损失让模型学会忽略无用片段，靠内部知识作答。
经此微调，即使在 prune 后 corpus 里偶尔捞出无关句，模型也能"视而不见"。

四、一图带走：Zero-RAG 到底剪了什么？

表 6：案例研究

❝
句子："Queen Victoria became Empress of India in 1876."
生成的 4 个 QA 全被 Llama3-70B 裸机答对 ⇒ Mastery-Score=1 ⇒ 直接剪除。

这些"教科书级别"的常识，就是 Zero-RAG 眼中该被"零冗余"的靶子。

Zero-RAG: Towards Retrieval-Augmented Generation with Zero
Redundant Knowledge
https://arxiv.org/pdf/2511.00505

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-11-06

RFT目前(在应用层)仍然是被低估的

2025-11-05

从 RAG 到 Agentic RAG，再到 Agent Memory：AI 记忆的进化三部曲

2025-11-05

万字详解Naive RAG超进化之路：Pre-Retrieval和Retrieval优化

2025-11-05

别只调模型！RAG 检索优化真正该测的，是这三件事

2025-11-04

大模型生态的“不可能三角”：规模化应用的架构困境？

2025-10-31

Dify知识库从Demo到生产：RAG构建企业级私有知识库的7个关键步骤

2025-10-31

RAGFlow 深度介绍

2025-10-29

RAG—Chunking策略实战｜得物技术

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

RAG彻底爆了！一文掌握其效果优化的架构设计及核心要点

2025-09-15

从原理到落地：RAG 技术全解析，手把手教你搭建专属知识库

2025-09-02

优化 GraphRAG：LightRAG的三大改进

2025-08-18

RAG系统全景：架构详解与落地实践指南

2025-08-25

高质量AI知识库应用的前提：选对向量数据库

2025-08-25

一文搞懂大模型：何为深入理解RAG？

2025-08-25

DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？

2025-09-03

万字长文详解腾讯优图RAG技术的架构设计与创新实践

2025-09-08

别再往AI的知识库塞奇怪的东西了，什么样的知识适合作为RAG知识库？

2025-08-20

RAG检索后如何应用更有效？

2025-08-28

大家都在问

大模型生态的“不可能三角”：规模化应用的架构困境？

2025-11-04

Embedding与Rerank：90%的RAG系统都搞错了！为什么单靠向量检索会毁了你的AI应用？

2025-10-04

存算一体破局向量检索瓶颈，IBM放出王炸VSM：性能飙升100倍，能效碾压GPU千倍，RAG要变天？

2025-09-30

您应该为您的 RAG 系统使用哪种分块技术？

2025-09-10

关于多模态应用的几个疑问，以及多模态应该怎么应用于RAG？

2025-09-10

DeepMind爆火论文：向量嵌入模型存在数学上限，Scaling laws放缓实锤？

2025-09-03

RAG检索后如何应用更有效？

2025-08-28

一文搞懂大模型：何为深入理解RAG？

2025-08-25

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB