RAG应用要如何吃到大模型长上下文的红利？-LongRAG

发布日期：2024-07-14 01:36:13 浏览次数： 2820

作者：NLP前沿

微信搜一搜，关注“NLP前沿”

碎碎念

去年底的时候，笔者写过，与其在RAG系统上雕花，可以重新思考一下，自己的业务场景是否非RAG不可吗？随着去年大模型的蓬勃发展，长度外推、更长的上下文模型，更厉害的中文底座大模型，都可以让整个系统的压力往生成部分上迁移。

后来笔者造了一个词，文档片段化。对于常规的pdf问答档问答，基本上都能使用单一的大模型覆盖到了。但是对于知识库，文档库的问答，似乎RAG还是必不可少的。但是如果生成模型能力更强了，那与其在思考如何去更好的解析文档结构，去划分块大小，不如放大维度，把更大粒度的文本，如文档，当作传统的块，可以省掉很多细碎的工作。

回归主题，RAG场景如何吃到大模型长上下文的红利？本文主要是分享新出的一个研究工作LongRAG，为了解决检索器和阅读器之间工作量不平衡的问题，文中提出了一个新的框架，称为 LongRAG，它包括一个“长检索器” （long retriever）和一个“长阅读器”(long reader - llm)。文档块变长很显然，long retriever应该如何设计才能保证召回效果（正确答案的块相比与短块包含了更多的噪声），这个是本文的核心内容。

LongRAG 将整个维基百科处理成4K-token的chunks，这比以前的chunk长度长了30倍。通过增加chunk大小，显著减少了总chunk数，从22M减少到600K。使用现有的长上下文大型语言模型（LLM）进行答案提取，在NQ数据集上，LongRAG将答案召回率@1从52%提高到71%，在HotpotQA数据集上，将答案召回率@2从47%提高到72%。LongRAG在不需要任何训练的情况下，取得了与经过微调的RAG模型相当的结果。

文章地址如下：

https://arxiv.org/html/2406.15319v1

框架对比图如下，相比于vanilla rag的模式（下图左），longrag采样更大的块大小（下图右），所以理论上上对long retriever上应该需要一些特别的操作。

long retriever

传统的 RAG 中，检索块 g 通常是从文档 d 中分离出来的一小段段落，包含数百个标记。在这里，g 可能与整个文档甚至多个文档一样长，所以像传统那样算相似度可能就会有比较多的噪声干扰了。

因此首先能合并在一起的文档那不能不太相关联，不然召回之后作为模型的上下文噪声太大了。所以第一步需要先进行一个文档分组，这个算法类似于以前的那种流式聚类，还是什么聚类，名词记不太清了。文档是否相关使用的文档的连边，类似于那种有结构层级的知识库的大目录信息。细看就是如下图，很好理解：

然后计算相似度，传统那样query-passage计算比较有难度，所以使用近似，算query和passage中的小块的最大相似度，这个小块的粒度是个实验维度，可能是段落，也可能是文档级，也可能是上面的文档组。

到这里，核心的算法原理部分基本就结束了，对了，还有一个超参数，对于小的文档块召回为了提高召回率，一般用比较大的k。但是这里不行了，论文中设置的k为4到8。

核心的实验

下图为，使用段落、文档、文档组召回，真实答案的召回率（最右边一行），召回数量更多，召回率肯定更高，这个没什么好说的。召回块越大，需要达到接近的召回率的top k越少。

最后

整体的结论在前面提过了，很优秀。块长度变长，信息包含的更多，可能很难用一个向量来表达完整的内容，所以longrag的更多的探索会发生在如何有效且精准的找到包含答案片段的大块。本文中使用的近似策略以及文档组的构建都是在这个领域，目前很少见的探索尝试，并提供了一些实验论证。

对于RAG整个框架的更多技术，PaperAgent团队RAG专栏进行过归纳总结：包含高级RAG之36技 & 一些实战

RAG全景图：从RAG启蒙到高级RAG之36技，再到终章Agentic RAG！

专栏试看：https://docs.qq.com/aio/DR0dBWm9WYlJNckxw?p=dIxns4m9ounpDQ9pRCV7zu

-END-

右下角，帮忙点点+

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-07-01

提升 RAG 准确率全攻略让你的 AI 知识库真正靠谱起来！

2026-06-30

教程：如何用AutoRAG + Milvus避免RAG 与Agent 中出现串租问题

2026-06-30

知识库不是文件堆——我把RAG准确率从60%调到了92%

2026-06-30

本体论语义建设新思路，另类RAG来解决检索问题

2026-06-30

别把RAG当架构：Ontology（本体）才是Agent的业务世界

2026-06-29

PixelRAG：伯克利团队颠覆传统 RAG，用截图代替文本检索! 28 天狂揽 3000+ Star！

2026-06-29

腾讯WeKnora开源详解（三）：检索引擎与生态集成

2026-06-29

腾讯开源WeKnora详解（二）：知识库与对话核心能力

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

全网爆火的大模型AI知识库，保姆级教程来了

2026-04-06

Karpathy的LLM Wiki + 3.5 万Star的Graphify：企业级 RAG 缺的真是知识图谱？

2026-04-27

2026 年做搜索就是做 Agent Memory

2026-04-23

Codeindex · 让大模型更好地理解你的代码

2026-04-20

阿里云百炼「记忆库」正式上线，让龙虾真正记住你！

2026-04-09

YC CEO 的 AI 记住了 3000 个人

2026-04-12

专题解读 | 可更新的检索增强知识库发展方向及进展

2026-04-22

AI 答疑助手优化实践：从 RAG 到 LightRAG 的全链路升级

2026-04-10

2026年知识库幻觉根治指南：从 Naive RAG 到 Agentic RAG

2026-05-14

RAG已死？不，是Grep回归了！

2026-04-30

大家都在问

谷歌发布OKF（Open Knowledge Format）规范，它与Karpathy的LLM-wiki是什么关系？

2026-06-23

RAG 的尽头，是 SQL？

2026-06-23

RAG运维如何用好Loop Engineering？Milvus 3.0 对它有什么价值？

2026-06-15

如何构建一个更“好”的知识库？

2026-06-10

企业 RAG 知识库落地，应如何设计实现？

2026-06-10

AIOps探索：给不能联网的客户做一个AI运维助手到底有多难？

2026-05-20

有多少人把Agent与RAG的检索策略，简化成了 if-else？

2026-05-18

到底是谁会相信RAG已死啊？

2026-05-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件 FDE AI+医疗 MaxKB Palantir Glean Openclaw