微信扫码
添加专属顾问
我要投稿
今天分享一个英伟达的最新研究,属于是在长上下文阶段为RAG的一次辩护。因为随着长文本LLM的出现,这些模型能处理更长的文本序列,RAG似乎变得不那么重要了。
In Defense of RAG in the Era of Long-Context Language Models
检索增强生成(RAG)克服了早期LLMs中有限的上下文限制,过去一直是基于上下文的答案生成的可靠解决方案。最近,长上下文LLMs的出现使得模型能够包含更长的文本序列,这使得 RAG 的吸引力下降。最近的研究表明,长上下文LLMs在长上下文应用中显着优于 RAG。与现有的偏爱长语境LLM而不是 RAG 的研究不同,我们认为LLMs中的极长语境会导致对相关信息的关注度降低,并导致答案质量的潜在下降。本文重新审视长上下文答案生成中的 RAG。我们提出了一种顺序保留检索增强生成(OP-RAG)机制,该机制显着提高了 RAG 在长上下文问答应用中的性能。使用OP-RAG,随着检索块数量的增加,答案质量先上升,然后下降,形成倒U形曲线。与将整个上下文作为输入的长上下文LLM相比,OP-RAG 可以用更少的标记获得更高的答案质量。对公共基准的大量实验证明了我们的 OP-RAG 的优越性。
OP-RAG是个什么东西呢?
传统的RAG,检索与查询最相关的前k个文本块。按照相似度排序之后,按照一定的顺序放在大模型的prompt中。
与传统RAG将检索到的文本块按相关性降序排列不同,OP-RAG保持了这些文本块在原文中的顺序。也就是说,如果一个文本块在原文中出现在另一个文本块之前,那么在处理答案时,它也会被放在前面。
论文里做了一系列的实验,结果表明,OP-RAG在长文本问答任务中的表现比传统的RAG和长文本LLM都要好。特别是在使用Llama3.1-70B模型时,OP-RAG在只使用16K tokens的情况下,就达到了44.43的F1分数,而没有使用RAG的Llama3.1-70B,即使用了128K tokens,也只得到了34.32的F1分数。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-03-23
知识基座:让“AI 越用越懂业务”的团队经验实践【天猫AI Coding实践系列】
2026-03-21
面向手机Agent的记忆系统工程:OPPO的Agentic-RAG实战与演进
2026-03-20
为什么总感觉 Claude Code 比 Cursor 聪明?真正的原因根本不是模型能力!
2026-03-18
从RAG到GraphRAG:货拉拉元数据检索应用实践
2026-03-17
企业AI落地三重门,用友如何破局?
2026-03-16
Java 开发者的轻量级 RAG 方案:MeiliSearch 混合搜索实战
2026-03-11
Embedding相似度虚高,如何用langchain+Milvus搭建CRAG解决?
2026-03-11
上下文腐烂:拖垮企业AI与LLM表现的隐患与对策
2026-01-15
2026-01-02
2026-02-13
2025-12-31
2026-02-03
2026-01-06
2026-02-03
2025-12-29
2026-02-06
2026-01-28
2026-03-17
2026-03-11
2026-02-22
2026-02-15
2026-02-04
2026-02-03
2026-01-19
2026-01-12