RAG挑战来袭：长上下文的LLMs会取代RAG系统吗？

发布日期：2024-08-13 12:36:07 浏览次数： 3125

作者：AI技术研习社

微信搜一搜，关注“AI技术研习社”

2023年，上下文LLMs窗口一般在4K-8K左右。但是，截至 2024 年 7 月，LLMs上下文窗口超过 128K 的情况很常见。

例如，Claude 2 有一个 100K 的上下文窗口。Gemini 1.5 声称有 2M 的上下文，后来的 LongRoPE 声称将LLM上下文窗口扩展到 200 万个令牌之外。此外，Llama-3–8B-Instruct-Gradient-4194k 的上下文长度为 4194K。使用LLMs时，上下文窗口的大小似乎不再是一个问题。

在Llama-3.1模型发布之前，开源模型与闭源模型之间的性能差距一直较为显著，尤其体现在对长上下文的理解能力上。开源模型在处理长文本时通常面临更大的挑战，其上下文理解和信息整合能力往往不及闭源模型。随着Llama-3.1的推出，这一差距有所缩小，开源模型在长上下文处理上的表现得到了显著提升。

最近，NVIDIA 研究团队在开源模型 Llama-3 的基础上，通过一系列创新技术显著提升了其上下文处理能力。他们将 Llama-3 的上下文长度从原有的 8K 扩展到了 128K，实现了上下文长度的 16 倍增长。经过这种扩展，Llama3-ChatQA-2-70B 模型在长上下文理解能力上已经超越了 GPT-4，展示了更强的性能和更深的理解能力。

扩展上下文长度具有以下优势：

更深入的理解：增加上下文长度使模型能够处理更大范围的信息，从而提高对复杂问题和长篇文本的理解能力。
增强的连贯性：模型能够在更长的对话或文本中保持主题的一致性和连贯性，提升了交互体验。
更丰富的信息提取：扩展的上下文长度允许模型提取和分析更多的信息，提供更全面的回答和解决方案。
支持复杂任务：在需要多步骤推理和复杂逻辑的任务中，模型能够更好地保持上下文，帮助用户完成更复杂的请求。
提高响应质量：通过整合更多的信息，模型可以生成更准确和相关的回复，提升用户满意度。
适应多样化场景：更长的上下文支持多种应用场景，如法律文档分析、长篇文章摘要等，满足不同用户的需求。
提升学习能力：扩展的上下文能够帮助模型学习更复杂的模式，从而在不同的上下文中表现得更加灵活和智能。

于是人们自然会问，既然大型语言模型（LLMs）已经具备处理大量数据的能力，那么为什么还需要构建一个检索增强生成（RAG）系统呢？

RAG 框架结合了向量数据库和LLM提示代码，代表了一种先进的技术，通过无缝集成外部资源来扩展语言模型的知识库，从而提供更精确且相关的答案。这种方法有效地应对了传统LLM面临的挑战，如幻觉和领域知识不足。

然而，随着 Gemini 在处理长上下文问题上表现出令人瞩目的进展，一些人开始预测 RAG 的衰退，在X上面大家展开了激烈的讨论。

观点一

例如，姚福博士在Twitter上评论Gemini 1.5 Pro时大胆提出，“10M环境将会淘汰RAG”。

观点二

也有人仍然认为 RAG 仍然是关键。Gemini 1.5 的 10M 上下文窗口令人印象深刻，但每次将数十万个文档或数百万个数据库行放入提示中是不可行的。数据获取速度、成本和效率等挑战仍然存在。

我认为，RAG 技术的发展仍处于初期阶段，并且将继续不断进步。尽管 Gemini 在处理扩展上下文方面表现优异，但它依然面临四大核心挑战：速度、价值、数量和多样性。对于这些封装成 4V 的持续挑战，Gemini 和其他系统都需要进一步的努力来应对。

目前长上下文还存在一些问题和遇到一些挑战

1. 速度：Gemini 在实现对广泛上下文的亚秒级响应时间方面面临障碍，在响应 360,000 个上下文时延迟了 30 秒就是明证。尽管人们对计算的进步持LLMs乐观态度，但对于基于Transformer的大型模型来说，在检索长上下文时，在亚秒级的快速响应仍然具有挑战性。

2. 价值：在长期上下文中生成高质量答案相关的大量推理成本削弱了其LLMs价值主张。例如，以每 1000 个令牌 0.0015 USD 的速率检索 100 万个数据集令牌可能会导致大量费用，单个请求可能达到 1.50 USD。这种成本因素使得如此高的支出对于日常使用来说是不切实际的，对广泛采用构成了重大障碍。

3. 容量：尽管 Gemini 能够处理多达 1000 万个令牌的大型上下文窗口，但与庞大的非结构化数据相比，Gemini 的容量相形见绌。例如，包括 Gemini 在内的任何，都LLM无法充分容纳 Google 搜索索引中发现的巨大数据规模。此外，私有企业数据必须保持在其所有者的范围内，所有者可以选择使用 RAG、训练自己的模型或使用私有 LLM。

4. 多样性：真实世界的用例不仅涉及非结构化数据，如冗长的文本、图像和视频，还涉及各种结构化数据，这些数据可能无法被用于LLM训练目的的各种结构化数据，例如时间序列数据、图形数据和代码更改。简化的数据结构和检索算法对于有效处理如此多样化的数据至关重要。所有这些挑战都凸显了在开发人工智能应用程序时采用平衡方法的重要性，这使得 RAG 在不断发展的人工智能领域中变得越来越重要。

与此同时，目前RAG也有一些更好的优化策略

1. 增强对长期上下文的理解

基于的LLMs新兴嵌入策略作为有效的解决方案获得了关注。它们拥有更好的嵌入能力，并支持扩展的上下文窗口。例如，SRF-Embedding-Mistral 和 GritLM7B 是 Huggingface MTEB 排行榜上性能最好的两个嵌入模型，它们支持 32k 个令牌长的上下文，展示了嵌入能力的实质性改进。这种嵌入非结构化数据的增强功能也提升了 RAG 对长上下文的理解。

2. BGE Landmark Embedding策略

另一种有效方法是最近发布的BGE Landmark Embedding策略。这种方法采用无分块架构，其中可以基于连贯的长上下文生成细粒度输入单元（例如句子）的嵌入。它还利用位置感知功能来促进对有用信息的完整检索，这些信息包括长上下文中的多个连续句子。因此，地标嵌入有利于提高RAG系统理解和处理长上下文的能力。

地标嵌入的体系结构。地标（LMK）标记将附加到每个句子的末尾。滑动窗口用于处理比 LLM的上下文窗口更长的输入文本。图片来源： https://arxiv.org/pdf/2402.11573.pdf

3. 利用混合搜索提高搜索质量

RAG 响应的质量取决于其检索高质量信息的能力。数据清洗、结构化信息抽取和混合搜索都是提高检索质量的有效途径。最近的研究表明，像 Splade 这样的稀疏向量模型在域外知识检索、关键词感知和许多其他领域都优于密集向量模型。

最近开源的 BGE_M3 嵌入模型可以在同一模型中生成稀疏、密集和类似 Colbert 的令牌向量。这项创新通过对不同类型的载体进行混合检索，显著提高了检索质量。值得注意的是，这种方法与 Zilliz 等矢量数据库供应商中广泛接受的混合搜索概念相一致。例如，即将发布的 Milvus 2.4 承诺对密集和稀疏向量进行更全面的混合搜索。

4. 解决众多算法挑战

要最大限度地发挥 RAG 功能，就需要解决众多算法挑战，并利用复杂的工程能力和技术。正如 Wenqi Glantz 强调的那样，开发 RAG 管道至少会带来 12 个复杂的工程挑战。要应对这些挑战，需要深入了解 ML 算法，并利用查询重写、意图识别和实体检测等复杂技术。