颠覆直觉：Top N 越大，RAG效果可能越差

发布日期：2025-03-02 21:59:47 浏览次数： 2411

作者：大语言模型论文跟踪

微信搜一搜，关注“大语言模型论文跟踪”

一、RAG 系统的背景与挑战

在自然语言处理（NLP）领域，大型语言模型（LLMs）如 GPT、BERT 等已经展现出了强大的文本生成、问答和摘要能力。然而，这些模型也存在一些显著的局限性。

为了应对这些挑战，检索增强生成（Retrieval-Augmented Generation, RAG）系统应运而生。RAG 系统通过引入检索组件，使 LLMs 能够动态地利用外部知识源，从而生成更准确、更及时的回答。

RAG 系统已经在多个行业中得到广泛应用，尤其是在企业内部文档查询等场景中。然而，尽管 RAG 系统的应用日益广泛，关于其最佳配置的研究却相对缺乏，特别是在上下文大小、基础 LLM 选择以及检索方法等方面。

RAG 系统通常由两个主要组件构成：检索器（Retriever）和生成器（Reader）：

作者重点探讨了这三个方面（检索器、上下文、生成器）对系统整体性能的影响。

首先研究了上下文大小对生成器问答能力的影响。结果表明：随着上下文片段数量的增加，系统的性能逐步提升，但当片段数量达到 10 到 15 个时，性能开始趋于稳定，甚至在某些情况下会出现下降。这一现象表明，过多的上下文片段可能会导致信息过载，反而影响生成器的表现。

上图展示了四个较大尺寸的大语言模型（LLMs）在使用黄金片段后的表现，四个模型分别是GPT3.5、GPT-4o、Llama 3 70B、Mixtral (8x7B)。

所有模型都呈现出相似的模式：

使用了包含八千篇PubMed文章的小型知识库，这些文章在BioASQ中被用作黄金证据。

实验结果如上表所示，模型性能与之前有所下降。即使是表现最佳的Mixtral模型，其性能也平均下降。

尽管如此，随着选择的top k片段数量的增加，性能仍然逐步提升，表明更多的上下文信息能够带来更好的表现。

这一点在top-10设置中尤为明显，因为选择的证据片段越多，选中用于生成理想答案的黄金证据片段的概率就越高。

使用约1000万篇PubMed文章作为检索的知识库。其目的是观察：

上表结果显示：

从上表可以看出，BM25在整体性能上表现更优。由于BM25基于关键词匹配，这种检索技术优化了搜索结果的精确度（precision）而非召回率（recall），从而确保检索到的文档更有可能讨论问题中提到的相同概念（关键词）。

优化精确度并将查询关键词与知识库中的内容匹配，可以提升性能。特别是在生物医学领域等关键应用中，优化精确度和生成稳健的答案可能比语义搜索提供的召回率更为重要。

注：

• ROUGE-L 是一种基于最长公共子序列（LCS）的评估指标，主要用于衡量生成文本与参考文本之间的相似性。它关注生成文本中与参考文本匹配的最长连续子序列，侧重于召回率（Recall），即生成文本中有多少内容与参考文本一致。
• BERTScore 是一种基于预训练语言模型（如 BERT）的评估指标，通过计算生成文本与参考文本在语义空间中的相似性来评估质量。它使用 BERT 模型将文本编码为向量，然后计算生成文本与参考文本之间的余弦相似度。相比 ROUGE 等基于词汇重叠的指标，BERTScore 更能捕捉语义层面的相似性，适合评估生成文本的语义准确性。
• Ent.% 是基于自然语言推理（Natural Language Inference, NLI）模型的评估指标，用于衡量生成文本与参考文本之间的逻辑一致性（蕴含关系）。NLI 模型会判断生成文本是否逻辑上蕴含（Entailment）参考文本的内容。