RAG检索增强生成最佳实践

发布日期：2024-09-03 05:48:05 浏览次数： 2949

作者：AI算法之道

微信搜一搜，关注“AI算法之道”

引子

检索增强生成（RAG）RAG 过程十分复杂，包含众多组成部分。我们如何确定现有的 RAG 方法及其最佳组合，以确定最佳的 RAG 实践？

本文分为四个主要部分。首先，介绍典型的 RAG 流程。然后，介绍每个 RAG 模块的最佳实践。然后是全面评估。最后，分享我的想法和见解，并进行总结。

RAG工作流程

典型的RAG工作流程如下：

图 1：检索-增强生成工作流程

典型的 RAG 工作流程包括以下几个中间处理步骤：

查询分类：确定输入查询是否需要检索
检索：有效获取和查询相关的文件
重新排序：根据相关性优化检索文件的顺序
重新打包：将检索到的文件整理成结构化形式
总结：提取关键信息以生成回复并消除冗余

如上图所示，实施 RAG 还需要决定如何将文档分割成块，选择使用哪种嵌入式语义表示，选择合适的向量数据库以高效存储特征，以及找到微调 LLM 的有效方法。

查询分类

为什么需要查询分类？并非所有查询都需要加强检索，因为 LLM 具有一定的能力。虽然 RAG 可以提高准确性并减少幻觉，但频繁检索会增加响应时间。因此，我们首先需要对用户的查询进行分类，以确定是否需要检索。一般来说，当需要超出模型参数的知识时，才建议使用检索。

我们可以根据任务是否提供足够的信息，将其分为 15 种类型，并显示具体的任务和示例。完全基于用户提供的信息的任务被标记为 "sufficient"，不需要检索；反之，则被标记为 "insufficient"，可能需要检索。

图 2：不同任务的检索要求分类

这一分类过程是通过训练分类器自动完成的。

图 3：查询分类器的结果

分块

在 LLM 中，将文档分成较小的块对于提高检索准确性和避免长度问题至关重要。一般有三个层次：

标记级分块法简单明了，但可能会分割句子，影响检索质量。
语义级分块使用 LLM 来确定断点，保留了上下文，但需要更多时间。
句子级分块在保留文本语义与简洁高效之间取得了平衡。

在此，我们采用了句子级分块技术，以在简洁性和语义保留之间取得平衡。分块过程将从以下几个方面进行评估。

Chunk Size 分块尺寸：分块尺寸大小对性能有很大影响。较大的语块能提供更多的语境，增强理解能力，但会增加处理时间。较小的语块可提高记忆率并缩短时间，但可能缺乏足够的语境。

如上图所示，使用了两个主要指标：忠实性和相关性。忠实度衡量的是回复是幻觉还是与检索到的文本相匹配。相关性衡量检索到的文本和回复是否与查询相符。

Chunk 组织形式：结果如下图所示。较小的块大小为 175 个字节，较大的块大小为 512 个字节，块重叠为 20 个字节。
嵌入模型的选择：如下图所示，LLM-Embedder 取得了与 BAAI/bge-large-en 相当的结果，但体积仅为其三分之一。因此，我们推荐选择 LLM-Embedder 来平衡性能和大小。

矢量数据库

对五个开源矢量数据库进行了详细比较：Weaviate、Faiss、Chroma、Qdrant 和 Milvus。

对比观察，Milvus 在接受评估的数据库中脱颖而出，不仅符合所有基本标准，而且在性能上优于其他开源选项。

检索

对于用户查询，检索模块会根据文档的相似度，从预先构建的语料库中选择与查询向量最相关的前 k 个文档。

下面将对三种与检索相关的技术及其组合进行评估：

查询重写：这项技术可以改进查询，以便更好地匹配相关文档。受重写-检索-阅读框架的启发，我们促使 LLM 重写查询以提高性能。
查询分解：这种方法根据从原始查询中提取的子问题检索文档。这些子问题通常更为复杂，难以理解和处理。
伪文档生成：这种方法根据用户的查询生成一个假设文档，并使用假设答案的嵌入来检索类似文档。HyDE 就是一种著名的实现方法。

不同检索方法的结果

上图显示，有监督方法明显优于无监督方法。通过结合 HyDE 和混合搜索，LLM-Embedder 获得了最高分。因此，建议使用 HyDE + 混合检索作为默认检索方法。混合检索结合了稀疏检索和密集检索，能以相对较低的延迟实现高性能

重新排序

在初始搜索之后，重新排序阶段会增强检索文件的相关性，确保最相关的信息出现在列表的顶部。我们考虑了两种主要方法：

DLM 重新排序：这种方法使用深度语言模型（DLM）进行重新排序。这些模型经过微调，可将文档与查询的相关性分为 "真 "或 "假"。在微调过程中，使用查询和相关性注释文档对模型进行训练。在推理过程中，根据 "真 "标签的概率对文档进行排序。
TILDE 重新排序：TILDE 通过预测模型词汇中每个术语的概率，独立计算每个查询术语的可能性。通过对查询词的预计算对数概率求和来对文档进行评分，从而在推理过程中实现快速重新排序。TILDEv2 在此基础上进行了改进，只对文档中存在的术语编制索引，使用 NCE loss 并扩展文档，从而提高了效率并缩小了索引规模。

如上图所示，建议使用 monoT5 作为兼顾性能和效率的综合方法。RankLLaMA 是追求最佳性能的理想选择，而 TILDEv2 则适合在固定集合上进行快速实验。

重新打包

后续流程（如 LLM 响应生成）的性能可能会受到文件提供顺序的影响。

为了解决这个问题，我们在重新排序后的工作流程中加入了一个紧凑的重新打包模块，有三种方法：

前向方法根据重新排序阶段的相关性得分，按降序重新打包文件。
反向方法按升序排列。
侧向选项受到《迷失在中间》的启发，当相关信息位于输入内容的开头或结尾时，效果最佳。

由于这些重新打包方法主要影响后续模块，因此将在下面的综合评述部分介绍对这些方法的评估。

总结

检索结果可能包含冗余或不必要的信息，这会妨碍 LLM 生成准确的回复。此外，冗长的提示可能会减慢推理过程。因此，总结检索文档的有效方法在 RAG 流程中至关重要。

提取式压缩器将文本分割成句子，并根据其重要性进行评分和排序。生成式压缩器综合多个文档中的信息，重新表述并生成连贯的摘要。这些任务可以是基于查询的，也可以是不基于查询的。

主要评估了三种方法：

Recomp：它具有提取式和生成式压缩器。提取压缩器选择有用的句子，而生成压缩器则从多个文档中合成信息。
LongLLMLingua：它通过关注与查询相关的关键信息来改进 LLMLingua。
Selective Context：它通过识别和删除输入上下文中的冗余信息来提高 LLM 效率。

不同总结方法的对比如下：

如上图所示，建议使用 Recomp，因为它的表现非常出色。虽然 LongLLMLingua 的表现不佳，但它在没有经过这些实验数据集训练的情况下表现出了更好的泛化能力。因此，我们可以将其视为一种替代方法。

结论

在本文中我得到了以下启示：

系统组件的重要性：本文强调了 RAG 系统中每个组件（如查询分类、检索、重新排序、文档重新打包、摘要和生成）的重要性。这表明，在设计复杂系统时，优化各个组件的性能至关重要。
模块化设计的重要性：分别优化和测试组件显示了模块化设计在复杂系统中的优势。模块化设计允许独立进行更新和优化，便于在各种应用中重复使用和调整，从而提高了可维护性。
系统的实验方法：通过对公认的数据集进行广泛测试，确保了其结果的可靠性和可推广性。这种系统的实验设计方法为其他研究人员提供了一个极好的范例。