一篇大模型RAG最新综述

发布日期：2024-11-08 12:01:21 浏览次数： 4382

作者：NLP前沿

微信搜一搜，关注“NLP前沿”

好久没分享过综述了，今天分享一个最新的RAG综述，来自卡内基梅隆大学。标题：A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions

1. 引言

1.1 RAG技术概述

检索增强生成技术（RAG）主要由两个关键部分构成：其一是检索组件，主要职责是从外部数据库（如维基百科或私有库）中提取相关信息，通过密集向量表征进行文档识别；其二是生成组件，基于transformer结构，对获取的信息进行处理并输出自然语言文本。这种技术有效降低了内容生成中的虚假信息，提升了文本的准确性和语境适应性。目前，RAG已在开放域问答、智能对话系统及个性化推荐等多个方向得到应用。

1.2 检索与生成的融合系统

在RAG技术问世以前，NLP领域主要采用单一的检索或生成方法。传统检索系统虽能快速定位相关文档，但缺乏信息整合能力；纯生成模型尽管表达流畅富有创意，却常有事实偏差。这两种方法各有优劣，促使研究者开始探索融合方案，其中DrQA是较早将检索技术应用于问答任务的代表。

1.3 RAG系统的挑战

该技术面临几个主要问题：首先，在处理模糊查询和专业领域检索时准确度不足，即使采用DPR等技术，仍可能出现检索偏差；其次，检索信息与生成内容的整合有时显得生硬，影响输出质量；再次，系统运行需要大量计算资源，特别是在规模化应用场景下；最后，还存在偏见传播和透明度等伦理问题，虽然RAG可能通过多元信息检索减少偏见，但仍需警惕信息源本身的偏向性。

2. RAG技术架构详解

2.1 基本框架

RAG系统由检索器和生成器两部分组成，前者负责文档检索，后者整合信息生成回应。相比传统模型，RAG能够实时调用外部知识，性能优于固定数据集的生成模型。

2.2 检索技术分析

2.2.1 BM25算法

作为传统检索方法，BM25基于TF-IDF原理对文档进行排序。虽然在关键词匹配方面表现优异，但在语义理解上存在局限。

2.2.2 DPR技术

DPR采用双编码器架构，将查询和文档映射至高维向量空间，通过语义相似度进行匹配，在开放域问答中展现出优异性能。

2.2.3 REALM方案

REALM创新地将检索过程融入语言模型训练，实现检索器与生成器的协同优化。通过同步更新机制，该方法在知识密集型任务中展现出优势。

最新研究显示，Self-RAG和REPLUG等技术通过引入LLM提升了检索能力。这些系统运用注意力机制处理输入和检索文本，确保生成过程中突出重要信息，尽管计算开销较大。

2.3 生成模块解析

生成模块作为RAG系统的重要组成部分，主要负责整合检索信息与输入内容，输出连贯的响应结果。该模块以大规模语言模型为基础，确保输出内容的流畅性与准确性，并与初始查询保持高度相关。

2.3.1 文本转换转换器T5

作为文本生成的主流选择，T5模型将所有自然语言处理任务统一为文本转换框架。这种设计理念使其在问答、摘要等多种任务中展现出优异的适应性。在与检索模块结合后，T5基础的RAG系统在多个评测数据集上取得了显著成果，尤其是在Natural Questions和TriviaQA等测试中的表现超越了传统生成模型。其出色的多任务处理能力使其成为知识密集型应用的理想选择。