2026年7月2日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

又来一个RAG:RankRAG,英伟达RAG新思路

发布日期:2024-07-14 01:25:42 浏览次数: 3118
作者:深度学习与NLP

微信搜一搜,关注“深度学习与NLP”

又来一个RAG:RankRAG,英伟达RAG新思路

发布时间:2024 年 07 月 02 日

RAG

RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs

我们提出了一种名为 RankRAG 的创新指令微调框架,该框架使单个 LLM 能够同时进行上下文排序和答案生成,显著提升了 RAG 的性能。通过在训练中融入少量排序数据,RankRAG 不仅超越了专门优化的排序模型,还在生成任务上表现卓越,击败了包括 GPT-4 在内的多个顶尖模型。特别是在知识密集型和生物医学领域的基准测试中,RankRAG 展现了其强大的泛化能力,无需特定领域的微调即可与 GPT-4 媲美。

https://arxiv.org/abs/2407.02485

1. 背景

检索增强生成无疑是当前最热门的LLM研究领域了,但是传统RAG存在一些局限性:

  • • 检索器容量的限制。考虑到处理效率,现有的RAG一般采用稀疏检索(比如BM25)或中等规模的嵌入模型(比如Bert)作为检索器。

  • • 只选择前K个文档。尽管最新的大语言模型扩大了上下文长度的限制,能够接受更多的上下文作为输入,但是实际性能会随着K的增加而迅速达到饱和。比如在长问答任务中,最佳的分块上下文数量大约是10。虽然更大的K可以提高召回率,但是同时也引入了更多无关的内容,干扰大语言模型生成准确回答。

因此,作者设计了一个新的RAG:RankRAG,利用单一大语言模型来实现高召回率的上下文提取和高质量内容生成。通过对单一大语言模型进行指令调优,使其可以同时进行上下文排序和答案生成,进一步提升LLM在RAG检索和生成阶段排除不相关上下文的能力。

2. RankRAG

RankRAG整体包括两个阶段:指令调优阶段、排名与生成综合指令调优阶段。

2.1 第一阶段:指令调优(SFT)阶段

指令调优(或监督式微调)可以显著提升大语言模型指令遵循的能力,从而提高下游任务的零样本性能。所以,作者先对大语言模型进行指令调优。

总共准备了128K SFT样本,确保样本中没有数据泄露,没有与评估任务重的数据重叠,并采用多轮对话格式。

第一阶段的指令调优数据集包括:公共对话数据集、长篇问答数据集、Chain of Thought数据集以及合成数据集。

2.2 排名与生成的综合指令调优阶段

第一阶段的SFT目的是为大模型奠定指令遵循的基础能力,但是在RAG任务上,这些模型仍然还有提升空间。为了提升这些模型在RAG任务上的性能,作者进行了第二阶段的指令调优。第二阶段的指令调优包括五个部分:

2.2.1 第一阶段的SFT数据

这部分数据的纳入是为了保持LLM遵循指令的能力。

2.2.2 富含上下文的QA数据

在数据集中加入多个富含上下文的QA任务数据来加强LLM利用上下文回答问题的能力。采用混合训练数据集:

  • • 标准的QA和阅读理解数据集

  • • 对话QA数据集

2.2.3 检索增强问答数据

引入两个新数据集,不仅包含标准答案的上下文,还包括通过BM25算法检索出的最相关上下文。

增强LLM在生成回答时,对无关上下文的抗干扰能力也非常重要,所以作者特别考虑了SQuAD和WebQuestion两个问答任务数据集。对于每个问题,作者将标准答案的上下文和BM25检索出的上下文进行融合,确保每个问题都能至少关联5个上下文。其中部分检索出的上下文可能是不包含答案的,这些被称为负样本。

2.2.4 上下文排名数据

为了使模型具有LLM排名能力,作者采用了大家普遍认可的MS MARCO段落排名数据集。将标准查询-段落对(q,d+)定义为正样本,而通过BM25算法挖掘出的硬负样本段落(q,d-)定义为负样本。LLM需要根据给定的查询-段落对生成“真”或“假”的回答,任务指令是“针对问题{question},请判断该段落是否与问题相关。”

虽然MS MARCO覆盖了众多主题,但问题均为单轮简短句子。然而,针对对话问答的排名数据极为稀缺。

为解决这一局限,将对话问答对重新设计,以生成伪相关对。鉴于每段对话仅关联一个文档,将每个文档切割成150字的段落(d1,d2,...,dn)。计算每个段落di与标准答案间的4-gram召回率,将召回率超过0.5的段落判定为与对话相关,低于0.1的则判定为不相关。每个样本包含一对问题-上下文,用于排名数据集。

合成后的数据加上开始的MS MARCO数据,一共约50K数据用于本阶段的指令微调。

2.2.5 检索增强型排名数据

为了使模型能够针对一个问题评估多个上下文的相关性,采用了SQuAD和WebQuestions两个问答数据集,通过BM25算法,将标准答案上下文与检索出的最相关上下文相结合,确保每个问题关联五个上下文。凡包含答案的上下文均被视为相关,训练LLM识别与问题相关的所有上下文。

2.3 RankRAG 推理流程:检索-重排-生成三部曲

融入额外的重排环节,RankRAG 的推理流程转变为三步走策略:检索-重排-生成,具体步骤如下:

(1) 检索器 ℛ 率先在文本库中筛选出 top-k 个相关上下文。

(2) RankRAG 模型进而基于上表中的提示,评估问题与这些检索到的上下文之间的相关性得分,以此作为生成正确答案的概率,随后对上下文进行重排,精挑细选出 top-k(k'远小于k)个最为贴切的上下文,作为下一步生成答案的依据。

(3) 精选出的 top-k' 个上下文与问题串联,再次输入 RankRAG 模型,以此生成最终的答复。

3. 效果对比

3.1 主要结果

上图展示了RankRAG与基线在九个数据集上的比较结果。所有结果均在零样本评估条件下得出(除非特别标注),未附加额外示例。

RankRAG在性能上超越了现有的RAG方法: 以8B模型规模来看,RankRAG持续领先于ChatQA-1.5 8B,后者是最近开源且在众多RAG基准测试中表现卓越的模型。即使面对参数量多得多的基线模型,RankRAG 8B依然展现出强劲的竞争力。举例来说,它显著超越了参数量为其五倍的InstructRetro、参数量为其八倍的RA-DIT 65B,甚至在NQ和TriviaQA任务上超越了参数量为其八倍的Llama3-instruct 70B。参数量更多的RankRAG 70B不仅战胜了强劲的ChatQA-1.5 70B模型,还大幅超越了以InstructGPT为基础LLM的先前RAG基线。

RankRAG在更具挑战性的数据集上取得了更显著的进步: RankRAG在处理更具挑战性的QA数据集时,性能提升更为显著。比如,在长尾QA(PopQA)和多跳QA(2WikimQA)任务中,相较于ChatQA-1.5,实现了超过10%的性能提升。这些结果表明,在挑战性的开放问答数据集中,当检索器返回的顶部文档与答案的相关性不高时,上下文排名能显著增强性能。今天这篇论文专注于提升QA任务的单次检索效果。如何有效地将多轮RAG流程与RankRAG结合,是未来研究值得探索的有趣方向。

5.3 组件效果分析

通过在九个广泛领域的数据集上以Llama3 8B作为基础模型,展示了对RankRAG进行的组件切除实验。总体来看,发现所提出的各个组件均对提升最终性能起到了积极作用。

若去除上下文排名功能,将在所有任务中造成性能下降,这证实了其在筛选与目标问题最密切相关上下文中的关键作用。

同时,为指令微调特别设计的检索增强问答(RQA)和检索增强排名(RAR)通过辅助模型明确识别相关上下文,在大多数任务中带来了性能提升。

性能随不同检索器的变化。如上图,对比了RankRAG和ChatQA-1.5在三个典型任务中搭配不同密集检索器的表现,特别考虑了DPR与Contriever-MS MARCO这两种检索器变体。可以看到,即便初次检索结果不尽人意,RankRAG在平均性能上依然超越了ChatQA-1.5,幅度超过10%。综上,RankRAG对于检索器的选择展现出了良好的适应性和鲁棒性。

5.4 领域特定RAG基准测试的实验验证

为验证RankRAG对专业领域的适应能力,在生物医学领域的最新RAG基准测试Mirage上进行了实验。采用MedCPT(Jin等人,2023年)作为检索器ℛ,并以MedCorp2作为语料库?。

上图展示了RankRAG与基线的实验结果,即便未针对生物医学领域进行微调,RankRAG在医学问答任务上依然表现卓越。特别是RankRAG 8B在性能上超越了医疗领域领先的开源LLM Meditron 70B达6.3%。

此外,RankRAG 70B的性能更是达到了GPT-4的98%以上。充分证明了RankRAG具备快速适应新领域并无需额外训练的能力。

5.5 细究排名模块

RankRAG在数据使用上极为高效:

传统RAG流程的上下文排名方法通常需要一个独立的重排模型。作者评估了四款在完整MS MARCO段落排名数据集上经过微调的模型(BERT(Glass等人,2022年)/T5(Nogueira等人,2020年)/Llama3(Ma等人,2023年)),一个强大的现成重排模型BGE-ranker,以及两款OpenAI的GPT系列模型。对于GPT系列,用‘True’标记的概率来代理相关性得分。

如上表,RankRAG在多数情况下,即使在排名数据量仅为十分之一,也能实现比专用排名模型更好的召回率。此外,RankRAG在大多数任务上仍能超越经过超过100万个排名对训练的BGE-ranker。这一优势可能源于我们模型训练的适应性,排名数据与一般RAG微调数据高度相似。直接使用ChatQA-1.5进行段落排名会降低性能,这表明在指令微调中纳入排名数据的必要性。

作者验证了上下文排名数据量与最终性能之间的关联。仅用5k排名数据(约MS MARCO数据集的1%),RankRAG便能取得非常出色的成果,而将排名数据量增加至50k,能带来额外的显著增益。这验证了RankRAG的数据高效性——仅需少量排名数据即可达到高效性能,并在多样的任务中维持其适应性。

RankRAG的性能与时间效率权衡:

扩大模型规模时需注意的一个细节是,延迟开销的增加——模型需要对每个样本进行排名,这会耗费更多时间。

为了探究时间效率与性能之间的联系,调整了重排名过程中使用的样本数k,上图展示了k值与最终准确性之间的关系。结果表明,即便k值设为20,RankRAG的性能依然超过了未进行重排名的基线模型。当k值从20增加至100,三个任务的完全匹配准确率提升了5.9%至9.1%,而所需时间仅增加了0.9至6.0倍,远低于人们可能预期的20至100倍的增长。

  来源 | 大语言模型论文跟踪

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅