SFR-RAG：高效精简的检索增强生成模型

发布日期：2024-09-21 07:35:46 浏览次数： 2655

作者：奇点智源

微信搜一搜，关注“奇点智源”

Salesforce AI Research 推出了一款名为 SFR-RAG 的90亿参数模型，该模型针对上下文 grounded 生成进行了微调，并在需要检索增强答案的特定任务中，以更小的规模和更高的效率，在准确性和可靠性方面超越了更大的模型，为检索增强生成领域带来了重大的进步。

论文介绍

随着大型语言模型 (LLM) 的兴起，生成式 AI 已成为一个关键领域。这些模型能够根据各种提示生成复杂的输出。该领域中一个值得注意的领域是检索增强生成 (RAG)，它将外部信息集成到 LLM 中以提高事实准确性。RAG 专门解决了生成可靠的、与上下文相关的信息的需求。随着该领域的快速发展，RAG 框架已成为解决基于知识的任务的核心，在这些任务中，模型需要根据外部来源生成答案。这种对外部文档的依赖促使研究人员改进和开发能够更好地理解上下文并以最少的错误提供结果的模型。

然而，尽管取得了进步，但大型语言模型在处理相互矛盾或信息不足的信息方面仍然需要帮助。许多 LLM 容易产生幻觉，生成与提供的事实不符或与上下文无关的响应。在某些情况下，当可用的上下文信息不足时，这些模型会恢复到其预先训练的知识，而这些知识可能并不总是与手头任务的具体要求相一致。它们通常在多跳推理方面需要帮助，要求它们通过综合多个上下文来推断答案。随着对准确的、基于上下文的答案的需求不断增长，对能够有效处理这些复杂性的模型的需求变得至关重要。挑战仍然在于提高这些模型处理外部上下文的能力，而不会生成不可靠的信息或遗漏重要的引用。

现有的检索增强生成方法涉及一个检索器，它定位相关文档，以及一个生成器（通常是 LLM），它处理检索到的上下文以生成响应。这些设置虽然有用，但在几个方面受到限制。例如，像 GPT-4o 和 Command-R+ 这样的模型严重依赖大量的参数——Command-R+ 为 1040 亿个参数，GPT-4o 为 792.4 亿个参数。尽管规模庞大，但这些模型在遇到相互矛盾的信息时经常会遇到困难。这通常会导致不准确，并且无法处理无法回答的查询，这是知识依赖型场景中的一个重大缺陷。现有模型没有专门针对输出的可靠性进行调整，因此它们通常被迫依赖预先训练的数据，而不是检索新的、相关的信息。

Salesforce AI Research 的研究人员引入了一种名为 SFR-RAG 的新模型，这是一种针对上下文相关生成进行微调的 90 亿参数模型。尽管其规模比其他模型相对较小，但 SFR-RAG 的设计目的是在需要检索增强答案的特定任务中优于其更大的模型。该模型经过定制，可以最大程度地减少幻觉并处理上下文信息不足或相互矛盾的情况。通过专注于在保持高性能的同时减少参数数量，该团队旨在引入一种在不牺牲准确性的情况下更高效的模型。SFR-RAG 模型包含函数调用功能，使其能够与外部工具动态交互以检索高质量的上下文信息。

SFR-RAG 的创新方法包括一个新颖的聊天模板，它添加了两个关键角色，“Thought”和“Observation”。Thought 角色使模型能够在内部进行多步骤推理，而 Observation 角色则捕获模型在其过程中检索到的任何外部信息。这种结构允许 SFR-RAG 区分信息处理步骤并生成准确的、用户友好的响应。该模型还经过微调，可以抵御低质量或不相关的上下文，这使其区别于在这种情况经常出错的传统 LLM。SFR-RAG 的架构使其能够执行复杂的多跳推理，综合多个检索到的信息片段以生成连贯且符合事实的响应。

实验结果证明了 SFR-RAG 的成功，特别是在 ContextualBench 评估套件中。该套件包含七个上下文任务，包括 HotpotQA、TriviaQA 和 TruthfulQA，旨在测试模型生成准确的、与上下文相关的答案的能力。尽管参数少得多，但 SFR-RAG 在这七项任务中的三项中取得了最先进的结果，在关键领域优于 GPT-4o 等更大的模型。例如，在 2WikiHopQA 中，SFR-RAG 的性能比 GPT-4o 提高了 25%。它还在其他基准测试中表现出色，包括自然问题和音乐。值得注意的是，即使在上下文信息被更改或上下文包含相互矛盾的信息时，SFR-RAG 的性能仍然很稳健。这种弹性对于需要准确信息检索的应用程序至关重要，结果突出了 SFR-RAG 架构的有效性。

总之，SFR-RAG 通过解决大型模型面临的常见问题，在检索增强生成方面取得了重大进展。其相对较小的 90 亿参数数量使其能够在保持高精度和可靠性的同时高效运行。通过引入 Thought 和 Observation 角色等创新功能，SFR-RAG 可以处理复杂的多步骤推理，同时避免幻觉和不相关上下文生成的缺陷。它在各种基准测试中的出色表现，包括在多项任务中取得的最先进的结果，突出了较小的、经过微调的模型在生成准确的、基于上下文的输出方面的潜力。在不断发展的生成式 AI 领域，SFR-RAG 代表了向更高效、更可靠的模型的转变，这些模型可以更好地应对外部上下文处理的挑战。