2026年7月9日 周四晚上19:30,报名腾讯会议了解“如何构建自进化的动态知识库(Brain)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


收藏

如何提升大模型RAG系统的效果?RAG推理增强(二)

发布日期:2024-09-07 07:27:14 浏览次数: 2617
作者:NetRookie

微信搜一搜,关注“NetRookie”


如何提升大模型RAG系统的推理能力,尤其是RAG中的Generation部分,即假定我们已经检索到了Top K的相关文档出来之后,如何排除不相干的信息?如何根据已有信息进行知识推理?



本文试图从几篇paper中提炼几个提升大模型RAG系统推理能力的方法:

  •   强大的基座模型

  • 数据构造提升大模型RAG推理能力

  • CoT与RAG相辅相成提升大模型RAG推理能力

  • OODA迭代式推理提升大模型RAG推理能力



01


Base模型足够强大


Retrieval-Augmented Generation,对于知识密集型任务来说,如果前半部分的Retrieval已经完成了使命,剩下的就是如何提升大模型结合知识更好回答问题的能力了。那么这部分的推理,其实,很大的比重都来自于大模型本身的推理能力了,所以其实这里可能还是个选型的工作。

对于闭源API来说,GPT4-Turbo、Kimi Shot可能是个不错的选择;

对于开源基座模型来说,我们需要从推理能力本身去做一些思考:

  • 模型是否足够大?

  • 是否有足够的代码数据参与?

  • 是否有足够的几T数据进行预训练?

  • 是否经过COT等慢思考的增强?

  • 是否有过复杂的指令遵循能力提升?

  • 是否有对针对推理相关任务用户偏好进行对齐强化?

  • 中英文预训练数据比例?

目前阶段来说,可能Qwen1.5-72B-Chat、LLaMa3-70B-Instruct对应量化版本是不错的选择。

02



RAFT:负例样本不可少


在RAFT(Retrieval Augmented Fine Tuning)方法中,训练数据的构造是为了模拟真实世界中的语言模型在特定领域内进行问答的场景。具体来说,训练数据的构造包括以下几个关键步骤:

1. 问题和答案对:对于每个训练样本,RAFT需要一个问题(Q)和一个相应的答案(A*)。
2. 文档集合:每个问题都会关联一组文档(Dk),这些文档中可能包含一个或多个“oracle”即黄金文档(D*),这些文档包含了回答问题所需的信息。同时,也会包含一些“distractor”文档即诱导答案干扰文档(Di),这些文档不包含答案相关的信息,用于模拟真实场景中的干扰信息。
3. 正负样本混合:在训练数据中,一部分样本(P%)会包含正确的“oracle”文档和一些干扰文档,而另一部分样本(1-P%)则只包含干扰文档,不包含“oracle”文档。这种设计旨在训练模型在没有正确文档的情况下也能通过上下文理解和推理来回答问题。最终训练数据的分布为:

4. 训练数据的多样性:为了提高模型的泛化能力,训练数据应该包含多样化的问题和文档,覆盖不同的主题和领域。

通过这样的训练数据构造,RAFT方法旨在提高模型在特定领域内处理复杂问题和检索结果的能力,同时提高对干扰信息的鲁棒性。


03



RAFT:CoT增强RAG


在生成答案时,RAFT方法鼓励模型直接引用相关文档中的关键信息,并在此基础上构建思维链。这样的训练数据不仅提供了答案,还展示了答案的推导过程,有助于提高模型的推理能力。

以下是一个使用RAFT(Retrieval Augmented Fine Tuning)方法时,Chain-of-Thought(CoT)如何起作用的例子:

问题(Q): “谁是进化论的提出者?”

相关文档(D): “查尔斯·达尔文是一位英国自然学家,他提出了进化论,该理论在他的著作《物种起源》中得到了详细阐述。”

干扰文档(Di):

  • “爱因斯坦是相对论的创始人,他的工作对物理学产生了深远影响。”

  • “牛顿爵士是一位著名的数学家和物理学家,他提出了万有引力定律。”


CoT答案(A): ##Reason: 查尔斯·达尔文是一位英国自然学家,他提出了进化论,该理论在他的著作《物种起源》中得到了详细阐述。##Answer: 查尔斯·达尔文

在这个例子中,模型被训练以识别出“D*”文档中包含回答问题所需的信息,同时忽略“Di”文档中的无关信息。CoT答案不仅给出了最终答案“查尔斯·达尔文”,还展示了推理过程,即引用了相关文档中的关键信息来支持这个答案。

这种CoT风格的答案有助于模型学习如何从给定的文档中提取和构建答案,同时展示了其推理过程。这种方法使得模型在面对复杂的问答任务时能够提供更加准确和有说服力的答案。通过这种方式,RAFT方法能够提高模型在特定领域内处理检索增强型任务的能力。


04



RAT:RAG增强CoT

CoT增强RAG指的是CoT能提升RAG生成过程中的推理能力,RAG增强CoT指的是通过检索到的外部知识提升思维链的准确性,二者相辅相成。为最终的问题解决提供更多推理增强能力。

下面通过一个例子简单说明,假设我们要解决一个简单的任务:在Minecraft游戏中制作一个钻石剑。这个任务需要多步骤的逻辑和上下文感知推理。

  1. CoT生成:首先,语言模型(LLM)在没有示例的情况下根据任务提示生成一个初步思维链(Chain of Thoughts, CoT)。这个思维链可能包含错误或不准确的步骤,因为模型是在一个封闭的环境中生成这些步骤的,没有外部信息的帮助。

    例如,初步的CoT可能是:

  • 步骤1:获取4个木板。

  • 步骤2:用木板制作一个工作台。

  • 步骤3:(错误的步骤)直接用工作台制作钻石剑。

  • 迭代修订:RAT方法通过迭代修订每个思考步骤来改进这个初步的CoT。在每一步,模型都会使用当前的思考步骤和任务提示作为查询,从外部知识库中检索相关信息。

    例如,对于步骤3的错误,模型可能会检索到正确的信息,即需要先制作钻石镐来挖掘钻石块,然后才能制作钻石剑。

  • 逐步生成和修订:模型会逐步生成和修订每个思考步骤,而不是一次性生成完整的CoT。这样,每一步的生成都基于最新和最相关的信息。

    修订后的CoT可能是:

    • 步骤1:获取4个木板。

    • 步骤2:用木板制作一个工作台。

    • 步骤3:用工作台制作木棍。

    • 步骤4:用木板和木棍制作木镐。

    • 步骤5:用木镐挖掘圆石。

    • 步骤6:用圆石制作石镐。

    • 步骤7:用石镐挖掘铁矿石。

    • 步骤8:冶炼铁矿石得到铁锭。

    • 步骤9:用铁锭制作铁镐。

    • 步骤10:用铁镐挖掘钻石。

    • 步骤11:用钻石制作钻石剑。

    通过这个过程,RAT方法能够有效地减少LLMs在长视野任务中的幻觉现象,并提高其推理和生成的准确性。这个过程模仿了人类在解决复杂问题时如何利用外部知识来逐步调整自己的思考过程。


    05



    OODA:迭代式RAG推理


    现在主流的RAG系统基本可以概括为以下几部分,可以看到基本围绕检索和生成两个模块在优化,而这篇论文提到一个新的迭代式推理的概念。

    论文中提到的OODA(Observe-Orient-Decide-Act)方法是一种迭代推理框架,它强调在复杂环境中的持续适应和决策制定。OODA循环包括四个主要阶段:观察(Observe)、定位(Orient)、决策(Decide)和行动(Act)。在问答系统(Q&A)的背景下,OODA循环可以应用于以下几个方面:

    1. 观察(Observe):在问答系统中,这个阶段涉及收集关于问题的信息,包括理解问题的上下文和相关领域知识。

    2. 定位(Orient):这个阶段涉及分析收集到的信息,更新对问题情境的理解,并生成可能的解决方案或行动。在Q&A系统中,这可能意味着根据收集到的信息来调整问题的表述或搜索策略。

    3. 决策(Decide):在这个阶段,系统需要评估潜在的解决方案或行动,并基于当前的理解选择最合适的一个。在Q&A系统中,这可能涉及到选择最佳的检索策略或生成答案的方法。

    4. 行动(Act):执行选定的解决方案或行动,并监控其对环境的影响。在Q&A系统中,这可能意味着执行检索查询、生成答案或请求更多的信息。

    通过将OODA循环整合到基于检索的生成(RAG)问答系统中,可以迭代地细化对问题的理解,检索更相关的信息,并生成更准确、更符合上下文的答案。这种迭代过程有助于克服许多当前大型语言模型(LLMs)和AI系统的一次性输入-处理-输出数据流的局限性。

    例如,考虑一个金融分析领域的问答任务,系统可能需要回答关于公司财务报告的复杂问题。在OODA循环中:

    - 观察:系统收集有关公司历史财务数据、市场趋势和最新新闻的信息。

    - 定位:系统分析这些数据,识别出关键的财务指标和市场变化,以更好地理解问题的上下文。

    - 决策:基于分析,系统决定使用特定的财务模型或理论来解释数据,并生成可能的问题答案。

    - 行动:系统执行生成的答案,并根据反馈(例如,如果答案不完整或需要更多信息)进一步迭代循环。

    通过这种方式,OODA循环可以帮助Q&A系统更有效地处理复杂的、多步骤的推理任务,从而提高答案的质量和准确性。

    从效果上看,尤其是Harder任务,提升的幅度非常明显!

    06



    总结


          RAG是有效降低大模型幻觉的一个手段,如今已经被应用在各大公司各大应用。本文重点关注 RAG中的“G”部分的推理总结能力,从基座的选择,训练数据的构造,RAG与COT的相互提升、OODA的迭代式推理进行了介绍,越来越认同吴恩达老师提到的Agentic Workflow中衍生的一些观点:在GPT5到来之前,我们可以通过workflow迭代的方式完成更多有意思的应用

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询

扫码登录
登录即表示您同意《53AI网站服务协议》
服务协议

欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。

在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。

一、 定义

本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。

会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。

知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。

二、 账号注册与登录

登录方式:本网站支持以下登录方式,您可根据实际情况选择:

微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。

手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。

账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。

实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。

未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。

三、 服务内容与规范

知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。

服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。

禁止行为:您在使用服务时不得实施以下行为:

利用技术手段批量爬取、下载、转存知识库内容;

将知识库内容用于商业目的或未经授权地向第三方传播;

干扰本网站正常运行或侵犯其他用户合法权益;

发布违法违规信息或从事违反公序良俗的活动。

四、 知识产权声明

权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。

有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。

侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。

五、 个人信息保护

我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。

您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。

您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。

六、 免责声明

内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。

不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。

第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。

七、 违约责任

如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。

如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。

八、 法律适用与争议解决

本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。

因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。

九、 其他

本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。

本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。

我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。


已查阅