AGI专业领域挑战科普，RAFT（检索增强微调）改进这一切

发布日期：2024-06-19 08:59:47 浏览次数： 3001

作者：零壹白洞

微信搜一搜，关注“零壹白洞”

“针对特定领域的问答的微调和RAG方法”

很多人有疑问有了大模型，类似ChatGPT，kimi，为什么还需要受到专业领域限制。不都是知识管理，图文生成么？另外有时候发现大模型答非所问，出现幻觉或者胡编乱造。

随着大型语言模型的应用扩展到专业领域，对高效且有效的适应技术的需求变得越来越重要。RAFT（检索增强微调）是一种新颖的方法，结合了检索增强生成 (RAG) 和微调的优点，专为特定领域的问答任务量身定制。

专业领域的挑战

虽然LLMs（大模型）接受过大量数据的预先培训，但他们在医学研究、法律文档或企业特定知识库等专业领域表现良好的能力往往受到限制。出现这种限制是因为预训练数据可能无法充分代表这些专业领域的细微差别和复杂性。为了应对这一挑战，研究人员传统上采用两种主要技术：检索增强生成（RAG）和微调。

什么是RAG？

检索增强生成（RAG）通过融合基于检索和基于生成的方法的优势，代表了自然语言处理（NLP）的范式转变。白话就是一种使LLMs能够在推理过程中访问和利用外部知识源的技术。

RAG

RAG 包含三个核心步骤：

检索——收集相关文档；
生成——模型根据检索到的数据生成输出；
增强——进一步细化输出。

根据图上描述，通过将实时数据检索集成到生成过程中来实现这一点，从而使模型的输出更加准确和最新。白话就是说。RAG检索过程从用户的查询开始，分析查询并从外部数据库获取相关信息，这里需要数据库来自企业自身的数据库，企业平时的文档和资料有这个数据库进行整理备份。通过分析得到数据映射，提取完后。生成阶段将这些输入合成为连贯的叙述或答案。增强通过添加上下文或调整连贯性和相关性来完善生成。

RAG的关键工作原理：

预训练语言模型集成：RAG从预训练语言模型（如BERT或 GPT）开始，它充当系统的生成骨干。之后，预训练的模型对语言模式和语义有了深刻的理解，为后续任务提供了坚实的基础。
知识检索机制：RAG的一个显著特征是包含知识检索机制，使模型能够在生成过程中访问外部信息。它可以采用各种技术，例如密集检索方法或传统搜索算法，从庞大的存储库中提取相关知识。
生成主干：预训练的语言模型构成了RAG的生成主干，负责根据输入和检索的知识生成连贯且上下文相关的文本。
上下文理解：由于集成了预训练的语言模型，RAG在上下文理解方面表现出色，使其能够掌握输入文本中的细微差别和依赖关系。
联合训练：RAG通过优化预训练模型的生成能力和知识检索机制的有效性来进行联合训练。这种双重优化确保模型在适当利用外部信息的同时产生高质量的输出。
自适应知识集成：RAG提供知识集成的灵活性，允许适应各种领域和任务。现在，模型可以根据输入的性质和生成任务的要求动态调整其对外部知识的依赖。
高效的训练和推理：虽然 RAG 引入了知识检索组件，但仍努力确保训练和推理过程中的计算效率，解决与可扩展性和实时应用程序相关的潜在挑战。

优点：

增强上下文理解：RAG擅长理解上下文，因为它在生成过程中集成了外部知识。
多样化且相关的输出：检索机制使模型能够产生多样化且与上下文相关的输出，使其适合广泛的应用。
知识集成的灵活性：RAG提供了选择知识源的灵活性，从而能够适应不同的领域。尤其针对特定领域和企业内部业务问题回答。

局限性：

计算强度：检索机制可能是计算密集型的，影响实时应用程序和可扩展性。这种策略使得模型尺寸非常大，如果计算资源短缺，则很难与实时应用程序集成。
对外部知识的依赖：RAG的有效性依赖于外部知识的质量和相关性，这可能会引入偏差或不准确。

总结：

RAG好处在于数据私有化，但是需要自身实时更新数据源，这种对于企业内部或者隐私数据比较友好。但是回到特定领域上，医学，法学，数学，教育等RAG没有足够多数据进行更新响应。

什么是微调（Fine-tune）？

微调是通过在较小的特定于任务的数据集上进一步训练，使预训练的LLM适应特定的任务或领域。这种方法允许模型学习模式并将其输出与所需的任务或领域保持一致。虽然微调可以提高模型的性能，但它通常无法有效地整合外部知识源或解释推理过程中的检索缺陷。

监督微调

总结：

RAG 和 Fine-tuning 都是增强NLP模型的好策略，但一切都取决于我们要执行什么类型的任务。请记住，这两种策略都是从预训练模型开始的，RAG不存在任何过拟合问题，但会生成有偏差的输出。另一方面，微调不会产生有偏差的数据，但如果我们从错误的预训练模型开始，那么微调就变得毫无用处。最终，RAG 和微调之间的选择取决于当前的具体任务和要求。

RAFT又是什么？

RAFT和RAG是两个不同的模型，它们并不是相同的模型，也不是改进版本。RAFT更加注重于图结构的建模和特征提取，而RAG则更注重于利用检索到的外部信息来辅助生成任务。RAFT叫做检索感知微调，是一种专为语言模型量身定制的创新训练方法，旨在提高其在特定领域任务中的表现，特别是开卷考试。RAFT与标准Fine-tune不同，它准备的训练数据包含相关和不相关文档的问题，以及从相关文本得出的思想链式答案。该方法旨在提高模型不仅回忆信息的能力，而且还提高从提供的内容中推理和得出答案的能力。

本质上，RAFT对语言模型进行了微调，使其能够更加熟练地完成涉及阅读理解和从一组文档中提取知识的任务。通过包含答案训练或者不包含答案进行训练，模型学会更有效地辨别和利用相关信息。

训练准备

RAFT的训练过程涉及到一部分数据包含与答案直接相关的预言文档，而其余数据仅包含干扰文档。微调鼓励模型学习何时依赖其内部知识（类似于记忆）以及何时从所提供的上下文中提取信息。回到上图而RAFT的训练方案还强调推理过程的生成，这不仅有助于形成答案，还可以引用来源，类似于人类通过引用他们所阅读的材料来证明自己的反应合理。这种方法不仅为 RAG（检索增强生成）设置准备模型，其中必须考虑K个检索文档或者引用，而且还确保模型的训练独立于所使用的检索器，从而允许跨不同检索系统灵活应用。

这种方法有多种用途：

它训练模型识别和利用所提供上下文中的相关信息，模仿开卷考试设置。
它增强了模型忽略不相关信息的能力，这是有效RAG的关键技能。
它将模型暴露在上下文中不存在答案的场景中，鼓励模型在必要时依赖自己的知识。

RAFT 的另一个关键方面是将思想链推理纳入训练过程。RAFT 不是简单地提供问题和答案对，而是生成详细的推理解释，其中包括相关文档的逐字引用。这些解释以思想链的形式呈现，指导模型完成得出正确答案所需的逻辑步骤。通过在这些推理链上训练模型，RAFT鼓励发展强大的推理能力，并增强模型对如何有效利用外部知识源的理解。

这样产生的结果具有置信度，权威性，实时性。这里我这样说比如2024以前知识大模型都了解，一旦24年中某个事件发生了变化，大模型就还停留在以前知识体系。举个例子小日子地震，造成财产损失5亿，但后续逐步统计完已经在27年了，费用超过6亿，那么后续费用会通过这个RAFT重新覆盖已有的5亿。

评估与结果

RAFT论文的作者对各种数据集进行了广泛的评估，包括 PubMed（生物医学研究）、HotpotQA（开放域问答）和 Gorilla APIBench（代码生成）。他们的结果表明，RAFT始终优于基线，例如使用和不使用RAG的特定领域微调，以及使用RAG的GPT-3.5等更大的模型。

回到上图，在HuggingFace数据集上，RAFT的准确率达到74%，比特定领域微调(DSF) 显著提高了31.41%，比使用RAG的GPT-3.5显著提高了44.92%。同样，在HotpotQA数据集上，与DSF相比，RAFT的准确率提高了28.9%。

实际应用和未来方向

RAFT技术对广泛的实际应用具有重要意义，包括：

问答系统：RAFT 可用于构建高度准确且特定领域的问答系统，利用模型学到的知识和外部知识源。
企业知识管理：拥有庞大知识库的组织可以利用RAFT开发定制的问答系统，使员工能够快速访问和利用相关信息。
医学和科学研究：RAFT在生物医学研究等领域特别有价值，在这些领域中，获取最新的发现和文献对于促进科学理解至关重要。
法律和金融服务：RAFT可以根据相关法律文件或财务报告提供准确且上下文相关的响应，为这些领域的专业人士提供帮助。

随着这一领域研究的继续，我们可以期待RAFT技术的进一步进步和完善。未来潜在的方向包括：

探索针对特定领域或文档结构定制的更高效、更有效的检索模块。
将图像或表格等多模态信息集成到RAFT框架中，以增强上下文理解。
开发专门的推理架构，可以更好地利用训练期间生成的思维链解释。
将RAFT应用于问答之外的其他自然语言任务，例如摘要、翻译或对话系统。

结论

RAFT代表了语言模型领域特定问答领域的重大飞跃。通过和谐地融合检索增强生成和微调的优势，RAFT使LLMs能够有效利用外部知识源，同时将其输出与特定领域的模式和偏好保持一致。通过其创新的训练数据管理、思想链推理的结合以及对检索缺陷的稳健性，RAFT为寻求释放LLMs在专业领域的全部潜力的组织和研究人员提供了强大的解决方案。让我们离权威性的通用大模型更近了一步。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业