如何使用 Llama 3.1 405B 创建合成数据？

发布日期：2024-09-09 22:22:00 浏览次数： 2590

作者：猜想笔记

微信搜一搜，关注“猜想笔记”

合成数据并不是要创建新信息。而是要转换现有信息以创建不同的变体。十多年来，合成数据已用于全面提高模型准确性——无论是转换图像以改进对象检测模型，还是加强欺诈性信用卡检测，还是改进 BERT 模型以进行 QA。

有什么新鲜事？随着大型语言模型（LLM）的出现，生成合成数据的动机和生成合成数据的技术都得到了增强。

各行各业的企业都在生成合成数据，以针对各种用例对基础 LLM进行微调，例如改善金融领域的风险评估、优化零售领域的供应链、改善电信领域的客户服务以及推进医疗保健领域的患者护理。

近期，Meta 发布了 Llama 3.1 405B，这是他们最强大的开放式 LLM，可用于批量和在线推理。它还可以作为针对特定领域进行专门预训练或微调的基础。考虑到模型的大小和训练数据量，它非常适合生成合成数据。

使用 LLM 生成的合成数据来改进语言模型

大致而言，有两种方法可用于生成用于调整模型的合成数据——知识蒸馏和自我改进。

知识蒸馏是将较大模型的功能转化为较小模型的过程。这不可能通过简单地在同一数据集上训练两个模型来实现，因为较小的模型可能无法“学习”底层数据的最准确表示。在这种情况下，我们可以使用较大的模型来解决任务，并使用该数据使较小的模型模仿较大的模型。

自我改进涉及使用同一模型来批评其自身的推理，并且通常用于进一步磨练模型的能力。这两种方法都可用于利用 Llama 405B 模型来改进较小的 LLM。

让我们来看看实现这一目标的几种方法。培训 LLM 涉及三个步骤：预培训、微调和调整。

预训练：这涉及使用非常大的信息语料库来训练模型，使其了解语言的一般结构是如何组织的。虽然对于通用的 LLM，这通常使用互联网规模的数据来完成，但对于任何特定领域的 LLM，我们都需要注入该领域的细节（例如几何学的 LLM、放射学的 LLM和电信公司的 LLM）。这称为领域自适应预训练 (DAPT)。在预训练阶段应用合成数据的另一个例子是流行的 Phi-1.5 模型，其中使用大型模型来合成数据以在预训练阶段注入逻辑推理。

微调：一旦模型针对通用语言结构进行了训练，下一步就是对其进行微调以遵循特定指令。例如，调整模型以更好地阅读理解型提取问题、改进逻辑推理、实现更好的代码生成和函数调用都属于此类别。Self-Instruct、WizardCoder、Alpaca等使用这些技术来创建特定于任务的微调数据。

对齐：最后，我们希望确保 LLM 响应的风格和语气符合用户的期望，例如听起来像对话，具有适当的冗长性、复杂性、连贯性和其他用户定义的属性。这可以通过使用具有指导模型和奖励模型的管道来实现。聊天模型会创建多个响应，奖励模型会提供有关响应质量的反馈。该技术属于 AI 反馈强化学习（RLAIF）的范畴。英伟达介绍了如何使用新的 Llama 405B 模型和 NVIDIA 340B 奖励模型来生成用于模型对齐的合成数据。

用于评估 RAG 的合成数据

由于合成数据的应用空间非常广阔，我们将讨论重点放在 LLM 相邻模型和 LLM 驱动的管道上。

检索增强生成(RAG) 使用嵌入模型来检索相关信息，并使用 LLM 来生成答案。嵌入模型为文本的语义生成数学表示。我们可以使用 LLM 来解析底层文档并合成数据，以评估和微调嵌入模型。

与 RAG 类似，任何代理管道都可以进行评估，其组件模型可以进行微调。这可以通过使用LLM 驱动的代理构建模拟来实现。这些模拟还可用于研究行为模式。此外，可以将角色引入 LLM 以大规模生成特定于任务的数据。

用于评估检索流程的数据整理的主要挑战是：

多样性：问题不应该集中在信息的单一方面或只是提取问题。
复杂性：生成的问题应该需要一些推理或多种证据来回答问题。

我们将重点关注多样性，但要探索复杂性角度，关键是找到具有重叠信息点的块。查找重叠信息的几种方法是计算句子级语义的 Jaccard 相似度，并利用长上下文模型来绘制同一文档中块之间的相关性。

多样性源于不同的观点。例如，请考虑以下段落。

SolarPower Corporation 拟收购 GreenTech Inc. 是今年可再生能源领域最引人注目的交易之一。该交易价值 30 亿美元，旨在将 GreenTech 的尖端电池技术与 SolarPower 广泛的太阳能电池板制造和分销网络结合起来。预计的运营协同效应将在未来两年内使生产成本降低 20%，收入增加 15%。然而，由于潜在的反垄断问题，该交易受到监管机构的严格审查。联邦贸易委员会 (FTC) 表示，此次合并可能会在可再生能源存储市场造成垄断，从而可能扼杀竞争和创新。SolarPower

已承诺将 GreenTech 的研发 (R&D) 中心作为一个独立实体保留，以保留其创新文化，该中心拥有 500 多名科学家和工程师。此外，所有现有的雇佣合同都将得到履行，从而缓解了对潜在裁员的担忧。合并协议包括一笔 1.5 亿美元的分手费，如果 SolarPower 未能获得必要的监管部门批准，则需向 GreenTech 支付这笔费用，从而减轻交易失败时 GreenTech 的财务风险。

该协议包括详细的陈述和保证，明确财务报表的准确性、不存在未披露的负债以及遵守适用法律。它还涉及一个全面的赔偿程序，以保护双方免受可能违反这些陈述和保证的情况。SolarPower 和 GreenTech 已达成协议，限制 GreenTech 在交易完成前未经 SolarPower 同意承担新债务、发行额外股份或大幅改变业务运营。这些协议旨在保护 GreenTech 的价值并确保合并后的平稳过渡。该协议进一步概述了全面的尽职调查流程，包括对 GreenTech 知识产权组合进行环境评估和审计，以确保在交易完成前准确核算所有资产和负债。

欧盟委员会也在审查该合并案，以评估其对欧盟市场的影响，特别是在竞争和市场主导地位方面。这项评估涉及提交详细的文件，包括市场分析、竞争影响评估和合并的经济理由。审查过程要求两家公司及时回应询问并提供全面的文件。此外，为了获得批准，SolarPower 和 GreenTech 可能需要做出让步，例如剥离某些业务部门或资产，以减轻对竞争减少的担忧。确保遵守欧盟合并条例不仅涉及解决竞争影响，还涉及确保合并符合欧盟关于市场公平和消费者保护的更广泛政策。

财务分析师对两家公司合并前后的财务表现感兴趣。法律专家可能对该公司面临的联邦贸易委员会、欧盟和其他各方的法律审查感兴趣。记者则希望了解要点。

所有这些都是有效的观点和用户角色，由于他们以不同的观点处理相同的信息，因此评估管道也需要适应这些观点和角色。因此，让我们设计一个管道，它接收文档和角色，并以角色会问的语气提出问题。

图 1. 生成用于检索评估的合成数据的三步流程的高级概述

从概念上看，该管道有三个主要步骤，如图 1 所示。

滴 1 步：生成所有可能引起人物角色兴趣的问题。

第 2 步：筛选所有生成的问题。

第 3 步：诱导人物的写作风格。

第 1 步：提出问题

在深入研究问题生成之前，我们需要提取文档并从中创建块。在后续讨论中，我们将使用图 1 作为文本的参考块。

图 2. 深入探究生成问题的第一步

用户角色只是对可能提出问题的用户的描述。请参阅以下示例。

女神异闻录 1

琼是一位资深金融分析师，专注于使用计量经济学推荐投资策略。琼习惯于拥有一个分析师团队来询问信息，所以他们可能不了解具体细节，所以可能会问一些模糊的问题。然而，他们对一般话题非常了解。

女神异闻录 2

帕德玛是一位经验丰富的公司诉讼律师，拥有超过 10 年为大公司处理复杂法律案件的经验。她做事严谨，以敏锐的分析头脑和对细节的关注而闻名。

女神异闻录 3

亚伦是一个缺乏自信的新闻专业学生，因此不会深入探究底层材料。他对英语还不熟悉，所以熟练程度还不是很高。他还有一个坏习惯，就是把事情耸人听闻。

提取后，LLM 会从给定的块中为每个角色提取兴趣点。多个角色可能有相似的兴趣点，因此我们使用嵌入模型来运行语义去重。这会在一段话中映射出不同的有趣信息。

多样性的另一个方面是所问问题的类型。我们需要问一些提取性、抽象性、比较性等问题，而不仅仅是直接问“如何/什么”。为此，下一步是根据文章中的信息确定适用于每个兴趣点的问题类型。

最后，通过“组块-兴趣-问题类型”三元组，我们生成了所有可能的问题。使用角色和问题类型来引导问题的生成，使开发人员能够将生成的问题引导到用户会问的问题类型上。

感兴趣的领域和问题类型的示例：

反垄断监管审查：抽象、诊断
运营协同作用：提取、抽象
创新保护：提取、抽象、诊断
欧盟合并监管：抽象型、诊断型、提取型、汇总型

示例问题：

SolarPower Corporation 与 GreenTech Inc. 的合并可能带来哪些潜在风险或弊端？两家公司计划如何降低这些风险或弊端？
欧盟委员会对该合并的审查将如何影响协议条款？SolarPower 和 GreenTech 需要做出哪些让步才能获得批准？
SolarPower 和 GreenTech 希望通过合并实现哪些战略利益？他们计划如何整合业务以实现这些利益？
SolarPower Corporation 拟收购 GreenTech Inc. 的三大好处是什么？它们与公司的运营和财务有何关系？
有多少监管机构正在审查该合并案？他们在评估中具体解决了哪些问题？
为了获得欧盟委员会对合并的批准，SolarPower Corporation 和 GreenTech Inc. 需要做出哪些让步或剥离资产，以及这些让步将如何影响公司的运营和市场地位？
对于 SolarPower Corporation 拟收购 GreenTech Inc.，联邦贸易委员会最关心的问题是什么？该问题将如何影响可再生能源存储市场？

第 2 步：筛选问题

生成问题后，下一步是过滤并提取最有用的子集。第一步是删除所有已生成问题的重复数据。我们需要进行重复数据删除，因为不同的兴趣点可以利用相邻的信息点并产生重叠的问题。

接下来，我们使用法学硕士作为评判者，确定问题与文章的相关性。通过这种方式，我们试图确保问题完全可以通过文章中的信息来回答。接下来，我们将重写所有相关问题，使其具有对话的语气。最后，我们还有另一个过滤器来对可能过于笼统的问题进行分类和过滤。

图 2. 深入探讨第二步，筛选问题

第 3 步：灌输角色风格

在前两个步骤中，我们创建并整理了各种问题。最后一步是将所有问题融入人物角色的写作风格中。

图 3. 深入研究第二步的一部分，生成句法变体

使用 LLM，我们首先根据给定的人物描述制定写作风格。然后使用这些写作风格重新编写问题。

写作风格样本：

Padma 的写作风格以清晰、精确和正式的语气为特点。她以直接和自信的方式写作，使用简单而简洁的语言来传达复杂的想法。她的句子结构良好且逻辑连贯，反映了她分析的思维和对细节的关注。她避免使用情绪化的语言、个人观点或华丽的修辞手法，而是专注于以清晰客观的方式呈现事实和论点。她的写作没有歧义和含糊之处，每一点都有证据和推理的精心支持。整体语气专业而权威，赢得了读者的尊重和关注。虽然她的写作在创意上可能不具吸引力或说服力，但它在传达她的信息和实现她在公司诉讼环境中的目标方面非常有效。

Aaron的写作缺乏深度和分析，经常对复杂问题浮于表面。他的句子简短而简单，反映了他有限的英语水平。尽管他尽了最大努力，但语法、句法和词汇选择方面的错误仍然很常见。为了弥补缺乏自信的缺点，亚伦经常诉诸耸人听闻的手段，夸大或扭曲事实，使它们更引人注目。他的语气犹豫不决，不确定，好像他对自己不太有信心。总的来说，亚伦的写作风格更像是小报记者，而不是严肃的新闻记者。

在这三步流程结束时，我们最终会得到如下问题：