MAGPIE：基于自回归LLM的大规模指令数据集自动生成方法

发布日期：2024-08-25 08:53:36 浏览次数： 3372

作者：奇点智源

微信搜一搜，关注“奇点智源”

华盛顿大学和艾伦人工智能研究所的研究人员提出了一种名为MAGPIE的新方法，利用对齐的大语言模型的自动回归特性，通过预定义模板自动生成高质量的用户查询和对应回复，构建大规模指令数据集，从而提高大语言模型的性能。

论文介绍

人工智能的大语言模型 (LLM) 已成为必不可少的工具，因为它们能够处理和生成类似人类的文本，从而使其能够执行各种任务。这些模型严重依赖高质量的指令数据集进行微调，这增强了它们理解和遵循复杂指令的能力。LLM 在从聊天机器人到数据分析的各种应用中的成功，取决于它们所训练的指令数据的多样性和质量。

获取对齐 LLM 所需的高质量、多样化的指令数据集是该领域面临的众多挑战之一。尽管 Llama-3 等一些模型具有开放的权重，但相关的对齐数据通常仍然是专有的，从而限制了更广泛的研究和开发工作。构建大规模指令数据集既费力又昂贵，因此难以实现必要的规模和多样性。这种限制阻碍了 LLM 功能的进步及其在现实世界中各种场景中的应用。

现有的生成指令数据集的方法分为两类：人工整理的数据和 LLM 生成的合成数据。人工整理的数据集虽然精确，但由于手动数据生成和整理需要高昂的成本和时间，因此可能更具可扩展性。另一方面，合成数据生成方法涉及使用 LLM 根据初始种子问题和提示工程生成指令。然而，随着数据集大小的增加，这些方法通常需要更多样性，因为生成的指令往往与种子问题过于相似。

华盛顿大学和艾伦人工智能研究所的研究人员介绍了一种名为 MAGPIE 的新方法。MAGPIE 利用对齐 LLM 的自回归特性来大规模生成高质量的指令数据。该方法涉及仅使用预定义的模板提示 LLM，允许模型自主创建用户查询及其相应的响应。这种方法消除了对手动提示工程和种子问题的需求，确保了多样化和广泛的指令数据集。

MAGPIE 方法包括两个主要步骤：

指令生成
响应生成

在指令生成步骤中，预定义的模板被输入到对齐的 LLM 中，例如 Llama-3-8B-Instruct。然后，模型根据这些模板生成不同的用户查询。在响应生成步骤中，这些查询再次提示 LLM 生成相应的响应，从而形成完整的指令-响应对。这种自动化过程非常高效，无需人工干预，并且分别使用 206 和 614 个 GPU 小时来生成 MAGPIE-Air 和 MAGPIE-Pro 数据集。

研究人员应用 MAGPIE 方法创建了两个指令数据集，MAGPIE-Air 和 MAGPIE-Pro，分别使用 Llama-3-8B-Instruct 和 Llama-3-70B-Instruct 模型生成。这些数据集包括单轮和多轮指令，其中 MAGPIE-Air-MT 和 MAGPIE-Pro-MT 包含多轮指令和响应的序列。然后过滤生成的数据集以选择高质量的实例，从而生成 MAGPIE-Air-300K-Filtered 和 MAGPIE-Pro-300K-Filtered 数据集。

将使用 MAGPIE 数据集微调的模型的性能与使用其他公共指令数据集（例如 ShareGPT、WildChat、Evol Instruct、UltraChat 和 OpenHermes）训练的模型的性能进行了比较。结果表明，使用 MAGPIE 数据微调的模型的性能与使用超过 1000 万个数据点训练的官方 Llama-3-8B-Instruct 模型相当。例如，使用 MAGPIE 数据集微调的模型在 AlpacaEval 2 基准测试中对 GPT-4-Turbo (1106) 的胜率 (WR) 达到 29.47%，并在包括 Arena-Hard 和 WildBench 在内的各种对齐基准测试中超过了官方模型。

总之，MAGPIE 方法的引入代表了用于 LLM 对齐的高质量指令数据集的可扩展生成方面的重大进步。通过自动化数据生成过程并消除对提示工程和种子问题的需求，MAGPIE 确保了多样化和广泛的数据集，使 LLM 能够更好地执行各种任务。MAGPIE 的效率和有效性使其成为希望增强 LLM 功能的研究人员和开发人员的宝贵工具。