Qwen2 技术报告：阿里巴巴开源全新一代大语言模型，性能超越 Llama-3!

发布日期：2024-08-06 18:16:38 浏览次数： 3102

作者：子非AI

微信搜一搜，关注“子非AI”

快速阅读：TLDR；

• 阿里巴巴开源了全新的 Qwen2 系列大语言模型，参数量高达 72B，包含密集模型和专家混合模型 (MoE)。
• Qwen2 在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中均取得了卓越的表现，超越了 Llama-3 等现有开源模型，甚至超越了部分专有模型。
• Qwen2 支持 30 多种语言，并拥有强大的长文本处理能力，最高可支持 128K Tokens 的上下文长度。
• Qwen2 系列包含多种规模的模型，包括专为便携设备设计的轻量级模型。

引言

自 ChatGPT 问世以来，全球范围内对大语言模型（LLM）的热情持续高涨，开源社区也掀起了一股开发 GPT 级别本地 LLM 的热潮，Llama 系列的发布更是将这股热潮推向了新的高度。与此同时，Claude-3 Opus、GPT-4o 等专有模型则在 Chatbot Arena 的排行榜上你追我赶，不断刷新着 LLM 的性能上限。开源模型 Llama-3 的出现，更是将开源模型与顶级专有模型的差距缩小到了前所未有的程度，被誉为 GPT-4 级别。

面对日新月异的 LLM 发展格局，阿里巴巴在继 Qwen 和 Qwen1.5 系列模型之后，推出了Qwen2 系列大语言模型，并将其开源，旨在促进社区创新和技术的可及性。Qwen2 包含一系列基础模型和指令微调模型，参数范围从 0.5B 到 72B 不等，涵盖了密集模型和专家混合模型 (MoE)。Qwen2 不仅超越了其前辈 Qwen1.5，还在语言理解、生成、多语言能力、编码、数学和推理等多个基准测试中，展现出了超越 Llama-3 等现有开源模型，比肩甚至超越部分专有模型的强大性能。例如，Qwen2-72B 在 MMLU 上的得分高达 84.2，而 Qwen2-72B-Instruct 在 MT-Bench 上的得分也达到了 9.1，均展现了其强大的实力。

Qwen2：全面进化，比肩顶级 LLM!

模型架构：精雕细琢，性能更上一层楼

Qwen2 系列模型基于 Transformer 架构，并采用了一系列先进的技术，例如分组查询注意力（GQA）、双块注意力机制（DCA）、YARN 机制等，有效地提高了模型的性能和效率。

分组查询注意力（GQA）：优化推理效率

Qwen2 采用了 GQA 来代替传统的 multi-head attention (MHA)。GQA 优化了推理过程中的 KV 缓存使用，显著提高了吞吐量，使得模型在处理长文本时更加高效。

双块注意力机制（DCA）：提升长文本理解能力

为了提升长文本理解能力，Qwen2 采用了 DCA 机制，将长序列分割成可管理长度的块，有效捕获块内和块间标记之间的相对位置信息，提高了长上下文性能。如果输入文本可以在一个块内处理，DCA 的结果与原始注意力机制相同。而当输入文本长度超过一个块时，DCA 则能够有效地捕捉块之间的相对位置信息，从而提升长文本理解能力。

YARN 机制：更强大的长度外推能力

为了获得更好的长度外推能力，Qwen2 采用了 YARN 机制，重新缩放注意力权重，使得模型能够处理更长的上下文信息。YARN 通过对注意力权重进行重新缩放，使得模型在处理超出预训练长度的文本时，依然能够保持较高的性能，从而提升了模型的长度外推能力。

专家混合模型 (MoE)：以一当十，更高效更灵活

Qwen2 不仅包含了传统的密集模型，还包含了专家混合模型 (MoE)。MoE 模型通过将模型划分为多个专家，并根据输入文本的特性选择性地激活部分专家，从而在保证性能的同时，显著降低了计算成本。

Qwen2-57B-A14B 作为一个 MoE 模型，总参数量为 57B，但在每次前向传播过程中，只激活 14B 的参数，却能够达到与 30B 参数密集模型相当的性能，在编码和数学任务上表现尤为出色。这得益于其独特的细粒度专家机制。与传统的 MoE 模型不同，Qwen2-57B-A14B 采用了更细粒度的专家划分方式，创建了规模更小的专家，并同时激活更多专家，使得模型能够更灵活地利用专家，从而提高整体性能和适应性。此外，Qwen2-57B-A14B 还引入了共享专家机制，部分专家可以被所有任务共享，而其他专家则专门用于特定的路由场景，进一步提升了模型的效率和灵活性。

海量高质量训练数据：博览群书，学富五车

俗话说“知识就是力量”，对于 LLM 来说也是如此。Qwen2 系列模型在超过 7 万亿个标记的大规模高质量数据集上进行训练，涵盖了广泛的领域和语言，就像一个博览群书的学者，拥有丰富的知识储备。

与 Qwen1.5 相比，Qwen2 的训练数据规模更大，质量更高，多样性更丰富。Qwen2 团队开发了一个全新的多语言数据集，包含了更大规模的高质量代码、数学和多语言数据，以增强模型在各个领域的能力。为了保证训练数据的质量，Qwen2 团队采用了更加严格的数据过滤算法，并利用 Qwen 模型本身来识别和过滤低质量的数据。此外，Qwen2 团队还利用 Qwen 模型合成了部分高质量的训练数据，进一步提升了训练数据的规模和质量。

长文本处理：轻松应对 128K Tokens 的挑战

Qwen2 拥有强大的长文本处理能力，最高可支持 128K Tokens 的上下文长度，相当于可以轻松处理一整本书籍的内容！这得益于其在模型架构和训练数据上的精心设计。

在预训练的最后阶段，Qwen2 团队将上下文长度从 4,096 个标记扩展到 32,768 个标记，并引入了大量高质量的长数据，使得模型能够更好地理解和处理长文本信息。此外，Qwen2 还采用了 YARN 和 DCA 等机制，进一步提升了其长文本处理能力。如图 1 所示，在 "Needle in a Haystack" 测试中，Qwen2-72B-Instruct 在长达 128K Tokens 的文本中依然能够准确地提取信息，展现出强大的长文本理解能力。