如何理解和探索大模型的多语言能力？

发布日期：2024-08-14 20:38:22 浏览次数： 3017

作者：微软亚洲研究院

微信搜一搜，关注“微软亚洲研究院”

（本文阅读时间：7分钟）

编者按：大语言模型在未使用多语言平行语料库进行预训练的情况下，依然表现出了卓越的多语言能力。但大模型如何处理多语言文本的底层机制仍是一个具有挑战性的问题。对此，微软亚洲研究院联合中国人民大学提出了语言激活概率熵，用于识别大模型中的语言特定神经元。该研究为理解和探索大模型的多语言能力提供了重要依据，并被自然语言处理领域的国际顶级学术会议 ACL 2024 收录。

全球共有超过7000种语言，提升机器的多语言能力是学术界和工业界共同追求的一个重要的研究目标，旨在打破语言壁垒，促进知识和信息的交流与传播。mBERT 和 XLM-R 等预训练语言模型的出现，标志着大模型多语言理解能力的显著进步。尤其最近，尽管 GPT-4 和 PaLM-2 主要基于英语语料库进行训练，但它们仍然在语言理解、推理和生成方面展现出了极强的多语言能力。

现有的研究主要关注多语言预训练模型，探究它们如何在没有平行语料库的情况下实现跨语言的语义对齐，但对模型本身处理不同语言的内在机制缺乏探讨。为了深入理解大模型的多语言能力，微软亚洲研究院同中国人民大学合作，借鉴神经生物学对人类语言能力的研究基础，研究探索了大语言模型中语言特定神经元的识别、分布以及语义空间映射机理等问题，实验验证了语言特定神经元真实存在于大语言模型中，并影响着模型的多语言能力。相关论文已被自然语言处理领域的国际顶级学术会议 ACL 2024 接收。

Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models

论文链接：

https://arxiv.org/abs/2402.16438

参考人脑中支持特定语言功能的区域（如布罗卡区和韦尼克区），研究员们假设大模型的内部区域也可以分为两大部分：包含通用知识和语用原则的语言无关区域，以及处理特定语言词汇、语法和习语表达的语言特定区域。图1展示了假设中的大模型区域分布概念图。由于语言无关区域已在现有研究中得到了充分的讨论，所以研究员们将重点锚定在了语言特定区域，尤其是支持多语言能力的区域。

图1：模型处理语义相同但语言不通的文本时，内部神经元的激活情况

LAPE：使用语言激活概率熵识别语言特定神经元

为了解决这一问题，研究员们提出了一种新颖的检测方法——语言激活概率熵（Language Activation Probability Entropy，LAPE），用于识别大模型中的语言特定神经元。研究员们首先统计了每个神经元对不同语言文本的激活概率，然后选择概率分布熵较低的神经元作为语言特定神经元，即那些对一两种特定语言有较高激活概率，而对其它语言激活概率较低的神经元。

具体来说，现有的大模型都基于 Transformer 架构，其由若干多头注意层和前馈网络层堆叠而成，每个前馈网络层中又包含了若干神经元。现有工作一般认为，神经元的输出值大于0，则代表该神经元被激活。因此，对于第 i 层的第 j 个神经元，研究员们将其在语言 k 的大量文本上的激活概率计算为：

其中，h ̃^i 是隐藏层状态，W_l^i 和 act_fn 是前馈网络层中的参数矩阵和激活函数。随后即可得到每个神经元在不同语言上的激活概率分布。在对其进行 L1 归一化后，计算其信息熵，也称之为语言激活概率熵，用于量化每个神经元的激活反应：

研究员们将 LAPE 分数较低的神经元看作语言特定神经元，因为它们倾向于只对一两个语言有较高的激活概率，而对其他语言激活概率较低。

8个大模型测试：神经元失活影响大模型多语言能力

研究员们基于英文、中文、法语、西班牙语、越南语、印度尼西亚语和日语的维基百科，选择了神经元总量的1%作为语言特定神经元，并测试了其在 LLaMA-2、BLOOM、OPT、Mistral、Phi-2 等开源大模型上的表现。

图2中展示了 LAPE 方法在8个模型上的表现，其中每个子图的第 i 行第 j 列代表了失活语言 i 的神经元对语言 j 建模的 PPL 变化，PPL 变化越大则说明影响越明显。可以清晰看到，8个图均展现出了明显的“对角化”现象，即失活该语言的神经元对该语言的建模能力有显著影响，但对其他的语言影响较小。这符合该研究中语言特定神经元的初衷，也证实了 LAPE 方法的有效性。同时，对于不同大小的模型（7B、13B、70B）和不同种类的模型（LLaMA-2、BLOOM、OPT、Mistral、Phi-2），LAPE 方法也均有明显效果，说明了该方法的通用性。

图2：失活语言特定神经元对模型多语言能力的影响

图3展示了一个具体的例子。研究员们使用了一个简体中文问题提问 LLaMA-2（70B）模型，然后让其在简体中文神经元失活的情况下进行回答。可以发现，相比正常的回答，失活后的回答包含了很多的繁体中文和重复的英文短语，这进一步说明了模型简体中文生成能力的下降。

图3：失活简体中文神经元后，LLaMA-2（70B）的回答

最后，研究员们还分析了语言特定神经元的层间分布。从图4可以发现，这些语言特定神经元高度集中在模型的底层和顶层。具体地，第2层有大约7000个语言特定神经元，而第5至47层每层只有大约100个，模型的最后4层每层也都有超过1000个语言特定神经元。

图4：LLaMA-2（70B）语言特定神经元的层间分布

为了进一步解释该现象，研究员们使用了语言不同但语义相同的文本，来计算这些平行语料的句向量在模型不同层的距离。图5可以看到，不同语言的向量一开始距离较远，经过底层处理后迅速靠近达到顶峰，然后在顶层距离又很快下降。这一趋势与语言特定神经元高度一致，因此可以猜测：大模型的底层会将不同语言的文本映射到同一个语义空间，因此需要大量的语言特定神经元；随后，模型的中间层对统一的语义空间进行了相似的处理，这时需要的语言神经元便较少；最后，模型的底层需要将语义映射回各自的语言进行生成，因而又需要大量的语言神经元。