PNAS：大语言模型如何在不同语言中加剧知识鸿沟

发布日期：2025-12-25 14:40:36 浏览次数： 2054

作者：集智俱乐部

微信搜一搜，关注“集智俱乐部”

导语

一项于12月18日发布在PNAS的研究聚焦于大型语言模型（LLM）在不同语言环境下学习新知识时的不平等现象。研究团队针对 19 种语言和 4 个主流模型（包括 GPT-4o-Mini、Llama-3.1-8B 等）构建了多语言平行数据集，通过上下文学习和微调两种方式，系统性地观测了基于语言的性能差异。研究发现，LLM 在处理低资源语言时，在新知识学习的效率、跨语言迁移、知识冲突的优先级处理以及鲁棒性四个维度上相较高资源语言均存在显著差距。此外，研究进一步分析了造成这种不平等的底层机制，涉及语言自身属性、预训练数据规模与工程优化、分词器设计，以及模型内部负责跨语言知识流动的“语言神经元”分布特征。

关键词：大语言模型（LLM），语言不平等 (Linguistic inequality)，高/中/低资源语言(High-/Medium-/Low-resource languages)，跨语言知识迁移，知识优先级，语言神经元(Linguistic Neurons)，鲁棒性 (Robustness)

任筱芃丨作者

王成龙（论文一作）、黄俊铭、宫兆亚丨审校

论文题目：Uncovering inequalities in new knowledge learning by large language models across different languages
论文链接：https://www.pnas.org/doi/10.1073/pnas.2514626122
发表时间：2025年12月18日
论文来源：PNAS

楔子：AI时代的“语言马太效应”

想象这样一个场景：2048年，一种全新的健康监测技术"基因分析"问世。当一位英语用户询问AI助手时，它能迅速学习并给出准确答案；但换成一位斯瓦希里语用户，AI却要么回答错误，要么需要更长时间学习才能掌握这一概念。更微妙的是，实验把同一技术同时用斯瓦希里语和英语注入模型，可当第三语言提问时，它仍优先输出英语版本的答案。简而言之，AI在英语环境中可能表现得像个天才，但在斯瓦希里语环境中却可能像个学渣。这种在获取新知识过程中的不平等，正在数字世界中构建一种隐形的“马太效应”。

这并非科幻想象，而是发生在大语言模型（LLMs）内部的真实困境。随着ChatGPT等工具在全球拥有7亿周活跃用户，越来越多非英语母语者依赖这些系统获取信息、解决问题。传统研究多关注LLMs静态知识库中的语言不平等——比如低资源语言因训练数据少而基础性能差。但在PNAS发表的最新研究指出，以往的关注点多集中在模型富集了多少已有知识（静态储备），却忽视了模型是如何学习新知识的？

这种差异具体表现在四个维度：效率差异（能否快速学习新知识）、迁移差异（知识的跨语言流动性）、优先级差异（知识冲突）、鲁棒性差异（能否抵抗错误信息）。研究团队通过19种语言、4个主流模型的系统性实验，首次量化了这种不平等的程度，并揭示了其背后令人不安的机制——AI正在复制甚至放大人类社会的语言不平等。

研究背景与问题

大语言模型的知识更新依赖两种主要方式：上下文学习（in-context learning）和微调（fine-tuning）。前者通过提示词临时注入新知识，后者则通过持续训练将知识固化到模型参数中。无论哪种方式，理想状态都应是语言中立的——即同样质量的知识，不论用英语、泰语还是威尔士语呈现，AI都应同等对待。

但现实远非如此。传统研究已证实，由于训练数据中斯瓦希里语等语言不足0.1%，导致模型在现存的知识上存在巨大鸿沟。这种静态差距被称为"预训练不平等"。然而，研究团队指出一个被长期忽视的问题：AI是持续进化的系统，当它不断吸收新知识时，这种不平等会自我强化还是自我修正？

答案是令人担忧的。试想当同一议题的“低资源语言答案”与“英语答案”在模型里并存时，只要用任意第三语言提问，模型仍会大概率输出英语知识，这种动态学习过程中的不平等，意味着低资源语言社区不仅在起跑线上落后，更在比赛进行中不断被折磨。

实验测量：四重不平等分析

为了捕捉这种微妙的不平等，研究团队设计了一个精妙的实验框架，涵盖19种语言（按照开放网页数据集中占比分为高、中、低资源语言）和4个主流模型（GPT-4o-Mini、Llama-3.1-8B、Qwen3-8B、Aya-Expanse-8B）。关键在于他们构建了多语言平行数据集——同一组问题被翻译成所有语言，确保知识"质量"完全相同，从而隔离出语言本身的影响。

实验使用四类数据集：

虚构新知识：例如设定在2048年的未来场景，包含200个问答对（如"如何用基因分析追踪健康"）
真实医学知识：从MultiMedQA筛选的专业医学问题，确保对模型是"全新"的
通用常识对抗集：人类构造的常识问题，用于测试抗错误信息能力
生成的常识对抗集：AI生成的常识问题，用于测试抗错误信息能力

通过这两种知识类型的对比，研究能清晰区分：是新知识本身难学，还是语言导致了学习差异？ 实验在两种场景下进行：上下文学习（知识放在提示词中）和微调（知识写入参数），全面覆盖实际应用情况。

正是在考虑控制变量后的观察窗口中，不平等的四重面向逐渐清晰。

微调实验暴露了学习效率的差异。所有模型在高资源语言中学习新知识时，通常4个训练轮次就能达到60-90%准确率，但在低资源语言中需要8轮以上才能接近同等水平。更残酷的是学习效率的上限差异——即使训练12轮后，GPT-4o-Mini在英语、中文上的准确率超90%，而在低资源语言中停滞在60-80%。这就像给两个学生同样的教材：英语学生读一遍就懂，斯瓦希里语学生却需要反复读三遍，且最终理解程度仍不如前者。这种"学习效率"的差异，直接导致低资源语言社区需要支付更高的计算成本和时间成本，才能获得同等质量的知识服务。

图1：四个模型在两个数据集上学习新知识的性能。与高资源语言（橙色曲线）相比，大语言模型（LLMs）在低资源语言（蓝色曲线）中学习新知识时面临更大的挑战，无论是在效率还是准确性方面。

更具结构性的不公体现在知识迁移差异上。无论模型最初通过何种语言材料学习"基因分析"这一概念，当使用高资源语言进行提问时，其准确率始终高于低资源语言。这一现象表明，知识从其他语言迁移至高资源语言通常比迁移至低资源语言更为容易，语言之间难以形成对等的知识交换关系。

图2：在四个模型和两个数据集的上下文学习设置下，研究了新知识传递的不平等性。角度轴表示新知识被注入的语言，而三种曲线显示了模型在高、中和低资源语言中的平均准确率。结果显示，当新知识被引入到其他语言时，低资源语言的用户会受到显著的不利影响。

语言亲缘关系进一步影响迁移效果：法语、西班牙语等罗曼语族语言之间的迁移相对顺畅，而跨语系迁移（如英语至泰米尔语）则面临显著困难。这种迁移壁垒植根于模型内部的"语言领地"——特定神经元专司特定语言，其重叠程度直接决定知识能否跨语言通行。这种不对称性意味着，低资源语言的知识生产者处于系统性劣势之中，例如，他们无法像高资源语言使用者那样，平等地从其他语言中获取知识。

当需要对不同语言下冲突信息进行取舍时，模型的优先级差异或者说隐性语言等级结构显露无遗。

图3：GPT-4o-Mini在上下文学习设置下针对虚构新知识数据集的具体知识冲突场景。当高资源语言引入的知识与低资源语言冲突时，模型在其他语言中的输出主要与高资源语言的知识一致。

当同一问题的答案在英语和泰米尔语中矛盾时（假设英语语料说“健康追踪用基因分析”，泰米尔语语料说“健康追踪用可穿戴设备”），模型在第三语言（假设丹麦语）中作答时，87%的概率会选择英语版本。这种“优先级偏见”在72种冲突场景下持续存在。模型似乎内置了隐性的语言等级制度。即使两种知识质量完全相同——因场景虚构、答案无客观对错——模型仍认为高资源语言更“权威”。这不仅涉及技术缺陷，更折射出语言在真实世界中的不对等性。

最后，在抵抗错误信息鲁棒性测试中，低资源语言同样脆弱。当研究者尝试在训练数据中注入错误知识（例如“水凝结成水蒸气”）时，英语、法语等高资源语言的模型能坚守正确知识，准确率下降缓慢；但低资源语言的准确率却断崖式下跌。

图4-A：微调(fine-tuning)设置下鲁棒性测试。随着模型在错误知识上进行微调，其整体准确率下降。然而，这种下降在低资源语言中更为明显。

图4-B：上下文学习设置下鲁棒性测试。此处，半径径轴表示有无错误信息时的准确率比率，颜色越深表示相对准确率越低。LLMs在高资源语言中往往比在低资源语言中表现出更强的错误信息抵抗力。

这如同给不同语言用户安装了不同质量的"防护设备"：以英语为代表的高资源语言用户获得的是防弹玻璃，而以祖鲁语为代表的低资源语言用户只有瓦楞纸。

“语言马太效应”：成因与干预尝试

这种不平等并非模型的偶然失误，而是系统性因素层层叠加的必然结果。

首当其冲的是训练数据的马太效应——语言在CommonCrawl等语料库中的占比与模型性能相关系数高达0.907，英语因CommonCrawl语料库中高占比被划为高资源语言（>1%阈值），而威尔士语等占比不足0.1%即被归为低资源语言。这种数据鸿沟不仅决定了模型对语法、习语和表达模式的熟悉程度，更深层地塑造了其学习新知识的可塑性——高资源语言的用户仅需少量样本就能教会AI新概念，而低资源语言社区必须付出成倍的数据与计算成本，才能获得不那么鸡肋的输出。

更深层的制约来自分词器（Tokenizer）的信息密度差异。优质分词器能将文本压缩为信息密集的token序列。

图5：这张图片展示了论文中分析分词相关因素（Tokenization-related Factors）的其中两个关键维度。1. 分词器在不同语言上的信息密度有差异；2. 分词边界是否与语言的形态学边界（Morpheme Boundaries）对齐。

而研究发现，英语表达相同内容所需的token数显著更少，分布也更均匀，这直接拓展了模型的有效上下文长度与学习效能。低资源语言往往被分词器过度切割为冗余的token序列，如同使用低效的信源编码。同样的语义内容，在英语中可被压缩为紧凑的信号，在泰米尔语等语言中却不得不以成倍长度的碎片化符号来传递。这种编码效率的差异，导致模型在处理低资源语言时，同等字符数承载的有效信息大幅减少，直接侵蚀了上下文窗口的实际有效容量与学习效能。它并非简单的速度滞后，而是模型认知架构层面的结构性损耗。好比传输低压缩率格式的影音文件，数据流量虽然庞大，实际画面未见得更好。最终表现为模型在处理这些语言时，如同在狭窄的信道里强行吞吐过量数据，不可避免地陷入拥塞与性能衰减。

模型神经元还持有潜藏的"语言领地"。模型内部存在"语言神经元"，专门处理特定语言的词汇和语法。

图6：上半部分的矩阵展示了模型神经元在处理不同语言（如英语、法语、印地语）时的激活情况。图中标记的 "1-K Overlap" 和 "1-2 Overlap" 指代不同语言之间存在共享的活跃神经元。神经元的重叠程度直接决定了知识能否在语言之间顺畅迁移。图表下半部分展示了研究人员采用的干预手段。通过人为地“增强”或“抑制”这些特定神经元，观察模型表现的变化，从而证实了这些神经元确实是“专门处理特定语言”的关键组件。

通过分析这些神经元的重叠程度，研究发现法语与西班牙语因神经元高度重叠而迁移顺畅，但跨语系（如英语→泰米尔语）的迁移则举步维艰。实验表明，人为增强重叠神经元的激活能部分提升迁移能力，但无法完全消除。这印证了不平等性已深植于模型架构底层。

研究人员进行了神经元层面的干预实验。通过对跨语言重叠神经元进行强制激活或抑制，研究发现：抑制这些神经元会导致跨语言知识迁移能力显著下降，证明了它们是知识流动的关键桥梁；而激活虽然能带来适度的性能提升，但其收益幅度远小于抑制所造成的损失。这表明，虽然神经元干预能一定程度上调节知识迁移，但无法彻底消除根植于模型设计与训练中的不平等。要从根本上解决这一问题，不能仅靠后期的小修小补，而必须回溯到模型开发阶段（如平衡预训练数据、优化分词器设计），进行更底层的预防性设计。

研究者坦承三大局限：一是实验仅覆盖19种语言和4个模型，二是神经元干预只是初步探索，三是未能触及数据不平衡的根本问题。但他们强调，真正的解决需要"预防性设计"：平衡多语言预训练数据、开发语言中立的分词器、在损失函数中引入公平性约束。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业