我要投稿

Google DeepMind揭秘:开源AI模型如何泄露训练秘方

发布日期：2025-10-31 22:21:58 浏览次数： 1547

作者：至顶AI实验室

微信搜一搜，关注“至顶AI实验室”

当下AI大模型的竞争越来越激烈,各大科技公司都在秘密研发自己的"独门秘籍"——也就是用来训练模型的专有数据。这些数据就像是厨师的独家配方,决定了AI模型在数学推理、安全对话、长文本理解等方面的表现。然而,由牛津大学、新加坡国立大学、Google DeepMind、Anthropic等多家顶尖研究机构的科学家联合发布的研究成果，首次系统性地证明了开源AI模型会大量泄露其训练数据,尤其是那些用于提升模型能力的"调教数据"。

AI模型记忆力惊人:会背诵训练题

研究团队发现了一个有趣的现象。当你用特定的方式提问时,AI模型会像背书一样,把训练时见过的题目和答案几乎一字不差地重复出来。这就好比你问一个学霸某道数学题怎么做,他不仅给出答案,还把当年老师讲过的例题原封不动地复述了一遍。

研究者测试了多个开源模型,包括OLMo 2和Open-Reasoner-Zero。他们发现这些模型在特定条件下,会大量输出与训练数据高度相似的内容。更有趣的是,这种记忆不仅限于预训练阶段,甚至包括后期用来"调教"模型的数据,比如让模型学会如何安全对话、如何解数学题的那些专门数据。

关键在于,研究者找到了一个巧妙的"触发开关"。开源模型的用户可以控制一种叫做"聊天模板"的东西,这是一些特殊的标记符号,用来区分用户的问题和AI的回答。而这些标记恰恰是在模型后期训练时才加入的。当研究者用这些特殊标记开头来提问时,模型就像被催眠一样,开始吐露训练时的记忆。

举个具体例子,研究者用OLMo 2 13B模型做实验。他们用<|endoftext|><|user|>这样的特殊标记开头,然后让模型自由生成内容。结果发现,生成的数学题和答案与训练数据中的样本惊人地相似。有一道题是关于计算利息的:某人从银行贷款,年利率12%,3年后需要支付5400卢比的利息,问本金是多少?模型生成的题目、选项、解题步骤都和训练数据中的某个样本几乎一模一样,只是数字稍有不同。

传统检测方法严重低估泄露程度

过去,研究人员通常用"字符串匹配"的方法来检测模型是否记住了训练数据。简单说,就是看模型生成的内容和训练数据是否一字不差。这就像比对两段文字的相似度,计算有多少字符是相同的。

但这项研究指出,这种方法存在严重缺陷。因为AI模型记住的往往不是死板的文字,而是问题的"模式"和"结构"。比如同样一道数学题,换个人名、换个数字,字符串匹配的相似度就会大幅下降,但从语义上看,这明显还是同一道题。

研究团队提出用"语义嵌入"的方法来检测。这个方法更像是理解文字的含义,而不是机械地比对字符。他们使用了Google的gemini-embedding-001嵌入模型,这个模型能够将文字转化为数学向量,语义相近的文字会有相近的向量。通过计算向量之间的相似度,就能判断两段文字在意思上是否接近。

对比结果令人震惊。用传统的字符串匹配方法,研究者生成的10万个样本中,只有很小一部分被判定为"记忆"了训练数据。但当他们改用语义嵌入方法后,发现记忆率至少被低估了10倍以上。

这是因为字符串匹配对一些无关紧要的差异过于敏感。比如研究者找到一个例子:模型生成的是"Emily 54英寸高,她比只长了2英寸的哥哥多长了4英寸",而训练数据中是"Emily 55英寸高,她比只长了2英寸的姐姐多长了4英寸"。语义嵌入给出的相似度是0.97(非常高),但字符串匹配只给了0.68。显然后者严重低估了这种记忆程度。

研究者展示了大量这样的案例。有些题目只是选项的数字不同,有些只是把"brother"换成了"sister",有些只是格式略有调整,但本质上都是在复述训练数据。字符串匹配对这些微小差异给予了过重的惩罚,导致大量真实的记忆案例被遗漏。

大规模提取实验:百万次采样揭示真相

研究团队进行了一次大规模实验,从OLMo 2 13B模型中生成了整整100万个样本。他们把这些样本和模型的后期训练数据进行了全面比对。OLMo 2的后期训练数据包含大约94万个问答对,涵盖数学、推理、安全对话等各个方面。

实验过程是这样的:首先,研究者把所有训练数据都转化成语义嵌入向量,构建了一个向量搜索引擎。然后,他们让模型生成100万个样本,每个样本也转化成向量。对于每个生成的样本,他们在训练数据中搜索最相似的那一条,并记录相似度分数。

结果显示,当使用语义嵌入方法时,有大量样本的相似度超过0.95,这个阈值被研究者定义为"语义记忆"。而用传统字符串匹配方法,超过0.9阈值(通常认为是记忆的标准)的样本数量少得可怜。

更进一步,研究者还反过来检查了训练数据的"覆盖率"。也就是说,对于训练集中的每一条数据,他们找出100万个生成样本中与它最相似的那个,看看能有多少训练数据被"重现"出来。结果发现,相当一部分训练数据都能在生成样本中找到高度相似的版本。

有趣的是,那些在训练数据中重复出现多次的样本,或者在预训练、中期训练阶段也出现过类似内容的样本,更容易被记住。这说明模型对于"见过多次"的内容记忆更深刻,就像人类学习一样——重复是记忆之母。

研究还发现,使用完整的聊天模板(包含特殊标记)作为提示,比只使用<|endoftext|>这样的简单标记,生成的内容与训练数据更接近。平均语义相似度从0.857提升到0.892。这进一步证实了聊天模板确实是触发记忆的关键因素。

提取的数据真能用吗?实验证明可以

有人可能会问:就算模型能重复训练数据,这些数据真的有用吗?能不能用来训练别的模型?研究团队设计了一个精妙的实验来回答这个问题。

他们从OLMo 2 13B模型中提取了大约93万个样本,数量和原始训练数据相当。然后,他们用这些"合成"数据从头训练了OLMo 2 7B的基础模型,看看能否复现原始模型的性能。

训练完成后,研究者在多个标准测试上评估了模型表现,包括BBH(大语言模型能力测试)、MMLU(多领域知识测试)、MATH(数学能力)、GSM8K(小学数学)等八个基准测试。结果显示,用合成数据训练的模型在大多数测试上都达到了接近原始模型的性能。

比如在BBH测试上,用合成数据训练的模型得分0.5161,甚至超过了原始的0.4953。在GSM8K数学测试上,得分0.7847,也超过了原始的0.7407。虽然在个别测试(如IFE指令遵循测试)上表现略差,但总体来说,合成数据确实捕捉到了原始训练数据的大部分价值。

这个结果令人深思。它意味着,通过简单地"询问"一个开源模型,就能提取出足够训练另一个模型的数据。这对于那些花费大量时间和金钱收集专有训练数据的公司来说,无疑是一个坏消息。他们的竞争优势可能在不知不觉中就被"蒸馏"走了。

强化学习模型也会泄露:意外的发现

研究团队还测试了用强化学习训练的模型。强化学习是一种不同于传统监督学习的训练方式。在监督学习中,模型直接学习输入和输出的对应关系,就像老师教学生标准答案。而强化学习更像是让模型自己摸索,通过奖励和惩罚来学习什么样的回答是好的。

理论上讲,强化学习不应该直接记住训练数据,因为它的目标不是提高某个样本的输出概率,而是最大化长期奖励。但研究发现,现实情况并非如此。

他们测试了Open-Reasoner-Zero 7B模型,这是一个用PPO(近端策略优化)算法训练的推理模型。研究者用相同的方法——以聊天模板开头——生成了10万个样本。令人惊讶的是,他们发现许多生成的数学题几乎一字不差地复制了训练数据。

更深入的分析揭示了一个有趣现象。研究者比较了强化学习训练前后,模型对训练样本的"喜好"程度(用概率来衡量)。他们发现,许多训练样本的概率在强化学习后大幅上升。有些样本的概率从10^-11提升到了10^-5,整整提高了6个数量级。这说明强化学习确实让模型更容易输出训练时见过的问题。

为了验证提取的数据是否有用,研究者用Dr. GRPO算法(一种改进的强化学习方法)做了实验。他们先用原始的ORZ 57k数据集训练了Qwen2.5 7B基础模型,作为基准。然后,他们从这个训练好的模型中提取了10万个样本,经过筛选后得到57k个合成样本,再用这些合成样本训练另一个Qwen2.5 7B基础模型。

在四个数学推理测试(AMC、MATH500、Minerva Math、OlympiadBench)上,用合成数据训练的模型表现与基准模型非常接近,有些测试上甚至稍好一些。这证明,即使是强化学习训练的模型,其训练数据仍然可以被有效提取并重新利用。

这个发现颠覆了人们对强化学习的一些认识。原本以为强化学习因为不直接优化序列概率,应该不太会记住训练数据。但现实是,模型依然以某种方式将训练样本"编码"进了参数中。研究者推测,这可能是因为在强化学习过程中,那些出现在训练集中的问题被多次采样和强化,最终导致模型对它们特别"熟悉"。

模型蒸馏的隐患:间接训练对手

这项研究还揭示了一个被忽视的风险:模型蒸馏实际上可能变成了"数据蒸馏"。

模型蒸馏是AI业界的常见做法。简单说,就是用一个强大的"教师模型"生成大量问答样本,然后用这些样本训练一个更小、更便宜的"学生模型"。这样可以避免从头训练大模型的巨额成本。许多开源模型都是通过蒸馏GPT-4等闭源模型得到的。

但根据这项研究的发现,如果教师模型会泄露自己的训练数据,那么学生模型实际上是在间接地学习教师模型的原始训练数据。这意味着,通过蒸馏,一个竞争对手可以在不直接访问你的训练数据的情况下,仍然获得这些数据带来的好处。

研究者做了一个简单的思想实验。假设公司A花费巨资收集了独家的数学题库,用来训练他们的模型。现在公司B发布了一个开源基础模型,公司C想让这个模型也具备数学能力,于是他们用公司A的模型生成了大量数学题和解答,然后用这些数据训练公司B的模型。最终,公司C的模型获得了接近公司A的数学能力,但他们既没有向公司A付费,也没有自己收集数据。

这个链条中的每一步看起来都是合法的,但最终结果是,公司A的核心竞争力被"间接"地转移了。而公司A可能根本意识不到这一点,因为他们只是开放了模型接口,并没有直接分享训练数据。

研究者指出,这个问题在开源模型中尤为严重,因为用户可以完全控制模型的输入格式,包括那些触发记忆的特殊标记。对于闭源模型,虽然服务提供商会强制使用特定的聊天模板,用户无法自由修改,但研究者也提到,已有工作显示某些"提示注入"技术可能绕过这些限制。

为什么会发生:一个数学猜想

研究者还提出了一个有趣的数学猜想,试图解释为什么即使在训练时"屏蔽"了问题部分,模型仍然记住了问题。

在监督学习中,模型通常只对"答案"部分进行优化。具体来说,给定一个问题Q和答案A,训练时计算的是P(A|Q),也就是"在看到问题Q的情况下,输出答案A的概率"。问题部分的损失是被屏蔽的,理论上不应该影响模型对Q本身的记忆。

但研究发现,模型确实记住了Q。为什么呢?研究者用泰勒展开做了一个一阶近似分析。假设模型参数是θ,训练后参数变成θ',那么问题Q的概率变化可以近似为:

log P(Q; θ') ≈ log P(Q; θ) + η · ∇_θ log P(A|Q; θ)^T · ∇_θ log P(Q; θ)

这里η是学习率。关键在于最后那个内积项。如果优化答案的梯度方向(∇_θ log P(A|Q))和优化问题的梯度方向(∇_θ log P(Q))正相关,那么在优化答案的同时,问题的概率也会上升。

直观地理解,如果一个问题Q和答案A在某种程度上共享了模型的某些内部表示,那么让模型更好地输出A,可能"顺带"让模型也更容易输出Q。这就像学习解方程时,你不仅记住了解法,还顺便记住了题目本身。

当然,这只是一个猜想,真实的神经网络训练过程要复杂得多。但它提供了一个可能的解释框架,说明为什么条件优化(只优化A|Q)仍然可能导致无条件记忆(记住Q)。

至顶AI实验室洞见

这项研究给AI行业敲响了警钟。那些耗费巨资收集专有训练数据的公司,可能需要重新评估开源模型的策略。一旦模型开源,它的训练数据就有可能被提取出来,成为竞争对手的资源。即使是那些只提供API的闭源模型,也可能通过模型蒸馏的方式间接泄露训练数据。

对于模型蒸馏这个常见做法,研究者提出了一个新的视角:蒸馏不仅是在转移模型的"能力",更是在转移模型的"知识"——包括那些原本被视为商业机密的训练数据。当你用一个强模型生成数据来训练弱模型时,你实际上是在间接地使用强模型的训练数据。

这个发现也揭示了AI记忆机制的复杂性。不同于传统软件,神经网络模型的"代码"和"数据"是融合在一起的,很难完全分离。即使用了强化学习这样看起来不直接优化序列概率的方法,模型仍然会以某种方式记住训练样本。这提示我们,要防止训练数据泄露,可能需要更根本的方法,而不仅仅是调整训练算法。

这项工作为我们理解AI模型的记忆能力提供了新的视角。模型不仅记住了如何回答问题,还记住了问题本身的模式和结构。这种记忆是深层次的、语义上的,不能简单地用字符串匹配来检测。随着AI模型变得越来越强大,如何保护训练数据的隐私和商业价值,将成为一个越来越紧迫的问题。

论文地址：

https://arxiv.org/pdf/2510.18554

END

本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q&A

Q1：开源AI模型是如何泄露训练数据的？

A：研究发现，通过使用特定的聊天模板格式作为提示，可以让开源大语言模型直接输出它们在后期训练阶段使用的数据。这些聊天模板包含特殊标记，通常只在模型学习遵循指令和对话的后期训练阶段才被引入。当模型看到这些标记时，会自动联想并"背诵"训练时学习的内容。

Q2：为什么说传统的记忆检测方法严重低估了问题？

A：传统方法主要依赖字符串匹配来检测相似度，但即使内容语义完全相同，只要有细微文字差异，相似度得分就会大幅下降。研究显示，使用神经网络嵌入模型测量语义相似度时，发现实际的记忆率可能被传统方法低估了至少10倍。

Q3：提取出来的训练数据有什么实际用途？

A：研究证明，提取的数据保留了足够的质量和多样性，可以用来训练新模型。实验中，使用从13B模型提取的数据训练7B模型，在多个基准测试上达到了与原始训练相当的性能。这意味着竞争对手可能通过这种方式间接获取有价值的训练数据。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业