大模型厂商使用用户输入信息训练AI的合规策略

发布日期：2024-08-08 22:12:30 浏览次数： 6252

作者：AI合规圈

微信搜一搜，关注“AI合规圈”

引言

生成式人工智能离不开模型开发者使用海量的语料进行模型训练，从而提高模型的表现能力。但当我们在享受人工智能所带来的便利时，人工智能厂商利用用户输入数据训练模型导致数据泄露也一度引发舆论风波，如韩国三星集团员工利用ChatGPT导致商业信息泄露等。

在模型表现能力优化、交互质量提升的问题上，用户输入和反馈数据对于人工智能企业来说具有一定的价值，但如何保证用户输入数据收集的合法合规同样不容忽视。本文将从各大AI产品的隐私政策入手，谈谈收集用户输入信息的合规要点，以期为人工智能企业合法收集用户输入数据提供参考。

使用用户输入数据训练模型，大厂是怎么做的？

笔者搜集了市面上一些主要AI产品的隐私政策，如国内的kimi、通义千问、文心一言、讯飞星火、百川智能、豆包、智谱清言、腾讯混元，以及国外的ChatGPT、Gemini、Claude，对于收集用户输入数据，它们是如何规定的：

1.模型会收集哪些用户数据？

（1）收集内容：用户输入的文本、语音、图片等信息

就告知层面，上述国内大模型厂商均会在隐私政策或用户协议中明确告知用户将收集交互过程中输入的信息。除基本的文本信息外，一些大模型还会收集其他种类的信息，如通义千问、讯飞星火包括语音转文本信息、语音信息、图片信息、文档或网址信息等。

（2）用户对模型生成内容的反馈信息

文心一言、讯飞星火、百川智能会收集用户对输出内容的评价，包括点赞、踩等，以提高输出质量。此外，豆包还会收集用户的行为信息，如点击、浏览、编辑等操作记录。

（文心一言隐私政策）

（通义千问隐私政策）

2.收集目的：模型收集用户输入数据来做什么？

在收集目的上，国内各大模型厂商都进行了告知，其表述基本为：训练与优化模型、改进产品、提高对话质量和响应速度、增强对输入内容的理解能力等等，并无太多差异。

但Claude在收集目的的表述上，更为细致，其将输入和输出信息视为一种数据类型，并针对性地进行披露，如下图（部分）：

（Anthropic隐私政策）

可以看出市面上大部分模型厂商都是通过隐私政策或用户协议的形式征得用户的同意，相比较一些产品悄咪咪拿用户输入数据训练模型的做法，以上产品在用户协议或隐私政策中诚实披露，也许更能博得用户的好感，也为日后可能引发的数据泄露事件提供了合规解释空间。

即便大模型厂商已经通过用户协议或隐私政策取得用户同意，但用户输入的内容可能会包含个人信息，甚至是敏感个人信息，对个人权益具有重大影响。通义、kimi、腾讯混元等一众厂商都承诺在进行模型训练之前，会对收集到的个人信息进行去标识化处理，并避免识别特定个人身份；讯飞星火、智谱清言甚至还指出会对个人信息进行匿名化处理。但是，匿名化从技术上可能难以实现，标准不太清晰；去标识化后的个人信息仍然属于个人信息的范畴；更何况单独同意可能会较为影响用户体验，产品研发过程中还会增加研发成本。因此，结合当前人工智能行业发展和监管的实际情况来看，为用户提供关闭/拒绝模型收集和使用用户数据，可能是一个比较好的选择。

（腾讯混元隐私政策）

（讯飞星火隐私政策）

2.拒绝方式

若用户拒绝大模型收集并处理其输入数据，现有AI产品的实践为我们提供了三种思路：

第一，提醒用户谨慎输入信息，不要输入不想被用于训练的内容，但是会影响部分功能的使用。如文心一言、讯飞星火、百川智能。

（文心一言隐私政策）

（百川智能隐私政策）

（讯飞星火隐私政策）

第二，提供拒绝处理的关闭按钮。

根据笔者的未完全测评，国内大模型智谱清言、豆包提供了关闭/拒绝方式。智谱清言明确使用者可以邮箱与电话的方式联系拒绝收集输入信息用以模型训练。

（智谱清言隐私政策）

而豆包则提供了两种方式，对于语音信息，可以通过“设置”-“账号设置”-“改进语音服务”来撤回授权，对于其他信息，可以通过邮箱联系撤回。

（豆包隐私政策）

国外的ChatGPT、Gemini也均提供了关闭方式：

ChatGPT提供了两种方式，第一是可以在“privacy portal”中通过点击“不要训练我的数据”提交请求，第二，登录用户/已注销用户，苹果或安卓用户可以在设置里面关闭“improve the model for everyone”按钮。

（OpenAI隐私政策）

Gemini可以选择“关闭”或“关闭并删除”应用活动记录。在删除后，Gemini不会审核日后的对话记录或将其用于改进机器学习模型，但也不会清除已经审核或批注过的对话，并且这些对话最长会保留3年。值得注意的是，即使用户未关闭应用活动记录，Gemini也提供了保存期限的选项（3个月、18个月、36个月）。

2024年6月，谷歌发布的《谷歌生成式人工智能与隐私政策建议工作计划》就可责性、透明度、用户控制、数据最小化等方面做出了详细说明。

第三，Claude采取opt in的方式。

默认情况下，Claude不会使用用户输入的内容训练模型，只有在三种例外情况下才会进行训练：（1）您的对话被标记为信任与安全审查（在这种情况下，我们可能会使用或分析它们以提高我们检测和执行使用政策的能力，包括供我们的信任和安全团队使用的训练模型，符合 Anthropic的安全使命），或（2）您已明确向我们报告材料（例如通过我们的反馈机制），或（3）您已明确选择将您的输入和输出用于训练目的。

（Anthropic隐私政策）

总体来说，国内大模型厂商收集用户输入数据训练模型的合规路径主要为用户协议或隐私政策的统一“同意告知”，并声称通过去标识化/匿名化措施达到保护个人信息的目的。另外少数厂商会提供关闭方式停止收集用户输入内容，此外国外一些AI产品的做法，例如Claude的opt in也可以给我们提供一定的合规思路。

大模型使用用户输入数据的合规要点

鉴于国内外实践，结合《生成式人工智能服务管理暂行办法》（以下简称《暂行办法》）、《生成式人工智能服务安全基本要求》（以下简称《基本要求》）国家标准，并参考电子商会《生成式人工智能数据应用合规指南》（以下简称《合规指南》）团体标准，我们提出如下建议：

1.履行“告知-同意”义务

（1）告知

大模型厂商应在隐私政策中明确告知用户将会收集其输入内容用以训练模型、优化服务、改进产品等。

此外，《基本要求》要求以交互界面提供服务的，应当在服务协议等便于查看的位置向使用者公开服务的局限性；所使用的模型、算法等方面的概要信息；所采集的个人信息及其在服务中的用途。

针对服务局限性，大部分厂商既不提供关闭选项，又通过一揽子同意收集个人信息，导致用户只能通过不输入的方式规避其输入数据成为训练语料，此时厂商应当指明此种做法会带来部分或全部服务的丧失。针对模型、算法信息，上述国内大模型只有豆包披露了“算法及模型备案公示说明”，其他厂商可以在这一方面加强告知，提升透明度。

最后，针对收集的个人信息及其用途，厂商需要遵循《个人信息保护法》的要求，履行一般告知的义务，告知使用者收集的种类、目的、方式、存储期限、行权方式等，但由于用户输入信息在内容、种类上事前并不确定，因而如上所述，只能通过隐私政策概括告知。Gemini将输入信息视为一种数据类型，并明确收集目的，针对性进行披露，该做法有一定的参考价值。

（2）同意

《基本要求》指出将使用者输入信息当作语料时，应具有使用者授权记录。同时指出在使用包含个人信息的语料前，应取得对应个人同意或者符合法律、行政法规规定的其他情形；在使用包含敏感个人信息的语料前，应取得对应个人单独同意或者符合法律、行政法规规定的其他情形。

《合规指南》也明确未进行明确告知并取得使用者同意的，提供者不得擅自将使用者的输入信息用于后续模型训练，除非具备其他合法性基础。

即便不少产品试图通过用户同意用户协议/隐私政策的方式来取得个人同意，但问题在于，当涉及处理用户输入的敏感信息个人（例如AI形象照产品）等情形时，大模型厂商单凭隐私政策取得用户同意可能是不足的。

另外，《合规指南》规定提供者不得非法向他人提供使用者的输入信息和使用记录，除非获得使用者同意，或具有其他合法性基础。由于用户输入信息会被收集用来训练大模型，而这些信息可能会通过算法内化为模型自身的能力，并在与其他用户进行交互的过程中输出有关内容，从而构成公开个人信息的情形。

但是需要指出的是，在语言大模型的语境下，与之前的app/小程序搜集敏感个人信息的场景明显不同的是，语言大模型厂商不见得是在主动寻求在用户的输入信息里获得敏感个人信息。

如果沿用过去的单独同意模式，语言大模型厂商不一定能够判断弹窗的时间点（因为无法判断用户什么时候会输入敏感个人信息），用户也不见得喜欢反复地被弹窗骚扰。

因此，在针对敏感个人信息是否应当弹窗的问题上，我们认为还需要让子弹再飞一会，看看监管的态度和语言大模型发展的情况，才能下定论。但最起码在当下，这可能不是一个重要或者紧急的事情。

当然，在去年爆火的妙鸭相机的场景下，大模型厂商明知需要处理用户输入的人脸敏感个人信息的，我们非常建议，大模型厂商要通过“弹窗”等形式取得用户的单独同意。

2.保护义务

《暂行办法》第十一条规定，提供者对使用者的输入信息和使用记录应当依法履行保护义务，不得收集非必要个人信息，不得非法留存能够识别使用者身份的输入信息和使用记录，不得非法向他人提供使用者的输入信息和使用记录。

实践中，大模型厂商应保证，会在训练使用者输入信息之前对其进行去标识化/匿名化技术处理，并且不进行特定身份的识别，不非法留存能识别身份的上述信息。

此外，厂商还应尽到善意提醒义务，在隐私政策中提醒用户谨慎输入不想被用以训练的数据内容，避免导致数据泄露、权益侵害等问题。

3.拒绝方式

《基本要求》规定：当收集使用者输入信息用于训练时：1）应为使用者提供关闭其输入信息用于训练的方式，例如为使用者提供选项或语音控制指令；关闭方式应便捷，例如采用选项方式时使用者从服务主界面开始到达该选项所需操作不超过4次点击；2）应将收集使用者输入的状态，以及1）中的关闭方式显著告知使用者。

如上所述，国内的豆包、智谱清言，国外的ChatGPT、Gemini均采取opt out的方式，给用户提供关闭选项，Gemini还为未关闭的用户提供保存期限的选项。不同的是，Claude采取了opt in的方式，只有在规定的三种情况下才可以利用用户输入数据，否则不能训练模型。因而根据《基本规定》以及行业实践，我们认为厂商应当提供关闭选型（尽管国内大部分都未落实），Gemini的隐私政策在此基础上更加完善，可供借鉴。

结语

在大模型飞速发展的当下，数据“喂养”极为重要，但与之相对也必然会与个人信息保护发生冲突。而以上建议仅为结合既有实践和现行规范的一得之愚，对于合规利用用户输入信息还需继续探索。明确的是，人工智能的发展需要空间，但不能野蛮生长，在舆论与监管的双重声讨下，大模型厂商的收集行为一定会更加规范。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业