微信扫码
添加专属顾问
引言
生成式人工智能离不开模型开发者使用海量的语料进行模型训练,从而提高模型的表现能力。但当我们在享受人工智能所带来的便利时,人工智能厂商利用用户输入数据训练模型导致数据泄露也一度引发舆论风波,如韩国三星集团员工利用ChatGPT导致商业信息泄露等。
在模型表现能力优化、交互质量提升的问题上,用户输入和反馈数据对于人工智能企业来说具有一定的价值,但如何保证用户输入数据收集的合法合规同样不容忽视。本文将从各大AI产品的隐私政策入手,谈谈收集用户输入信息的合规要点,以期为人工智能企业合法收集用户输入数据提供参考。
使用用户输入数据训练模型,大厂是怎么做的?
笔者搜集了市面上一些主要AI产品的隐私政策,如国内的kimi、通义千问、文心一言、讯飞星火、百川智能、豆包、智谱清言、腾讯混元,以及国外的ChatGPT、Gemini、Claude,对于收集用户输入数据,它们是如何规定的:
1.模型会收集哪些用户数据?
(1)收集内容:用户输入的文本、语音、图片等信息
就告知层面,上述国内大模型厂商均会在隐私政策或用户协议中明确告知用户将收集交互过程中输入的信息。除基本的文本信息外,一些大模型还会收集其他种类的信息,如通义千问、讯飞星火包括语音转文本信息、语音信息、图片信息、文档或网址信息等。
(2)用户对模型生成内容的反馈信息
文心一言、讯飞星火、百川智能会收集用户对输出内容的评价,包括点赞、踩等,以提高输出质量。此外,豆包还会收集用户的行为信息,如点击、浏览、编辑等操作记录。
(文心一言隐私政策)
(通义千问隐私政策)
2.收集目的:模型收集用户输入数据来做什么?
在收集目的上,国内各大模型厂商都进行了告知,其表述基本为:训练与优化模型、改进产品、提高对话质量和响应速度、增强对输入内容的理解能力等等,并无太多差异。
但Claude在收集目的的表述上,更为细致,其将输入和输出信息视为一种数据类型,并针对性地进行披露,如下图(部分):
(Anthropic隐私政策)
可以看出市面上大部分模型厂商都是通过隐私政策或用户协议的形式征得用户的同意,相比较一些产品悄咪咪拿用户输入数据训练模型的做法,以上产品在用户协议或隐私政策中诚实披露,也许更能博得用户的好感,也为日后可能引发的数据泄露事件提供了合规解释空间。
即便大模型厂商已经通过用户协议或隐私政策取得用户同意,但用户输入的内容可能会包含个人信息,甚至是敏感个人信息,对个人权益具有重大影响。通义、kimi、腾讯混元等一众厂商都承诺在进行模型训练之前,会对收集到的个人信息进行去标识化处理,并避免识别特定个人身份;讯飞星火、智谱清言甚至还指出会对个人信息进行匿名化处理。但是,匿名化从技术上可能难以实现,标准不太清晰;去标识化后的个人信息仍然属于个人信息的范畴;更何况单独同意可能会较为影响用户体验,产品研发过程中还会增加研发成本。因此,结合当前人工智能行业发展和监管的实际情况来看,为用户提供关闭/拒绝模型收集和使用用户数据,可能是一个比较好的选择。
(腾讯混元隐私政策)
(讯飞星火隐私政策)
2.拒绝方式
若用户拒绝大模型收集并处理其输入数据,现有AI产品的实践为我们提供了三种思路:
第一,提醒用户谨慎输入信息,不要输入不想被用于训练的内容,但是会影响部分功能的使用。如文心一言、讯飞星火、百川智能。
(文心一言隐私政策)
(百川智能隐私政策)
(讯飞星火隐私政策)
第二,提供拒绝处理的关闭按钮。
根据笔者的未完全测评,国内大模型智谱清言、豆包提供了关闭/拒绝方式。智谱清言明确使用者可以邮箱与电话的方式联系拒绝收集输入信息用以模型训练。
(智谱清言隐私政策)
而豆包则提供了两种方式,对于语音信息,可以通过“设置”-“账号设置”-“改进语音服务”来撤回授权,对于其他信息,可以通过邮箱联系撤回。
(豆包隐私政策)
国外的ChatGPT、Gemini也均提供了关闭方式:
ChatGPT提供了两种方式,第一是可以在“privacy portal”中通过点击“不要训练我的数据”提交请求,第二,登录用户/已注销用户,苹果或安卓用户可以在设置里面关闭“improve the model for everyone”按钮。
(OpenAI隐私政策)
Gemini可以选择“关闭”或“关闭并删除”应用活动记录。在删除后,Gemini不会审核日后的对话记录或将其用于改进机器学习模型,但也不会清除已经审核或批注过的对话,并且这些对话最长会保留3年。值得注意的是,即使用户未关闭应用活动记录,Gemini也提供了保存期限的选项(3个月、18个月、36个月)。
2024年6月,谷歌发布的《谷歌生成式人工智能与隐私政策建议工作计划》就可责性、透明度、用户控制、数据最小化等方面做出了详细说明。
第三,Claude采取opt in的方式。
默认情况下,Claude不会使用用户输入的内容训练模型,只有在三种例外情况下才会进行训练:(1)您的对话被标记为信任与安全审查(在这种情况下,我们可能会使用或分析它们以提高我们检测和执行使用政策的能力,包括供我们的信任和安全团队使用的训练模型,符合 Anthropic的安全使命),或(2)您已明确向我们报告材料(例如通过我们的反馈机制),或(3)您已明确选择将您的输入和输出用于训练目的。
(Anthropic隐私政策)
总体来说,国内大模型厂商收集用户输入数据训练模型的合规路径主要为用户协议或隐私政策的统一“同意告知”,并声称通过去标识化/匿名化措施达到保护个人信息的目的。另外少数厂商会提供关闭方式停止收集用户输入内容,此外国外一些AI产品的做法,例如Claude的opt in也可以给我们提供一定的合规思路。
大模型使用用户输入数据的合规要点
鉴于国内外实践,结合《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》)、《生成式人工智能服务安全基本要求》(以下简称《基本要求》)国家标准,并参考电子商会《生成式人工智能数据应用合规指南》(以下简称《合规指南》)团体标准,我们提出如下建议:
1.履行“告知-同意”义务
(1)告知
大模型厂商应在隐私政策中明确告知用户将会收集其输入内容用以训练模型、优化服务、改进产品等。
此外,《基本要求》要求以交互界面提供服务的,应当在服务协议等便于查看的位置向使用者公开服务的局限性;所使用的模型、算法等方面的概要信息;所采集的个人信息及其在服务中的用途。
针对服务局限性,大部分厂商既不提供关闭选项,又通过一揽子同意收集个人信息,导致用户只能通过不输入的方式规避其输入数据成为训练语料,此时厂商应当指明此种做法会带来部分或全部服务的丧失。针对模型、算法信息,上述国内大模型只有豆包披露了“算法及模型备案公示说明”,其他厂商可以在这一方面加强告知,提升透明度。
最后,针对收集的个人信息及其用途,厂商需要遵循《个人信息保护法》的要求,履行一般告知的义务,告知使用者收集的种类、目的、方式、存储期限、行权方式等,但由于用户输入信息在内容、种类上事前并不确定,因而如上所述,只能通过隐私政策概括告知。Gemini将输入信息视为一种数据类型,并明确收集目的,针对性进行披露,该做法有一定的参考价值。
(2)同意
《基本要求》指出将使用者输入信息当作语料时,应具有使用者授权记录。同时指出在使用包含个人信息的语料前,应取得对应个人同意或者符合法律、行政法规规定的其他情形;在使用包含敏感个人信息的语料前,应取得对应个人单独同意或者符合法律、行政法规规定的其他情形。
《合规指南》也明确未进行明确告知并取得使用者同意的,提供者不得擅自将使用者的输入信息用于后续模型训练,除非具备其他合法性基础。
即便不少产品试图通过用户同意用户协议/隐私政策的方式来取得个人同意,但问题在于,当涉及处理用户输入的敏感信息个人(例如AI形象照产品)等情形时,大模型厂商单凭隐私政策取得用户同意可能是不足的。
另外,《合规指南》规定提供者不得非法向他人提供使用者的输入信息和使用记录,除非获得使用者同意,或具有其他合法性基础。由于用户输入信息会被收集用来训练大模型,而这些信息可能会通过算法内化为模型自身的能力,并在与其他用户进行交互的过程中输出有关内容,从而构成公开个人信息的情形。
但是需要指出的是,在语言大模型的语境下,与之前的app/小程序搜集敏感个人信息的场景明显不同的是,语言大模型厂商不见得是在主动寻求在用户的输入信息里获得敏感个人信息。
如果沿用过去的单独同意模式,语言大模型厂商不一定能够判断弹窗的时间点(因为无法判断用户什么时候会输入敏感个人信息),用户也不见得喜欢反复地被弹窗骚扰。
因此,在针对敏感个人信息是否应当弹窗的问题上,我们认为还需要让子弹再飞一会,看看监管的态度和语言大模型发展的情况,才能下定论。但最起码在当下,这可能不是一个重要或者紧急的事情。
当然,在去年爆火的妙鸭相机的场景下,大模型厂商明知需要处理用户输入的人脸敏感个人信息的,我们非常建议,大模型厂商要通过“弹窗”等形式取得用户的单独同意。
2.保护义务
《暂行办法》第十一条规定,提供者对使用者的输入信息和使用记录应当依法履行保护义务,不得收集非必要个人信息,不得非法留存能够识别使用者身份的输入信息和使用记录,不得非法向他人提供使用者的输入信息和使用记录。
实践中,大模型厂商应保证,会在训练使用者输入信息之前对其进行去标识化/匿名化技术处理,并且不进行特定身份的识别,不非法留存能识别身份的上述信息。
此外,厂商还应尽到善意提醒义务,在隐私政策中提醒用户谨慎输入不想被用以训练的数据内容,避免导致数据泄露、权益侵害等问题。
3.拒绝方式
《基本要求》规定:当收集使用者输入信息用于训练时:1)应为使用者提供关闭其输入信息用于训练的方式,例如为使用者提供选项或语音控制指令;关闭方式应便捷,例如采用选项方式时使用者从服务主界面开始到达该选项所需操作不超过4次点击;2)应将收集使用者输入的状态,以及1)中的关闭方式显著告知使用者。
如上所述,国内的豆包、智谱清言,国外的ChatGPT、Gemini均采取opt out的方式,给用户提供关闭选项,Gemini还为未关闭的用户提供保存期限的选项。不同的是,Claude采取了opt in的方式,只有在规定的三种情况下才可以利用用户输入数据,否则不能训练模型。因而根据《基本规定》以及行业实践,我们认为厂商应当提供关闭选型(尽管国内大部分都未落实),Gemini的隐私政策在此基础上更加完善,可供借鉴。
结语
在大模型飞速发展的当下,数据“喂养”极为重要,但与之相对也必然会与个人信息保护发生冲突。而以上建议仅为结合既有实践和现行规范的一得之愚,对于合规利用用户输入信息还需继续探索。明确的是,人工智能的发展需要空间,但不能野蛮生长,在舆论与监管的双重声讨下,大模型厂商的收集行为一定会更加规范。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-04
全员都在用AI,为什么组织效率纹丝不动?
2026-07-02
LLM Wiki 构建手册:一份可直接落地的标准流程
2026-07-02
认识LLM Wiki,一个新的知识库构建技术
2026-07-01
一次差点闯祸的分享,让我们把企业知识库重新想了一遍
2026-07-01
8000星!Karpathy力推的LLM Wiki理念,被这个项目完美落地了
2026-07-01
Karpathy又封神!掀翻RAG,把你的笔记变成第二大脑
2026-06-30
用 Hermes Agent 搭建 OKF 知识库
2026-06-30
「SAG+LLM WIKI」:我将称之为最强知识库!
2026-04-07
2026-04-28
2026-04-12
2026-04-07
2026-06-04
2026-04-07
2026-04-20
2026-06-11
2026-04-26
2026-04-08
2026-07-04
2026-06-30
2026-06-29
2026-06-29
2026-06-19
2026-06-04
2026-06-01
2026-05-27
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。