微信扫码
添加专属顾问
GitHub 默认收集开发者代码数据训练 AI,你的隐私设置可能已经悄悄被修改。 核心内容: 1. GitHub 新规默认收集 Copilot 交互数据用于 AI 训练 2. 被收集数据的详细范围与隐私风险分析 3. 开发者保护代码隐私的应对方案
最近,不少开发者打开 GitHub 的时候,页面顶部突然弹出了一条通知。大意是说,从 2026 年 4 月 24 日起,GitHub 将使用 Copilot 的交互数据 来训练 AI 模型,除非你主动选择退出。
下面就是这条通知的截图:
乍一看好像只是一条普通的产品更新公告,但仔细想想,这件事的分量其实不小。
你每天在 GitHub 上写的代码、跟 Copilot 的对话记录、甚至 光标附近的上下文信息,都可能被拿去喂给 AI 模型。而且最关键的是,这个设置默认是开着的。
也就是说,如果你什么都不做,你的数据就已经在被收集的范围内了。
今天就来聊聊这件事到底是怎么回事,哪些数据会被收集,普通开发者该怎么应对。
2026 年 3 月 26 日,GitHub 官方博客发布了一篇公告,标题是 Updates to GitHub Copilot interaction data usage policy[1]。
公告的核心信息很明确:从 4 月 24 日开始,Copilot Free、Pro 和 Pro+ 用户的交互数据,将被用于训练和改进 AI 模型。
这里说的交互数据,包括你在使用 Copilot 时产生的 输入、输出、代码片段 以及相关的 上下文内容。简单说,就是你和 Copilot 之间所有的互动痕迹。
不过有个前提:Copilot Business 和 Copilot Enterprise 的用户不受影响。也就是说,这次调整主要针对的是 个人用户和小团队开发者。
公告里还提到了一句话,说的是如果你之前已经在隐私设置里选择过 不允许 GitHub 收集数据用于产品改进,那你的选择会被保留,数据不会被用于训练。
这算是给老用户吃了一颗定心丸,但 新用户或者从来没动过设置的人,默认就是同意的状态。
说实话,看完官方列出的数据清单,还是挺让人意外的,范围比大多数人想象的要广。
首先是你 接受或修改过的 Copilot 输出内容。你觉得 Copilot 给的建议不错,按了 Tab 接受了,或者在它的基础上改了几行,这些都算。
然后是你发送给 Copilot 的 输入内容,包括展示给模型看的代码片段。比如你在写代码的时候,Copilot 会读取你当前文件的内容来生成建议,这些被读取的代码就属于交互数据。
还有你 光标位置周围的代码上下文。这个很多人可能没意识到,Copilot 为了给出更精准的建议,会把你光标附近的一大段代码都发送到服务器端。
此外,你写的 注释和文档内容 也在收集范围内。文件名、仓库结构、你在项目里的导航模式,也就是你怎么在不同文件之间跳转的行为习惯,同样会被记录。
你跟 Copilot 各种功能的 交互方式 也会被收集,比如你是用聊天功能还是用行内建议,以及你对 Copilot 建议的反馈,包括 点赞和点踩的记录。
可以说,只要你在用 Copilot,你和它之间几乎所有的交互细节都有可能被采集。
当然,GitHub 也明确划了一些红线。
Copilot Business 和 Copilot Enterprise 用户的数据,以及 企业拥有的仓库中的数据,不会被用于训练。在隐私设置中选择了退出的用户,数据同样不会被使用。
另外有一点值得特别注意:你的 Issues、Discussions 和静态状态下的私有仓库内容,不会被拿来训练。
GitHub 在公告里特意用了 at rest 这个词,意思是在你没有使用 Copilot 的时候,你私有仓库里的代码是安全的。
但是当你正在使用 Copilot 的时候,Copilot 必须处理你私有仓库中的代码才能提供服务,这部分 交互数据就有可能被用于模型训练 了,除非你选择退出。
这个细节很重要。很多人可能以为私有仓库就是完全隔离的,但实际上 只要你在私有仓库里用了 Copilot,你跟它交互的那些内容就已经不在安全区了。
GitHub 在公告里给出了理由。他们说最早的模型是用 公开数据和人工编写的代码样本 训练出来的。
过去一年,他们开始使用 微软员工的交互数据 进行训练,并且看到了明显的改善,包括 多种编程语言的建议接受率都有提升。
基于微软内部数据带来的效果,GitHub 认为如果能获得更大范围、更多样化的 真实开发者交互数据,模型的表现还能进一步提高。
这个逻辑其实很好理解。AI 模型的能力很大程度上取决于 训练数据的质量和多样性。实验室里精心构造的数据再好,也比不上真实开发场景中产生的数据来得丰富和贴近实际。
GitHub 上有全世界最庞大的开发者群体,这些人每天产生的代码交互数据,对于训练编程 AI 来说简直是一座金矿。
从商业角度看,这也很容易理解。Copilot 是 GitHub 目前最重要的 营收增长点之一,而模型能力的提升直接关系到 用户体验和付费转化。
拿用户数据来训练更好的模型,再用更好的模型来吸引更多用户,这是一个非常经典的 数据飞轮。
公告里有一段话很值得留意:用于训练的数据可能会被分享给 GitHub 的关联公司,也就是 微软旗下的其他公司。但不会被分享给 第三方 AI 模型提供商 或其他独立的服务提供商。
换句话说,你的代码交互数据会在 GitHub 和微软这个大家庭里流转,但至少目前的承诺是不会流到外部。
这一点对于很多人来说算是一个相对可以接受的底线,毕竟 GitHub 本身就是微软的。
但问题在于,微软旗下的公司和产品线非常庞大,你的数据具体会被用在哪些地方、以什么形式使用,公告里并没有更详细的说明。
这次更新中最让人不舒服的地方,可能就是 默认开启这个设定 了。
你没有选择退出,就等于你选择了同意。这种做法在互联网行业里其实非常普遍,甚至可以说是一种标准操作。GitHub 在公告里也说了,这与 行业既有做法一致。
但普遍并不代表合理。对于大多数用户来说,他们可能根本不知道有这样一个设置的存在,更不会主动去翻隐私选项。
等到他们发现的时候,数据可能早就已经被收集了一段时间了。
这种模式说白了就是利用用户的 惰性和信息差。能意识到这个问题并主动去关闭的人,往往只是少数。而 GitHub 显然很清楚这一点。
如果我们把视角拉远一点会发现,几乎所有提供 AI 服务的公司都在做类似的事情。大模型时代,数据就是最核心的资源,谁能获得更多高质量的数据,谁就能训练出更好的模型。
GitHub 坐拥全球最大的代码托管平台,拥有海量开发者的使用数据,不去用才奇怪。
所以这件事与其说让人愤怒,不如说让人清醒。在当下这个时代,你在任何平台上产生的内容和行为数据,都可能成为别人训练 AI 的原材料。这已经是一种新常态了。
如果你不希望自己的数据被用来训练模型,操作其实很简单。打开下面这个链接:
https://github.com/settings/copilot/features
在设置页面里找到 隐私相关的选项,把 允许数据用于模型训练的开关关掉 就行了。下面是设置页面的截图:
整个过程不到一分钟。关掉之后,GitHub 承诺你的交互数据不会被用于训练,但你仍然可以正常使用 Copilot 的所有功能。
说到底,这件事折射出的是整个 AI 行业在数据使用上的一个 根本矛盾。一方面,模型确实需要大量真实数据才能变得更好,这对所有用户来说都是有益的。另一方面,用户对自己数据的 知情权和控制权 同样重要。
GitHub 至少做到了一点:它给了你 选择退出的权利,而且之前选择过退出的用户会被尊重。跟那些偷偷摸摸用数据、连个通知都不给的公司比起来,这算是相对透明的做法了。
但话说回来,所谓的选择权,只有在 你知道它存在的情况下 才有意义。绝大多数开发者可能永远不会注意到页面顶部那条小小的通知栏,也不会去深挖设置页面里到底有哪些选项。
所以如果你是一个在 GitHub 上活跃的开发者,不管你最终决定是开还是关,至少应该知道有这么一回事,并且做一个 主动的选择。被动的默认同意和主动的知情同意,含义完全不同。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-03
开发者转向 AI 应用工程,真正要迁移的是工程判断力
2026-07-02
不改一行代码,看透 AI Agent 的每一次调用
2026-07-02
AI 不缺智商缺纪律:一场 Harness 工程化实践
2026-07-02
天工 3.2 重磅升级:Skywork Tags 上线,给 Agent 一张工牌,邀其加入你的工作群聊
2026-07-02
Context Infra 会是 AI 领域的下一个热点
2026-07-01
一文了解|SkillScan 智能体技能安全扫描最佳实践
2026-07-01
协作的逆向演进:从 Agent 逻辑重构团队管理
2026-07-01
港科大郭毅可谈Agentic AI时代的核心命题:人机共生,人不可能退场
2026-04-15
2026-04-07
2026-04-07
2026-04-24
2026-04-17
2026-04-05
2026-04-05
2026-04-14
2026-04-24
2026-04-22
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。