我要投稿

GitHub 悄悄改了规则，你的代码可能正在被拿去训练 AI

发布日期：2026-03-26 20:23:11 浏览次数： 2619

作者：方圆AI分享

微信搜一搜，关注“方圆AI分享”

最近，不少开发者打开 GitHub 的时候，页面顶部突然弹出了一条通知。大意是说，从 2026 年 4 月 24 日起，GitHub 将使用 Copilot 的交互数据 来训练 AI 模型，除非你主动选择退出。

下面就是这条通知的截图：

乍一看好像只是一条普通的产品更新公告，但仔细想想，这件事的分量其实不小。

你每天在 GitHub 上写的代码、跟 Copilot 的对话记录、甚至 光标附近的上下文信息，都可能被拿去喂给 AI 模型。而且最关键的是，这个设置默认是开着的。

也就是说，如果你什么都不做，你的数据就已经在被收集的范围内了。

今天就来聊聊这件事到底是怎么回事，哪些数据会被收集，普通开发者该怎么应对。

到底发生了什么

2026 年 3 月 26 日，GitHub 官方博客发布了一篇公告，标题是 Updates to GitHub Copilot interaction data usage policy^[1]。

公告的核心信息很明确：从 4 月 24 日开始，Copilot Free、Pro 和 Pro+ 用户的交互数据，将被用于训练和改进 AI 模型。

这里说的交互数据，包括你在使用 Copilot 时产生的 输入、输出、代码片段 以及相关的 上下文内容。简单说，就是你和 Copilot 之间所有的互动痕迹。

不过有个前提：Copilot Business 和 Copilot Enterprise 的用户不受影响。也就是说，这次调整主要针对的是 个人用户和小团队开发者。

公告里还提到了一句话，说的是如果你之前已经在隐私设置里选择过 不允许 GitHub 收集数据用于产品改进，那你的选择会被保留，数据不会被用于训练。

这算是给老用户吃了一颗定心丸，但 新用户或者从来没动过设置的人，默认就是同意的状态。

哪些数据会被收集

说实话，看完官方列出的数据清单，还是挺让人意外的，范围比大多数人想象的要广。

首先是你 接受或修改过的 Copilot 输出内容。你觉得 Copilot 给的建议不错，按了 Tab 接受了，或者在它的基础上改了几行，这些都算。

然后是你发送给 Copilot 的 输入内容，包括展示给模型看的代码片段。比如你在写代码的时候，Copilot 会读取你当前文件的内容来生成建议，这些被读取的代码就属于交互数据。

还有你 光标位置周围的代码上下文。这个很多人可能没意识到，Copilot 为了给出更精准的建议，会把你光标附近的一大段代码都发送到服务器端。

此外，你写的 注释和文档内容 也在收集范围内。文件名、仓库结构、你在项目里的导航模式，也就是你怎么在不同文件之间跳转的行为习惯，同样会被记录。

你跟 Copilot 各种功能的 交互方式 也会被收集，比如你是用聊天功能还是用行内建议，以及你对 Copilot 建议的反馈，包括 点赞和点踩的记录。

可以说，只要你在用 Copilot，你和它之间几乎所有的交互细节都有可能被采集。

哪些数据不会被动

当然，GitHub 也明确划了一些红线。

Copilot Business 和 Copilot Enterprise 用户的数据，以及 企业拥有的仓库中的数据，不会被用于训练。在隐私设置中选择了退出的用户，数据同样不会被使用。

另外有一点值得特别注意：你的 Issues、Discussions 和静态状态下的私有仓库内容，不会被拿来训练。

GitHub 在公告里特意用了 at rest 这个词，意思是在你没有使用 Copilot 的时候，你私有仓库里的代码是安全的。

但是当你正在使用 Copilot 的时候，Copilot 必须处理你私有仓库中的代码才能提供服务，这部分 交互数据就有可能被用于模型训练 了，除非你选择退出。

这个细节很重要。很多人可能以为私有仓库就是完全隔离的，但实际上 只要你在私有仓库里用了 Copilot，你跟它交互的那些内容就已经不在安全区了。

为什么 GitHub 要这么做

GitHub 在公告里给出了理由。他们说最早的模型是用 公开数据和人工编写的代码样本 训练出来的。

过去一年，他们开始使用 微软员工的交互数据 进行训练，并且看到了明显的改善，包括 多种编程语言的建议接受率都有提升。

基于微软内部数据带来的效果，GitHub 认为如果能获得更大范围、更多样化的 真实开发者交互数据，模型的表现还能进一步提高。

这个逻辑其实很好理解。AI 模型的能力很大程度上取决于 训练数据的质量和多样性。实验室里精心构造的数据再好，也比不上真实开发场景中产生的数据来得丰富和贴近实际。

GitHub 上有全世界最庞大的开发者群体，这些人每天产生的代码交互数据，对于训练编程 AI 来说简直是一座金矿。

从商业角度看，这也很容易理解。Copilot 是 GitHub 目前最重要的 营收增长点之一，而模型能力的提升直接关系到 用户体验和付费转化。

拿用户数据来训练更好的模型，再用更好的模型来吸引更多用户，这是一个非常经典的 数据飞轮。

数据会被分享给谁

公告里有一段话很值得留意：用于训练的数据可能会被分享给 GitHub 的关联公司，也就是 微软旗下的其他公司。但不会被分享给 第三方 AI 模型提供商 或其他独立的服务提供商。

换句话说，你的代码交互数据会在 GitHub 和微软这个大家庭里流转，但至少目前的承诺是不会流到外部。

这一点对于很多人来说算是一个相对可以接受的底线，毕竟 GitHub 本身就是微软的。

但问题在于，微软旗下的公司和产品线非常庞大，你的数据具体会被用在哪些地方、以什么形式使用，公告里并没有更详细的说明。

默认同意的套路

这次更新中最让人不舒服的地方，可能就是 默认开启这个设定 了。

你没有选择退出，就等于你选择了同意。这种做法在互联网行业里其实非常普遍，甚至可以说是一种标准操作。GitHub 在公告里也说了，这与 行业既有做法一致。

但普遍并不代表合理。对于大多数用户来说，他们可能根本不知道有这样一个设置的存在，更不会主动去翻隐私选项。

等到他们发现的时候，数据可能早就已经被收集了一段时间了。

这种模式说白了就是利用用户的 惰性和信息差。能意识到这个问题并主动去关闭的人，往往只是少数。而 GitHub 显然很清楚这一点。

如果我们把视角拉远一点会发现，几乎所有提供 AI 服务的公司都在做类似的事情。大模型时代，数据就是最核心的资源，谁能获得更多高质量的数据，谁就能训练出更好的模型。

GitHub 坐拥全球最大的代码托管平台，拥有海量开发者的使用数据，不去用才奇怪。

所以这件事与其说让人愤怒，不如说让人清醒。在当下这个时代，你在任何平台上产生的内容和行为数据，都可能成为别人训练 AI 的原材料。这已经是一种新常态了。

该怎么关闭数据训练

如果你不希望自己的数据被用来训练模型，操作其实很简单。打开下面这个链接：

https://github.com/settings/copilot/features

在设置页面里找到 隐私相关的选项，把 允许数据用于模型训练的开关关掉 就行了。下面是设置页面的截图：

整个过程不到一分钟。关掉之后，GitHub 承诺你的交互数据不会被用于训练，但你仍然可以正常使用 Copilot 的所有功能。

我们应该怎么看待这件事

说到底，这件事折射出的是整个 AI 行业在数据使用上的一个 根本矛盾。一方面，模型确实需要大量真实数据才能变得更好，这对所有用户来说都是有益的。另一方面，用户对自己数据的 知情权和控制权 同样重要。

GitHub 至少做到了一点：它给了你 选择退出的权利，而且之前选择过退出的用户会被尊重。跟那些偷偷摸摸用数据、连个通知都不给的公司比起来，这算是相对透明的做法了。

但话说回来，所谓的选择权，只有在 你知道它存在的情况下 才有意义。绝大多数开发者可能永远不会注意到页面顶部那条小小的通知栏，也不会去深挖设置页面里到底有哪些选项。

所以如果你是一个在 GitHub 上活跃的开发者，不管你最终决定是开还是关，至少应该知道有这么一回事，并且做一个 主动的选择。被动的默认同意和主动的知情同意，含义完全不同。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-05-19

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

可能是一份最详细的保姆级Codex教程，看完你就知道它为什么最近这么火

2026-05-19

为什么我在团队大力推进 Harness Engineering 的同时，却不认为它就是未来

2026-05-18

从0开发大模型的17种Agent架构演进详细拆解

2026-05-18

Anthropic 的 Dreaming 功能，解决的是"谁托管你的 Agent 循环"的问题

2026-05-18

腾讯上线 AI 设计平台 Ardot，一句话生成 UI 设计稿，AI 版 Figma

2026-05-16

Kiro：亚马逊新出的 AI 编程工具，免费白嫖一个月 Claude Opus 4.7

2026-05-16

突发！OpenAI高层巨震，ChatGPT与CodeX或合并，超级AI来了！

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Claude Opus 4.7刚刚曝光！Claude Code一夜重构，7x24小时替你打工

2026-04-15

刚刚Qwen 3.6 Plus上线预览：1M上下文，阿里Coding/Agent翻身战打响

2026-03-31

2026年国内如何注册 Claude 账号教程

2026-03-13

OpenAI Codex CLI 完整使用指南

2026-04-07

独家| DeepSeek-V4终于要来了：梁文锋憋半年大招，多模态+长期记忆全面破局

2026-03-17

香港终于能直接用 Gemini 了，内地用户能用上吗？

2026-03-17

Claude Code 和 Codex 接入 Figma MCP 保姆级教程

2026-04-07

编程选GPT-5.4，还是GPT-5.3-Codex？

2026-03-21

全球首个 AI 进化网络 EvoMap，给 Agent 装上 DNA

2026-02-20

GPT5.5来了，最大特点解析

2026-04-24

大家都在问

Harness Engineering：AI 能在真正"出事会炸"的后端系统里写代码吗？

2026-05-19

谁来给企业端即将大规模入职的Agent盖办公室？

2026-05-09

鹅厂员工觉得好的code模型应该具备什么能力？

2026-05-09

Markdown要被抛弃了？Claude Code工程师自曝：我已彻底放弃使用Markdown！团队倾向使用HTML！网友：其他编辑工具会被淘汰吗？

2026-05-09

AI吞噬软件的叙事要分化了？

2026-05-08

为什么同一个模型，在 Claude Code/Codex CLI 里感觉像换了个脑子？

2026-05-07

「双线实测」Qwen 3.6-Plus，Agentic Coding 已经这么能「扛活儿」了？

2026-04-26

本体化语义层，会是 AI 数据平台的新地基吗？

2026-04-22

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS Skill 提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean Openclaw