GitHub近日宣布,将于2026年4月24日起更新其代码仓库政策,计划利用用户交互数据来训练其AI模型。此次数据收集涵盖Copilot的免费版、专业版及Pro+用户,具体包括模型输入输出、代码片段、上下文信息、仓库结构以及聊天交互记录。
GitHub首席产品官Mario Rodriguez表示,引入交互数据的目的是提升模型代码建议的准确性和安全性。他提到,微软内部数据的初步测试已显著提高了建议的接受率。值得注意的是,此政策采用“默认加入”机制,意味着用户需主动在隐私设置中关闭相关选项才能选择退出,这一做法在开发者社区引发了关于私有仓库定义和数据所有权的广泛讨论。

目前,Copilot Business、企业版用户及教育版用户暂时不受此变更影响,因合同条款限制。GitHub在声明中强调,此举符合Anthropic、JetBrains和微软等行业巨头的惯例。然而,将私有仓库代码纳入训练数据,实质上挑战了传统“私有”概念的边界,尽管GitHub声称此举旨在优化开发流程。


