随着人工智能公司对数据的需求不断增长,它们的模型训练需要越来越庞大的数据集。为了满足这一需求,许多AI初创企业开始无视互联网长期以来的惯例,比如不遵守robots.txt文件的规定,肆意抓取网站数据。这种行为迫使许多网站不得不限制数据访问,甚至与AI公司达成授权协议。作为一家健身和社交跑步平台,Strava也开始采取措施,限制网站访问并对开发者接入收取费用。

为了防止数据抓取,Strava加强了网站安全,现在只有经过身份验证的用户才能查看部分数据。此前,用户无需登录即可查看公开的个人资料和健身俱乐部列表。

在API方面,开发者此前可以通过免费的分级访问计划开始构建应用,先申请基础权限,随着应用发展再申请更多权限。现在,Strava对所有开发者统一收取每月11.99美元的费用,且价格可能因地区不同而有所调整。

Strava表示,其开发者社区从去年的18.5万人增长到今年的24.1万人,公司计划继续支持这一社区。作为支持措施之一,Strava计划引入Model Context Protocol(MCP)标准,这是一种新兴协议,允许AI助手和应用以结构化方式访问外部数据,从而让Strava更好地控制共享内容和方式。

此外,Strava还计划关闭部分API端点,这些端点允许外部应用获取特定数据,如俱乐部详情,以保护用户数据安全。2024年,Strava已收紧API使用规则,禁止将其用于AI训练,并限制第三方应用展示其他用户数据。这些变化引发了部分开发者的强烈反对,他们认为自己的应用将受到严重影响。

虽然部分开发者可能接受订阅费用,但关闭某些API端点仍可能影响依赖这些接口的应用。Strava为开发者提供了90天的宽限期以适应这些变动。

Strava CEO Michael Martin在接受采访时表示,AI公司无节制地抓取公共网站数据,严重影响了网站性能,甚至可能威胁公共互联网的未来。他指出,Strava多次遭遇性能下降,部分原因是AI公司不仅抓取公开网站,还试图通过API获取数据,且无视API使用条款。

Martin透露,Strava曾拒绝多家顶级AI实验室的数据授权请求。他特别提到AI搜索初创公司Perplexity,称其在被拒后仍通过聚合服务隐藏抓取来源,这与Perplexity此前被指控的类似行为一致。

他还指出,部分使用效率低下的第三方应用对服务器造成过载,这种情况与Meta去年禁止WhatsApp第三方聊天机器人时提出的系统负载问题类似。

Strava此次强化数据保护的时机或与其今年早些时候的IPO申请有关,旨在向潜在投资者展示其数据管理的严谨态度。对于外界将其与Reddit 2024年API访问限制相提并论,Martin表示不同于Reddit按调用次数计费导致开发者难以承受,Strava采用统一收费模式,力图保持开发者生态的稳定。

“我们希望用户感受到他们拥有自己的数据,并对我们的控制和保护措施感到安心。同时,我们也希望开发者能够持续繁荣和成长。”Martin说道。