Strava在IPO前夕严打数据抓取行为

随着人工智能公司对数据的需求不断增长，它们的模型训练需要越来越庞大的数据集。为了满足这一需求，许多AI初创企业开始无视互联网长期以来的惯例，比如不遵守robots.txt文件的规定，肆意抓取网站数据。这种行为迫使许多网站不得不限制数据访问，甚至与AI公司达成授权协议。作为一家健身和社交跑步平台，Strava也开始采取措施，限制网站访问并对开发者接入收取费用。

为了防止数据抓取，Strava加强了网站安全，现在只有经过身份验证的用户才能查看部分数据。此前，用户无需登录即可查看公开的个人资料和健身俱乐部列表。

在API方面，开发者此前可以通过免费的分级访问计划开始构建应用，先申请基础权限，随着应用发展再申请更多权限。现在，Strava对所有开发者统一收取每月11.99美元的费用，且价格可能因地区不同而有所调整。

Strava表示，其开发者社区从去年的18.5万人增长到今年的24.1万人，公司计划继续支持这一社区。作为支持措施之一，Strava计划引入Model Context Protocol（MCP）标准，这是一种新兴协议，允许AI助手和应用以结构化方式访问外部数据，从而让Strava更好地控制共享内容和方式。

此外，Strava还计划关闭部分API端点，这些端点允许外部应用获取特定数据，如俱乐部详情，以保护用户数据安全。2024年，Strava已收紧API使用规则，禁止将其用于AI训练，并限制第三方应用展示其他用户数据。这些变化引发了部分开发者的强烈反对，他们认为自己的应用将受到严重影响。

虽然部分开发者可能接受订阅费用，但关闭某些API端点仍可能影响依赖这些接口的应用。Strava为开发者提供了90天的宽限期以适应这些变动。

Strava CEO Michael Martin在接受采访时表示，AI公司无节制地抓取公共网站数据，严重影响了网站性能，甚至可能威胁公共互联网的未来。他指出，Strava多次遭遇性能下降，部分原因是AI公司不仅抓取公开网站，还试图通过API获取数据，且无视API使用条款。

Martin透露，Strava曾拒绝多家顶级AI实验室的数据授权请求。他特别提到AI搜索初创公司Perplexity，称其在被拒后仍通过聚合服务隐藏抓取来源，这与Perplexity此前被指控的类似行为一致。

他还指出，部分使用效率低下的第三方应用对服务器造成过载，这种情况与Meta去年禁止WhatsApp第三方聊天机器人时提出的系统负载问题类似。

Strava此次强化数据保护的时机或与其今年早些时候的IPO申请有关，旨在向潜在投资者展示其数据管理的严谨态度。对于外界将其与Reddit 2024年API访问限制相提并论，Martin表示不同于Reddit按调用次数计费导致开发者难以承受，Strava采用统一收费模式，力图保持开发者生态的稳定。

“我们希望用户感受到他们拥有自己的数据，并对我们的控制和保护措施感到安心。同时，我们也希望开发者能够持续繁荣和成长。”Martin说道。

Strava在IPO前夕严打数据抓取行为

标签

评论

相关阅读

问卷自由回答分类工具“Codist”新增功能“图像云”

通信线路的进化将在未来30年持续不断——来自日本NTT东日本与NTT DOCOMO商务的展望

NVIDIA强化与DiffusionGemma的兼容性，推动本地AI实现