谷歌发言人确认了团队调整的消息,同时表示,项目Mariner开发的计算机使用能力将被整合进公司未来的代理策略中。谷歌已经将部分能力融入其他代理产品,包括最近推出的Gemini代理。

此次调整正值谷歌及其他AI实验室加紧应对如OpenClaw这类高效代理工具的兴起。虽然这些工具目前主要为开发者所用,硅谷普遍认为它们未来可能成为个人和企业的通用助手。Nvidia CEO黄仁勋在本周的开发者大会上将这款热门工具比作代理计算机的新操作系统,并强调“如今全球每家公司都需要制定OpenClaw战略”。

去年谷歌CEO Sundar Pichai在I/O大会上重点介绍了项目Mariner。当时浏览器代理被视为行业的下一个重大方向,OpenAI和Perplexity推出的消费者代理承诺自动化用户的在线任务,这些代理能够像人类一样点击、滚动和填写网页表单。然而,这些产品的用户接受度未达预期。

例如,Perplexity的Comet浏览器代理在2025年12月的周活跃用户仅为280万,而OpenAI的ChatGPT代理最近几个月的周活跃用户甚至降至不足100万。相比每周有数亿用户使用ChatGPT,浏览器代理的使用量几乎可以忽略不计。

AI领域的关注点在过去一年显著转向了Claude Code和OpenClaw这类代理。与网页浏览代理不同,这些系统通过命令行控制计算机,已被证明是完成任务的更可靠方式。这些产品通常包含计算机使用功能及其他代理能力,相比之下,浏览器代理作为独立产品显得较为有限。

AI技能提升平台Workera CEO兼斯坦福AI讲师Kian Katanforoosh指出,计算机使用代理未能广泛普及部分原因在于其巨大的计算需求。这些代理通常通过截取网页截图,输入AI模型,再根据识别结果执行操作,处理过程既慢且有时不稳定。

“Claude Code和OpenClaw展示了使用终端更高效,因为终端是基于文本的,而大型语言模型(LLM)也是基于文本的,”Katanforoosh说,“达到相同结果的步骤可能减少10到100倍。”

这并不意味着浏览器代理没有进步,或计算机使用研究陷入停滞。上个月,初创公司Standard Intelligence发布了一款基于视频训练的计算机使用模型。该公司开发的视频编码器能将视频压缩进AI模型的上下文窗口,效率比之前的模型高出50倍。为展示其能力,该模型连接到汽车、实时视频流和键盘,能够在旧金山短暂实现自动驾驶。

计算机使用代理初创公司Simular CEO、前谷歌DeepMind研究员Ang Li认为,这类代理填补了代理能力的重要空白,且未来仍将不可或缺。

“我认为总会存在80/20的分布。终端可以解决很多问题,但总有些问题必须在图形用户界面(GUI)中解决,”他说,“例如访问医疗保险网站或其他遗留软件时,通常没有终端代理能直接调用的API。”

不过,AI实验室整体上似乎正从计算机使用代理转向编码代理。即使是非编码任务,编码代理利用其他应用、修改文件和定制软件的能力也使其对用户更有帮助。例如,用户上传银行账单后,编码代理可以创建定制的预算仪表盘,帮助用户分析消费习惯。

OpenAI高管表示希望Codex能为ChatGPT内的通用代理提供动力。Anthropic已推出Claude Cowork,这是Claude Code的衍生版本,无需用户打开终端。重注浏览器代理的Perplexity最近也推出了类似产品Personal Computer。

尽管编码代理在开发者中广受欢迎,但是否能提升普通用户的接受度仍不明朗。谷歌和OpenAI曾表示,消费者可利用AI代理从Instacart订购杂货或预订晚餐。虽然听起来便利,但用户可能在确认代理不会出错之前,不愿意自动化此类任务。