当 OpenAI 的 Codex、Anthropic 的 Claude Code 以及 Google 的 Antigravity 几乎在同一时间涌入桌面应用的赛道时,一个令所有开发者与普通用户都无法回避的问题悄然浮出水面:这些 AI Agent 工具看起来都在做同一件事,但它们之间到底有什么差别?哪一个才是真正适合你的那一个?

这个问题,远比它表面看起来更难回答。因为选择 AI 工具从来不是单纯的功能清单对比——它关乎交互哲学、学习成本、审美偏好,以及那个你愿意每天打开它、让它成为你工作流一部分的「感觉」。为此,我决定用同一个任务同时测试这三款工具,让它们在完全平等的条件下正面交锋。

初上手的温度

打开 Codex 的第一刻,你能感受到一种经过深思熟虑的克制。左上角清晰地排列着新窗口、搜索、插件与自动化,以及手机连接——每个按钮都是一个明确的功能入口,不用猜,不用问。对话窗口的主视觉干净利落,右侧面板实时展示 AI 正在做些什么,整个过程像是一本摊开的书,每一页都一目了然。

Claude Code 则是另一番气象。它一上来就把几乎所有功能都摊开在你面前——对话窗口、模型选择、语音输入,以及底部那五个让人有些不知所措的按钮。左边的导航栏里塞着新窗口、项目(Project)、Artifact、Customize、Skills 和插件。功能之丰富令人惊叹,但问题也正出在这里:当你在 Chat、Code Work 和 Code 这三个看起来几乎一模一样的按钮之间反复横跳却仍然搞不清楚它们各自的领地时,那种信息过载带来的疲惫感是真实的。Anthropic 把一切都打包在了一起,但打包的方式对新手来说,门槛不低。

然后是 Antigravity。打开它的那一刻,你的反应很可能是:「就这?」——界面简朴到近乎粗糙,仿佛来自某个内部开发阶段的早期原型。左侧只有三个选项:对话、项目和定时任务。没有插件栏,没有明显的 Skills 入口,一切都藏在 Setting 菜单的深处。这种设计哲学——把功能埋在设置里的代价是,大多数用户可能永远都不会发现它们。

功能架构的底层逻辑

这三个工具在功能上的差异,本质上折射出三家公司对「AI Agent 应该是什么」这一问题的不同回答。

Codex 的答案是:Agent 应该像一个随时待命的助手。它的插件系统和自动化功能以独立按钮的形式直接呈现,你不需要在子菜单里翻找。连接手机(Dispatch)的功能意味着即便你离开电脑,也能远程调度桌面上的 AI 继续工作。这种设计思路的核心假设是——用户知道自己要什么,工具只需要把路铺得足够平坦。

Claude Code 的答案是:Agent 应该像一个能够接管你整个电脑的协作者。这里最关键的区分在于 Chat 和 Code Work 的边界。在 Chat 模式下,Claude 只能在你给它的文本范围内工作;而一旦进入 Code Work,当你把「无需询问即可操作」(Act without asking)的权限完全开放给它时,Claude 就拥有了浏览和操控你电脑上所有应用程序的能力。这既是它最强大的地方,也是它最令人警惕的地方。一个值得称道的细节是 Project 功能中的文件夹隔离机制——你可以限制 Claude 只能访问特定文件夹,既保护了隐私,也控制了 Token 消耗。而 Schedule 功能更是将 AI Agent 从「随叫随到」推向了「定时自动执行」——比如定时发送邮件。

Antigravity 的答案是:Agent 应该先想清楚再动手。这是它与其他两个工具最本质的差异。当你把同样的指令发给它时,它不会像 Codex 或 Claude Code 那样直接撸起袖子开始写代码,而是先为你生成一份详细的执行计划。这份计划通常以英文呈现,但结构清晰、考虑周全——包括组件设计、API 密钥管理的安全考量(它甚至主动提出设计一个面板让用户输入自己的 Google API Key,而不是把 Key 硬编码在前端),以及交互流程的完整规划。这种「计划先行」的策略,在你面对复杂项目时可能是救命稻草,但在你只是想要一个快速原型时,多出来的这几轮对话就是实实在在的时间成本。

同一道考题,三种解法

为了把对比拉到一个公平的起跑线上,我设计了一个完全相同的测试任务:让三个工具各自构建一个名为「今天吃什么」的网页应用。

规则很具体。用户点击「帮我决定今天吃什么」后,应用需要通过浏览器的 Geolocation API 获取当前位置,随机推荐附近的一家餐厅,并显示餐厅的详细信息——名称、图片、类型、评分、距离、地址、是否营业中。用户可以点击「换一家」重新推荐,也可以点击「导航去吃」打开 Google Maps。由于没有真实的 Google Places API Key,我们使用 Mock 数据,但代码结构要保留未来接入真实 API 的能力。API Key 不能出现在前端代码中。UI 要简洁美观,适合日常使用。

我把完全相同的 Prompt 分别贴进三个工具的对话窗口,然后等待。

Codex:快速、沉稳、可预期

Codex 第一个完成了任务。它在运行过程中直接展示了构建过程,最后交付的 Demo 可以正常运作——点击按钮,一家假想的餐厅信息随即出现,从店名到评分到距离一应俱全。定位功能在授权后能正确取到位置(测试环境使用台北 101 作为基准),随机推荐和「换一家」的逻辑也运转顺畅。唯一的瑕疵是,由于 Mock 数据与真实地理信息脱节,推荐的「海南鸡饭」在实际门牌号上可能是一家完全不相关的公司。但这并非 Codex 的问题,而是 Mock 数据本身的天生局限。

Claude Code:侧边预览的优雅

Claude Code 产出的结果有一个令人惊喜的亮点:App Preview。做完之后,它直接把可交互的应用预览嵌在了应用窗口右侧的侧边栏里,你不需要额外打开浏览器就能看到和操作成品。这是 Claude Code 体验最流畅的地方——做完了就看,不满意就立刻反馈,不用在 IDE 和浏览器之间反复切换窗口。虽然 Codex 也有类似的功能,但它不会主动调用,你必须明确指令它显示预览,或者手动点击按钮。Claude Code 则是自然而然地给出——这种小细节上的贴切,往往比功能清单上的数量更能打动人心。

功能层面,Claude Code 的成品同样合格:定位、推荐、换一家、导航,所有流程都可以跑通。它推荐的「麻辣锅物大院」虽然也是 Mock 数据,但整体交互逻辑完整,营业时间、评分、距离等字段一应俱全。

Antigravity:惊艳的设计,曲折的路

Antigravity 的体验像是坐过山车。最初它只花了 17 秒就给出了响应——但仅仅是一份英文版的执行计划,并没有真正开始构建。我要求它提供中文版本,来来回回几轮对话之后才终于拿到了想要的东西。这份计划的详实程度令人印象深刻:它不仅是功能列表,更包含了组件设计、安全考量、甚至对用户体验的推敲。但计划归计划,真正让人卡壳的是交付环节——它告诉我「双击工作区目录中的 index.html 即可在浏览器中打开」,可我在界面上找了半天也没找到该在哪里双击。对于一个不想碰命令行的普通用户来说,这种感觉就像有人递给你一把钥匙,却没有告诉你是哪扇门。

最终我直接让它帮我打开,它倒是顺利执行了。

但打开之后的画面,让我前面的所有焦躁都烟消云散。Antigravity 产出的 UI 设计是三个工具中最好看的。没有之一。我没有给它任何关于视觉设计的额外指令,但它天然地理解了一个美食推荐应用应该长什么样——温暖的配色、舒服的排版、合理的留白。更让人惊喜的是,当你点击「换一家」时,它会有一个精致的微动画:旧卡片淡出,新卡片由小到大展开。这种对细节的在意,是 Claude Code 的朴实排版和 Codex 的中规中矩都无法比拟的。

不过,Antigravity 的功能实现同样受制于 Mock 数据——推荐的餐厅和真实位置之间存在不小的偏差,这一点三个工具打了个平手,问题的根源在于缺少真实的 Google Places API 接入。

Token 消耗:账单上的真相

当热情平息之后,实际的成本数字开始说话。

Codex 的表现令人印象深刻:在完成整个项目后,每周 5 小时的额度只消耗了 1%。这意味着在同等的付费框架下,Codex 的成本效率遥遥领先。Claude Code 在同一任务上消耗了 15% 的 Token,明显更高。至于 Antigravity——奇怪的事情发生了:尽管我在上面进行了最多的对话轮次(因为语言问题和计划确认),它的 Token 用量面板显示了 100% 的剩余额度,仿佛什么都没用过一样。这到底是 Bug,还是 Antigravity 的计费粒度与另外两个不在同一个尺度上,我无从得知。

但抛开 Antigravity 的模糊数据,Codex 在性价比上的优势是清晰且具有说服力的。

谁的品味更胜一筹

把三个工具的成品并排放在一起,设计上的差异变得格外鲜明。

Claude Code 的界面透着一股工程师的实用主义——该有的信息都有,按钮的逻辑也清晰,但排版上的空白过多,整体感觉像是后端开发者在周末赶出来的前端作品。Codex 则处在一个舒适的中间地带:它懂得把图片放在合适的位置,UI 不至于寒酸,但也不会让人眼前一亮。而 Antigravity——尽管它的桌面应用本身简陋得令人皱眉——产出的网页设计却是无可争议的第一名。它不需要你手把手教它什么是好的排版,它的内部模型似乎天然具备了一种对「好看」的直觉。

但设计这件事的可替代性需要被正视。如果 Codex 的用户对 UI 不满意,他们完全可以让 GPT 的 Image Tool 生成一张设计参考图,再据此修改——设计上的差距并非不可逾越的鸿沟。

最终的选择

如果只能留下一个工具,我会选择 Codex。

这个结论不是来自某一项压倒性的优势,而是一种综合体验上的舒适感。Codex 的界面直觉、Token 消耗的经济性、以及它整合各项功能的方式,都让人觉得它像是一个经过反复打磨的成品。它不会在第一次打开时让你迷失在一堆按钮中,也不会在你想要一个快速原型时先给你一份需要几轮对话才能确认的计划书。它理解「恰到好处」这个词的含义。

Claude Code 的最强项在于它的深度——当你的项目足够复杂、需要 AI 真正接管电脑去协调多个应用程序时,它的 Code Work 模式和文件夹隔离的安全设计几乎无可替代。而 Antigravity 的最大价值或许在于它的设计品味和规划能力——它像是一个在你动手之前按着你坐下来先画草图的建筑师,这在一开始让人烦躁,但长远来看可能是避免返工的最有效手段。

三个工具各有锋芒,而最终的选择权握在你手里——你是要效率、要深度,还是要品味?也许最好的答案不是非此即彼,而是知道在什么场景下把什么样的任务交给什么样的工具。但在今天,如果你跟我一样,只想选一个每天打开、用得舒服、不用想太多的 AI Agent,Codex 是把那把最贴合手心的刀。