全面代理：Codex助力知识工作，Claude专注创意领域

我们在《无监督学习》播客中提到过“编码代理正在突破限制”的观点，相关讨论已于今日公开发布。

近期，Claude和Codex均有重大更新，Claude在用户印象数上持续领先。

Codex

Codex最新发布了“Codex for Work”，这是一个面向知识工作的推广页面，标志着Codex从单纯的编码工具向更广泛的计算机辅助工作转变。此次更新不仅是页面调整，还带来了42%更快的计算机用户界面响应速度、更加灵敏的浏览器支持、全新的/chronicle和/goal命令（类似于Ralph循环），以及鼓励用户接入微软、谷歌和Salesforce等办公套件。代理界面设计借鉴了Cowork的规划UI，并内置了MS Office文件编辑器。

正如业内人士所言，Codex现已面向非程序员开放，适用于任何电脑任务。团队选择了动态UI设计，放弃了Claude Cowork式的切换开关，让代理自主决定界面体验。

Codex动态UI

Claude

在安全漏洞日益增多的背景下，Anthropic推出了Claude Security，一款代码审查工具，专注于安全检测。

Claude Security

更重要的是，Claude开始支持Blender、Autodesk、Adobe Creative Cloud、Ableton、Splice、Canva和Affinity等创意工具，拓展了其在创意领域的应用。

Claude创意工具支持

AI Twitter动态回顾

GPT-5.5在网络安全任务中表现卓越：英国AI安全研究所报告称，GPT-5.5成为第二个完成多步骤网络攻击模拟的模型，表现与Claude Mythos Preview相当，且性能仍在提升。
Codex扩展至通用计算机工作：OpenAI发布了面向所有计算机任务的Codex更新，强调角色导向的引导、应用连接及跨文档、幻灯片、表格、研究和规划的工作流。
性能提升与成本优化：GPT-5.5 Pro在CritPt基准测试中以更低的成本和令牌使用率实现了新的性能记录，体现了更高的效率和可靠性。
开放权重模型动态：Qwen3.6 27B成为150B参数以下的领先开源模型，具备多模态输入和高效推理能力。腾讯Hy3-preview表现稳定但未领先，xAI的Grok 4.3在智能指数和成本效益上均有显著提升，蚂蚁集团的Ling 2.6 1T则侧重于成本效益。
多模态与视觉推理：DeepSeek将视觉推理紧密结合于计算机使用代理，采用边界框和坐标输出，强调实用的视觉原语任务。
代理基础设施与协作系统：Cursor强调代理运行时和评估的工程实践，LangChain推出了多租户代理部署方案，Agent Collabs实现了多代理协作的轻量级协调。
安全与供应链风险：开源包被攻击事件频发，Anthropic和Cursor分别推出了基于AI的安全扫描工具，强化代码审查和漏洞修复。

结语

此次更新显示，AI代理正从单一模型能力的展示，转向更注重实际应用的工程实现和用户体验优化。Codex和Claude分别在知识工作和创意工作领域持续发力，推动AI工具向更广泛的计算机使用场景渗透。

全面代理：Codex助力知识工作，Claude专注创意领域

Codex

Claude

AI Twitter动态回顾

结语

标签

评论

相关阅读

东京大学加入World ID项目，成为AI时代的人类身份认证节点

日本软银将“Patching as a Service”服务对象扩大至3000家公司

索尼宣布结束国内aibo机器人的销售