我们在《无监督学习》播客中提到过“编码代理正在突破限制”的观点,相关讨论已于今日公开发布。
近期,Claude和Codex均有重大更新,Claude在用户印象数上持续领先。
Codex
Codex最新发布了“Codex for Work”,这是一个面向知识工作的推广页面,标志着Codex从单纯的编码工具向更广泛的计算机辅助工作转变。此次更新不仅是页面调整,还带来了42%更快的计算机用户界面响应速度、更加灵敏的浏览器支持、全新的/chronicle和/goal命令(类似于Ralph循环),以及鼓励用户接入微软、谷歌和Salesforce等办公套件。代理界面设计借鉴了Cowork的规划UI,并内置了MS Office文件编辑器。
正如业内人士所言,Codex现已面向非程序员开放,适用于任何电脑任务。团队选择了动态UI设计,放弃了Claude Cowork式的切换开关,让代理自主决定界面体验。

Claude
在安全漏洞日益增多的背景下,Anthropic推出了Claude Security,一款代码审查工具,专注于安全检测。

更重要的是,Claude开始支持Blender、Autodesk、Adobe Creative Cloud、Ableton、Splice、Canva和Affinity等创意工具,拓展了其在创意领域的应用。

AI Twitter动态回顾
-
GPT-5.5在网络安全任务中表现卓越:英国AI安全研究所报告称,GPT-5.5成为第二个完成多步骤网络攻击模拟的模型,表现与Claude Mythos Preview相当,且性能仍在提升。
-
Codex扩展至通用计算机工作:OpenAI发布了面向所有计算机任务的Codex更新,强调角色导向的引导、应用连接及跨文档、幻灯片、表格、研究和规划的工作流。
-
性能提升与成本优化:GPT-5.5 Pro在CritPt基准测试中以更低的成本和令牌使用率实现了新的性能记录,体现了更高的效率和可靠性。
-
开放权重模型动态:Qwen3.6 27B成为150B参数以下的领先开源模型,具备多模态输入和高效推理能力。腾讯Hy3-preview表现稳定但未领先,xAI的Grok 4.3在智能指数和成本效益上均有显著提升,蚂蚁集团的Ling 2.6 1T则侧重于成本效益。
-
多模态与视觉推理:DeepSeek将视觉推理紧密结合于计算机使用代理,采用边界框和坐标输出,强调实用的视觉原语任务。
-
代理基础设施与协作系统:Cursor强调代理运行时和评估的工程实践,LangChain推出了多租户代理部署方案,Agent Collabs实现了多代理协作的轻量级协调。
-
安全与供应链风险:开源包被攻击事件频发,Anthropic和Cursor分别推出了基于AI的安全扫描工具,强化代码审查和漏洞修复。
结语
此次更新显示,AI代理正从单一模型能力的展示,转向更注重实际应用的工程实现和用户体验优化。Codex和Claude分别在知识工作和创意工作领域持续发力,推动AI工具向更广泛的计算机使用场景渗透。


