在Latent Space和AI Engineer社区中,一个反复出现的话题是:大家似乎都在更努力地工作。

  • Aaron Levie(节目嘉宾)指出,“目前AI并没有让任何人减少工作量,硅谷的人们感觉他们的团队比以往任何时候都更忙碌。”
  • 经济学家Tyler Cowen认为,无论你相信AI会降低还是提升你的价值,现在都应该更加努力地工作。
  • Notion的Simon Last在最近的播客中提到,自从放弃机器学习模型训练后,他首次因为代理层的“令牌焦虑”而彻夜难眠,全天候工作。

那么,为什么“代理在做更多工作,但每个人却都更努力”?为什么Claude Mythos内部使用已有两个月,却频繁出现宕机?为什么模型和代理实验室的生产力创新不断,但收购和人才挖掘活动却愈发频繁?

这让我想起了“火鸡问题”:基于大量历史数据,火鸡理应认为生活美好,人类会一直喂养它们,直到感恩节的到来。工程师或知识工作者是否也像火鸡一样,直到某个临界点才意识到变化?

如今,SWE-Bench测试趋于饱和,Mythos准确率达到78%,GPT-5.4在经济领域的表现已超过或等同于83%的专家水平,那么人类还剩下什么独特价值?

Notion正在开发“最后考试”,Greg和Francois提出了ARC-AGI-3计划,我也在探索编码评估的新前沿。但如果硬件决定一切,AGI距离我们只有一个20GW超级计算集群的距离,这一切是否显得无关紧要?

还是说,还有更有价值的问题等待解决?


AI推特热点回顾

  • 谷歌Chrome“Skills”功能:将提示语转化为可重复使用的浏览器工作流,用户可一键执行针对当前页面和标签的操作,内置丰富的技能库,实现轻量级浏览器代理化。
  • 腾讯HYWorld 2.0:定位为可编辑的3D场景生成器,而非视频模型,支持从单张图片生成可编辑的3D世界模型。
  • 谷歌DeepMind发布Gemini Robotics-ER 1.6:提升机器人视觉和空间推理能力,增强物理安全推理,API开放,仪表读取成功率达93%。
  • OpenAI推出GPT-5.4-Cyber:针对防御安全工作流的微调版本,面向高权限认证用户开放。
  • Hugging Face发布“内核”功能:支持GPU内核的预编译库,针对特定GPU/PyTorch/操作系统组合优化,性能提升1.7至2.5倍。
  • Cursor与NVIDIA合作推出多代理CUDA优化系统:三周内在235个CUDA问题上实现38%的几何平均加速。

代理基础设施

  • Hermes Agent:成为可靠的本地代理栈,支持长时间运行,新增Web UI、模型切换、消息集成、备份恢复和Android支持,强调操作稳定性和扩展性。
  • LangChain深度代理0.5版本:支持异步子代理、多模态文件和提示缓存,推动多租户、异步系统的部署,关注内存隔离和用户认证。
  • Harness设计:越来越被重视,强调任务专用的开放框架和工作流设计,优先考虑内存切换和工具输出控制,而非单纯追求模型性能。

机器人、世界模型与3D生成

  • Gemini Robotics-ER 1.6:提升视觉空间理解和工具使用能力,增强物理约束推理,API开放,提升人身安全检测能力。
  • 世界模型转向可编辑空间资产:腾讯HYWorld 2.0强调真实3D场景生成,Spark 2.0支持百万级3D高斯点云流式渲染,推动AI生成3D从内容生产向交互渲染转变。
  • 开放3D生成技术进展:SATO模型实现拓扑和UV生成,AniGen支持从单张图片生成3D形状、骨骼和蒙皮权重,解决动画和纹理制作瓶颈。

AI时代,工作形态和生产力正经历深刻变革。我们既是火鸡,也可能成为驾驭未来的“马”,关键在于如何把握这场技术浪潮中的价值与机遇。