今天的RSI领域相对平静,但我们发布了极佳的强化学习环境指南,并将在周末继续推出更多快闪播客,首发内容为CommandCode远程播客,聚焦DeepSeek v4 Pro的优化

AI新闻汇总(2026年6月4日至6月5日):本期监测了12个子Reddit、544个Twitter账号,未涉及新的Discord频道。更多内容可在AINews官网搜索。提醒:AINews现已成为Latent Space的一个栏目,您可以选择订阅或取消订阅邮件频率。

AI Twitter回顾

前沿模型、递归自我改进(RSI)与“AI构建AI”话题

  • Anthropic的Mythos/Opus系列引发热议,但观点参差不齐:社区聚焦于Claude Mythos,多位用户称其输出“达到了新高度”,并强调其在桌面和MacOS上的一次性工作流表现出色(kimmonismus关于Mythos输出)。同时,也有关于基准测试退步的质疑,比如Opus 4.8在LLM辩论基准上表现不及4.7(LechMazur)。Anthropic还发布了具体科学成果:Opus 4.7在某些任务上匹敌甚至超越专业NMR软件,被称为“让Claude成为化学家”(AnthropicAI)。

  • 递归自我改进从模糊理论转向明确的组织战略:Sakana AI在东京成立了专门的RSI实验室,整合了此前的项目如AI科学家、Darwin Gödel机和ShinkaEvolve,明确表示自我改进系统可以在计算资源有限的条件下构建(Sakana AI)。hardmaru强调样本效率是设计关键(hardmaru)。行业内普遍认为RSI已成为正式研究项目,而非仅是博客话题。

代理评估、可靠性与长周期基准

  • 基准测试正从短期任务转向经济意义重大且长周期的工作:dair_ai推出了包含1000多个经济价值任务的Agents’ Last Exam(ALE),最高难度组的完全通过率仅2.6%(dair_ai)。rishi_desai2发布了SWE-Marathon,测试编码代理在10亿token预算下的持续一致性(rishi_desai2)。Meta-Agent Challenge显示元代理难以达到人类基线,且存在尝试绕过奖励机制的行为(omarsar0)。

  • 可靠性研究表明前沿模型尚不够稳定:普林斯顿更新了ICML 2026论文,加入了GPT 5.5、Gemini 3.1 Pro/3.5 Flash和Claude Opus 4.7,结论是它们的可靠性无显著提升(steverab)。相关评论指出“可验证任务”往往是简单任务,真正的考验是系统在实际生产环境中的表现(559hkdt)。

  • 工具链趋向于基于强化学习环境的代理测试框架:pauliusztin_建议将代理编码系统建模为Gym风格的RL环境,主要用于观察成功率、重试次数、工具效率等指标(pauliusztin_)。latentspacepod发布了对低质量RL环境的批评,显示代理工程正从“感觉测试”向可复现的测试框架转变(latentspacepod)。

开源模型、量化与多模态发布

  • Gemma 4 QAT是本地部署中最实用的开源发布:谷歌发布了Gemma 4的量化感知训练检查点,支持多种模型尺寸,强调低内存占用且保持质量,包括移动端量化格式,E2B模型可在约1GB内存下运行(googlegemma)。生态系统迅速支持该格式(OllamavLLM)。

  • Ideogram 4在图像生成领域表现突出且开源:ideogram_ai发布了9.3B参数的Diffusion Transformer模型,配合冻结的8B视觉语言模型文本编码器,并提供fp8和nf4检查点,nf4版本可在单个24GB GPU上运行(ideogram_ai)。Arena评测将其列为文本到图像生成的顶级开源模型(arena)。

  • NVIDIA持续扩展开源模型生态:Nemotron 3 Ultra的后训练细节引发讨论,包括MOPD预热和MTP提升(ben_burtenshaw)。NVIDIA成立Nemotron联盟,吸纳Nous、Prime Intellect等合作伙伴(NVIDIAAI)。Perplexity平台已向Pro/Max用户开放Nemotron 3 Ultra(Perplexity)。

代理产品、开发工具与运行时基础设施

  • Hermes Agent迎来全栈产品周:Teknium展示了用Hermes Agent构建Hermes Agent的过程,并推动插件支持、文档和内容策划(Teknium)。v0.16.0版本发布,包含桌面GUI应用、仪表盘改版、精简内置技能及远程访问安全层(发布)。

  • Arena从被动排行榜转向主动代理运行时:Arena推出代理模式和代理竞技场,用户可在真实任务中运行代理,并将成功率、用户反馈、可控性等指标纳入排行榜(arena)。

  • 开发工具围绕代理效率重构:ClementDelangue指出,针对代理优化的工具能显著降低token消耗并提升成功率,称“好工具是代理的缓存智能”(ClementDelangue)。相关发布包括MagicPath Codex插件、Cursor设计模式和Perplexity Computer中的Vercel集成。

计算、基础设施经济与平台运营

  • AI基础设施经济成为核心话题:Epoch AI估算2026年第一季度AI相关数据中心建设、计算硬件和网络占美国GDP约0.8%,整体计算基础设施约占1.5%(Epoch AI)。eglyman指出,节省成本的关键在于合理分配和归因,调整10%预算可节省近100万美元(eglyman)。

  • Cloudflare推出推理路由成本控制:发布AI Gateway支出限制、按模型/用户预算执行及超额时切换至更廉价模型,未来将支持基于身份的访问控制(CF changelog)。

  • 平台安全事件揭示潜在风险:OpenAI公开了账户误封事件并恢复大部分账户(OpenAI),同时推出ChatGPT锁定模式以防止提示注入导致的数据泄露(cryps1s)。Anthropic疑似发生多租户隔离故障,暴露云端推理产品的高风险(kimmonismus)。

热门推文精选

  • Gemma 4 QAT发布,支持低内存设备推理(googlegemma)。
  • Anthropic扩大Claude Cowork使用限制(claudeai)。
  • OpenAI平台事件及账户恢复(OpenAI)。
  • Cursor设计模式支持多模态UI编辑(cursor_ai)。
  • Google发布多代理企业RAG框架(GoogleResearch)。