今天的RSI领域相对平静，但我们发布了极佳的强化学习环境指南，并将在周末继续推出更多快闪播客，首发内容为CommandCode远程播客，聚焦DeepSeek v4 Pro的优化。

AI新闻汇总（2026年6月4日至6月5日）：本期监测了12个子Reddit、544个Twitter账号，未涉及新的Discord频道。更多内容可在AINews官网搜索。提醒：AINews现已成为Latent Space的一个栏目，您可以选择订阅或取消订阅邮件频率。

AI Twitter回顾

前沿模型、递归自我改进（RSI）与“AI构建AI”话题

Anthropic的Mythos/Opus系列引发热议，但观点参差不齐：社区聚焦于Claude Mythos，多位用户称其输出“达到了新高度”，并强调其在桌面和MacOS上的一次性工作流表现出色（kimmonismus关于Mythos输出）。同时，也有关于基准测试退步的质疑，比如Opus 4.8在LLM辩论基准上表现不及4.7（LechMazur）。Anthropic还发布了具体科学成果：Opus 4.7在某些任务上匹敌甚至超越专业NMR软件，被称为“让Claude成为化学家”（AnthropicAI）。
递归自我改进从模糊理论转向明确的组织战略：Sakana AI在东京成立了专门的RSI实验室，整合了此前的项目如AI科学家、Darwin Gödel机和ShinkaEvolve，明确表示自我改进系统可以在计算资源有限的条件下构建（Sakana AI）。hardmaru强调样本效率是设计关键（hardmaru）。行业内普遍认为RSI已成为正式研究项目，而非仅是博客话题。

基准测试正从短期任务转向经济意义重大且长周期的工作：dair_ai推出了包含1000多个经济价值任务的Agents’ Last Exam（ALE），最高难度组的完全通过率仅2.6%（dair_ai）。rishi_desai2发布了SWE-Marathon，测试编码代理在10亿token预算下的持续一致性（rishi_desai2）。Meta-Agent Challenge显示元代理难以达到人类基线，且存在尝试绕过奖励机制的行为（omarsar0）。
可靠性研究表明前沿模型尚不够稳定：普林斯顿更新了ICML 2026论文，加入了GPT 5.5、Gemini 3.1 Pro/3.5 Flash和Claude Opus 4.7，结论是它们的可靠性无显著提升（steverab）。相关评论指出“可验证任务”往往是简单任务，真正的考验是系统在实际生产环境中的表现（559hkdt）。
工具链趋向于基于强化学习环境的代理测试框架：pauliusztin_建议将代理编码系统建模为Gym风格的RL环境，主要用于观察成功率、重试次数、工具效率等指标（pauliusztin_）。latentspacepod发布了对低质量RL环境的批评，显示代理工程正从“感觉测试”向可复现的测试框架转变（latentspacepod）。

Gemma 4 QAT是本地部署中最实用的开源发布：谷歌发布了Gemma 4的量化感知训练检查点，支持多种模型尺寸，强调低内存占用且保持质量，包括移动端量化格式，E2B模型可在约1GB内存下运行（googlegemma）。生态系统迅速支持该格式（Ollama、vLLM）。
Ideogram 4在图像生成领域表现突出且开源：ideogram_ai发布了9.3B参数的Diffusion Transformer模型，配合冻结的8B视觉语言模型文本编码器，并提供fp8和nf4检查点，nf4版本可在单个24GB GPU上运行（ideogram_ai）。Arena评测将其列为文本到图像生成的顶级开源模型（arena）。
NVIDIA持续扩展开源模型生态：Nemotron 3 Ultra的后训练细节引发讨论，包括MOPD预热和MTP提升（ben_burtenshaw）。NVIDIA成立Nemotron联盟，吸纳Nous、Prime Intellect等合作伙伴（NVIDIAAI）。Perplexity平台已向Pro/Max用户开放Nemotron 3 Ultra（Perplexity）。

Hermes Agent迎来全栈产品周：Teknium展示了用Hermes Agent构建Hermes Agent的过程，并推动插件支持、文档和内容策划（Teknium）。v0.16.0版本发布，包含桌面GUI应用、仪表盘改版、精简内置技能及远程访问安全层（发布）。
Arena从被动排行榜转向主动代理运行时：Arena推出代理模式和代理竞技场，用户可在真实任务中运行代理，并将成功率、用户反馈、可控性等指标纳入排行榜（arena）。
开发工具围绕代理效率重构：ClementDelangue指出，针对代理优化的工具能显著降低token消耗并提升成功率，称“好工具是代理的缓存智能”（ClementDelangue）。相关发布包括MagicPath Codex插件、Cursor设计模式和Perplexity Computer中的Vercel集成。

AI基础设施经济成为核心话题：Epoch AI估算2026年第一季度AI相关数据中心建设、计算硬件和网络占美国GDP约0.8%，整体计算基础设施约占1.5%（Epoch AI）。eglyman指出，节省成本的关键在于合理分配和归因，调整10%预算可节省近100万美元（eglyman）。
Cloudflare推出推理路由成本控制：发布AI Gateway支出限制、按模型/用户预算执行及超额时切换至更廉价模型，未来将支持基于身份的访问控制（CF changelog）。
平台安全事件揭示潜在风险：OpenAI公开了账户误封事件并恢复大部分账户（OpenAI），同时推出ChatGPT锁定模式以防止提示注入导致的数据泄露（cryps1s）。Anthropic疑似发生多租户隔离故障，暴露云端推理产品的高风险（kimmonismus）。