今日AI动态简报：平静中见进展

Anthropic展示了递归自我改进（RSI）的初步迹象，OpenAI的ChatGPT终于突破了10亿月活用户，虽然比预期晚了约5个月，并且推出了改进的记忆系统。同时，SpaceXAI正在向公众解释其IPO计划，尽管部分人可能并未意识到将被迫参与购买。

不过，这些消息都不及及时获取AIEWF会议门票和酒店预订以及收听最新Andon Labs播客重要。

NVIDIA发布Nemotron 3 Ultra及3.5 ASR模型

Nemotron 3 Ultra是一款完全开源的5500亿参数混合专家模型（MoE），活跃参数为550亿，支持百万级上下文长度，专注于长时间运行的智能代理任务。NVIDIA宣称其在代理任务上速度提升5倍，成本降低30%，并发布了权重、合成数据、奖励检查点、量化版本及训练方案，均遵循OpenMDW 1.1协议。该架构融合了混合Mamba/注意力机制、LatentMoE和原生多令牌预测（MTP），预训练使用NVFP4格式，处理了超过20万亿个标记。
性能测试显示，Nemotron 3 Ultra在智能指数上获得47.7分（BF16格式为48.2分），是目前测试过的美国开源权重模型中表现最强的，尽管仍落后于Kimi K2.6。其推理速度超过400个输出标记每秒，且在任务延迟与性能的帕累托前沿表现优异。模型发布当天即支持多种平台和服务。
Nemotron 3.5 ASR是一个实用的流式自动语音识别模型，拥有6亿参数检查点，支持40种语言和地区组合，延迟低于100毫秒，采用缓存感知的FastConformer/RNN-T设计，优化了语音代理和流式语音工作负载。

Anthropic递归自我改进及内部AI编码指标

Anthropic发布了当天最受关注的政策与研究报告，指出当前系统出现了递归自我改进的早期迹象，虽然尚未达到完全自主的研究方向，但AI正在加速AI的开发。报告显示，Claude模型现在贡献了80%以上的合并代码，工程师的季度代码提交量是以往的8倍，Claude在内部开放式工程任务中的成功率在六个月内从26%提升至76%。
其内部测试显示，Claude Opus 4能将小型模型训练脚本加速约3倍，而Mythos Preview则达到了约52倍的加速。Mythos在研究建议方面优于人类，尤其在研究者走错方向时，64%的建议更为有效。总体来看，自动化问题选择仍未解决，但实现大部分实现和迭代自动化已成现实。
在治理方面，Anthropic强调“世界应有权选择放缓或暂时暂停前沿AI发展”，并呼吁加强验证和协调机制，以应对递归自我改进可能带来的风险。此声明发布之际，Anthropic因放宽生物/化学风险相关的责任扩展政策而受到批评。同时，包括Altman、Amodei、Hassabis和Baker在内的联盟支持在美国强制实施DNA合成筛查和记录，以应对AI侵蚀生物知识壁垒的风险。

Cloudflare收购VoidZero，强化全栈代理工具链

Cloudflare收购了VoidZero团队，该团队是Vite、Vitest、Rolldown、Oxc和Vite+的幕后开发者。双方强调Vite将继续保持开源、MIT许可和供应商中立，Cloudflare还承诺投入100万美元支持独立的Vite生态系统发展。
开发者普遍认为，此举使Cloudflare能够更紧密地控制日益适配代理的应用栈，包括前端构建工具、运行时、存储、推理、部署原语和安全性，形成一个统一的平台，方便大型语言模型（LLM）驱动的网站构建。

代理系统、执行环境、记忆与评估基础设施

多条推文指出，代理系统层正逐渐成熟，瓶颈从单纯的提示转向执行环境或协调器。Claude Code的工作流程被总结为“我不再提示Claude，而是写循环”，有用户逆向工程动态工作流，用于分支研究、验证、分类、数据合成和评估生成。高阶控制循环正成为核心工作单位。
相关工具也在进步。LangSmith Sandboxes实现了Dockerfile快照、交互式控制台、TCP隧道和标准Linux工具。Hugging Face推出了自定义内核分发路径和对代理轨迹的更强支持。Julien_c发布了SynthTraces，生成了2000多个合成编码代理会话轨迹。
评估也转向真实代理工作。Arena推出了Agent Arena/Agent Mode，基于数百万实时会话，使用网页搜索、文件系统、bash和图像生成等工具，评估GPT-5.5、Claude Opus 4.7、GLM-5.1、Gemini 3.1 Pro和Kimi-K2.6等模型的任务成功率、可控性、恢复能力、用户反馈和工具幻觉，覆盖30万+任务、200万+工具调用和4000万行代码。企业方面，Cognition推出了AI生产力保障计划，覆盖高达1000万美元的使用费用，基于258个企业会话的内部测量系统。

记忆、多模态及模型/基准更新

OpenAI为美国Plus和Pro用户推出了更强大的ChatGPT记忆系统，支持记忆摘要、更多控制选项和双倍记忆容量，标志着从保存记忆到“梦境”再到当前系统的研究进展。
其他模型和数据发布包括Gemma 4 12B作为本地编码模型替代品，支持高度压缩的2位GGUF格式。Molmo2作为开放视觉语言模型（VLM）候选，在CVPR上展示了视频指点、跟踪、计数和多图像推理能力。LlamaIndex发布了ParseBench文档理解基准，包含2000多页人工验证页面和16.7万条测试规则，涵盖表格、图表、真实性、格式和基础信息。

/r/LocalLlama 与 /r/localLLM

Google DeepMind发布了Gemma 4 12B模型，支持140多种语言，最大上下文长度达256K标记，采用无编码器架构，支持多模态输入和本地部署。社区关注其编码性能及与Qwen 3.5 9B的对比。
本地测试显示，Gemma 4 26B-A4B在物理模拟任务中速度更快，但部分用户认为12B版本在某些场景表现更优。讨论中还涉及模型的音频能力及多模态支持。
另一篇帖子对Gemma 4 12B与Qwen3.5 9B进行了基准测试，Qwen在5/8项测试中胜出，尤其在编码任务上表现更佳，但Gemma在创意写作和语言任务中表现更受欢迎。
NVIDIA发布Nemotron 3 Ultra 550B模型，硬件需求极高，适合大型数据中心部署。华为开源了KVarN，一种KV缓存量化方法，声称在压缩和推理速度上优于现有方案。

非技术AI社区动态

前沿AI应用与风险信号

Anthropic内部数据显示Claude正在加速AI研发，可能开启递归自我改进路径，引发对未来AI控制风险的关注。
Sam Altman、Dario Amodei和Demis Hassabis联合致信美国国会，呼吁对合成核酸订单实施筛查，以降低AI辅助病原体设计的生物安全风险。
ChatGPT成为最快达到10亿月活用户的应用，尽管用户数和营收的可持续性仍有争议。
斯坦福研究表明，Gemini 2.5 Pro在法律问答中胜过16位合同法教授，显示AI在法律辅导领域的潜力。