Anthropic展示了递归自我改进(RSI)的初步迹象,OpenAI的ChatGPT终于突破了10亿月活用户,虽然比预期晚了约5个月,并且推出了改进的记忆系统。同时,SpaceXAI正在向公众解释其IPO计划,尽管部分人可能并未意识到将被迫参与购买。

不过,这些消息都不及及时获取AIEWF会议门票和酒店预订以及收听最新Andon Labs播客重要。


AI Twitter 精华回顾

NVIDIA发布Nemotron 3 Ultra及3.5 ASR模型

  • Nemotron 3 Ultra是一款完全开源的5500亿参数混合专家模型(MoE),活跃参数为550亿,支持百万级上下文长度,专注于长时间运行的智能代理任务。NVIDIA宣称其在代理任务上速度提升5倍,成本降低30%,并发布了权重、合成数据、奖励检查点、量化版本及训练方案,均遵循OpenMDW 1.1协议。该架构融合了混合Mamba/注意力机制、LatentMoE和原生多令牌预测(MTP),预训练使用NVFP4格式,处理了超过20万亿个标记。
  • 性能测试显示,Nemotron 3 Ultra在智能指数上获得47.7分(BF16格式为48.2分),是目前测试过的美国开源权重模型中表现最强的,尽管仍落后于Kimi K2.6。其推理速度超过400个输出标记每秒,且在任务延迟与性能的帕累托前沿表现优异。模型发布当天即支持多种平台和服务。
  • Nemotron 3.5 ASR是一个实用的流式自动语音识别模型,拥有6亿参数检查点,支持40种语言和地区组合,延迟低于100毫秒,采用缓存感知的FastConformer/RNN-T设计,优化了语音代理和流式语音工作负载。

Anthropic递归自我改进及内部AI编码指标

  • Anthropic发布了当天最受关注的政策与研究报告,指出当前系统出现了递归自我改进的早期迹象,虽然尚未达到完全自主的研究方向,但AI正在加速AI的开发。报告显示,Claude模型现在贡献了80%以上的合并代码,工程师的季度代码提交量是以往的8倍,Claude在内部开放式工程任务中的成功率在六个月内从26%提升至76%。
  • 其内部测试显示,Claude Opus 4能将小型模型训练脚本加速约3倍,而Mythos Preview则达到了约52倍的加速。Mythos在研究建议方面优于人类,尤其在研究者走错方向时,64%的建议更为有效。总体来看,自动化问题选择仍未解决,但实现大部分实现和迭代自动化已成现实。
  • 在治理方面,Anthropic强调“世界应有权选择放缓或暂时暂停前沿AI发展”,并呼吁加强验证和协调机制,以应对递归自我改进可能带来的风险。此声明发布之际,Anthropic因放宽生物/化学风险相关的责任扩展政策而受到批评。同时,包括Altman、Amodei、Hassabis和Baker在内的联盟支持在美国强制实施DNA合成筛查和记录,以应对AI侵蚀生物知识壁垒的风险。

Cloudflare收购VoidZero,强化全栈代理工具链

  • Cloudflare收购了VoidZero团队,该团队是Vite、Vitest、Rolldown、Oxc和Vite+的幕后开发者。双方强调Vite将继续保持开源、MIT许可和供应商中立,Cloudflare还承诺投入100万美元支持独立的Vite生态系统发展。
  • 开发者普遍认为,此举使Cloudflare能够更紧密地控制日益适配代理的应用栈,包括前端构建工具、运行时、存储、推理、部署原语和安全性,形成一个统一的平台,方便大型语言模型(LLM)驱动的网站构建。

代理系统、执行环境、记忆与评估基础设施

  • 多条推文指出,代理系统层正逐渐成熟,瓶颈从单纯的提示转向执行环境或协调器。Claude Code的工作流程被总结为“我不再提示Claude,而是写循环”,有用户逆向工程动态工作流,用于分支研究、验证、分类、数据合成和评估生成。高阶控制循环正成为核心工作单位。
  • 相关工具也在进步。LangSmith Sandboxes实现了Dockerfile快照、交互式控制台、TCP隧道和标准Linux工具。Hugging Face推出了自定义内核分发路径和对代理轨迹的更强支持。Julien_c发布了SynthTraces,生成了2000多个合成编码代理会话轨迹。
  • 评估也转向真实代理工作。Arena推出了Agent Arena/Agent Mode,基于数百万实时会话,使用网页搜索、文件系统、bash和图像生成等工具,评估GPT-5.5、Claude Opus 4.7、GLM-5.1、Gemini 3.1 Pro和Kimi-K2.6等模型的任务成功率、可控性、恢复能力、用户反馈和工具幻觉,覆盖30万+任务、200万+工具调用和4000万行代码。企业方面,Cognition推出了AI生产力保障计划,覆盖高达1000万美元的使用费用,基于258个企业会话的内部测量系统。

记忆、多模态及模型/基准更新

  • OpenAI为美国Plus和Pro用户推出了更强大的ChatGPT记忆系统,支持记忆摘要、更多控制选项和双倍记忆容量,标志着从保存记忆到“梦境”再到当前系统的研究进展。
  • 其他模型和数据发布包括Gemma 4 12B作为本地编码模型替代品,支持高度压缩的2位GGUF格式。Molmo2作为开放视觉语言模型(VLM)候选,在CVPR上展示了视频指点、跟踪、计数和多图像推理能力。LlamaIndex发布了ParseBench文档理解基准,包含2000多页人工验证页面和16.7万条测试规则,涵盖表格、图表、真实性、格式和基础信息。

AI Reddit 精选回顾

/r/LocalLlama 与 /r/localLLM

  • Google DeepMind发布了Gemma 4 12B模型,支持140多种语言,最大上下文长度达256K标记,采用无编码器架构,支持多模态输入和本地部署。社区关注其编码性能及与Qwen 3.5 9B的对比。
  • 本地测试显示,Gemma 4 26B-A4B在物理模拟任务中速度更快,但部分用户认为12B版本在某些场景表现更优。讨论中还涉及模型的音频能力及多模态支持。
  • 另一篇帖子对Gemma 4 12B与Qwen3.5 9B进行了基准测试,Qwen在5/8项测试中胜出,尤其在编码任务上表现更佳,但Gemma在创意写作和语言任务中表现更受欢迎。
  • NVIDIA发布Nemotron 3 Ultra 550B模型,硬件需求极高,适合大型数据中心部署。华为开源了KVarN,一种KV缓存量化方法,声称在压缩和推理速度上优于现有方案。

非技术AI社区动态

  • Ideogram 4.0开源,支持ComfyUI,具备JSON结构化提示和高准确度OCR,但被用户指出存在强烈安全过滤和水印限制。
  • Anima多角色图像生成表现出色,提示遵循度高,细节渗色问题较少,用户期待未来改进。
  • Claude Code被接入Polymarket交易数据库,实现自然语言查询,揭示了交易盈利集中度和潜在异常行为。
  • 有用户利用Claude Code和ADS-B数据制作了飞行器投影映射,展示了“氛围编码”的创意应用。

前沿AI应用与风险信号

  • Anthropic内部数据显示Claude正在加速AI研发,可能开启递归自我改进路径,引发对未来AI控制风险的关注。
  • Sam Altman、Dario Amodei和Demis Hassabis联合致信美国国会,呼吁对合成核酸订单实施筛查,以降低AI辅助病原体设计的生物安全风险。
  • ChatGPT成为最快达到10亿月活用户的应用,尽管用户数和营收的可持续性仍有争议。
  • 斯坦福研究表明,Gemini 2.5 Pro在法律问答中胜过16位合同法教授,显示AI在法律辅导领域的潜力。

AI Discords

遗憾的是,Discord渠道今日关闭,我们将不再以此形式提供服务,但新的AINews版本即将上线。感谢大家的支持与关注。