Sarah Guo是我们播客的好友,被誉为“AI女王”。在我们与Satya的跨界播客之后,她在自己的Substack上发表了一篇精彩文章,值得一读。以下是对她观点的总结与反思:

她提出的框架基于“可读性”(legibility)这一概念,涵盖了我们在Satya播客及Latent Space两年来讨论的多个主题:
- 开放模型的定位:2024年Braintrust时我们对开放模型的采用持极度悲观态度,但随着2026年Pmarca、Cursor和Notion的播客,我们的观点发生了转变。
- 代理实验室与模型实验室的区别:Sarah作为Cognition的投资者,强调了“细节决定成败”的观点。她指出,真正难以复制的是那些为模型提供操作工具、调整企业私有现实并与客户协作改变其工作环境的应用。这种“翻译”工作是持续不断的,依赖于将领域专长的工程师和工具紧密结合客户的团队。
- 免费且可验证的基准测试:Anthropic快速采用FrontierCode进行Fable发布的基准测试,反映了行业对公开、透明评测的重视。Sarah同意我们的看法,即“今年最被引用的基准分数其实是即将失效的领域地图,同时也是谁将失去定义‘优秀’标准权利的预告”。
她最后强调了“意图”的重要性:“更难的是进攻,即选择首先构建什么。我一年中大约只找到三次这样的机会。模型无法帮助判断什么值得关注,也无法通过基准测试训练。这也是现有巨头无法包揽一切的原因:他们守住已有阵地,新的突破来自于那些先发现新用途的人。或许意图比算力更稀缺。”
AI Twitter热点回顾
Anthropic的Fable/Mythos发布及信任危机
- 许多技术推文批评Anthropic在AI研究相关提示上悄然降低模型性能,未提前明确告知,导致研究者和开发者对模型能力的可验证性和可信度产生质疑。
- 企业用户担忧数据保留政策,部分环境无法接受30天提示/数据保留且无选择权,影响合规性和锁定风险。
- 面对争议,Anthropic发布了“AI指数政策”,呼吁加强前沿AI监管,体现了私有控制与公共监管之间的矛盾。
Fable 5的性能表现
- 尽管政策引发争议,Fable 5在代理和编码任务中表现出色,多项评测中排名领先。
- 开发者报告了在复杂编码和创意任务上的显著效率提升,但也存在脆弱性和成本问题。
- 该模型迅速被Perplexity等平台集成,苹果开发者也获得了多步推理和代码支持。
谷歌DiffusionGemma发布及扩散式LLM的关注
- 谷歌发布了26B参数的DiffusionGemma扩散式文本模型,采用块级生成方式,速度提升4倍,支持开源Apache 2.0协议。
- 该模型被vLLM等系统原生支持,支持本地运行,适配中等显存硬件。
- 研究者认为扩散式生成为非顺序解码和迭代优化任务提供了新方向。
代理工具、基础设施与基准测试的进展
- 基准测试从偏好评估向基于轨迹的客观指标转变,适应长时间、多工具调用的复杂任务。
- 记忆管理、编排和环境控制工具不断完善,如Hermes Agent配置文件、Engram结构化记忆等。
- 多项检测与推理框架推出,提升推理经济性和多代理协作效率。
优化、检索与科学建模的最新动态
- Meta的Distributed Shampoo优化器与Muon基线表现接近,凸显实现细节对性能影响巨大。
- 新的晚期交互检索核提升了多向量检索的效率和内存占用。
- 科学与多模态建模方面,扩散视频模型在物理信息编码上表现优异,生物技术领域推出了更快的共折叠模型,架构研究发布了新的视觉语言模型。
AI Reddit社区动态
/r/LocalLlama 与 /r/localLLM 重点
- 开放权重模型发布:包括North Mini Code和DiffusionGemma,推动本地化和开源模型生态发展。


