开放模型、模型实验室与代理实验室的对比及不可训练性的探讨——Sarah Guo观点解读

发布时间：2026/6/11

Sarah Guo是我们播客的好友，被誉为“AI女王”。在我们与Satya的跨界播客之后，她在自己的Substack上发表了一篇精彩文章，值得一读。以下是对她观点的总结与反思：

Sarah Guo文章配图

她提出的框架基于“可读性”（legibility）这一概念，涵盖了我们在Satya播客及Latent Space两年来讨论的多个主题：

开放模型的定位：2024年Braintrust时我们对开放模型的采用持极度悲观态度，但随着2026年Pmarca、Cursor和Notion的播客，我们的观点发生了转变。
代理实验室与模型实验室的区别：Sarah作为Cognition的投资者，强调了“细节决定成败”的观点。她指出，真正难以复制的是那些为模型提供操作工具、调整企业私有现实并与客户协作改变其工作环境的应用。这种“翻译”工作是持续不断的，依赖于将领域专长的工程师和工具紧密结合客户的团队。
免费且可验证的基准测试：Anthropic快速采用FrontierCode进行Fable发布的基准测试，反映了行业对公开、透明评测的重视。Sarah同意我们的看法，即“今年最被引用的基准分数其实是即将失效的领域地图，同时也是谁将失去定义‘优秀’标准权利的预告”。

她最后强调了“意图”的重要性：“更难的是进攻，即选择首先构建什么。我一年中大约只找到三次这样的机会。模型无法帮助判断什么值得关注，也无法通过基准测试训练。这也是现有巨头无法包揽一切的原因：他们守住已有阵地，新的突破来自于那些先发现新用途的人。或许意图比算力更稀缺。”

AI Twitter热点回顾

Anthropic的Fable/Mythos发布及信任危机

许多技术推文批评Anthropic在AI研究相关提示上悄然降低模型性能，未提前明确告知，导致研究者和开发者对模型能力的可验证性和可信度产生质疑。
企业用户担忧数据保留政策，部分环境无法接受30天提示/数据保留且无选择权，影响合规性和锁定风险。
面对争议，Anthropic发布了“AI指数政策”，呼吁加强前沿AI监管，体现了私有控制与公共监管之间的矛盾。

Fable 5的性能表现

尽管政策引发争议，Fable 5在代理和编码任务中表现出色，多项评测中排名领先。
开发者报告了在复杂编码和创意任务上的显著效率提升，但也存在脆弱性和成本问题。
该模型迅速被Perplexity等平台集成，苹果开发者也获得了多步推理和代码支持。

谷歌DiffusionGemma发布及扩散式LLM的关注

谷歌发布了26B参数的DiffusionGemma扩散式文本模型，采用块级生成方式，速度提升4倍，支持开源Apache 2.0协议。
该模型被vLLM等系统原生支持，支持本地运行，适配中等显存硬件。
研究者认为扩散式生成为非顺序解码和迭代优化任务提供了新方向。

代理工具、基础设施与基准测试的进展

基准测试从偏好评估向基于轨迹的客观指标转变，适应长时间、多工具调用的复杂任务。
记忆管理、编排和环境控制工具不断完善，如Hermes Agent配置文件、Engram结构化记忆等。
多项检测与推理框架推出，提升推理经济性和多代理协作效率。

优化、检索与科学建模的最新动态

Meta的Distributed Shampoo优化器与Muon基线表现接近，凸显实现细节对性能影响巨大。
新的晚期交互检索核提升了多向量检索的效率和内存占用。
科学与多模态建模方面，扩散视频模型在物理信息编码上表现优异，生物技术领域推出了更快的共折叠模型，架构研究发布了新的视觉语言模型。

AI Reddit社区动态

/r/LocalLlama 与 /r/localLLM 重点

开放权重模型发布：包括North Mini Code和DiffusionGemma，推动本地化和开源模型生态发展。

标签

#开放模型 #代理实验室 #基准测试 #扩散模型 #AI治理

评论

评论系统可后续接入后端接口，这里先保留展示与提交区域。

相关阅读

TechCrunch出行：汽车行业的AI技能竞赛即将来临

2026/05/18

TechCrunch出行：汽车行业的AI技能竞赛即将来临

欢迎回到TechCrunch出行——您获取未来交通新闻与洞察的中心平台。想要免费订阅，请访问TechCrunch出行官网。当前交通领域乃至各行各业都呈现出一个趋势：人工智能（AI）正在为部分人创造就业机会，同时也导致另一些岗位消失。以通用汽车（General Motors）为例，该公司裁减了其IT部门超过10%的员工，约600名正式员工，进行了一场有意的技能置换。虽然这并非一对一的岗位替换，意

日本TISI与AtStream Consulting发布面向系统规划构想流程的AI代理实证成果

2026/08/01

日本TISI与AtStream Consulting发布面向系统规划构想流程的AI代理实证成果

日本TISI株式会社与日本AtStream Consulting株式会社于28日宣布，基于TISI的生成式AI业务支持服务“Agentic AI Platform”，开发了一款支持系统规划构想流程输出制作的AI代理应用，并通过实际项目应用验证了其效果。 “Agentic AI Platform”是一个无需编码即可开发结合多种AI功能的业务支持应用的平台。此次，TISI与AtStream Consu

微软Copilot AI被曝一键泄露2FA验证码，助黑客窃取账户

2026/06/18

微软Copilot AI被曝一键泄露2FA验证码，助黑客窃取账户

微软的Copilot企业版聊天机器人存在严重安全漏洞，黑客仅需点击一次即可窃取用户的双因素认证代码，暴露敏感数据。