我们非常喜欢今天播客中Turbopuffer的Simon Eskildsen的精彩分享,即使你不是数据库专家,也强烈推荐收听。
今天的观点较为平静,但OpenAI研究员Aidan McLaughlin的一条评论一直萦绕在我脑海中:

八年前,Tyler Cowen提出了“提升他人期望值的高回报活动”,这也是我们在过去三年关注和研究AI时,看到的最大遗憾之一。那些“刚好不疯狂”的人推动了大型语言模型的极限并从中获益,而那些按当时模型水平谨慎评判和管理LLMs的人,大多未能取得突破。
因此,一个有趣的问题是:如何让自己比当前的状态更具雄心?我们将在即将发布的Claude Cowork播客中深入探讨这个问题。
AI Twitter动态回顾
代理基础设施、工具套件与MCP争论
- 工具套件(Harnesses)正成为产品的核心,模型质量已不再是瓶颈,周边的工具、内存和运行时环境更为关键。@mattturck与Harrison Chase的访谈强调了工具套件、沙箱、文件系统访问、技能、内存和可观测性的重要性,而@hwchase17指出代理的用户界面和体验仍然是难点。
- 尽管有“多代理通信协议(MCP)已死”的调侃,技术观点认为MCP正被规范化为生产环境的基础设施。Uber内部使用MCP证明其在大型企业代理服务集成中的核心地位。
编码代理、评估与开发流程变化
- 编码代理技术正从演示走向可量化系统。Cursor发布了结合离线基准和在线请求指标的CursorBench评测方法,OpenAI表示GPT-5.4在正确性和令牌效率上领先。
- 代理辅助开发分化为自动化密集型流程和保持人工参与的工具。部分开发者认为快速的内联自动补全仍优于完全自动化流程,代理在复现截图中的错误、跨工具检索和自动化协调方面表现突出。
- Nous发布的Hermes Agent v0.2.0支持完整的MCP客户端、多编辑器ACP服务器、文件系统检查点回滚、本地浏览器支持等,社区反响积极。
多模态检索、嵌入与新交互界面
- Google发布了首个原生多模态嵌入模型Gemini Embedding 2,支持文本、图像、音频、视频和PDF统一向量空间。Mixedbread的Wholembed v3在多模态和多语言检索中表现领先,强调多向量交互设计。
- 检索技术正围绕单向量与多向量展开辩论,多向量交互索引被认为更具优势,前提是基础设施能支持大规模应用。
- Anthropic的Claude新增可在聊天中生成交互式图表和图形,标志着生成式用户界面(Generative UI)的发展。
模型发布、基准测试与效率趋势
- NVIDIA发布了Nemotron 3 Super,一款1200亿参数的专家混合模型,采用LatentMoE架构,优化推理经济性。
- Grok 4.20 Beta更像是成本、速度和行为的更新,拥有2M上下文窗口和较低价格,非顶尖但更实用。
- 研究聚焦于训练信号质量、推理效率和自适应计算,如循环变换器、梯度瓶颈和早期链式推理退出探测等。
应用AI:地图、医疗、视频与预测
- Google Maps围绕Gemini重构,新增对话式“问地图”功能和沉浸式导航,未来地图界面可能不再是传统地图形态。
- 微软推出Copilot Health,整合电子健康记录、可穿戴设备和实验室数据,强调数据不用于训练,输出基于可信医疗来源。
- OpenAI的Sora 2视频API支持自定义角色、16:9和9:16导出、20秒视频片段等,适合营销和用户生成内容。
- Google Research的Groundsource利用Gemini将超过500万公共报告转化为260万+洪水事件数据集,实现24小时内城市洪水预报。
AI Reddit热点回顾
Qwen3.5模型表现与基准测试
- Qwen3.5-9B在消费级硬件上表现优异,适合代理编码任务,部分用户反馈其性能可媲美更大模型,但也存在稳定性问题。
- 针对Qwen3.5-397B的多专家模型后端进行了深入基准测试,发现NVIDIA CUTLASS库在部分硬件上存在共享内存溢出问题,影响性能。
- 多种量化方法对Qwen3.5-9B进行了比较,Bartowski的量化方案在稳定性和KL散度指标上表现更佳。
- M5 Max笔记本的基准测试显示其能高效运行大规模模型,内存使用和速度表现均令人印象深刻。
- Llama.cpp引入了真实推理预算功能,提升了推理效率,用户反馈积极。
OmniCoder-9B及代理编码
- OmniCoder-9B基于Qwen3.5-9B,经过42.5万条代理编码轨迹微调,支持26万令牌上下文,展现出强大的错误恢复和推理能力。
- 一位前Manus后端负责人分享了从多函数调用转向单一Unix风格命令的代理设计思路,强调文本流和命令行接口与LLM的天然契合。
模型发布与新基准
- NVIDIA发布Nemotron 3 Super,开放源码,支持量化训练,适合多步代理任务。
- 新基准测试中,Sonnet在光照表现优异,Gemini在动作编排方面突出。
- NVIDIA计划未来五年投资260亿美元打造开放权重AI模型,巩固其硬件生态优势。
非技术AI社区动态
- Anthropic加速AI自我改进,Claude模型已能自动生成70%-90%的代码,安全性成为关注焦点。
- Claude新增交互式图表和可视化功能,提升用户体验。
- 用户利用Claude Code和Remotion快速制作产品演示视频,显著降低成本。
- Claude Code的“停止钩子”和“记忆文件”功能被发现极大提升了多步骤任务的协作效率。
- Anthropic Academy推出免费课程,涵盖MCP、Claude Code及代理技能,助力开发者进阶。
DeepSeek V4及相关猜测
- OpenRouter应用展示了“Hunter Alpha”和“Healer Alpha”模型,具备前沿智能和多模态能力,推测可能为DeepSeek新版本。
- 有用户怀疑部分模型为中国本土模型,因其能处理未审查内容。
OpenClaw在中国的普及
- 腾讯在深圳推动OpenClaw免费安装,吸引大量白领用户,反映出中国市场对AI技术的强烈需求和文化偏好。
- OpenClaw的开源和自有硬件部署模式被视为数字资产所有权的体现,区别于Manus的SaaS租赁模式。
- 用户对安全性表示担忧,卸载成本约为500元人民币。
由于Discord访问被关闭,我们将不再以原形式提供服务,但新的AINews版本即将上线。感谢大家的支持与关注。


