在谷歌I/O召开前夕,预计将预览下一代重要的Gemini模型发布,竞争对手们可能会保持低调。然而,Anthropic和OpenAI今天都有小幅进展,Cursor发布了他们的首个SpaceXAI模型,详细介绍了合成数据、奖励黑客和持续预训练的内容。今天最值得关注的,或许是Vlad Feinberg关于求职准备的笔记,特别聚焦于预训练领域,内容以谷歌和TPU为中心。
他特别提到了去年DeepMind发布的《Scaling handbook》,其中内核工作是关键部分:
“所有大型语言模型工作的最大瓶颈和核心环节是性能优化,这使得对模型的抽象逻辑修改能够实际运行。每个项目都需要能够在内核层面调优模型的人才。这是一项可以学习的技能,也是进入顶尖实验室的最直接路径。”
文中还意外提及了用于内核开发的领域专用语言(DSL),并附带了相关简史。对于处于该技术栈层级的人才,他也强调了Agent相关工作的重要性,如autoresearch和AlphaEvolve。文章最后给出了一个简单但富有挑战性的练习:
- 推导Chinchilla定律,比较密集架构与MoE架构的差异,并用jax手写代码实现以获得学习体验。
- 假设使用jax.lax.ragged_dot实现MoE层,尝试编写一个pallas内核,通过融合上/下投影来超越ragged dot在F > D时的性能,找出明显的前向推理加速场景并解释原因。
如果你能将这些知识分享给社区,欢迎申请成为研讨会讲者。
AI Twitter回顾
编码Agent、Agent运维与从聊天到自动化的转变
- Agent基础设施正趋向于可观测性和自动化闭环。LangSmith Engine被视为Agent的CI/CD环节,自动检测生产故障、聚类问题并生成修复方案。LangChain推出SmithDB,专为Agent的可观测性和评估设计,支持低延迟查询和多云部署。Cognition发布了Devin自动分诊,作为持续在线的“第一响应者”,具备长时记忆和多层管理结构,用户反馈优于传统自动化。整体趋势是从“与Agent聊天”转向“基于追踪、记忆和评估的持续自动化”。
- 编码Agent的操作模式日趋成熟。Anthropic发布了Claude Code在百万行代码库和微服务中的最佳实践,新增了提示缓存诊断,并将快速模式默认切换至Opus 4.7以降低延迟。OpenAI扩展了Codex工作流,支持Zoom插件和远程执行,微软则将GitHub Copilot CLI和VS Code的远程控制推向GA。产品方向明确:后台执行、远程监督和Agent分发,而非仅限交互式补全。
- 实践者达成共识:限制、验证和分解是关键。François Chollet将编码Agent比作“盲目的松鼠”,需要精心设计可验证的约束。相关建议包括在Python/ML代码中大量使用断言快速失败,构建端到端及增量评估,以及分阶段构建多Agent系统,避免过早追求Agent数量。Agent质量更依赖于验证面、分解和反馈循环,而非单纯提示技巧。
模型发布、排名变化与前沿编码模型
- Cursor的Composer 2.5是本轮最亮眼的模型发布,强调对长任务的持续工作能力和指令遵循的可靠性。更重要的是,Cursor宣布正在用“SpaceXAI”训练一个规模更大的模型,计算量是之前的10倍,使用Colossus 2百万H100等效算力。社区关注其效率和性价比,以及更好的协作表现。
- 阿里巴巴的Qwen系列持续攀升,Qwen3.7 Preview在Arena文本榜单中排名第13,数学第7,专家领域第9,软件与IT第9,编码第10;视觉榜单中Qwen3.7 Plus Preview排名第16,阿里巴巴在文本和视觉领域分别位列第6和第5。体现了中国实验室在通用与专业领域的稳步提升。
- 字节跳动开源了Lance,一个统一的多模态模型,涵盖图像/视频理解、生成和编辑,包含30亿参数的视频、图像和解码器组件。Perplexity发布了小型多语种ColBERT模型,作为pplx-embed-0.6b的持续训练版本,采用MaxSim核。虽非前沿规模,但在检索质量和多模态统一方面具有技术意义。
推理、部署与本地/企业服务
- 本地推理通过llama.cpp的MTP支持获得显著提速。Georgi Gerganov宣布Qwen3.6系列支持MTP,实测在A10G上Qwen3.6-27B密集模型的吞吐量从25 tok/s提升至45 tok/s,提升78%。这缩小了本地与云端助手在普通硬件上的性能差距。
- 企业和本地部署势头强劲。Hugging Face与戴尔合作,提供一键访问包括Kimi K2.6、DeepSeek V4 Pro/Flash、GLM 5.1和MiniMax M2.7等模型,优化针对PowerEdge XE9780搭载NVIDIA B300。Clement Delangue认为基于开源模型的本地AI是缓解GPU短缺的重要方案,具备成本、延迟和数据安全优势。
- 跨硬件推理优化日益复杂。Zyphra发布了AMD Instinct MI355X的端到端推理基准,表现优于AMD基线,缩小了与NVIDIA B200的差距。Quentin Anthony提醒基准测试需区分硬件极限与当前软件状态,避免混淆厂商最大性能、可达GEMM性能和软件成熟度,强调基准图表是依赖技术栈的快照而非绝对真理。
研究动态:MoE、RL/数据混合、架构搜索与Agent评估
- 本周多篇论文聚焦更优训练信号而非更大模型。LeCun和Timor等人提出“想象中训练”,指出模型基于RL中,平滑的世界和奖励模型能收紧误差界限,奖励模型通常比动力学模型扩展更快,且大量噪声奖励标签优于少量高质量标签,偏差奖励尤其危险。另一篇关于教学RL的研究认为,即使是正确的推理轨迹,如果对学生策略过于意外,也不是好训练数据,采用特权教师和惊讶门控模仿生成可学轨迹。
- 架构与扩展研究依然极具实用价值。Meta的AIRA工作通过分离规划Agent(AIRA-Compose)和实现Agent(AIRA-Design),在24小时计算预算内,在350M、1B和3B规模上超越Llama 3.2。另一篇“切片与切块MoE”报告训练了2000多个MoE语言模型,发现设计空间主要由专家大小和数量决定,而非复杂的配置参数。
- 数据选择与评估方法成为一流研究问题。On-Policy Mix解决数据分布持续变化下的合适数据混合问题,适用于预训练、中期训练和指令调优。评估方面,Cameron Wolfe发布了Agent评估指南,知乎总结指出Agent时代需要衡量“委托智能”,即何时搜索、编码、推理或调用工具,而非仅考察静态知识或链式思维能力。这与当前产品实践高度契合,难点在于工具选择和验证策略,而非单纯文本推理。
生态动态:SDK、收入集中与开源工具
- Anthropic收购了Stainless,这是支持其SDK和MCP服务器平台的关键技术,显示其在开发者体验、SDK生成和协议层面的持续垂直整合。
- 基础模型提供商的收入集中趋势明显。有报道指出Anthropic和OpenAI在34家顶级AI初创企业的模型及应用收入份额上升,表明生态经济可能在整合,尽管模型选择多样。
- 工具和部署策展需求依旧旺盛。The Turing Post整理了13款基础模型部署开源工具,包括vLLM、TGI、SGLang、llama.cpp、Ollama、BentoML、Kubeflow和MLflow等,实用性强。Papers With Code正在复兴,借助AI Agent辅助解析方法、排行榜和最新技术,强化研究可发现性。
热门推文
- Cursor发布Composer 2.5及更大规模训练计划,计算量提升10倍。
- OpenAI和Anthropic产品更新,提升开发者体验。
- Richard Sutton总结“苦涩教训”,强调以计算力驱动的知识创造方法,呼应本周围绕Agent和验证系统的主题。
AI Reddit回顾
/r/LocalLlama 与 /r/localLLM总结
1. 大型语言模型安全基准与消融分析
(内容待补充)

