在谷歌I/O召开前夕，预计将预览下一代重要的Gemini模型发布，竞争对手们可能会保持低调。然而，Anthropic和OpenAI今天都有小幅进展，Cursor发布了他们的首个SpaceXAI模型，详细介绍了合成数据、奖励黑客和持续预训练的内容。今天最值得关注的，或许是Vlad Feinberg关于求职准备的笔记，特别聚焦于预训练领域，内容以谷歌和TPU为中心。

他特别提到了去年DeepMind发布的《Scaling handbook》，其中内核工作是关键部分：

“所有大型语言模型工作的最大瓶颈和核心环节是性能优化，这使得对模型的抽象逻辑修改能够实际运行。每个项目都需要能够在内核层面调优模型的人才。这是一项可以学习的技能，也是进入顶尖实验室的最直接路径。”

文中还意外提及了用于内核开发的领域专用语言（DSL），并附带了相关简史。对于处于该技术栈层级的人才，他也强调了Agent相关工作的重要性，如autoresearch和AlphaEvolve。文章最后给出了一个简单但富有挑战性的练习：

推导Chinchilla定律，比较密集架构与MoE架构的差异，并用jax手写代码实现以获得学习体验。
假设使用jax.lax.ragged_dot实现MoE层，尝试编写一个pallas内核，通过融合上/下投影来超越ragged dot在F > D时的性能，找出明显的前向推理加速场景并解释原因。

如果你能将这些知识分享给社区，欢迎申请成为研讨会讲者。

AI Twitter回顾

编码Agent、Agent运维与从聊天到自动化的转变

Agent基础设施正趋向于可观测性和自动化闭环。LangSmith Engine被视为Agent的CI/CD环节，自动检测生产故障、聚类问题并生成修复方案。LangChain推出SmithDB，专为Agent的可观测性和评估设计，支持低延迟查询和多云部署。Cognition发布了Devin自动分诊，作为持续在线的“第一响应者”，具备长时记忆和多层管理结构，用户反馈优于传统自动化。整体趋势是从“与Agent聊天”转向“基于追踪、记忆和评估的持续自动化”。
编码Agent的操作模式日趋成熟。Anthropic发布了Claude Code在百万行代码库和微服务中的最佳实践，新增了提示缓存诊断，并将快速模式默认切换至Opus 4.7以降低延迟。OpenAI扩展了Codex工作流，支持Zoom插件和远程执行，微软则将GitHub Copilot CLI和VS Code的远程控制推向GA。产品方向明确：后台执行、远程监督和Agent分发，而非仅限交互式补全。
实践者达成共识：限制、验证和分解是关键。François Chollet将编码Agent比作“盲目的松鼠”，需要精心设计可验证的约束。相关建议包括在Python/ML代码中大量使用断言快速失败，构建端到端及增量评估，以及分阶段构建多Agent系统，避免过早追求Agent数量。Agent质量更依赖于验证面、分解和反馈循环，而非单纯提示技巧。

模型发布、排名变化与前沿编码模型

Cursor的Composer 2.5是本轮最亮眼的模型发布，强调对长任务的持续工作能力和指令遵循的可靠性。更重要的是，Cursor宣布正在用“SpaceXAI”训练一个规模更大的模型，计算量是之前的10倍，使用Colossus 2百万H100等效算力。社区关注其效率和性价比，以及更好的协作表现。
阿里巴巴的Qwen系列持续攀升，Qwen3.7 Preview在Arena文本榜单中排名第13，数学第7，专家领域第9，软件与IT第9，编码第10；视觉榜单中Qwen3.7 Plus Preview排名第16，阿里巴巴在文本和视觉领域分别位列第6和第5。体现了中国实验室在通用与专业领域的稳步提升。
字节跳动开源了Lance，一个统一的多模态模型，涵盖图像/视频理解、生成和编辑，包含30亿参数的视频、图像和解码器组件。Perplexity发布了小型多语种ColBERT模型，作为pplx-embed-0.6b的持续训练版本，采用MaxSim核。虽非前沿规模，但在检索质量和多模态统一方面具有技术意义。

推理、部署与本地/企业服务

本地推理通过llama.cpp的MTP支持获得显著提速。Georgi Gerganov宣布Qwen3.6系列支持MTP，实测在A10G上Qwen3.6-27B密集模型的吞吐量从25 tok/s提升至45 tok/s，提升78%。这缩小了本地与云端助手在普通硬件上的性能差距。
企业和本地部署势头强劲。Hugging Face与戴尔合作，提供一键访问包括Kimi K2.6、DeepSeek V4 Pro/Flash、GLM 5.1和MiniMax M2.7等模型，优化针对PowerEdge XE9780搭载NVIDIA B300。Clement Delangue认为基于开源模型的本地AI是缓解GPU短缺的重要方案，具备成本、延迟和数据安全优势。
跨硬件推理优化日益复杂。Zyphra发布了AMD Instinct MI355X的端到端推理基准，表现优于AMD基线，缩小了与NVIDIA B200的差距。Quentin Anthony提醒基准测试需区分硬件极限与当前软件状态，避免混淆厂商最大性能、可达GEMM性能和软件成熟度，强调基准图表是依赖技术栈的快照而非绝对真理。

研究动态：MoE、RL/数据混合、架构搜索与Agent评估

本周多篇论文聚焦更优训练信号而非更大模型。LeCun和Timor等人提出“想象中训练”，指出模型基于RL中，平滑的世界和奖励模型能收紧误差界限，奖励模型通常比动力学模型扩展更快，且大量噪声奖励标签优于少量高质量标签，偏差奖励尤其危险。另一篇关于教学RL的研究认为，即使是正确的推理轨迹，如果对学生策略过于意外，也不是好训练数据，采用特权教师和惊讶门控模仿生成可学轨迹。
架构与扩展研究依然极具实用价值。Meta的AIRA工作通过分离规划Agent（AIRA-Compose）和实现Agent（AIRA-Design），在24小时计算预算内，在350M、1B和3B规模上超越Llama 3.2。另一篇“切片与切块MoE”报告训练了2000多个MoE语言模型，发现设计空间主要由专家大小和数量决定，而非复杂的配置参数。
数据选择与评估方法成为一流研究问题。On-Policy Mix解决数据分布持续变化下的合适数据混合问题，适用于预训练、中期训练和指令调优。评估方面，Cameron Wolfe发布了Agent评估指南，知乎总结指出Agent时代需要衡量“委托智能”，即何时搜索、编码、推理或调用工具，而非仅考察静态知识或链式思维能力。这与当前产品实践高度契合，难点在于工具选择和验证策略，而非单纯文本推理。

生态动态：SDK、收入集中与开源工具

Anthropic收购了Stainless，这是支持其SDK和MCP服务器平台的关键技术，显示其在开发者体验、SDK生成和协议层面的持续垂直整合。
基础模型提供商的收入集中趋势明显。有报道指出Anthropic和OpenAI在34家顶级AI初创企业的模型及应用收入份额上升，表明生态经济可能在整合，尽管模型选择多样。
工具和部署策展需求依旧旺盛。The Turing Post整理了13款基础模型部署开源工具，包括vLLM、TGI、SGLang、llama.cpp、Ollama、BentoML、Kubeflow和MLflow等，实用性强。Papers With Code正在复兴，借助AI Agent辅助解析方法、排行榜和最新技术，强化研究可发现性。

AI Reddit回顾

/r/LocalLlama 与 /r/localLLM总结

1. 大型语言模型安全基准与消融分析

（内容待补充）

如何进入前沿实验室工作（关于预训练）

AI Twitter回顾

热门推文

AI Reddit回顾

/r/LocalLlama 与 /r/localLLM总结

1. 大型语言模型安全基准与消融分析

标签

评论

相关阅读

东京大学加入World ID项目，成为AI时代的人类身份认证节点

日本软银将“Patching as a Service”服务对象扩大至3000家公司

索尼宣布结束国内aibo机器人的销售