今天是Google Cloud Next大会,Google如预期发布了TPUv8系列(训练版和推理版),其性能数据令人震惊,这进一步彰显了Google十年硬件投入带来的巨大优势,尤其是对DeepMind及其训练和服务的模型。
过去两天,随着AIE Miami会议落幕(新加坡站即将举行),AI领域的高层领导(CTO、VP、创始人)讨论的焦点集中在“Tokenmaxxing”概念上——即如何让团队更多地使用AI,同时避免像Gergely Orosz在其AIE主题演讲中提到的那种严重浪费。
Dex Horthy,Context Engineering和“Dumb Zone”概念的提出者,公开撤回了他六个月前的极端观点,鼓励大家“请务必阅读代码”,并引用了Alex Volkov在AIE欧洲会议上提出的Z/L连续体理论:

私下里,许多高级领导更倾向于Zechner一派而非Lopopolo一派,但这并不意味着某一观点适用于所有情况,随着模型进步,情况可能会改变。显而易见的是,工程师和工程领导更容易关注架构细节,而大量廉价的代码生成和审查可能会弥补这些细节上的不足。
今天的直播嘉宾、Shopify CTO Mikhail Parakhin提出了另一种“理智的Tokenmaxxing”观点:应注重深度(例如更多的序列自我研究循环),而非广度(例如启动5、10、50甚至500个并行的LLM尝试)。值得深思。
AI Twitter快讯
开源模型:Qwen3.6-27B、OpenAI隐私过滤器、小米MiMo-V2.5
-
Qwen3.6-27B作为本地开源编码模型重磅登场:阿里巴巴发布了Qwen3.6-27B,这是一款密集型、Apache 2.0授权的模型,支持“思考”和“非思考”模式,并拥有统一的多模态检查点。阿里声称其在主要编码评测中超越了更大规模的Qwen3.5-397B-A17B,包括SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0和SkillsBench。生态系统迅速响应,vLLM、Unsloth、ggml和Ollama等均已支持该模型。早期用户反馈显示其在本地前端设计和图像任务上表现出色。
-
OpenAI低调开源实用隐私模型:OpenAI发布了轻量级Apache 2.0授权的隐私过滤器模型,用于个人身份信息(PII)检测和遮蔽。该模型拥有1.5亿参数和128k上下文窗口,适合大规模语料和日志的低成本预处理,针对企业和代理管道中的实际基础设施问题。
-
小米推动智能代理开源模型升级:小米发布了MiMo-V2.5-Pro和MiMo-V2.5,Pro版本在软件工程和长周期代理方面有显著提升,支持超过1000次自主工具调用,非Pro版本支持原生全模态和百万Token上下文窗口。Arena和Hermes/Nous等生态迅速集成。
Google Cloud Next亮点:TPUv8、Gemini企业代理平台及Workspace Intelligence
-
Google基础设施升级实质性强:Google发布第八代TPU,分为训练用的TPU 8t和推理用的TPU 8i。TPU 8t的计算能力是Ironwood的近3倍,TPU 8i支持每个Pod连接1152个TPU,适合低延迟推理和高吞吐多代理工作负载。Google声称单集群可扩展至百万TPU。产品化信号强烈,芯片、模型、代理工具和企业控制面板整合为一体。
-
企业代理成为Google核心产品:Google DeepMind和Google联合推出Gemini企业代理平台,作为Vertex AI的进化,支持构建、管理和优化大规模代理。包括Agent Studio、200+模型的Model Garden,以及Gemini 3.1 Pro、Flash Image、Lyria 3和Gemma 4等。相关发布还包括Workspace Intelligence(文档、表格、会议、邮件的语义层)、Gemini企业邮箱/画布/可复用技能、Agentic Data Cloud、安全代理与Wiz集成,以及统一的Gemini Embedding 2模型。
代理、Harness、追踪与团队工作流
-
“代理Harness”抽象逐渐成形:OpenAI推出了ChatGPT中的工作区代理,支持跨文档、邮件、聊天、代码及外部系统的Codex驱动代理,包括Slack工作流和定时任务。Google的Gemini企业代理平台和Cursor的Slack调用也在推动这一趋势,云端代理、共享团队上下文、审批和长时执行成为共识。
-
开发者体验提升,支持多模型和自定义密钥:VS Code/Copilot支持多模型和自定义密钥,涵盖Anthropic、Gemini、OpenAI、OpenRouter、Azure、Ollama及本地后端。企业用户需求多样,期望模型灵活性和覆盖完整软件开发生命周期的基础设施。
-
追踪、评估和自我改进成为代理数据核心:LangChain相关讨论强调追踪记录捕捉代理错误和低效,计算资源应聚焦于分析追踪以生成更优评估、技能和环境。推动开放追踪数据标准化(ADP),并期待更强的测试和评估产品方向。
后训练、强化学习与推理系统
-
Perplexity等分享后训练方案:Perplexity发布基于搜索增强的SFT+RL流水线,提升事实准确性、引用质量、指令遵循和效率。Qwen系统在事实性上可匹配或超越GPT系列,且成本更低。研究方面,Neural Garbage Collection利用RL联合学习推理和KV缓存管理;Bayesian语言预测代理在ForecastBench表现优异。
-
编码模型“最小编辑”问题获得基准测试:研究发现GPT-5.4过度编辑代码最多,Opus 4.6最少。强化学习优于SFT、DPO和拒绝采样,能学习通用的最小编辑风格,避免灾难性遗忘。这对生产环境代码审查中的实际问题有重要意义。
-
推理效率持续提升:Cohere将W4A8推理集成入vLLM,推理速度提升显著。SonicMoE在Blackwell平台实现54%/35%的前向/反向TFLOPS提升,同时保持激活内存密度。Baseten推出RadixMLP,实现1.4-1.6倍的重排序速度提升。
热门推文
- OpenAI推出共享Codex驱动的工作区代理,面向企业和教育用户。
- 阿里巴巴发布Qwen3.6-27B,开源27亿参数模型,编码性能强劲。
- 谷歌发布TPU v8,训练和推理专用版本。
- Zan2434展示基于模型直接渲染像素的UI原型。
- OpenAI开源PII检测和遮蔽模型,获得社区关注。
AI Reddit社区回顾
/r/LocalLlama 和 /r/localLLM 讨论摘要
- Qwen 3.6模型发布及基准测试
-
Qwen 3.6 27B已在Hugging Face发布,拥有270亿参数,性能优异,支持FP8量化版本,适合资源有限环境部署。社区对此表现出极大热情。
-
Qwen3.6-27B在编码任务上超越前代大模型,支持多模态推理,完全开源,社区用户期待在本地硬件上应用。
-
Qwen3.6-35B搭配little-coder代理在Polyglot基准测试中表现显著提升,成功率达78.7%,进入前十名,显示了代理搭配对模型性能的巨大影响。社区对基准测试的有效性展开讨论,强调控制变量的重要性。
