AINews：理智的Tokenmaxxing策略

今天是Google Cloud Next大会，Google如预期发布了TPUv8系列（训练版和推理版），其性能数据令人震惊，这进一步彰显了Google十年硬件投入带来的巨大优势，尤其是对DeepMind及其训练和服务的模型。

过去两天，随着AIE Miami会议落幕（新加坡站即将举行），AI领域的高层领导（CTO、VP、创始人）讨论的焦点集中在“Tokenmaxxing”概念上——即如何让团队更多地使用AI，同时避免像Gergely Orosz在其AIE主题演讲中提到的那种严重浪费。

Dex Horthy，Context Engineering和“Dumb Zone”概念的提出者，公开撤回了他六个月前的极端观点，鼓励大家“请务必阅读代码”，并引用了Alex Volkov在AIE欧洲会议上提出的Z/L连续体理论：

Z/L连续体图示

私下里，许多高级领导更倾向于Zechner一派而非Lopopolo一派，但这并不意味着某一观点适用于所有情况，随着模型进步，情况可能会改变。显而易见的是，工程师和工程领导更容易关注架构细节，而大量廉价的代码生成和审查可能会弥补这些细节上的不足。

今天的直播嘉宾、Shopify CTO Mikhail Parakhin提出了另一种“理智的Tokenmaxxing”观点：应注重深度（例如更多的序列自我研究循环），而非广度（例如启动5、10、50甚至500个并行的LLM尝试）。值得深思。

AI Twitter快讯

开源模型：Qwen3.6-27B、OpenAI隐私过滤器、小米MiMo-V2.5

Qwen3.6-27B作为本地开源编码模型重磅登场：阿里巴巴发布了Qwen3.6-27B，这是一款密集型、Apache 2.0授权的模型，支持“思考”和“非思考”模式，并拥有统一的多模态检查点。阿里声称其在主要编码评测中超越了更大规模的Qwen3.5-397B-A17B，包括SWE-bench Verified、SWE-bench Pro、Terminal-Bench 2.0和SkillsBench。生态系统迅速响应，vLLM、Unsloth、ggml和Ollama等均已支持该模型。早期用户反馈显示其在本地前端设计和图像任务上表现出色。
OpenAI低调开源实用隐私模型：OpenAI发布了轻量级Apache 2.0授权的隐私过滤器模型，用于个人身份信息（PII）检测和遮蔽。该模型拥有1.5亿参数和128k上下文窗口，适合大规模语料和日志的低成本预处理，针对企业和代理管道中的实际基础设施问题。
小米推动智能代理开源模型升级：小米发布了MiMo-V2.5-Pro和MiMo-V2.5，Pro版本在软件工程和长周期代理方面有显著提升，支持超过1000次自主工具调用，非Pro版本支持原生全模态和百万Token上下文窗口。Arena和Hermes/Nous等生态迅速集成。

Google Cloud Next亮点：TPUv8、Gemini企业代理平台及Workspace Intelligence

Google基础设施升级实质性强：Google发布第八代TPU，分为训练用的TPU 8t和推理用的TPU 8i。TPU 8t的计算能力是Ironwood的近3倍，TPU 8i支持每个Pod连接1152个TPU，适合低延迟推理和高吞吐多代理工作负载。Google声称单集群可扩展至百万TPU。产品化信号强烈，芯片、模型、代理工具和企业控制面板整合为一体。
企业代理成为Google核心产品：Google DeepMind和Google联合推出Gemini企业代理平台，作为Vertex AI的进化，支持构建、管理和优化大规模代理。包括Agent Studio、200+模型的Model Garden，以及Gemini 3.1 Pro、Flash Image、Lyria 3和Gemma 4等。相关发布还包括Workspace Intelligence（文档、表格、会议、邮件的语义层）、Gemini企业邮箱/画布/可复用技能、Agentic Data Cloud、安全代理与Wiz集成，以及统一的Gemini Embedding 2模型。

代理、Harness、追踪与团队工作流

“代理Harness”抽象逐渐成形：OpenAI推出了ChatGPT中的工作区代理，支持跨文档、邮件、聊天、代码及外部系统的Codex驱动代理，包括Slack工作流和定时任务。Google的Gemini企业代理平台和Cursor的Slack调用也在推动这一趋势，云端代理、共享团队上下文、审批和长时执行成为共识。
开发者体验提升，支持多模型和自定义密钥：VS Code/Copilot支持多模型和自定义密钥，涵盖Anthropic、Gemini、OpenAI、OpenRouter、Azure、Ollama及本地后端。企业用户需求多样，期望模型灵活性和覆盖完整软件开发生命周期的基础设施。
追踪、评估和自我改进成为代理数据核心：LangChain相关讨论强调追踪记录捕捉代理错误和低效，计算资源应聚焦于分析追踪以生成更优评估、技能和环境。推动开放追踪数据标准化（ADP），并期待更强的测试和评估产品方向。

后训练、强化学习与推理系统

Perplexity等分享后训练方案：Perplexity发布基于搜索增强的SFT+RL流水线，提升事实准确性、引用质量、指令遵循和效率。Qwen系统在事实性上可匹配或超越GPT系列，且成本更低。研究方面，Neural Garbage Collection利用RL联合学习推理和KV缓存管理；Bayesian语言预测代理在ForecastBench表现优异。
编码模型“最小编辑”问题获得基准测试：研究发现GPT-5.4过度编辑代码最多，Opus 4.6最少。强化学习优于SFT、DPO和拒绝采样，能学习通用的最小编辑风格，避免灾难性遗忘。这对生产环境代码审查中的实际问题有重要意义。
推理效率持续提升：Cohere将W4A8推理集成入vLLM，推理速度提升显著。SonicMoE在Blackwell平台实现54%/35%的前向/反向TFLOPS提升，同时保持激活内存密度。Baseten推出RadixMLP，实现1.4-1.6倍的重排序速度提升。

热门推文

AI Reddit社区回顾

/r/LocalLlama 和 /r/localLLM 讨论摘要

Qwen 3.6 27B已在Hugging Face发布，拥有270亿参数，性能优异，支持FP8量化版本，适合资源有限环境部署。社区对此表现出极大热情。
Qwen3.6-27B在编码任务上超越前代大模型，支持多模态推理，完全开源，社区用户期待在本地硬件上应用。
Qwen3.6-35B搭配little-coder代理在Polyglot基准测试中表现显著提升，成功率达78.7%，进入前十名，显示了代理搭配对模型性能的巨大影响。社区对基准测试的有效性展开讨论，强调控制变量的重要性。

评论