我们昨天已经报道过Gemma 4的相关内容,但关于这款模型的积极评价仍在不断涌现。

来自Marc Andreesen播客的早期分析显示,Gemma 4有望成为Latent Space历史上最受欢迎的播客之一。下周我们将在伦敦直播采访OpenClaw和Pi等多款欧洲顶级AI工具的开发者。AIE Europe的直播链接已上线,包含精彩的OpenClaw主题曲,欢迎点击提醒铃铛支持推广!


AI Twitter综述

Gemma 4发布亮点

  • Gemma 4成为当日最重要的开源模型发布:Google以Apache 2.0许可证发布Gemma 4,重点强调其推理能力、代理工作流、多模态支持及设备端推理。@fchollet称其为Google迄今最强的开源模型,推荐在KerasHub使用JAX后端;@demishassabis则强调其效率,称Gemma 4性能超越了体量大10倍的模型。社区普遍关注其许可证变更,认为这是一次真正的开源权重发布,具备广泛的下游应用潜力。

  • 生态系统Day-0即刻支持:vLLM(支持GPU、TPU、XPU)、llama.cpp、Ollama、Intel硬件(Xeon、Xe GPU、Core Ultra)、Unsloth(本地运行与微调)、Hugging Face推理端点及Google AI Studio等均已同步支持。架构专家分享了MoE设计、视觉/音频编码器及分层嵌入的深度解析。

  • 本地推理性能成为焦点:多位开发者展示了Gemma 4在消费级硬件上的运行表现,特别是26B A4B MoE模型。RTX 4090上实现了162 tokens/s的解码速度和19.5GB VRAM下262K的本地上下文;TurboQuant KV缓存技术将31B模型128K上下文的内存从13.3GB降至4.9GB。Mac mini M4(16GB内存)也能达到34 tokens/s,甚至有用户将模型部署到iPhone上。

  • 早期基准测试反响积极但不乏批评:Gemma 4在同参数规模下较前代模型有显著提升,31B版本处于性能与成本的帕累托前沿。部分用户建议基准测试应更明确地进行FLOP或活跃参数归一化,并呼吁超越传统的Arena Elo评分体系。

Hermes Agent的快速普及与架构创新

  • Hermes Agent成为当日最受欢迎的开源代理框架:多位开发者表示已从OpenClaw切换至Hermes,体验到更稳定和更强的长任务处理能力。韩国用户的详细讨论指出,优势不仅在于模型本身,更在于代理框架和学习循环,尤其是自主技能创建、可复用的程序化记忆以及更高的任务可靠性。

  • Nous发布了实质性基础设施改进:推出了可插拔的记忆系统,支持Honcho、mem0、Hindsight、RetainDB、Byterover、OpenVikingAI和Vectorize等后端。架构优化使核心更易维护,用户可自定义记忆提供者。Hermes还新增了终端用户界面中的内联差异显示和凭证池管理功能。

  • 代理性能正转向框架工程问题:有观点认为,团队通过代理框架工程、轨迹收集、分析和微调,结合大规模轨迹数据挖掘失败模式,构建领域前沿性能。若开源模型已“足够好”,则更优的记忆、工具、评估和自我改进循环将成为应用质量的关键。

  • 市场对开放代理框架需求明显:有呼声要求Anthropic开源Claude Code,强调2025年是“中等代理框架之年”;同时指出记忆不应被封闭API或专有框架所限制。

编码代理与操作瓶颈

  • 用户关注点转向操作摩擦而非模型智商:Codex应用增长迅速,但Claude Code的速率限制引发激烈讨论,用户反映额度消耗快于预期。

  • 认知饱和成为新瓶颈:多位技术人士指出,管理多个编码代理需要丰富的工程经验,且同时操作4个代理会导致精神疲劳。最佳并行会话数通常为2-4个。

  • 开发者通过外部化上下文和可观测性应对挑战:代理生成.md/.html文档以保持会话上下文,结合Obsidian和LiteParse提升文档处理。LangChain发布了Claude Code到LangSmith的追踪插件,实现子代理、工具调用和令牌使用的组织级分析。

  • “足够好”的本地备选方案重要性提升:Gemma 4和Hermes被视为应对托管产品摩擦的对冲方案,支持在无API密钥的MacBook Air M4上完全本地运行。

研究动态

  • METR时间视野持续增长:应用于网络安全领域的METR方法显示,自2019年以来能力每9.8个月翻倍,2024年后缩短至5.7个月。Opus 4.6和GPT-5.3 Codex在需人类专家3小时完成的任务上达50%成功率。

  • 长上下文管理仍是活跃研究方向:MIT提出递归语言模型(RLMs),通过外部环境程序化管理上下文,避免单一大提示。该思路获得实践者共鸣。

  • 无标签/无验证器的后训练方法引关注:苹果Simple Self-Distillation方法通过模型自采样输出进行微调,无需正确性过滤或强化学习,显著提升代码模型表现。

  • 其他研究亮点:包括数学对象推理的70页论文、Anthropic发布的模型行为差异“diff”方法,以及测试时思考以检索训练数据潜在知识的探讨。

企业与生产应用

  • 微软MAI-Transcribe-1语音识别表现优异:实现3.0% AA-WER,排名第四,支持25种语言,速度约69倍实时,定价约6美元/千分钟。

  • 安全问题多场景显现:Axios供应链攻击起因于复杂社工,强调凭证管理和身份验证的重要性。Auth0 FGA与LlamaIndex联合实现检索内结构化授权。

  • 推理基础设施与实际部署案例:Baseten和OpenEvidence宣称在临床环境大规模应用,超过40%美国医生依赖OpenEvidence。vLLM项目展示了Ray Serve的容错能力,补充了引擎层的弹性执行。


AI Reddit综述

/r/LocalLlama 和 /r/localLLM 讨论热点

  1. Gemma 4模型发布及特性
  • Google DeepMind发布的Gemma 4支持文本、图像和音频多模态,最大上下文窗口达256K tokens,涵盖140多种语言。模型包括E2B、E4B、26B A4B MoE和31B四个版本,采用混合注意力机制提升长上下文处理效率,支持原生函数调用和结构化工具使用。Unsloth Studio已支持本地运行,最低5GB内存即可启动小模型。
  1. Gemma 4性能表现与问题
  • 用户报告26B A4B模型在Mac Studio M1 Ultra上速度快于Qwen3.5,具备更强的视觉理解和多语言能力,但存在Google AI Studio版本的分词器问题。llama.cpp实现存在缺陷,导致本地运行时输出异常,相关修复PR正在进行中。
  1. Qwen模型更新与对比
  • Qwen 3.6模型社区投票决定优先开源版本,Qwen3.6-Plus在多项基准测试中表现优异,计划开源更小规模版本以促进本地部署和社区参与。

其他AI子版块简要回顾

  • Anthropic团队发现Claude模型内部存在171个功能性情绪向量,影响模型行为,类似人类情绪机制,但不代表模型具备主观感受。

  • Google AI Studio发布Gemma 4 26B A4B IT和31B IT版本,分别针对服务器和数据中心环境优化。

  • 中国DeepSeek公司面临核心成员流失,V4版本发布推迟,但仍被期待。


AI Discords

遗憾的是,Discord今日关闭了我们的访问权限。我们不会以现有形式恢复,但将很快推出新的AINews。感谢大家的支持,这是一段美好的旅程。