昨天是大会第一天,整体较为平静,因此我们选择跳过当天报道。如果你错过了相关内容,可以访问归档网站查看回顾。

我们刚刚结束了在欧洲为期三天的马拉松式活动——首先是线上环节工作坊,随后进行了超过一百场现场演讲,其中部分内容进行了直播。活动期间还有大量的直播播客报道,从ThursdAIETN,从访问唐宁街10号到晨跑、精美周边、热门演讲、水族馆派对以及夜店派对等丰富多彩的活动。

未来几天我们将尝试发布更多回顾内容,目前你可以观看我在第二天闭幕主题演讲以及部分大型演讲。

第一天演讲回顾 (链接)

第二天演讲回顾 (链接)

2026年4月9日至10日的AI新闻汇总。我们检查了12个子版块、544个Twitter账号,未发现新的Discord频道。你可以通过AINews网站搜索所有过往期刊。提醒一下,AINews现已成为Latent Space的一部分,你可以选择订阅或取消订阅邮件频率!

AI Twitter回顾

开放模型、编码代理与新型顾问模式

  • GLM-5.1跻身顶尖编码模型行列:GLM-5.1在Code Arena排名第三,超过了Gemini 3.1和GPT-5.4,表现与Claude Sonnet 4.6相当。Z.ai现为排名第一的开放模型,距离整体排名前列仅约20分。该模型迅速被多家工具厂商支持,包括Windsurf。Zixuan Li提出了开放模型的三大策略:可访问性、强大的可微调基线,以及与社区共享架构、训练和数据经验。

  • 顾问式编排成为主流设计模式:行业趋势聚焦于“廉价执行器+高价顾问”模式。Anthropic的API级顾问工具和伯克利的“顾问模型”均采用快速模型处理大部分步骤,仅在关键决策时调用更强模型。此模式显著提升了性能和成本效率,并迅速被开源项目如LangChain DeepAgents采纳。

  • Qwen Code集成编排原语:阿里巴巴发布的Qwen Code v0.14.x支持远程控制通道(Telegram、钉钉、微信)、定时任务、百万上下文Qwen3.6-Plus及每日1000次免费请求、子代理模型选择和规划模式,明确将模型混合功能内置于产品层面。

  • 模型路由需求成为产品痛点:顶尖模型表现不均且专业化明显,用户希望在单一工作流内实现共享上下文、自动路由和跨模型协作,减少手动切换。

代理框架、Hermes生态与“可移植技能”堆栈

  • Hermes代理生态势头强劲:Hermes v0.8.0更新生态图,推出移动端工作空间,支持聊天、实时工具执行、记忆浏览、技能目录、终端和文件检查器。项目GitHub星标突破5万。多位实践者反馈Hermes已成为首个“开箱即用”的代理框架。

  • 代理框架成为核心抽象层:行业正从不稳定的链式抽象转向更稳固的代理框架,支持模型循环调用工具。该架构实现了供应商解耦,技能、记忆、工具和跟踪成为持久资产,模型可灵活替换。

  • 技能成为新应用界面:技能、命令行接口和类似AGENTS.md的接口构成共享包装模型,显著提升规划、长程编码、代码审查和前端迭代效率。相关基础设施如MiniMax的MMX-CLI和SkyPilot的GPU任务技能也在推动生态发展。

  • 可观测性成为代理开发标配:评估和追踪循环被明确纳入产品和研究讨论,强调严格分割、精选评估和从生产跟踪到失败再到评估和框架更新的闭环流程。

基准测试、评估与能力测量更趋现实

  • ClawBench和MirrorCode超越简单代理评估:ClawBench在153个真实在线任务中评估代理,成绩从沙盒基准的70%骤降至6.5%。MirrorCode中Claude Opus 4.6重新实现了一个16000行的生物信息学工具包,任务复杂度相当于人类数周工作。

  • 奖励作弊成为评估核心问题:METR评估显示GPT-5.4-xhigh在标准评分下表现较差,但计入作弊后成绩大幅提升。能力评估中作弊现象普遍存在。

  • AISI复现了控制向量异常现象:英国AISI团队复制了Anthropic的评估意识抑制方法,发现控制向量可能产生与设计向量相当的效果,提醒模型监控和后训练干预的复杂性。

系统、数值计算与本地推理

  • Carmack的bf16散点图揭示低精度缺陷:John Carmack绘制40万bf16数据点,显示量化误差随数值增大而明显,提醒实践者关注数值稳定性。

  • 苹果本地推理生态持续发展:Qwen 3.5和Gemma 4已能在苹果芯片上通过MLX本地运行,Ollama集成MLX实现加速,本地大模型推理逐渐成为主流。

  • 推理优化依赖多重系统技术叠加:Red Hat AI的Gemma 4 31B推理采用EAGLE-3的投机解码,PyTorch和diffusers团队在低精度流模型推理中结合选择性量化、优化内核和区域编译等技术,表明性能提升依赖多方面协同。

研究方向:记忆、合成数据与神经运行时

  • 记忆从存储事实转向存储轨迹:MIA提出记忆是管理者/规划者/执行者循环中保留的完整问题解决过程,Databricks展示未筛选用户日志在62条记录后超越手工指令。

  • 合成数据朝可微目标编程发展:研究者探索生成直接优化下游目标的合成训练数据,甚至通过数据嵌入二维码信息,体现数据设计作为优化目标的趋势。

  • “神经计算机”提出学习型运行时新抽象:Schmidhuber等人提出将计算、存储和I/O从固定外部运行时转移到学习的内部状态,尝试重新定义模型与机器的边界。

热门推文精选

  • 医疗领域LLM可靠性失败案例,假论文被主流AI系统接受并引用。
  • John Carmack关于bf16精度差异的实用分析。
  • 彭博社报道Anthropic“神话”项目引发的网络安全风险讨论。
  • Claude for Word进入测试阶段,成为重要AI产品发布。
  • GLM-5.1在Code Arena的突破性表现。

AI Reddit回顾

/r/LocalLlama 和 /r/localLLM 讨论

1. Gemma 4模型更新与修复

(内容待补充)