当我们将AINews迁移到Substack时,承诺每天发布类似Matt Levine风格的评论文章,但有些日子确实没什么大事发生,今天就是这样。我们正在准备关于推理需求和多智能体的小论文,但今天还不是发布的时机。

今天有几个有趣的模型发布,包括Nvidia Nemotron、Poolside和Alec Radford,但尚不清楚它们能否经受住时间的考验。同时,GPT-6的炒作也开始升温。

AI新闻(2026年4月27日至28日)汇总。我们检查了12个subreddit、544个Twitter账号,没有新增Discord频道。AINews网站支持搜索所有过往期刊。提醒一下,AINews现已成为Latent Space的一个栏目,您可以选择订阅或取消订阅不同的邮件频率。

AI Twitter回顾

推理系统、vLLM 0.20及DeepSeek V4的硬件/内核竞赛

  • vLLM最新版本专注于内存和MoE服务效率:vLLM v0.20.0发布,包含TurboQuant 2位KV缓存,KV容量提升4倍,FA4重新启用以支持SM90+的MLA预填充,新增vLLM IR基础,融合RMSNorm带来2.1%的端到端延迟提升,支持DeepSeek V4 MegaMoE在Blackwell、Jetson Thor、ROCm、Intel XPU上的运行,并简化GB200/Grace-Blackwell的部署。同时,SemiAnalysis展示了DeepSeek V4 Pro在B200/B300/H200/GB200分布式环境中的早期性能,指出B300在该工作负载下速度可达H200的8倍,并预告即将发布结合DeepGEMM MegaMoE的vLLM 0.20基准测试。

  • DeepSeek支持及服务权衡:Jeremy Howard指出DeepSeek V4支持预填充功能,这在许多服务商中已被弃用。Maharshi则强调动态激活量化的开销,认为静态量化在推理速度上通常更具优势,尽管需要校准成本。另有观点认为DeepSeek通过TileKernels结构逐步摆脱CUDA锁定,模型供应商可能更多优化异构或国产加速器,而非仅限于NVIDIA。

开放模型发布:Poolside Laguna XS.2、NVIDIA Nemotron 3 Nano Omni及TRELLIS.2

  • Poolside首次公开发布了易于部署的开源权重编码模型:Poolside发布了Laguna XS.2,一款33B参数总量、3B激活MoE编码模型,完全自主训练,采用Apache 2.0许可,支持单GPU运行。Poolside还发布了Laguna M.1和代理框架,强调其自主数据、训练基础设施、强化学习和推理堆栈。社区总结指出两款编码模型(225B/23B激活和33B/3B激活)采用混合注意力和FP8 KV缓存,性能接近Qwen-3.5,Ollama已立即支持该模型。

  • NVIDIA Nemotron 3 Nano Omni是当天最大规模的原生基础设施模型发布:NVIDIA发布了Nemotron 3 Nano Omni,一款30B参数、A3B多模态MoE模型,支持256K上下文,适用于文本、图像、视频、音频和文档的智能代理任务。该模型当天即在OpenRouter、LM Studio、Ollama、Unsloth、fal、Fireworks、DeepInfra、Together、Baseten、Canonical等平台上线。Piotr Żelasko介绍该模型为NVIDIA首个支持语音/音频理解的Omni版本,采用Parakeet编码器,目前仅支持英语,Open ASR排行榜词错误率为5.95%,吞吐量约为同类开源Omni模型的9倍。

  • 其他重要模型/论文发布:微软发布了TRELLIS.2,一款4B参数的图像到3D模型,能生成最高1536³的PBR纹理资产,基于原生3D VAE实现16倍空间压缩。World-R1宣称现有视频模型已编码3D结构,可通过强化学习“唤醒”,无需架构更改、额外视频训练数据或增加推理成本。

智能代理、本地优先工具及生产编排

  • 代理构建者从演示转向生产级原语:Mistral公开预览了Workflows,作为编排层,旨在将企业AI流程转变为持久、可观测、容错的生产系统。相关讨论强调持久执行是长时间运行代理的关键需求,threepointone介绍了带有持久性、流式处理和恢复功能的子代理/工具型代理工作。

  • 本地/离线代理从愿景走向可信工作流:Teknium表示“完全离线代理是可能的”,Niels Rogge演示了用于桌面清理的Pi+本地模型,Google Gemma分享了本地编码代理教程。Hugging Face本地化推动也显现成效,Clement Delangue称已有30万用户在Hub添加硬件规格以发现可本地运行模型。Ammaar开源了基于MLX的全设备运行Gemma 4的vibe编码应用,Kimmonismus介绍了Sigma,一款基于浏览器的私有本地代理概念,使用开源模型。

  • Hermes及相关代理框架获得实际应用:多条推文报告Hermes在指令执行和实际工作流中表现优于OpenClaw,包括SecretArjun、somewheresy及通过Telegram部署的用户,甚至用于医学文献提取。研究代理方面,Hugging Face的ML Intern在Spaces中流行,新增了本地指标日志和Trackio集成,使训练任务更透明。

基准测试、评估及值得关注的研究成果

  • 模型基准测试依然分散,但有亮点:Epoch报告GPT-5.5 Pro在Epoch能力指数达到159,在FrontierMath上Tier 1-3问题解决率52%,Tier 4问题解决率40%,包括两个此前无人解决的Tier 4问题。Greg Kamradt称ARC-AGI-3对GPT-5.5和Opus 4.7的测试已完成,正在分析失败模式。

  • 多项新基准聚焦更真实的代理和工程行为:Lysandre发布了旨在提升Transformer代理友好的基准,VibeBench提出由1000名合格软件工程师进行主观测试,评估模型在实际工作中的表现。LlamaIndex的ParseBench强调OCR基准忽视了语义格式(如删除线和上标),这些对代理意义重大。

  • 具有具体工程意义的研究笔记:Rosinality指出DeepSpeed和OpenRLHF存在降低SFT性能的bug,影响先前研究。Arjun Kocher发布了DeepSeek-V4论文中压缩稀疏注意力的忠实实现。che_shr_cat展示单块Transformer仅在带显式草稿板和反向路由初始化时能解决极端数独,否则性能为零。Keller Jordan发布了轻量级Modded-NanoGPT优化器基准,用于比较Muon和AdamW等方法。

平台经济学、API定价及封闭模型的可靠性问题

今日未有显著更新。