当我们将AINews迁移到Substack时，承诺每天发布类似Matt Levine风格的评论文章，但有些日子确实没什么大事发生，今天就是这样。我们正在准备关于推理需求和多智能体的小论文，但今天还不是发布的时机。

今天有几个有趣的模型发布，包括Nvidia Nemotron、Poolside和Alec Radford，但尚不清楚它们能否经受住时间的考验。同时，GPT-6的炒作也开始升温。

AI新闻（2026年4月27日至28日）汇总。我们检查了12个subreddit、544个Twitter账号，没有新增Discord频道。AINews网站支持搜索所有过往期刊。提醒一下，AINews现已成为Latent Space的一个栏目，您可以选择订阅或取消订阅不同的邮件频率。

AI Twitter回顾

推理系统、vLLM 0.20及DeepSeek V4的硬件/内核竞赛

vLLM最新版本专注于内存和MoE服务效率：vLLM v0.20.0发布，包含TurboQuant 2位KV缓存，KV容量提升4倍，FA4重新启用以支持SM90+的MLA预填充，新增vLLM IR基础，融合RMSNorm带来2.1%的端到端延迟提升，支持DeepSeek V4 MegaMoE在Blackwell、Jetson Thor、ROCm、Intel XPU上的运行，并简化GB200/Grace-Blackwell的部署。同时，SemiAnalysis展示了DeepSeek V4 Pro在B200/B300/H200/GB200分布式环境中的早期性能，指出B300在该工作负载下速度可达H200的8倍，并预告即将发布结合DeepGEMM MegaMoE的vLLM 0.20基准测试。
DeepSeek支持及服务权衡：Jeremy Howard指出DeepSeek V4支持预填充功能，这在许多服务商中已被弃用。Maharshi则强调动态激活量化的开销，认为静态量化在推理速度上通常更具优势，尽管需要校准成本。另有观点认为DeepSeek通过TileKernels结构逐步摆脱CUDA锁定，模型供应商可能更多优化异构或国产加速器，而非仅限于NVIDIA。

Poolside首次公开发布了易于部署的开源权重编码模型：Poolside发布了Laguna XS.2，一款33B参数总量、3B激活MoE编码模型，完全自主训练，采用Apache 2.0许可，支持单GPU运行。Poolside还发布了Laguna M.1和代理框架，强调其自主数据、训练基础设施、强化学习和推理堆栈。社区总结指出两款编码模型（225B/23B激活和33B/3B激活）采用混合注意力和FP8 KV缓存，性能接近Qwen-3.5，Ollama已立即支持该模型。
NVIDIA Nemotron 3 Nano Omni是当天最大规模的原生基础设施模型发布：NVIDIA发布了Nemotron 3 Nano Omni，一款30B参数、A3B多模态MoE模型，支持256K上下文，适用于文本、图像、视频、音频和文档的智能代理任务。该模型当天即在OpenRouter、LM Studio、Ollama、Unsloth、fal、Fireworks、DeepInfra、Together、Baseten、Canonical等平台上线。Piotr Żelasko介绍该模型为NVIDIA首个支持语音/音频理解的Omni版本，采用Parakeet编码器，目前仅支持英语，Open ASR排行榜词错误率为5.95%，吞吐量约为同类开源Omni模型的9倍。
其他重要模型/论文发布：微软发布了TRELLIS.2，一款4B参数的图像到3D模型，能生成最高1536³的PBR纹理资产，基于原生3D VAE实现16倍空间压缩。World-R1宣称现有视频模型已编码3D结构，可通过强化学习“唤醒”，无需架构更改、额外视频训练数据或增加推理成本。

代理构建者从演示转向生产级原语：Mistral公开预览了Workflows，作为编排层，旨在将企业AI流程转变为持久、可观测、容错的生产系统。相关讨论强调持久执行是长时间运行代理的关键需求，threepointone介绍了带有持久性、流式处理和恢复功能的子代理/工具型代理工作。
本地/离线代理从愿景走向可信工作流：Teknium表示“完全离线代理是可能的”，Niels Rogge演示了用于桌面清理的Pi+本地模型，Google Gemma分享了本地编码代理教程。Hugging Face本地化推动也显现成效，Clement Delangue称已有30万用户在Hub添加硬件规格以发现可本地运行模型。Ammaar开源了基于MLX的全设备运行Gemma 4的vibe编码应用，Kimmonismus介绍了Sigma，一款基于浏览器的私有本地代理概念，使用开源模型。
Hermes及相关代理框架获得实际应用：多条推文报告Hermes在指令执行和实际工作流中表现优于OpenClaw，包括SecretArjun、somewheresy及通过Telegram部署的用户，甚至用于医学文献提取。研究代理方面，Hugging Face的ML Intern在Spaces中流行，新增了本地指标日志和Trackio集成，使训练任务更透明。

模型基准测试依然分散，但有亮点：Epoch报告GPT-5.5 Pro在Epoch能力指数达到159，在FrontierMath上Tier 1-3问题解决率52%，Tier 4问题解决率40%，包括两个此前无人解决的Tier 4问题。Greg Kamradt称ARC-AGI-3对GPT-5.5和Opus 4.7的测试已完成，正在分析失败模式。
多项新基准聚焦更真实的代理和工程行为：Lysandre发布了旨在提升Transformer代理友好的基准，VibeBench提出由1000名合格软件工程师进行主观测试，评估模型在实际工作中的表现。LlamaIndex的ParseBench强调OCR基准忽视了语义格式（如删除线和上标），这些对代理意义重大。
具有具体工程意义的研究笔记：Rosinality指出DeepSpeed和OpenRLHF存在降低SFT性能的bug，影响先前研究。Arjun Kocher发布了DeepSeek-V4论文中压缩稀疏注意力的忠实实现。che_shr_cat展示单块Transformer仅在带显式草稿板和反向路由初始化时能解决极端数独，否则性能为零。Keller Jordan发布了轻量级Modded-NanoGPT优化器基准，用于比较Muon和AdamW等方法。

今日未有显著更新。