参与2026年AI工程调查，即可获得超过2000美元的积分和AIE WF门票！

读者喜欢我们报道无新闻的日子，但我们更喜欢强化你应该关注的趋势。四月我们曾强调推理转折点，如果今天的头条让你想起了上周的报道，那正是我们想表达的重点。

鉴于当前AI融资的速度，我们通常只报道确认达到百亿美元估值（十亿美元独角兽）的初创企业。但今天关于Fireworks 150亿美元融资（“洽谈中”，7个月估值增长3.75倍，我们的播客）和Baseten 110亿美元融资（“正在融资”，3个月估值增长2.2倍）的消息稍显提前，但推理领域的快速发展和从独角兽到十亿美元独角兽的跃升实在令人兴奋，此外还有OpenRouter 1.13亿美元C轮融资（6个月交易量增长5倍）作为点睛之笔：如果你要做多模型推理，路由器是必不可少的。

2026年5月23日至26日AI新闻汇总。我们检查了12个子Reddit、544个Twitter账号，未发现更多Discord信息。AINews官网支持搜索所有过往期刊。提醒一下，AINews现为Latent Space的一个栏目，你可以选择订阅或取消订阅邮件频率！

AI Twitter回顾

代理执行环境、编码基准与超越“仅模型”的转变

执行环境工程成为编码代理的核心竞争力：多条推文汇聚观点，胜出的技术栈是“模型 + 执行环境 + 评估循环”，而非仅仅更强的基础模型。知乎一篇长文指出DeepSeek专门组建执行环境团队，以闭环模型输出、运行时反馈、验证和修正，声称缓存输入带来成本优势，支持更紧密的交互和验证循环。与此同时，谷歌Gemini托管代理指南将代理基础设施定义为单次API调用的托管执行环境，具备沙箱、持久化和挂载功能；LangChain更新的create_agent文档和dair.ai的“执行环境”论文总结也正式化了这一技术栈：上下文治理、可信记忆、动态技能路由。
基准测试更贴近真实开发体验：新推出的DeepSWE作为代理编码基准，获得业界认可；@theo称其为“首个真正符合使用感受的代码基准”，并且在顶端表现出更明显的差异。相关基准信号还包括：Qwen3.7 Max在Code Arena前端排名第四，与Claude Opus 4.6在代理网页开发任务上表现相当，阿里巴巴对此结果进行了推广。工具链方面，Anthropic发布了Claude Code的安全指导插件，内部使用中安全相关PR评论减少了30–40%，而OpenAI在Databricks展示了GPT-5.5在Codex中的文档解析能力，更为可靠。

研究代理、长时推理与“睡眠”上下文压缩

数学/科学代理展现潜在能力，依赖合适的执行环境：最强讨论集中在模型解决旧有难题。一位数学家报告Claude Mythos解决了Erdős第90题，且模型常常找到比OpenAI早期方案更简洁的证明路径。此观点得到@_sholtodouglas、@kimmonismus和Sébastien Bubeck的支持：在合适的执行环境下，Mythos和GPT-5.5能复现内部模型一次性完成的结果，暗示大量潜在能力未被普通聊天界面暴露。
长时记忆成为核心瓶颈：论文“语言模型需要睡眠”引发关注，提出一种类似睡眠的巩固阶段，将近期上下文转化为持久快速权重后清理KV缓存，将计算转移到离线过程，同时保持在线延迟。dair.ai总结强调系统视角：这是长轨迹代理避免无限增长KV缓存的替代方案。该主题与代理记忆系统讨论紧密相关，包括Omar提及Anthropic的记忆演讲和Dream功能。
开放深度研究代理与科学预测进展：发布了名为QUEST的2B至35B参数范围模型家族，支持长时事实查询、引用定位和报告合成，作为通用深度研究代理。科学评估方面，Sakana/斯坦福/牛津/AI2的CUSP基准显示当前模型能识别有前景的研究方向，但在突破是否及何时发生方面表现较弱。

模型、优化器与架构更新

优化器研究活跃，聚焦Muon变体与无调度训练：AMUSE提出“随时Muon稳定梯度评估”（Anytime MUon with Stable gradient Evaluation），结合Muon与无调度风格梯度评估，实现无学习率衰减的稳定训练，在124M、720M和1B规模及ViT/ImageNet微调中表现优异。相关实现讨论来自ClashLuke的SFMuon代码片段和kellerjordan对Newton-Muon的Modded-NanoGPT结果。
稀疏注意力设计空间多样化：MiniMax预告开源M3，后续技术评论提出新型“块稀疏两阶段注意力”方案。@kimmonismus总结称M3在1百万token预填充和解码速度分别提升9.7倍和15.6倍。@eliebakouch补充，M3似乎回归基于GQA的稀疏注意力，采用真实KV块选择，区别于DeepSeek的压缩注意力变体。
视觉与开放模型发布及排名更新：PrismML发布Bonsai Image 4B，含1-bit和三值版本，支持本地笔记本和手机运行；后续指出浏览器本地执行约3GB内存占用。封闭模型方面，微软MAI-Image-2.5在Image Arena排名第三，打破OpenAI和谷歌的前五垄断，Arena评分1254。同时，Artificial Analysis测得Gemini 3.5 Flash输出速度约280 token/s，代理性能显著提升，但成本约为Gemini 3 Flash的5倍。

基础设施、系统与半导体堆栈

华为“τ缩放”论文被视为工程路线图而非新定律：详尽推文认为华为《多层电子系统时间缩放理论》应理解为战略宣言/白皮书。核心提议是以时间常数τ而非工艺节点作为设备、芯片和数据中心的统一度量。具体主张包括未来麒麟设计的逻辑折叠技术，带来+55%密度、+41%能效和+13%频率提升，以及统一总线和Hi-ONE光学I/O等封装/网络创新。该推文也指出缺乏验证材料（芯片照片、扫描电镜、负载细节、良率曲线），将亮眼数据视为有潜力但未经证实。后续反应强调华为路径或更多依赖封装和架构优化，而非光刻追赶，例如@josiah_leee援引Jensen观点称Hopper到Blackwell的大部分提升来自非节点优化。
数据中心电力与推理供给限制成为首要关注点：SemiAnalysis发布800V直流电转型报告，John Carmack推荐，强调电动车电力电子技术向数据中心设计的跨界，包括高压碳化硅器件。另有Epoch AI估计推理计算可能出现瓶颈：需求增长快于服务能力，尤其是长上下文工作负载。粗略模型显示，尽管当前全球Blackwell供应可满足现有需求，但长上下文下吞吐量急剧下降，需求增长可能已超出供应。

生产工具与开发者基础设施

推理服务栈获得显著性能与可观测性提升：vLLM合并Rust前端，作为Python API服务器的替代，早期测试显示在单进程预处理密集负载下请求速率约837 req/s，远超Python版的162 req/s。W&B推出MCP服务器，支持编码代理检查实验和训练运行，采用模式优先设计避免上下文窗口爆炸。Unsloth支持在本地UI中运行GPT、Claude等API，包括提示缓存和代码执行。
Cloudflare、OpenRouter及向量/检索供应商推动“生产化”层：OpenRouter宣布1.13亿美元B轮融资，六个月内周交易量从5万亿token增至25万亿。Cloudflare重启创业项目计划，提供最高35万美元积分支持。围绕Think和代理人体工学的讨论强调持久会话、重连、陈旧状态处理和恢复为关键差异化因素。检索基础设施方面，Booking.com分享了扩展至1亿+嵌入的经验，涵盖过滤向量搜索、读写并发及人机评估，用于合作伙伴消息代理。

热门推文（按互动量）

Codex/代理编码实战：最高信号的产品使用推文是@bunkaich展示Codex帮助逆向和修补廉价MP3播放器固件，涵盖芯片检测、操作系统提取、二进制分析和刷写修改镜像。
DeepSWE基准发布：@serenaa_ge的DeepSWE发布成为“是否符合真实编码体验”讨论的主要参考。
Claude Code安全插件：@ClaudeDevs发布，结合具体产品上线和内部指标：安全相关PR评论减少30–40%。
OpenRouter融资与生产token增长：@OpenRouter的1.13亿美元B轮融资清晰表明路由和多模型基础设施被视为持久平台层。
vLLM Rust前端：@vllm_project合并公告对高吞吐量服务中遇到CPU/API服务器瓶颈的用户意义重大。

AI Reddit回顾

/r/LocalLlama + /r/localLLM 回顾

1. Qwen 3.7发布及Qwen 3.6本地性能

等待Qwen 3.7开源权重，新王已至（活跃度：1217）：图片为Qwen3.7博客中的基准对比，展示Qwen3.7-Max在代理编码、软件工程、MCP/工具使用、推理和知识评估方面领先于Qwen3.6-Plus、DS-V4-Pro Max、GLM-5.1、Kimi K2.6和Claude Opus-4.6 Max。技术意义在于Qwen3.7-Max在多项基准上与Claude级模型竞争甚至领先，尽管Claude Opus-4.6 Max在部分任务如ClawEval和CoWorkBench仍占优。评论者指出这是Max模型，未必代表较小或开源权重版本，且对可能的3.7-122B-A17B MXFP4模型支持512k上下文以适配Strix Halo级本地硬件表达了期待。主要争议在于开源权重的可行性：评论者指出Qwen历来未开源Max系列权重，标题“等待开源权重”或不现实，且不应期待27B模型匹配Max级性能。
Qwen Max与开源版本区别明显，有用户强调“Qwen从未开源Max系列”，警告27B版本性能不及Max。技术结论是公开开源的Qwen 3.7可能采用不同架构或规模。
技术愿望包括假想的Qwen 3.7 122B-A17B MTP MXFP4模型，支持512k上下文，适合Strix Halo本地硬件。另一用户提及Qwen 3.5 397B-A17B NVFP4模型可运行于4块RTX 6000 Pro GPU，支持约10个200k token并发会话，若Qwen 3.7性能匹配，有望成为“家用Opus”。
开源前沿模型可能性降低，因高性能本地模型可能影响服务商变现。有人认为Qwen策略已从颠覆转向有偿竞争，影响大规模MoE模型如397B-A17B的开源可能。

2. Qwen3.6 35Ba3改变了我的工作流程和电脑使用方式（活跃度：567）

该帖描述通过pi使用Qwen3.6 35B本地代理，将重复流程转化为由Codex生成和文档化的“技能”，用于VPS DevOps、PDF转EPUB、Playwright测试、代码任务和操作系统级shell任务。具体示例包括WhatsApp音频转录至AnythingLLM，生成content.md，本地生成落地页，再由“管理者”pi进程调度子代理执行任务，标记完成并通过git提交，最终通过VPS技能部署。评论关注硬件需求、代理是否沙箱隔离及可信、以及pi与Hermes等代理工具的易用性。
一用户报告在配备24GB RTX Pro 4000 Blackwell SFF GPU的MS-02上使用unsloth/Qwen3.6-35B-A3B-MTP-GGUF，稳定达到100+ token/s，将MS-02作为Mac Studio M2的远程GPU服务器，期待Unsloth未来支持MLX提升Mac端性能。截图见preview.redd.it。

3. 12GB显存下Qwen3.6 35B A3B与ik_llama.cpp实现110 token/s（活跃度：565）

该帖基准测试Qwen3.6-35B-A3B MTP，使用byteshape的IQ4_XS 4.19 bpw GGUF格式，在RTX 4070 Super 12GB和Ryzen 7 9700X上对比上游llama.cpp与ik_llama.cpp，上下文大小131072，q8_0 KV缓存，MTP草案最大3，p_min=0.75。相同负载下，上游llama.cpp平均89.76 token/s，MTP接受率0.9393；ik_llama.cpp平均110.24 token/s，提升23%，接受率0.8749。OP归因于ik_llama.cpp的--fit/--fit-margin 1664设置，OOM时提升--fit-margin至1792或2048。显示运行在集成显卡上，释放了几乎全部12GB显存用于推理。评论关注复现性，要求完整命令，指出近期多条MTP相关PR合并，基准结果可能受构建时间影响。建议单GPU CachyOS/KDE用户使用软件渲染Plasma Wayland会话，降低空闲显存占用。
一CachyOS/KDE用户描述了节省显存的方案：创建自定义SDDM会话，强制KDE Plasma使用CPU渲染，环境变量包括LIBGL_ALWAYS_SOFTWARE=1、GALLIUM_DRIVER=llvmpipe和KWIN_COMPOSE=Q，将KDE Wayland空闲显存从1024MB降至126MB，释放近1GB显存运行35B模型，代价是关闭或极慢的合成动画。
多位评论者讨论ik_llama.cpp是否因更优MTP/推测解码行为而领先上游llama.cpp，并请求具体命令和设置。
有用户询问IQ4_XS量化对模型质量和显存/内存分配的影响，强调12GB显存运行的关键权衡：激进量化以适配显存与保持推理质量及避免过度CPU/RAM负载。

新晋AI基础设施十亿美元独角兽：Fireworks、Baseten及即将到来的OpenRouter

AI Twitter回顾

AI Reddit回顾

/r/LocalLlama + /r/localLLM 回顾

1. Qwen 3.7发布及Qwen 3.6本地性能

2. Qwen3.6 35Ba3改变了我的工作流程和电脑使用方式（活跃度：567）

3. 12GB显存下Qwen3.6 35B A3B与ik_llama.cpp实现110 token/s（活跃度：565）

标签

评论

相关阅读

Medicare新支付模式为AI量身打造，科技界大多尚未察觉

AI短片引发愤怒：将1970年代女性制作成情色影像引争议

1X Neo机器人拥有惊人的快速灵巧手指