参与2026 AI工程调查,即可获得超过2000美元的Notion和Vercel积分及AIE WF门票!

AI基础设施独角兽

祝贺本周所有嘉宾取得的重大里程碑:

我们迫切希望尽快启动Latent Space基金,期间请通过参与2026 AI工程调查支持我们,赢取超过2000美元的积分和AIE WF门票!

AI新闻汇总(2026年5月20日-21日):我们监测了12个Reddit子版块、544个Twitter账号,未新增Discord频道。访问AINews官网可搜索所有往期内容。提醒您,AINews现为Latent Space的一个栏目,您可自由选择订阅频率!

AI Twitter综述

模型、基准与研究进展:RAEv2、Gated DeltaNet-2、数据过滤与开放数学

  • RAEv2及基于表示的分词技术:多位研究者指出RAEv2是表示自编码器的有力升级,适用于统一视觉理解与生成。@1jaskiratsingh称其收敛速度提升10倍以上,重构与生成效果更佳,涵盖文本到图像及世界模型。@recatm的中文总结提炼了三大要点:累加最后K层编码器优于仅用最终层,提升重构与生成且无额外推理成本;RAE与REPA在语义与空间结构上互补;REPA可视为内部自我引导机制,避免额外弱模型引导。@sainingxie提出评估视角应超越FID,像素解码器的潜力尚未充分挖掘。

  • 替代标准注意力与分词假设:NVIDIA的Gated DeltaNet-2通过通道门控分离擦除与写入操作,1.3B参数下在语言建模和常识推理上优于KDA和Mamba-3,尤其在长上下文检索RULER表现突出。@rasbt称其为混合注意力的有趣方向。@NousResearch发布了关于子词分词优势的控制实验,发现7种假设中仅3种在1.7B字节级流水线中显著影响验证损失。@tatsu_hashimoto报告了DCLM的惊人扩展结果:在足够计算资源下,最佳数据过滤可能是不过滤,互联网规模数据池的交叉点约为1e30 FLOPs,尽管下游评估存在噪声但趋势一致。

  • 机制可解释性与几何学:@GoodfireAI指出“模型在曲面中思考,SAE使用直线特征”的批评不完全准确。其建议通过联合激活模式聚类SAE特征,恢复特征组的几何结构,而非孤立原子。这一观点提醒我们从单一特征解读转向结构化特征集。

  • 数学作为AI研究领域:围绕OpenAI在Erdős单位距离问题上的成果展开热议。@markchen90认为数学是AI辅助研究突破最有潜力的领域,@wtgowers强调若人类干预极低则结果颇具意义。讨论中也有质疑和对基准可操控性的担忧,@memecrashes戏称该结果“不到3小时即被人类超越”,@cloneofsimo指出AI数学的“门槛”不断变化。数学领域因其输出可验证、辩论和扩展,仍是AI协同研究的清晰前沿。

代理、执行环境与开发者工具:Codex、Gemini、Devin及代理基础设施

  • 执行环境依然是能力提升的重要来源:@lvwerra发布了physics-intern科学问题执行环境,使Gemini 3.1 Pro成绩从17.7提升至31.4,超越GPT 5.5 Pro。GPT 5.5 Pro未从中获益,表明不同模型对执行环境的吸收能力不同。@KLieret推出可在ProgramBench上运行的mini-swe-agent,旨在推动软件工程代理的执行环境创新。

  • 代理设计模式从单代理向子代理编排演进:@cwolferesearch建议先构建单代理系统,只有在工具泛滥或提示膨胀难控时,才采用管理者/子代理或去中心化多代理结构。用户反馈显示,子代理工作流显著提升效率,如@andrew_locke描述Cognition的子Devin工作流将数周工程量压缩至数小时。

  • Codex推出重要产品层升级:OpenAI的“Codex星期四”更新虽非独立亮点,但预示编码代理发展方向。@OpenAIDevs发布Appshots,捕捉Mac应用窗口的截图与文本,增强上下文理解;新增团队插件共享和更详尽的组织分析。更重要的是,Codex现可安全地从手机远程操作Mac应用,即使Mac处于锁定状态,显示代理产品正从聊天IDE向跨设备持久操作流程转变。

  • Gemini代理与工具生态快速扩展:@OfficialLoganK指出Gemini 3.5 Flash在APEX-Agents-AA排名第一,超越更大模型。应用案例包括@_philschmid用单次Gemini API调用实现GitHub问题分类,无需编排框架;@skalskip92展示用Gemini 3.5 Flash替代定制视觉管线进行车道和车辆推理。谷歌扩展了行动接口,推出Daily Brief及与OpenTable、Canva、Instacart的连接应用,打造面向消费者的代理工作流。

  • 开发者基础设施趋向检索、流式、沙箱与安全边界:Weaviate内置MCP服务器,支持混合BM25与向量检索,无需额外进程。LangChain推出沙箱认证代理控制边界及新型类型化流式协议,将工具、子代理、多媒体和中断作为一等投影而非简单令牌流。vLLM的Elastic Expert Parallelism实现了MoE DP/EP拓扑的动态调整,无需重启,利用NVLink/RDMA实现GPU间直接传输,提升扩展性与容错能力。

基础设施、算力与AI商业信号:Modal、TurboPuffer、Hark及算力竞赛

  • 基础设施领域展现明显的财富聚集效应:@Sirupsen透露TurboPuffer于3月实现1亿美元年收入,距首次融资100万美元仅19个月,且保持盈利,融资总额不足100万美元。其核心竞争力在于精准上下文检索,符合@swyx关于“基础设施才是财富创造主战场”的观点。

  • Modal完成大额融资,展现AI云计算核心潜力:@bernhardsson宣布Modal完成3.55亿美元C轮融资,估值46.5亿美元。投资者与用户一致看好其从零构建AI工作负载云栈,兼具高性能与良好开发体验。@latentspacepod总结Daytona的优势包括60毫秒沙箱、75秒内支持5万初创企业,以及强化学习和评估工作负载占比约半数。

  • 算力仍是战略瓶颈,市场呈现分层格局:@AymericRoucher绘制算力生态图:美国领先者(OpenAI、Anthropic、Google及Meta/xAI)拥有数千兆瓦级算力;中国巨头从数百兆瓦向多千兆瓦扩展,逐步采用国产技术栈;欧洲竞争者如Mistral当前约90兆瓦,目标2029年达1吉瓦。@EpochAIResearch指出,尽管OpenAI引领了算力扩展,前沿实验室使用的全球算力仍远未饱和,未来扩展潜力巨大。芯片组件经济学也向内存倾斜,HBM占AI芯片支出比例从2024年第一季度的52%升至2025年第四季度的63%。

  • 资本流向接口与硬件领域:@adcock_brett宣布Hark完成7亿美元融资,估值60亿美元,聚焦GPU基础设施、未来模型开发、硬件及多模态/个性化智能产品。尽管细节有限,但融资规模显示投资者对垂直整合AI设备的浓厚兴趣。Hark还报告了F.03机器人连续200小时自主运行,具体技术细节尚未披露。

多模态、视频、生物与机器人:Runway、Carbon、地球模型与开放人形机器人

  • 视频编辑与生成更趋组合化:Runway发布Aleph 2.0及Edit Studio,支持用户编辑单帧并自动传播至整段视频,解决多模态开发者关注的“参考引导编辑传播”问题。阿里巴巴研究团队的MIGA被@HuggingPapers评价为无需训练的无限帧视频生成方法,采用两阶段对齐机制保证时间一致性。美团发布LongCat-Video-Avatar 1.5,采用Whisper-Large替代Wav2Vec2,支持8步推理,提升长视频身份一致性及风格泛化。

  • 生物与地球观测基础模型更易用:Hugging Face Bio的Carbon DNA模型系列获得新演示及基础设施验证。@LoubnaBenAllal1强调其在序列设计、变异效应预测及表示学习中的应用,@Shekswess展示Carbon-500M、3B及8B模型在单台Trainium2 trn2.3xlarge上即刻编译运行。地理空间建模方面,@cgeorgiaw报告OlmoEarth v1.1通过对多分辨率Sentinel-2输入的重新分词,令计算量减少三倍,成本与速度提升三倍。

  • 开放机器人更具可构建性:Hugging Face发布LeRobot Humanoid,作为真正的全栈开源机器人解决方案,包含约2500美元成本的3D打印硬件、CAD设计、校准与运行时工具、仿真、识别工具及训练流水线。关键不仅是低成本,更在于易维修和快速迭代,适合真实机器人学习流程。

热门推文(按互动量)

  • OpenAI / Codex产品扩展:Codex可从手机安全操控锁定状态的Mac应用,新增Appshots丰富应用上下文。
  • 基础设施赢家:TurboPuffer实现1亿美元年收入且盈利,融资不足100万美元;Modal完成3.55亿美元C轮融资,估值46.5亿美元;Hark完成7亿美元融资,估值60亿美元。
  • 研究讨论热点:OpenAI的Erdős数学成果;RAEv2发布;语言模型数据过滤“无过滤”扩展结果。
  • 代理能力趋势:Gemini 3.5 Flash领跑APEX-Agents-AA;Gemma 4 E4B驱动iOS模拟器;Windows版Devin。

AI Reddit综述

(内容待更新)