大多数人还在消化昨天发布的Anthropic重大新闻。我们借此机会邀请全球领先的AI前沿部署工程师(FDE)加入AIE的新FDE项目,这与OpenAI的DeployCo和Anthropic的DeployCo类似:

Anthropic与OpenAI部署计划

此外,AIE推出了新的创始人项目,类似于创业战场竞赛,由YCombinator的Garry Tan和Howie Lu的1000万美元Hyperagent竞赛支持。如果你感兴趣,欢迎今天报名并预订酒店!

AIE创始人项目

AI新闻汇总(2026年5月28日至29日):我们监测了12个Reddit子版块、544个Twitter账号,未发现新的Discord频道。你可以通过AINews官网搜索所有过往内容。提醒一下,AINews现为Latent Space的一个板块,你可以选择订阅频率!

AI Twitter动态回顾

Claude Opus 4.8发布、基准测试争议及API体验优化

  • Opus 4.8在多项独立评测中表现为“渐进提升但非主导”,@arena进行了200多个前端和代码测试,比较了Opus 4.8与之前版本、Gemini和GLM;@theo报告CursorBench显示其效率更高但略逊于4.7;@jerryjliu0和@llama_index发现文档解析中表格和布局有所提升,但内容准确性和图表表现下降;@scaling01指出ALE-Bench无进展,并发现LisanBench存在新失败模式。积极方面,@jeremyphoward认为4.8在编码时更合作且不那么“过度主动”,@leo_linsky称其是Anthropic迄今为止的实质性产品改进。

  • Anthropic还推出了平台级改进,@ClaudeDevs宣布支持对话中途系统指令更新且不破坏提示缓存,这对长会话和成本控制至关重要。但价格仍是主要抱怨点,@jeremyphoward认为Anthropic在API价格上改善有限,用户更倾向于GPT-5.5。

智能体框架、多轮强化学习缺陷及自治基础设施

  • @ClementDelangue强调Hugging Face深度分析指出多轮强化学习训练中存在严重缺陷:模型输出解码、工具调用解析后重新编码会导致梯度应用于模型未采样的序列。建议严格执行“Token-In, Token-Out”规则,避免重新编码采样的token。

  • @omarsar0提出“有效反馈计算”(EFC)指标,表明智能体成功更多依赖框架质量而非单纯的token或工具调用数量。LangChain等产品化调优也体现了不同模型需不同提示和工具的理念。

  • 关于单智能体与多智能体的争论,观点分歧明显,但趋势是更多团队关注智能体的可观测性、轨迹记录和持续改进循环。

开源模型、本地AI及工具链发展

  • 本地优先和开源权重模型持续升温,LangChain称2026年4月约三分之一AI团队使用开源模型,较九个月前的五分之一显著提升。工具链方面,@ggerganov推出llama.app,提供统一安装器和命令行入口,方便本地部署和第三方集成。

  • 开源基础设施逐渐企业化,Hugging Face约半数模型和数据集已设为私有,反映其不仅是公共开源平台。Hugging Face Jobs开始替代GitHub runners用于CPU和无服务器GPU持续集成。

  • 许可和开放性成为战略杠杆,NVIDIA将四个开源模型家族迁移至Linux Foundation OpenMDW-1.1许可,减少法律碎片化。新发布的GPIC数据集提供1亿对图像及1百万对基准,支持研究和商业使用。

谷歌与OpenAI产品动态:托管智能体、Gemini系列及Codex扩展

  • 谷歌扩展“托管智能体”堆栈,Gemini API支持单次调用启动沙箱环境,包含代码执行、网页访问和文件I/O。Gemini Spark作为24/7个人智能体向美国AI Ultra用户开放,Gemini Omni持续推进多模态生成与编辑。

  • OpenAI Codex向持久远程开发操作靠拢,新增Windows电脑控制和移动端远程操控,改进了背景智能体的稳定标识和聊天内容搜索功能。GPT-5.5即时版本提升了谄媚度、事实准确性和多语言表现。

  • 趋势显示智能体堆栈趋向垂直整合,包括模型、框架、沙箱、界面、远程控制及定价策略,减少传统“聊天机器人”形态,转向具备策略和记忆的托管执行环境。

值得关注的研究与系统论文

  • 搜索与检索方面,哈佛/MIT提出双向进化搜索(BES),提升Llama-3.2-3B-Instruct在MuSiQue任务上的表现;Latent Terms方法展示从冻结密集检索器提取稀疏BM25特征的可能;Iso-ModernColBERT开源提升推理效率。

  • 持续学习和信念管理领域,BeliefTrack优化信念状态管理,减少长时推理失败超过70%;研究者呼吁关注正向迁移,提出自我迭代的SKILL方法。

  • 多模态、世界模型与机器人技术,NVIDIA相关工作包括24FPS的γ-World多智能体生成模型和minWM实时交互视频世界模型框架。机器人领域展示了Qwen-VLA和语言驱动的操作改进。持续在线智能体通过220MiB时序图编码器实现更快且更准确的唤醒决策。

主要推文(按互动量排序)

  • OpenAI发布Rosalind生物防御工具,支持公共卫生和生物安全。
  • 谷歌Gemini Spark向美国AI Ultra用户推出全天候个人智能体。
  • OpenAI Codex扩展Windows支持和移动远程操控。
  • llama.cpp发布llama.app,统一本地AI安装和命令行入口。
  • Hugging Face强化学习多轮训练警告“Token-In, Token-Out”。
  • 开源模型与前沿差距缩小至约4个月。

AI Reddit动态回顾

/r/LocalLlama 与 /r/localLLM总结

1. 本地大型语言模型性能:MoE发布、量化与显存优化

  • StepFun发布了StepFun 3.7 Flash,一款拥有1960亿参数(11亿激活参数)和内置18亿视觉Transformer的多模态MoE模型,支持高达400TPS的高吞吐量代理工作流,且据称可在约128GB内存的本地环境运行。该模型在多个基准测试中表现优异,如SWE-Bench Pro 56.26%、DeepSearchQA F1 92.82%、HLE工具使用47.2分,较3.5版本有显著提升。模型权重已在Hugging Face公开,支持BF16、FP8、NVFP4和GGUF格式,并获得了llama.cpp的官方支持。

  • 社区反馈称该模型推理过程较为奇特,中间思考轨迹几乎无序,但最终答案准确且竞争力强。3.5版本存在的“无限思考”问题在3.7中得到修复。对于拥有4张3090显卡的用户,本地部署前景被看好。

  • vLLM对NVFP4权重的测试显示,在2块Pro 6k GPU上,64个并发浅上下文请求下,吞吐量约为2200 tokens/s,支持高并发和大规模上下文缓存。