大多数人还在消化昨天发布的Anthropic重大新闻。我们借此机会邀请全球领先的AI前沿部署工程师（FDE）加入AIE的新FDE项目，这与OpenAI的DeployCo和Anthropic的DeployCo类似：

Anthropic与OpenAI部署计划

此外，AIE推出了新的创始人项目，类似于创业战场竞赛，由YCombinator的Garry Tan和Howie Lu的1000万美元Hyperagent竞赛支持。如果你感兴趣，欢迎今天报名并预订酒店！

AIE创始人项目

AI新闻汇总（2026年5月28日至29日）：我们监测了12个Reddit子版块、544个Twitter账号，未发现新的Discord频道。你可以通过AINews官网搜索所有过往内容。提醒一下，AINews现为Latent Space的一个板块，你可以选择订阅频率！

AI Twitter动态回顾

Claude Opus 4.8发布、基准测试争议及API体验优化

Opus 4.8在多项独立评测中表现为“渐进提升但非主导”，@arena进行了200多个前端和代码测试，比较了Opus 4.8与之前版本、Gemini和GLM；@theo报告CursorBench显示其效率更高但略逊于4.7；@jerryjliu0和@llama_index发现文档解析中表格和布局有所提升，但内容准确性和图表表现下降；@scaling01指出ALE-Bench无进展，并发现LisanBench存在新失败模式。积极方面，@jeremyphoward认为4.8在编码时更合作且不那么“过度主动”，@leo_linsky称其是Anthropic迄今为止的实质性产品改进。
Anthropic还推出了平台级改进，@ClaudeDevs宣布支持对话中途系统指令更新且不破坏提示缓存，这对长会话和成本控制至关重要。但价格仍是主要抱怨点，@jeremyphoward认为Anthropic在API价格上改善有限，用户更倾向于GPT-5.5。

智能体框架、多轮强化学习缺陷及自治基础设施

@ClementDelangue强调Hugging Face深度分析指出多轮强化学习训练中存在严重缺陷：模型输出解码、工具调用解析后重新编码会导致梯度应用于模型未采样的序列。建议严格执行“Token-In, Token-Out”规则，避免重新编码采样的token。
@omarsar0提出“有效反馈计算”（EFC）指标，表明智能体成功更多依赖框架质量而非单纯的token或工具调用数量。LangChain等产品化调优也体现了不同模型需不同提示和工具的理念。
关于单智能体与多智能体的争论，观点分歧明显，但趋势是更多团队关注智能体的可观测性、轨迹记录和持续改进循环。

开源模型、本地AI及工具链发展

本地优先和开源权重模型持续升温，LangChain称2026年4月约三分之一AI团队使用开源模型，较九个月前的五分之一显著提升。工具链方面，@ggerganov推出llama.app，提供统一安装器和命令行入口，方便本地部署和第三方集成。
开源基础设施逐渐企业化，Hugging Face约半数模型和数据集已设为私有，反映其不仅是公共开源平台。Hugging Face Jobs开始替代GitHub runners用于CPU和无服务器GPU持续集成。
许可和开放性成为战略杠杆，NVIDIA将四个开源模型家族迁移至Linux Foundation OpenMDW-1.1许可，减少法律碎片化。新发布的GPIC数据集提供1亿对图像及1百万对基准，支持研究和商业使用。

谷歌与OpenAI产品动态：托管智能体、Gemini系列及Codex扩展

谷歌扩展“托管智能体”堆栈，Gemini API支持单次调用启动沙箱环境，包含代码执行、网页访问和文件I/O。Gemini Spark作为24/7个人智能体向美国AI Ultra用户开放，Gemini Omni持续推进多模态生成与编辑。
OpenAI Codex向持久远程开发操作靠拢，新增Windows电脑控制和移动端远程操控，改进了背景智能体的稳定标识和聊天内容搜索功能。GPT-5.5即时版本提升了谄媚度、事实准确性和多语言表现。
趋势显示智能体堆栈趋向垂直整合，包括模型、框架、沙箱、界面、远程控制及定价策略，减少传统“聊天机器人”形态，转向具备策略和记忆的托管执行环境。

值得关注的研究与系统论文

搜索与检索方面，哈佛/MIT提出双向进化搜索（BES），提升Llama-3.2-3B-Instruct在MuSiQue任务上的表现；Latent Terms方法展示从冻结密集检索器提取稀疏BM25特征的可能；Iso-ModernColBERT开源提升推理效率。
持续学习和信念管理领域，BeliefTrack优化信念状态管理，减少长时推理失败超过70%；研究者呼吁关注正向迁移，提出自我迭代的SKILL方法。
多模态、世界模型与机器人技术，NVIDIA相关工作包括24FPS的γ-World多智能体生成模型和minWM实时交互视频世界模型框架。机器人领域展示了Qwen-VLA和语言驱动的操作改进。持续在线智能体通过220MiB时序图编码器实现更快且更准确的唤醒决策。

主要推文（按互动量排序）

StepFun发布了StepFun 3.7 Flash，一款拥有1960亿参数（11亿激活参数）和内置18亿视觉Transformer的多模态MoE模型，支持高达400TPS的高吞吐量代理工作流，且据称可在约128GB内存的本地环境运行。该模型在多个基准测试中表现优异，如SWE-Bench Pro 56.26%、DeepSearchQA F1 92.82%、HLE工具使用47.2分，较3.5版本有显著提升。模型权重已在Hugging Face公开，支持BF16、FP8、NVFP4和GGUF格式，并获得了llama.cpp的官方支持。
社区反馈称该模型推理过程较为奇特，中间思考轨迹几乎无序，但最终答案准确且竞争力强。3.5版本存在的“无限思考”问题在3.7中得到修复。对于拥有4张3090显卡的用户，本地部署前景被看好。
vLLM对NVFP4权重的测试显示，在2块Pro 6k GPU上，64个并发浅上下文请求下，吞吐量约为2200 tokens/s，支持高并发和大规模上下文缓存。