Anthropic近日正式发布了支持百万上下文窗口的模型,凭借其在MRCR测试中的领先表现,有效缓解了“上下文衰减”问题。该模型成为Max、Team及Enterprise用户的默认选项,并取消了长上下文的额外API费用,同时支持每次请求最多600张图片或PDF页面。尽管如此,Anthropic的这一发布相较于Gemini和OpenAI的类似功能显得稍晚。事实上,百万上下文窗口技术理论上已存在两年,但实际应用增长远低于其他维度,如成本、速度和质量。正如Sam Altman曾预言的那样,上下文窗口的增长远未达到100倍,甚至可能在未来五到十年内保持在百万级别。

上下文容量增长受限的根本原因在于硬件内存的物理限制,尤其是高带宽内存(HBM)和DRAM的供应不足。软件层面无法突破这一瓶颈,导致上下文窗口扩展面临巨大挑战。对此,业内提出了“上下文配给”的概念,未来可能出现类似凭证机制来限制每日可用上下文量。

在代理架构方面,社区关注点转向持久记忆和自我改进能力。IBM的研究表明,通过提取代理轨迹中的策略和恢复技巧,任务完成率和场景目标均有显著提升。同时,多代理记忆被视为计算机体系结构问题,涉及缓存层级、一致性和访问控制等,相关产品如Hermes Agent已实现技能和用户记忆的长期保存。用户体验方面,代理正向“始终在线、跨设备同步”发展,Perplexity Computer和Claude Code等产品支持手机与桌面间无缝切换,提升了使用便捷性。

推理性能优化方面,Anthropic的Opus 4.6版本通过稀疏注意力机制实现了显著加速,部分模型在20万上下文长度下预填充和解码速度分别提升1.82倍和1.48倍。此外,缓存和服务优化技术也扩展至非自回归模型,微软正在验证NVIDIA Vera Rubin NVL72系统,未来硬件基础设施将持续推动性能提升。

训练与评估领域,MIT相关研究提出随机高斯搜索(RandOpt/Neural Thickets)方法,表现可与强化学习微调相媲美,揭示了大规模预训练模型在局部任务专家空间中的优势。斯坦福的泛用数据重放技术在微调和中期训练中均带来近两倍提升,显示预训练阶段设计的重要性。评估仍是瓶颈,尤其在真实性和检索策略上,最新模型在检测数学论文中的错误陈述方面表现有限,检索准确率与理想状态仍有约20%差距。

开源生态方面,OpenFold3预览版发布,提供了完整的训练数据和配置,实现了AlphaFold3模型的端到端可复现训练。非洲语音数据集WAXAL覆盖27种撒哈拉以南语言,支持文本转语音和自动语音识别,填补了少数语言资源空白。开源社区对训练数据的许可态度趋向宽松,强调代码作为礼物的价值被AI训练放大,但也有人呼吁制定代理合规协议以保护维护者权益。

开发者工具方面,编码代理正变得更加自主和专业化,多代理软件工厂模式兴起,实现代码审查、测试、安全和性能优化的自动化。自动化研究工具如Karpathy的autoresearch和Together AI的Open Deep Research v2推动了研究流程的自动化和开放化。

近期推特热点包括xAI招聘策略调整、Claude交互式图表界面、Perplexity Computer移动端发布、微软验证Rubin NVL72系统以及Hermes Agent的记忆驱动代理框架等,反映了行业对代理持久记忆和跨设备协同的浓厚兴趣。