AI新闻：上下文窗口容量瓶颈与持久记忆技术进展

Anthropic近日正式发布了支持百万上下文窗口的模型，凭借其在MRCR测试中的领先表现，有效缓解了“上下文衰减”问题。该模型成为Max、Team及Enterprise用户的默认选项，并取消了长上下文的额外API费用，同时支持每次请求最多600张图片或PDF页面。尽管如此，Anthropic的这一发布相较于Gemini和OpenAI的类似功能显得稍晚。事实上，百万上下文窗口技术理论上已存在两年，但实际应用增长远低于其他维度，如成本、速度和质量。正如Sam Altman曾预言的那样，上下文窗口的增长远未达到100倍，甚至可能在未来五到十年内保持在百万级别。

上下文容量增长受限的根本原因在于硬件内存的物理限制，尤其是高带宽内存（HBM）和DRAM的供应不足。软件层面无法突破这一瓶颈，导致上下文窗口扩展面临巨大挑战。对此，业内提出了“上下文配给”的概念，未来可能出现类似凭证机制来限制每日可用上下文量。

在代理架构方面，社区关注点转向持久记忆和自我改进能力。IBM的研究表明，通过提取代理轨迹中的策略和恢复技巧，任务完成率和场景目标均有显著提升。同时，多代理记忆被视为计算机体系结构问题，涉及缓存层级、一致性和访问控制等，相关产品如Hermes Agent已实现技能和用户记忆的长期保存。用户体验方面，代理正向“始终在线、跨设备同步”发展，Perplexity Computer和Claude Code等产品支持手机与桌面间无缝切换，提升了使用便捷性。

推理性能优化方面，Anthropic的Opus 4.6版本通过稀疏注意力机制实现了显著加速，部分模型在20万上下文长度下预填充和解码速度分别提升1.82倍和1.48倍。此外，缓存和服务优化技术也扩展至非自回归模型，微软正在验证NVIDIA Vera Rubin NVL72系统，未来硬件基础设施将持续推动性能提升。

训练与评估领域，MIT相关研究提出随机高斯搜索（RandOpt/Neural Thickets）方法，表现可与强化学习微调相媲美，揭示了大规模预训练模型在局部任务专家空间中的优势。斯坦福的泛用数据重放技术在微调和中期训练中均带来近两倍提升，显示预训练阶段设计的重要性。评估仍是瓶颈，尤其在真实性和检索策略上，最新模型在检测数学论文中的错误陈述方面表现有限，检索准确率与理想状态仍有约20%差距。

开源生态方面，OpenFold3预览版发布，提供了完整的训练数据和配置，实现了AlphaFold3模型的端到端可复现训练。非洲语音数据集WAXAL覆盖27种撒哈拉以南语言，支持文本转语音和自动语音识别，填补了少数语言资源空白。开源社区对训练数据的许可态度趋向宽松，强调代码作为礼物的价值被AI训练放大，但也有人呼吁制定代理合规协议以保护维护者权益。

开发者工具方面，编码代理正变得更加自主和专业化，多代理软件工厂模式兴起，实现代码审查、测试、安全和性能优化的自动化。自动化研究工具如Karpathy的autoresearch和Together AI的Open Deep Research v2推动了研究流程的自动化和开放化。

近期推特热点包括xAI招聘策略调整、Claude交互式图表界面、Perplexity Computer移动端发布、微软验证Rubin NVL72系统以及Hermes Agent的记忆驱动代理框架等，反映了行业对代理持久记忆和跨设备协同的浓厚兴趣。

AI新闻：上下文窗口容量瓶颈与持久记忆技术进展

标签

评论

相关阅读

《AI纪录片》探讨我们如何在不确定的AI未来中生存

Meta员工抨击扎克伯格收集所有员工击键数据：不愿生活在被剥削的世界

日本NTT开发AI时代光网络全长监测功能