在2025年发生的重大事件之后,LLM开始能够完全自主地训练较小的LLM,标志着人工智能领域迈出了重要一步。每个AI热潮都会出现“自动机器学习(AutoML)时刻”,即模型自动改进训练过程,进而引发智能的无限递归提升,这可能带来极致的进步或风险。我们或许正处于最后的AI热潮,而这次的突破正是我们的“AutoML时刻”。

2025年12月,我们与Yi Tay的对话中提到“氛围训练(vibe training)”,他描述了AI编码的演变:从人工调试错误到将错误输入工具让模型自动修复,再重新运行任务。这个过程不仅是编码,更像是训练和机器学习的氛围,模型在很多情况下甚至比人类更快更准确地解决问题。

如今,任何拥有GPU的用户都可以在家体验模型改进模型的过程。进入2026年3月,我们正朝着Jakub Pachocki提出的“自动化AI研究实习生”目标迈进,即开发一个能够真正加速人类研究者的系统,而不仅仅是聊天或编码工具。

在AI社区,编码代理的瓶颈正从实现转向审查和验证。生成变得廉价,但判断和治理成为新的挑战。Anthropic推出的Claude Code多代理代码审查系统显著提升了PR评论的质量和准确率。OpenAI Codex和Cognition的Devin Review也在推动代码审查工具的普及。

代理系统的架构正向系统工程转变,团队通过共享存储和隔离计算实现协作。Perplexity Computer整合了Claude Code和GitHub CLI,实现了从代码修复到提交PR的自动化流程,甚至开始运行广告业务,推动代理从辅助编码向业务基础设施管理发展。

自动研究方面,Andrej Karpathy展示了通过代理驱动的研究循环对nanochat模型训练时间的约11%提升,表明即使非创新性研究,自动化循环也能系统发现可迁移的训练改进策略。尽管如此,代理循环在不同环境和模型间仍存在脆弱性,强调了构建稳健循环原语和交互式会话的重要性。

模型生态方面,GPT-5.4获得用户的积极反馈,尽管基准测试表现存在争议。Anthropic在文档分析领域占据领先地位,但也面临政治和法律挑战。Gemma 4和Qwen 3.5的传闻和本地运行指南引发关注,显示出中国AI生态的活跃与变动。

基础设施和性能工具方面,vLLM在边缘设备上的本地运行、语义路由的兴起以及训练理论的进展推动了AI系统的效率提升。OpenAI收购Promptfoo以加强安全测试,LangChain和Harbor等工具也在推动多模态评估和端到端计算评估的集成。

代理的上下文理解能力不断增强,Andrew Ng推出的Context Hub通过实时获取API文档减少了模型的幻觉问题。检索和记忆机制的研究提升了代理的长期任务处理能力,环境化理念使得AI开发更具民主化。

机器人和具身AI领域也取得进展,Figure Helix 02实现了全自动家庭清理,LeRobot发布了支持Unitree G1人形机器人的新版本,RoboMME成为机器人记忆能力的基准测试。

总结来看,AI领域正经历从模型生成到治理验证、从单一模型到多代理协作、从静态训练到自动研究循环的深刻变革,推动通用人工智能的实现迈出坚实步伐。