自动研究：递归自我提升的火花

在2025年发生的重大事件之后，LLM开始能够完全自主地训练较小的LLM，标志着人工智能领域迈出了重要一步。每个AI热潮都会出现“自动机器学习（AutoML）时刻”，即模型自动改进训练过程，进而引发智能的无限递归提升，这可能带来极致的进步或风险。我们或许正处于最后的AI热潮，而这次的突破正是我们的“AutoML时刻”。

2025年12月，我们与Yi Tay的对话中提到“氛围训练（vibe training）”，他描述了AI编码的演变：从人工调试错误到将错误输入工具让模型自动修复，再重新运行任务。这个过程不仅是编码，更像是训练和机器学习的氛围，模型在很多情况下甚至比人类更快更准确地解决问题。

如今，任何拥有GPU的用户都可以在家体验模型改进模型的过程。进入2026年3月，我们正朝着Jakub Pachocki提出的“自动化AI研究实习生”目标迈进，即开发一个能够真正加速人类研究者的系统，而不仅仅是聊天或编码工具。

在AI社区，编码代理的瓶颈正从实现转向审查和验证。生成变得廉价，但判断和治理成为新的挑战。Anthropic推出的Claude Code多代理代码审查系统显著提升了PR评论的质量和准确率。OpenAI Codex和Cognition的Devin Review也在推动代码审查工具的普及。

代理系统的架构正向系统工程转变，团队通过共享存储和隔离计算实现协作。Perplexity Computer整合了Claude Code和GitHub CLI，实现了从代码修复到提交PR的自动化流程，甚至开始运行广告业务，推动代理从辅助编码向业务基础设施管理发展。

自动研究方面，Andrej Karpathy展示了通过代理驱动的研究循环对nanochat模型训练时间的约11%提升，表明即使非创新性研究，自动化循环也能系统发现可迁移的训练改进策略。尽管如此，代理循环在不同环境和模型间仍存在脆弱性，强调了构建稳健循环原语和交互式会话的重要性。

模型生态方面，GPT-5.4获得用户的积极反馈，尽管基准测试表现存在争议。Anthropic在文档分析领域占据领先地位，但也面临政治和法律挑战。Gemma 4和Qwen 3.5的传闻和本地运行指南引发关注，显示出中国AI生态的活跃与变动。

基础设施和性能工具方面，vLLM在边缘设备上的本地运行、语义路由的兴起以及训练理论的进展推动了AI系统的效率提升。OpenAI收购Promptfoo以加强安全测试，LangChain和Harbor等工具也在推动多模态评估和端到端计算评估的集成。

代理的上下文理解能力不断增强，Andrew Ng推出的Context Hub通过实时获取API文档减少了模型的幻觉问题。检索和记忆机制的研究提升了代理的长期任务处理能力，环境化理念使得AI开发更具民主化。

机器人和具身AI领域也取得进展，Figure Helix 02实现了全自动家庭清理，LeRobot发布了支持Unitree G1人形机器人的新版本，RoboMME成为机器人记忆能力的基准测试。

总结来看，AI领域正经历从模型生成到治理验证、从单一模型到多代理协作、从静态训练到自动研究循环的深刻变革，推动通用人工智能的实现迈出坚实步伐。

自动研究：递归自我提升的火花

标签

评论

相关阅读

东京大学加入World ID项目，成为AI时代的人类身份认证节点

日本软银将“Patching as a Service”服务对象扩大至3000家公司

索尼宣布结束国内aibo机器人的销售