AI2发布全开源视觉驱动网页代理MolmoWeb：仅凭视觉即可控制网页操作

艾伦人工智能研究所（AI2）近日发布了一款突破性的全开源网页代理——MolmoWeb。与传统依赖网页底层代码（DOM）的代理不同，MolmoWeb通过读取屏幕截图来做出决策，代表了“视觉驱动”网页导航技术的一大进步。

MolmoWeb的操作逻辑非常直观：它首先截取当前浏览器窗口的屏幕截图，利用视觉分析判断下一步动作（如点击、滚动或翻页），然后执行并循环这一过程。这种“所见即所得”的模型使其比传统代理更具鲁棒性，因为网页的视觉布局通常比底层代码更稳定，且其决策过程对人类用户完全透明且可解释。

尽管MolmoWeb的参数规模仅为4B和8B，但其性能表现出“小而强”的优势：

此次AI2不仅开源了模型权重，还贡献了名为MolmoWebMix的大型数据集，包含：

MolmoWeb目前已在Hugging Face和GitHub上以Apache 2.0许可证完全开源。尽管在处理复杂指令、登录验证及法律合规（如服务条款）方面仍面临挑战，AI2坚信唯有通过完全透明和社区协作，才能真正打破大厂的数据垄断。

评论