艾伦人工智能研究所(AI2)近日发布了一款突破性的全开源网页代理——MolmoWeb。与传统依赖网页底层代码(DOM)的代理不同,MolmoWeb通过读取屏幕截图来做出决策,代表了“视觉驱动”网页导航技术的一大进步。
核心技术:像人类一样“看”网页
MolmoWeb的操作逻辑非常直观:它首先截取当前浏览器窗口的屏幕截图,利用视觉分析判断下一步动作(如点击、滚动或翻页),然后执行并循环这一过程。这种“所见即所得”的模型使其比传统代理更具鲁棒性,因为网页的视觉布局通常比底层代码更稳定,且其决策过程对人类用户完全透明且可解释。
性能飞跃:小模型胜过大模型
尽管MolmoWeb的参数规模仅为4B和8B,但其性能表现出“小而强”的优势:

- 领先排名: 在WebVoyager测试中,8B版本取得了78.2%的成绩,不仅在开源模型中排名第一,还接近OpenAI专有模型o3(79.3%)。
- 巨大潜力: 研究发现,通过多次运行任务并选取最佳结果,其成功率可进一步提升至94.7%。
- 精准定位: 在用户界面元素定位基准测试中,MolmoWeb甚至超越了Anthropic的Claude3.7。
数据支持:史上最大开源数据集
此次AI2不仅开源了模型权重,还贡献了名为MolmoWebMix的大型数据集,包含:
- 36,000个由志愿者完成的真实浏览任务。
- 超过220万对屏幕截图与问题配对数据。
- 由GPT-4o验证的自动合成数据,实验表明合成数据在引导代理寻找“最优路径”方面甚至优于人类轨迹。
开源精神与未来挑战
MolmoWeb目前已在Hugging Face和GitHub上以Apache 2.0许可证完全开源。尽管在处理复杂指令、登录验证及法律合规(如服务条款)方面仍面临挑战,AI2坚信唯有通过完全透明和社区协作,才能真正打破大厂的数据垄断。


