日本PFN推出面向无人机和机器人视觉语言模型PLaMo-VL，推动物理AI应用

PFN视觉语言模型

日本Preferred Networks（PFN）开发了面向无人机、机器人、监控摄像头和汽车等自主运行设备的视觉语言模型“PLaMo-VL”，并发布了8B参数的“PLaMo 2.1-8B-VL”以及小型2B参数的“PLaMo 2.1-2B-VL”。

近年来，随着物理世界环境理解和决策执行的物理AI应用日益广泛，传统云端AI面临大量传感器数据传输带来的通信负担、实时性下降以及机密信息安全风险等挑战。

此外，物理AI在工业应用中不仅需要识别图像，更需判断“发生了什么”，并能向人类解释其判断依据。

为应对这些问题，PLaMo-VL旨在有限计算资源的边缘设备上实现高精度运行。该模型强化了基于图像进行情境语言理解和判断的视觉问答（VQA）能力，以及定位判断依据对象的视觉定位（Visual Grounding）性能。

通过这些能力，PLaMo-VL能够清晰识别“何时何地发生了什么”，适用于机器人作业辅助、设备检查、物流管理和交通监控等对安全性和运行可靠性要求高的场景。

这两个模型基于“PLaMo 2.1-8B”和“PLaMo 2.1-2B”多模态基础模型，集成了图像理解能力，专为边缘设备运行设计。PLaMo 2.1-8B-VL在日语视觉问答和视觉定位基准测试中，性能超过了同规模的现有开源模型。

在日本GENIAC第三期项目中，利用该模型开展了工厂作业任务分类和发电厂设备异常检测。作业任务分类不仅关注作业人员姿势和环境，还重点识别使用中的工具。通过视觉定位确定工具的位置和种类，再结合视觉问答推断作业内容，实现了对复杂作业流程的高精度理解。

异常检测示意

在无人机图像异常检测中，模型比较正常与当前图像，剔除因位置、视角偏差或光照变化引起的表面差异，提取与异常相关的有效变化。同时生成标注异常位置的边界框和异常类型标签，方便现场确认和处理。

模型性能对比

所有实验中，PLaMo 2.1-8B-VL在基准测试中均优于“Qwen3-VL-235B-A22B-Instruct”等开源模型，显示出在检测作业遗漏、流程偏差以及设备检查和监控中减少疏漏的潜力。

PFN凭借这些成果荣获GENIAC模型奖。未来将针对工业现场特定应用开展实证实验，进行现场数据的增量学习，并将实际运行反馈融入模型优化，推动模型在实际环境中的应用。

评论