PFN视觉语言模型

日本Preferred Networks(PFN)开发了面向无人机、机器人、监控摄像头和汽车等自主运行设备的视觉语言模型“PLaMo-VL”,并发布了8B参数的“PLaMo 2.1-8B-VL”以及小型2B参数的“PLaMo 2.1-2B-VL”。

近年来,随着物理世界环境理解和决策执行的物理AI应用日益广泛,传统云端AI面临大量传感器数据传输带来的通信负担、实时性下降以及机密信息安全风险等挑战。

此外,物理AI在工业应用中不仅需要识别图像,更需判断“发生了什么”,并能向人类解释其判断依据。

为应对这些问题,PLaMo-VL旨在有限计算资源的边缘设备上实现高精度运行。该模型强化了基于图像进行情境语言理解和判断的视觉问答(VQA)能力,以及定位判断依据对象的视觉定位(Visual Grounding)性能。

通过这些能力,PLaMo-VL能够清晰识别“何时何地发生了什么”,适用于机器人作业辅助、设备检查、物流管理和交通监控等对安全性和运行可靠性要求高的场景。

这两个模型基于“PLaMo 2.1-8B”和“PLaMo 2.1-2B”多模态基础模型,集成了图像理解能力,专为边缘设备运行设计。PLaMo 2.1-8B-VL在日语视觉问答和视觉定位基准测试中,性能超过了同规模的现有开源模型。

在日本GENIAC第三期项目中,利用该模型开展了工厂作业任务分类和发电厂设备异常检测。作业任务分类不仅关注作业人员姿势和环境,还重点识别使用中的工具。通过视觉定位确定工具的位置和种类,再结合视觉问答推断作业内容,实现了对复杂作业流程的高精度理解。

异常检测示意

在无人机图像异常检测中,模型比较正常与当前图像,剔除因位置、视角偏差或光照变化引起的表面差异,提取与异常相关的有效变化。同时生成标注异常位置的边界框和异常类型标签,方便现场确认和处理。

模型性能对比

所有实验中,PLaMo 2.1-8B-VL在基准测试中均优于“Qwen3-VL-235B-A22B-Instruct”等开源模型,显示出在检测作业遗漏、流程偏差以及设备检查和监控中减少疏漏的潜力。

PFN凭借这些成果荣获GENIAC模型奖。未来将针对工业现场特定应用开展实证实验,进行现场数据的增量学习,并将实际运行反馈融入模型优化,推动模型在实际环境中的应用。