基于视觉判断的AI自动驾驶技术日本Turing公司实现公路实证

Turing自动驾驶实证

日本Turing公司在自动驾驶用物理AI的VLA（视觉-语言-动作）模型方面，首次在国内实现了公路上的实时控制与行驶。同时，该公司还发布了因果推理数据集“RACER”和图像标记器“DriveTiTok”。该项目作为日本NEDO生成式AI研究支持计划（GENIAC）的一部分进行，部分成果已对外公开。

VLA模型融合了从摄像头获取的视觉信息与语言描述的情境理解，能够预测并输出相当于车辆转向和加减速的驾驶行为。与传统主要依赖图像和传感器数据学习的端到端自动驾驶模型不同，VLA采用了基于语言模型的综合决策架构，这成为其显著特点。

Turing公司自主训练了约20亿参数规模的VLA模型，并针对车载计算环境进行了优化，实现了公路上的自动驾驶控制。该系统能够以10Hz（每秒10次）的频率进行实时推理和车辆控制，验证了其在实际环境中的稳定自动驾驶性能。

自2023年以来，Turing一直致力于基于语言模型的自动驾驶技术研发，未使用激光雷达等传感器。此次成果是其研究的延续。未来，公司将加快技术开发和社会应用，推动国产物理AI的实现。

“RACER（边缘驾驶场景的因果推理描述）”是为提升VLA模型的因果推理能力而构建的数据集。它基于因果结构描述驾驶决策的依据，为AI理解驾驶操作的判断理由并生成更合适的行为提供学习基础。目前，部分数据集以“RACER-Mini”形式在Hugging Face平台公开。

“DriveTiTok”是一种将驾驶场景视频转换为离散标记的图像标记器，压缩率约为原始数据的1/100。它通过利用过去帧信息，综合捕捉时间变化和场景整体语境，在保持驾驶决策所需视觉信息的同时，实现高效压缩。该预训练模型也已在Hugging Face上公开。

评论