Turing自动驾驶实证

日本Turing公司在自动驾驶用物理AI的VLA(视觉-语言-动作)模型方面,首次在国内实现了公路上的实时控制与行驶。同时,该公司还发布了因果推理数据集“RACER”和图像标记器“DriveTiTok”。该项目作为日本NEDO生成式AI研究支持计划(GENIAC)的一部分进行,部分成果已对外公开。

VLA模型融合了从摄像头获取的视觉信息与语言描述的情境理解,能够预测并输出相当于车辆转向和加减速的驾驶行为。与传统主要依赖图像和传感器数据学习的端到端自动驾驶模型不同,VLA采用了基于语言模型的综合决策架构,这成为其显著特点。

Turing公司自主训练了约20亿参数规模的VLA模型,并针对车载计算环境进行了优化,实现了公路上的自动驾驶控制。该系统能够以10Hz(每秒10次)的频率进行实时推理和车辆控制,验证了其在实际环境中的稳定自动驾驶性能。

自2023年以来,Turing一直致力于基于语言模型的自动驾驶技术研发,未使用激光雷达等传感器。此次成果是其研究的延续。未来,公司将加快技术开发和社会应用,推动国产物理AI的实现。

“RACER(边缘驾驶场景的因果推理描述)”是为提升VLA模型的因果推理能力而构建的数据集。它基于因果结构描述驾驶决策的依据,为AI理解驾驶操作的判断理由并生成更合适的行为提供学习基础。目前,部分数据集以“RACER-Mini”形式在Hugging Face平台公开。

“DriveTiTok”是一种将驾驶场景视频转换为离散标记的图像标记器,压缩率约为原始数据的1/100。它通过利用过去帧信息,综合捕捉时间变化和场景整体语境,在保持驾驶决策所需视觉信息的同时,实现高效压缩。该预训练模型也已在Hugging Face上公开。