为了打造未来的自动驾驶机器,有时你的模型需要另一个模型的辅助。

开发自动驾驶汽车、操作物理环境的机器人或自动化建筑设备的公司,会收集成千上万甚至数百万小时的视频数据用于评估和训练。

目前,整理和归档这些视频仍然依赖人工观看。即使快进播放,也难以实现规模化。由CEO Mustafa Bal和CTO Varun Krishnan创立的初创公司NomadicML,致力于解决客户95%车队数据长期存储在档案中的问题。

寻找边缘案例时,挑战更加严峻——最有价值的数据往往是那些罕见事件,这些事件容易让缺乏经验的物理AI模型困惑。

Nomadic通过一套视觉语言模型,将视频转化为结构化、可搜索的数据集,从而实现更高效的车队监控,支持强化学习和更快的迭代。

该公司周二宣布完成840万美元的种子轮融资,融资后估值达到5000万美元。此次融资由TQ Ventures领投,Pear VC和Jeff Dean参与,将帮助Nomadic吸引更多客户并持续优化平台。上个月,Nomadic还在Nvidia GTC的路演比赛中获得一等奖。

两位创始人曾是哈佛计算机科学本科同学,在Lyft和Snowflake等公司工作时,“不断遇到相同的技术难题”,Bal向TechCrunch透露。

“我们为用户提供对自身视频数据的洞察,无论是自动驾驶车辆还是机器人,”他说,“这才是推动自动系统开发者前进的关键,而非随机数据。”

举例来说,调整自动驾驶车辆识别警察指挥通行红灯的能力,或筛选车辆经过特定桥梁的所有视频,Nomadic的平台都能帮助识别这些事件,既用于合规,也能直接输入训练流程。

Zoox、三菱电机、Natix Network和Zendar等客户已在使用该平台开发智能机器。Zendar工程副总裁Antonio Puglielli表示,Nomadic的工具让公司比外包方式更快地扩大工作规模,其领域专业性也使其在竞争中脱颖而出。

这种基于模型的自动标注工具正成为物理AI的重要工作流程。像Scale、Kognic和Encord等成熟数据标注公司也在开发类似AI工具,Nvidia则发布了开源模型Alpamayo,支持解决此类问题。

Varun认为,Nomadic的工具不仅是标注器,更是“具备主动推理能力的系统:你描述需求,它就能找到答案”,通过多模型理解动作并置于上下文中。投资方预计,专注于这一基础设施的Nomadic将取得成功。

TQ Ventures合伙人Schuster Tanger表示:“这就像Salesforce不自己建云,Netflix不自己建内容分发设施一样。自动驾驶公司若试图内部开发Nomadic,会分散其专注于机器人本身的优势。”

Tanger称赞Nomadic团队的才华,指出Krishnan是国际象棋大师,世界排名第1549位。Krishnan则自豪地说,公司十几名工程师均发表过科学论文。

目前,团队正开发专门工具,比如从摄像头视频理解变道物理,或精准定位机器人抓手。接下来,Nomadic和客户希望开发针对非视觉数据如激光雷达的工具,或实现多传感器数据融合。

Bal总结道:“处理数TB视频,匹配数百个参数超百亿的模型,并提取准确洞察,难度极大。”