首次有一颗地球观测卫星能够自主找到目标,无需地面人工分析师介入。这一里程碑事件发生在今年四月,标志着视觉-语言模型首次在轨道上的应用,并展示了人工智能如何从根本上改变空间传感器的能力及其价值。

传统上,卫星会将大量数据下载到地面,由分析师利用机器学习算法或人工目视进行解读。而搭载于Loft Orbital公司制造的YAM-9卫星上的软件包,则由NASA喷气推进实验室开发,能够根据自然语言查询自动识别感兴趣区域。

此次演示所用的视觉-语言模型Gemma 3,由Google DeepMind开发,专为边缘计算设计,能在远离数据中心的有限硬件上运行。视觉-语言模型结合了大型语言模型的上下文理解能力和图像分析能力。研究人员让模型对自然环境与人类开发交汇处的传感器数据进行分类,或识别铁路枢纽周边基础设施,模型均成功完成任务。

这次演示意义重大:短期来看,它能让空间传感器更有用,通过轨道上的初步数据筛选,减少地面分析师需处理的海量原始数据;长期来看,它证明了在太空中运行更大规模人工智能基础设施的可能性。

Loft公司的人工智能负责人Paul Lasserre表示:“这为太空中的全天候巡逻层打开了大门。如果有视觉-语言模型,你可以设定逻辑,比如‘监控这条边境,发现异常及时通知我’,并与卫星进行交互。”

Loft的卫星设计为第三方客户提供平台服务,其商业模式更接近基础设施即服务,而非传统卫星制造。近期一笔交易中,Loft为EarthDaily建造、发射并运营了六颗新卫星,后者将分析并销售卫星收集的数据。YAM-9于2025年秋季发射,是公司轨道AI项目的先导,配备了Nvidia Jetson Orin AGX GPU,这是太空计算中领先的芯片之一。

NASA喷气推进实验室AI团队技术负责人Juan Delfa Victoria领导开发了NAVI-Orbital软件包,作为Gemma 3视觉-语言模型的运行平台。虽然Gemma 3是现成产品,软件工程师仍需精简软件包,减少所需库和内存。

尽管这是首次报道视觉-语言模型在轨道上的应用,预计其他公司也将跟进。Planet Labs的卫星搭载Jetson Orin处理器,目前用于较简单的目标检测任务,但其发言人表示正在研究包括视觉-语言模型在内的更多AI应用。

运营太空中最大GPU群的Kepler Communications因合作协议未透露是否部署了视觉-语言模型,但表示自今年一月发射以来,其计算环境已应用于多项未公开的案例。

Lasserre说:“既然概念已被验证,这就是未来的发展方向。”目标是构建星座,实现地球任意地点的实时覆盖,这大约需要50到100颗类似YAM-9的卫星。(Loft目前运营12颗卫星。)

在轨部署这些小型模型的经验,将为企业尝试在太空中部署更大规模计算基础设施提供宝贵参考,尤其是在电力和内存管理等关键但平凡的领域。

这也可能为科学工具开辟新道路。NAVI-Space的构想源于Delfa Victoria和JPL研究员Taran Cyriac John对为月球或火星探险宇航员设计数字助理的思考。

Delfa Victoria说:“我们考虑到宇航员穿着加压服,无法使用键盘,操作复杂。那么,为什么不提供一个像电子游戏和电影中那样的互动AI助理呢?”

但请别把它叫做HAL 9000。