Shawn Shen认为,人工智能要想在现实世界中取得成功,必须具备记忆视觉信息的能力。Shen的公司Memories.ai正利用Nvidia的AI工具,构建可穿戴设备和机器人能够记忆并回忆视觉信息的基础设施。
Memories.ai于周一在Nvidia的GTC大会上宣布了双方的合作。通过这次合作,Memories.ai使用Nvidia的Cosmos-Reason 2视觉语言推理模型和Nvidia Metropolis视频搜索与摘要应用,持续推进其视觉记忆技术的发展。
Shen和他的联合创始人兼CTO Ben Zhou在为Meta的Ray-Ban智能眼镜开发AI系统时,萌生了创立公司的想法。他们意识到,如果用户无法回忆起录制的视频数据,智能眼镜的实际应用将大打折扣。
他们发现市场上尚无专门为AI打造视觉记忆解决方案的产品,于是决定从Meta独立出来,自行开发这项技术。
“AI在数字世界已经表现出色,那在物理世界呢?”Shen说道,“AI可穿戴设备和机器人同样需要记忆……最终,AI必须拥有视觉记忆。我们坚信这个未来。”
AI系统具备记忆能力是近年的新发展。2024年,OpenAI更新了ChatGPT,使其能够记忆过去的对话,并在2025年进一步优化了这一功能。Elon Musk的xAI和Google Gemini也在过去两年推出了各自的记忆工具。
不过,Shen指出,这些进展主要集中在基于文本的记忆上。相比之下,文本记忆结构化程度高,易于索引,但对于主要通过视觉与世界交互的物理AI应用帮助有限。

Memories.ai成立于2024年,迄今已筹集1600万美元资金,包括2025年7月的800万美元种子轮和800万美元追加投资,投资方包括Susa Ventures、Seedcamp、Fusion Fund和Crane Venture Partners等。
Shen表示,成功构建视觉记忆层需要两方面:一是建立将视频嵌入并索引为可存储和调用的数据格式的基础设施,二是采集训练模型所需的数据。
公司于2025年7月发布了大型视觉记忆模型(LVMM),Shen称其可视为本月早些时候发布的多模态索引与检索模型Gemini Embedding 2的简化版本。
为数据采集,Memories.ai开发了LUCI硬件设备,由“数据采集员”佩戴录制视频以训练模型。Shen表示,公司无意成为硬件厂商或销售该设备,之所以自制,是因为市面上的视频录制设备多注重高清和耗电,而不适合他们的需求。
公司已推出第二代LVMM,并与高通达成合作,计划今年晚些时候在高通处理器上运行该模型。
Shen透露,Memories.ai已与一些大型可穿戴设备公司合作,但未透露具体名称。尽管目前已有一定需求,Shen认为可穿戴设备和机器人领域的更大机遇尚未完全显现。
“在商业化方面,我们更专注于模型和基础设施建设,因为我们相信可穿戴设备和机器人市场终将到来,只是时机尚未成熟。”Shen说。


