在我的办公室里,有一个书架,摆放着我的魔术道具。旁边是俯瞰巴黎的全景窗户——但实际上并非真实窗户,而是当我戴上Apple的Vision Pro头显时映射到真实窗户上的混合现实叠加。墙上还悬挂着一个虚拟时钟。
书架是真实存在的,而巴黎的窗户和墙上的时钟则是虚拟的。但Siri,这个我通过一个发光的球体形象召唤出来的助手,却能“看见”它们。当我问它面前有什么时,Siri的文本框会详细描述眼前的一切。
我首次戴上Vision Pro并测试开发者预览版VisionOS 27中全新的全视Siri AI时,感到既惊喜又熟悉。此前我也体验过三星Galaxy XR头显的Gemini Live模式,它能识别房间和虚拟应用窗口。我也曾佩戴多款智能眼镜,利用摄像头感知的AI告诉我周围的世界。
正如预期,苹果将在今年秋季为包括Apple Watch、iPhone和iPad在内的多款设备推出全新升级的Siri,扩展其视觉智能能力。Vision Pro上的Siri尤为引人注目,甚至可以说是最具野心的版本。它能根据指令观察你视野中的一切,宛如一个感官伴侣。
虽然这是刚刚在苹果WWDC上公布的早期预览版本,尚不完美,但已经足够展示未来可能的发展方向。如今,具备此类功能的智能眼镜似乎已触手可及。与此同时,Vision Pro的辅助功能也将变得非常有趣。
Siri的发光球体随时准备“观察”
与iOS和iPadOS中通过相机应用启动的视觉智能模式不同,Vision Pro上的Siri只需你说“嘿,Siri”,即可开始“看”并回答问题。
Siri以一个三维发光球体的形象出现在我的房间中,宛如一个灵体。你可以随意拖动它的位置,利用VisionOS的空间图形引擎,发光球体还能在桌面和房间中投射光影效果。
我说:“嘿,Siri,面前有什么?”它便启动视觉智能,发出新颖的提示音,并快速扫描我眼睛注视的区域。它能识别我面前的书架,书架上的书籍和小玩偶都被它捕捉到了,甚至读出了几本书名,如《Uzumaki》和《Wonderbook》。
AI的反馈基于摄像头捕捉的静态图像,无论是真实物体还是虚拟物件。这种快照响应方式类似Meta眼镜或三星Galaxy XR上的摄像头AI。

不过,它不像那些设备有实时模式,每次请求仅拍摄一张快照。
识别真实与虚拟物品
在我的桌面上,Siri能识别出一个红色的虚拟现实头盔(Virtual Boy)和一台Steam Deck,都是实物。随后我又让它观察虚拟的巴黎窗户、墙上的时钟小部件以及摆满魔术道具的书架,它也都能识别。
在这个早期测试版中,Siri倾向于持续分析某一视角的捕捉内容,除非我关闭它或移动发光球体重新尝试。也许我还在适应这种交互方式。
我已经开始思考如何利用这种视觉感知快速处理工作内容。我让Siri总结了Notes应用中我最近的剧本写作内容(它准确提炼了要点),还询问了我通过虚拟显示器在MacBook上打开的浏览器窗口(它告诉我我正在写关于Siri识别真实与虚拟物体的Google文档)。
将我的照片变成全景3D背景
我还尝试了VisionOS 27中新加入的全景照片转换效果,它能将相册中的全景照片变成3D环绕背景,供工作时使用。
效果虽不及苹果自带的沉浸式环境那样完全环绕,也没有动态或环境音效,更像是超大尺寸的3D窗户,边缘还能看到我办公室的部分实景。
虽然并非所有全景照片都能成功转换(毕竟还处于早期阶段),但效果很美。我打开了一张疫情期间我在母亲后院拍的照片,现在它仿佛让我再次置身其中。我希望Vision Pro未来能支持像Meta Quest那样通过多张照片生成的完全沉浸式高斯点云捕捉。
我不禁联想到苹果未来的智能眼镜将如何利用具备视觉能力的Siri来辅助用户。但现在还为时过早。眼下,要体验这些功能,你需要一台售价3499美元的Vision Pro。但当苹果推出像Google和Xreal的Project Aura那样更小巧、更实惠的AR眼镜,并且更多应用能接入Siri框架时,未来将非常值得期待。我感觉自己正站在未来的门槛上,窥见即将到来的变化。

