苹果的人工智能研究团队近日发布了一款名为LiTo(Surface Light Field Tokenization)的3D生成大模型。这项技术突破了长期困扰3D重建领域的难题,实现了仅通过单张二维图片即可生成带有高保真光照效果的完整三维物体。

LiTo的核心创新在于潜在空间的应用以及全新的统一3D潜在表示方法:

  • 高效编码:该模型将复杂的表面光场数据压缩为紧凑的向量集合,数学上描述了物体几何结构与光线交互的物理规律。
  • 双向机制:采用编码器-解码器架构,编码器提取几何结构和外观特征,解码器则反向还原,准确重现高阶视觉效果,如镜面高光和菲涅尔反射。

性能表现:多视角光照一致性显著提升

研究团队利用包含数千个物体的3D数据集对LiTo进行了训练。实验结果显示:

  • 解决方向偏差问题:LiTo严格遵循相机坐标系,解决了类似模型中常见的物体方向错误问题。
  • 领先指标:在多视角光照一致性方面,LiTo较当前顶尖模型TRELLIS提升了约37%。

这一成果进一步降低了3D内容创作的门槛,未来有望为增强现实(AR)和空间计算设备(如Vision Pro)提供更高质量的素材生成支持。