Luma AI发布Uni-1图像生成模型，实现文本与像素同步自回归生成

Luma Labs于3月23日发布了图像生成模型Uni-1，这是公司首个基于统一智能架构的公开模型。官方已开放免费试用，并公布了API定价，企业接入渠道也在逐步启动。

架构创新：从扩散模型转向自回归

Uni-1摒弃了当前主流的扩散模型，采用仅解码器的自回归Transformer，将文本和图像的token交替排列成单一序列，在一次前向推理中完成像素生成。Luma CEO Amit Jain表示，传统方案通常先用语言模型进行规划，再交由扩散模型生成，导致信息在两阶段间流失，Uni-1旨在消除这一鸿沟。Jain曾任职苹果，参与Vision Pro工程。

功能亮点：参考图像控制与跨风格生成

Uni-1支持以一张或多张参考图像为引导，生成保持主体身份、姿态和构图的图像。官方测试显示，多参考图像模式在角色一致性和人像控制上表现稳定。模型支持76种视觉风格，涵盖写实摄影、漫画、浮世绘等多种类别。

演示中，输入“绘制金门大桥的信息图”，模型自动规划布局，生成桥梁结构图并实时标注“1711米”等数据，推理过程可视化。

性能评测：空间推理与参考生成领先

Luma发布数据显示，Uni-1在RISEBench推理基准中得分0.51，高于Google Nano Banana 2的0.50和OpenAI GPT Image 1.5的0.46；空间推理得分0.58，逻辑推理0.32，约为GPT Image的两倍。ODinW-13目标检测mAP为46.2，接近Google Gemini 3 Pro的46.3。

在人类偏好Elo排名中，Uni-1在整体偏好、风格与编辑、参考生成方面均排名第一，文本生成图像方面排名第二。

定价策略

API按token计费：输入文本每百万token 0.50美元，输入图像每百万token 1.20美元，输出文本及思维链每百万token 3.00美元，输出图像每百万token 45.45美元。换算单张图像，2048像素文本生成约0.0909美元，单参考图像编辑约0.0933美元，八参考图像约0.1101美元。

据VentureBeat报道，企业级2K分辨率场景下，Uni-1成本比Google Nano Banana 2低10%至30%。

背景介绍

Luma Labs此前专注于视频生成产品，如Dream Machine（Ray3系列）。3月5日，公司发布了基于统一智能架构的创意代理平台Luma Agents。Uni-1是该架构在静态图像产品中的首次应用。

发布数小时内，相关内容在X平台浏览量超过230万次。Luma表示后续将推出视频和音频版本，具体时间尚未公布。

试用地址：lumalabs.ai/uni-1

Luma AI发布Uni-1图像生成模型，实现文本与像素同步自回归生成

架构创新：从扩散模型转向自回归

功能亮点：参考图像控制与跨风格生成

性能评测：空间推理与参考生成领先

定价策略

背景介绍

标签

评论

相关阅读

中国日益留住顶尖人工智能人才

日本游戏设计先驱森川幸人举办AI游戏咨询活动

东京地铁利用AI技术推进铁路变电所和电气室的状态基准维护