Luma Labs于3月23日发布了图像生成模型Uni-1,这是公司首个基于统一智能架构的公开模型。官方已开放免费试用,并公布了API定价,企业接入渠道也在逐步启动。
架构创新:从扩散模型转向自回归
Uni-1摒弃了当前主流的扩散模型,采用仅解码器的自回归Transformer,将文本和图像的token交替排列成单一序列,在一次前向推理中完成像素生成。Luma CEO Amit Jain表示,传统方案通常先用语言模型进行规划,再交由扩散模型生成,导致信息在两阶段间流失,Uni-1旨在消除这一鸿沟。Jain曾任职苹果,参与Vision Pro工程。
功能亮点:参考图像控制与跨风格生成
Uni-1支持以一张或多张参考图像为引导,生成保持主体身份、姿态和构图的图像。官方测试显示,多参考图像模式在角色一致性和人像控制上表现稳定。模型支持76种视觉风格,涵盖写实摄影、漫画、浮世绘等多种类别。
演示中,输入“绘制金门大桥的信息图”,模型自动规划布局,生成桥梁结构图并实时标注“1711米”等数据,推理过程可视化。
性能评测:空间推理与参考生成领先
Luma发布数据显示,Uni-1在RISEBench推理基准中得分0.51,高于Google Nano Banana 2的0.50和OpenAI GPT Image 1.5的0.46;空间推理得分0.58,逻辑推理0.32,约为GPT Image的两倍。ODinW-13目标检测mAP为46.2,接近Google Gemini 3 Pro的46.3。
在人类偏好Elo排名中,Uni-1在整体偏好、风格与编辑、参考生成方面均排名第一,文本生成图像方面排名第二。

定价策略
API按token计费:输入文本每百万token 0.50美元,输入图像每百万token 1.20美元,输出文本及思维链每百万token 3.00美元,输出图像每百万token 45.45美元。换算单张图像,2048像素文本生成约0.0909美元,单参考图像编辑约0.0933美元,八参考图像约0.1101美元。
据VentureBeat报道,企业级2K分辨率场景下,Uni-1成本比Google Nano Banana 2低10%至30%。
背景介绍
Luma Labs此前专注于视频生成产品,如Dream Machine(Ray3系列)。3月5日,公司发布了基于统一智能架构的创意代理平台Luma Agents。Uni-1是该架构在静态图像产品中的首次应用。
发布数小时内,相关内容在X平台浏览量超过230万次。Luma表示后续将推出视频和音频版本,具体时间尚未公布。
试用地址:lumalabs.ai/uni-1


