2024年3月18日,Midjourney正式推出了其V8模型的早期版本。作为一次重要的架构升级,V8模型在Alpha网站上线后迅速引起业界关注,其图像生成速度相比上一版本提升了约5倍。

此次更新引入了原生渲染的--hd模式,支持2K分辨率图像生成,同时新增了--q4参数以增强图像的连贯性。在技术层面,V8显著提升了对复杂且长文本指令的理解能力,尤其是在图像中嵌入文本的渲染准确度方面,通过引入引号识别机制实现了更高的精度。

尽管性能大幅提升,Midjourney依然坚持采用1000%纯扩散模型路径。相比于谷歌的Nano Banana和OpenAI的GPT Image 1.5等融合了自回归(AR)组件的混合架构模型,V8在处理高度逻辑性抽象指令(如特定角色位置互换)时仍存在一定局限。

因此,官方建议追求极致写实效果的用户使用--raw模式或风格参考功能。值得注意的是,性能提升伴随着成本转嫁:在运行高清和高连贯模式时,每次作业的时间和费用达到标准模式的4倍,且初期版本暂不支持无需等待的“放松模式”。

在当前AI绘画领域加速向自回归与扩散模型融合发展的背景下,Midjourney V8的发布标志着扩散模型效率极限的又一次突破。然而,高昂的计算成本和复杂逻辑理解的瓶颈,也反映出纯扩散架构在面对日益增长的精细控制需求时所面临的挑战。