LTX-2.3界面

2026年3月5日发布的LTX-2.3版本,在本地AI生成视频领域迈出了重要一步。该版本支持同时生成对白、旁白、背景音乐和音效,支持HD及全高清分辨率,视频最长可达20秒。

这让人不禁想尝试能否制作出类似日本Sora 2的视频作品。Sora 2的核心在于能够从简单的提示词自动生成多个场景、对白和音乐,连剧情构思也实现自动化。要在本地复现这一点,LTX-2.3之前还需加入剧情生成模块,而利用大型语言模型(LLM)构建这一流程正是本文的主题。

理解系统提示(System Prompt)

在使用如LM Studio这类聊天应用时,许多人直接开始对话,往往忽略了系统提示的设置。系统提示是启动LLM前的预设指令,若不设置则为空,LLM默认运行。

举例来说,想将“今日はいい天気ですね!”翻译成英文,通常会输入“今日はいい天気ですね!を英語へ”,得到“It’s a nice day today!”的回答。但如果经常需要翻译,每次都写“を英語へ”很麻烦。此时可以在系统提示中写入:

Translate the input text according to these rules:
- If the input is in Japanese→translate to English
- If the input is in any other language→translate to Japanese
Output only the translation. No explanations, notes, or additional text.

这样,系统会自动根据输入语言翻译,且只输出翻译结果,避免多余解释。将此保存为“翻译”系统提示,随时调用非常方便。

系统提示本质上是在对话开始前,定义AI的行为、角色和输出格式。例如:

  • 以图像生成提示工程师身份回答
  • 仅用日语回复
  • 不提供医疗建议

下面是一个更复杂的例子,用于将日语对白转换为罗马字(Hepburn式拼音),以避免LTX-2.3发音异常:

You are a Japanese-to-romaji converter.
Your only job is to find all Japanese dialogue in the text and convert it to romaji (Hepburn romanization).
RULES:
- Convert ALL Japanese characters (kanji, hiragana, katakana) in dialogue to romaji
- Keep all English text exactly as-is
- Do NOT translate Japanese to English
- Do NOT add parentheses, English translations, or explanations after romaji
- Do NOT remove, add, or modify any other part of the text
- Output the complete text without truncation
EXAMPLES:
"かっこいいでしょ!"→"Kakkoii desho!"
"これすき!"→"Kore suki!"
"さいこうね"→"Saikou ne"
"めっちゃたのしい!"→"Meccha tanoshii!"
"またあしたね!"→"Mata ashita ne!"

此提示由Claude设计,类似软编程。测试发现Qwen3.5 9B模型能正常运行,但4B模型偶尔转换失败,说明需要较大规模的LLM支持。

为LTX-2.3的T2V和I2V添加剧情生成功能(第一部分)

Sora 2的T2V(文本到视频)功能能从简单提示自动生成多个场景、对白和音乐,用户也可细化时间和分镜。其核心是“粗略描述即可生成合理视频”。

在本地用LTX-2.3实现时,T2V和I2V(图像到视频)需要不同的剧情生成策略:

  • T2V:在有限时长内尽可能多地包含不同场景和服装,若用户指定地点、季节、服装则遵循。
  • I2V:以参考图像为基础,保持背景和服装一致,通过镜头拉近拉远和角度变化丰富视频,避免画面突变造成违和感。

流程为:

  1. T2V剧情生成→对白罗马字转换→转换为LTX-2.3易理解的提示词
  2. I2V剧情生成→对白罗马字转换→转换为LTX-2.3易理解的提示词

LTX-2.3的提示词扩展由ComfyUI的TextGenerateLTX2Prompt节点支持,分为“T2V系统提示”和“I2V系统提示”,可直接使用或根据需要修改。

主要功能包括:

  • 接收文本输入,自动补全照明、质感、服装、表情等细节
  • 默认风格为“cinematic-realistic”
  • 音效与视频同步,包含背景音乐、环境音、特效音
  • 仅在需要时准确描述带声线特征的对白

对于I2V,还会分析参考图像,描述变化点,优先用户指令,避免重复视觉信息,音效分散描述,不允许无指令添加镜头动作或时间戳,语言自然简洁,不使用Markdown等格式。

为LTX-2.3的T2V和I2V添加剧情生成功能(第二部分)

剩余的剧情生成部分也通过系统提示实现。作者将T2V和I2V的系统提示分别托管于GitHub,核心功能为:

  • 用户输入主题或概念,输出4-6个场景的连续英文视频提示
  • 输出仅为英文,台词、歌唱、旁白必须为日语
  • 每场景场所、服装、镜头、音效均不同
  • 每场景必含日语对白/旁白/歌唱
  • 若指定单场景,则严格生成一个场景和地点
  • 不审查或软化用户内容

T2V与I2V的主要区别在于:

  • I2V分析参考图像,保持视觉一致性
  • 默认全场景使用相同角色、服装、地点,除非用户明确要求更改
  • 用户指定的台词严格使用,不得修改

这与前述的自由场景生成(T2V)和基于参考图像展开场景(I2V)相符。

该方法不仅适用于ComfyUI和LTX-2.3,也可在LM Studio等支持系统提示的聊天应用中使用,生成的英文提示可复制到Grok Imagine等视频生成服务,制作出类似Sora 2的视频。

例如:

  • 春天樱花盛开,年轻日本美女OL期待周一见到帅气同事的日常
  • 以Grok Imagine生成的T2V视频
  • 使用年轻可爱日本模特的口红广告I2V视频

视频长度10秒,主题春天、樱花、可爱,地点为盛开的大樱树下,日语旁白围绕春天和口红,镜头角度变化,带背景音乐。

示例视频界面

无论T2V还是I2V,结合支持系统提示的聊天应用和外部视频生成服务,都能生成类似Sora 2的作品。

为LTX-2.3的T2V和I2V添加剧情生成功能(第三部分)及工作流程公开

本文将系统提示相关内容独立成一个工作流程公开于GitHub,因LTX-2.3本体工作流程因用户偏好多样,如是否使用放大、放大倍数等各异。工作流程包含剧情生成、日语转罗马字、LTX-2.3提示词转换等模块。

最终文本输出连接至LTX-2.3的CLIP Text Encode节点即可使用。也可连接付费API如Grok、Veo,或复制到Web版Grok Imagine、Sora 2等。

工作流程界面中绿色部分为Sora 2化系统提示集合,依次为剧情生成、日语/罗马字转换、LTX-2.3提示词转换。

紫色小节点用于给生成提示添加电影摄影风格关键词,如:

  • cinematic, film photography aesthetic, natural color grading
  • subtle film grain, muted and desaturated colors
  • warm shadows, soft highlights, anamorphic lens flare
  • shallow depth of field, organic texture, non-CGI look

无此部分视频画面清晰但缺少电影质感,Sora 2常用此风格,可根据需求开启或关闭。

红色节点用于切换T2V/I2V模式,控制剧情生成和提示词转换模块的切换。I2V模式下需连接参考图像输入,LLM需支持视觉输入,如Qwen3.5-9b。剧情质量对视频效果影响大,建议使用较大模型。

此外,作者公开了基于gemma-3-12b-it模型的工作流程,能在LTX-2.3内完成全部任务,无需外部LLM,节省资源。

使用该工作流程生成的4个视频示例展示了本地GPU PC可100%生成高质量视频。无特别说明的视频为HD生成,后期通过工具放大至全高清。

若只用T2V,可尝试gpt-oss-20b(120b)模型,生成的剧情更具特色,更接近Sora 2风格。不同模型带来不同个性,值得体验。

示例视频主题为日本美女游乐园欢乐时光。

工作流程界面

本地生成如此逼真视频,距离真正实现Sora 2功能仅一步之遥。

附加示例为不经过剧情生成,直接将日语提示转换为LTX-2.3易懂提示并转罗马字,生成最大20秒全高清视频,画面震撼。此提示由Claude设计。

总结:通过特殊系统提示,实现从关键词到剧情生成,再到日语转罗马字,最后转换为LTX-2.3提示词的三级LLM管线,结合LTX-2.3视频生成,成功打造出类似Sora 2的本地AI视频生成环境。

LTX-2.3默认工作流程为半分辨率生成8步,后2倍放大3步回到指定分辨率,导致远景人脸细节稍弱。可直接全分辨率生成,但耗时资源更大。日语转罗马字导致发音略显生硬,但整体本地生成高质量视频意义重大。

2026年第一季度刚开始,期待年底能真正实现完整的Sora 2功能!