本地AI视频生成新进展：利用LTX-2.3实现类似Sora 2的自动场景与剧情生成

LTX-2.3界面

2026年3月5日发布的LTX-2.3版本，在本地AI生成视频领域迈出了重要一步。该版本支持同时生成对白、旁白、背景音乐和音效，支持HD及全高清分辨率，视频最长可达20秒。

这让人不禁想尝试能否制作出类似日本Sora 2的视频作品。Sora 2的核心在于能够从简单的提示词自动生成多个场景、对白和音乐，连剧情构思也实现自动化。要在本地复现这一点，LTX-2.3之前还需加入剧情生成模块，而利用大型语言模型（LLM）构建这一流程正是本文的主题。

理解系统提示（System Prompt）

在使用如LM Studio这类聊天应用时，许多人直接开始对话，往往忽略了系统提示的设置。系统提示是启动LLM前的预设指令，若不设置则为空，LLM默认运行。

举例来说，想将“今日はいい天気ですね！”翻译成英文，通常会输入“今日はいい天気ですね！を英語へ”，得到“It’s a nice day today!”的回答。但如果经常需要翻译，每次都写“を英語へ”很麻烦。此时可以在系统提示中写入：

Translate the input text according to these rules:
- If the input is in Japanese→translate to English
- If the input is in any other language→translate to Japanese
Output only the translation. No explanations, notes, or additional text.

这样，系统会自动根据输入语言翻译，且只输出翻译结果，避免多余解释。将此保存为“翻译”系统提示，随时调用非常方便。

系统提示本质上是在对话开始前，定义AI的行为、角色和输出格式。例如：

以图像生成提示工程师身份回答
仅用日语回复
不提供医疗建议

下面是一个更复杂的例子，用于将日语对白转换为罗马字（Hepburn式拼音），以避免LTX-2.3发音异常：

You are a Japanese-to-romaji converter.
Your only job is to find all Japanese dialogue in the text and convert it to romaji (Hepburn romanization).
RULES:
- Convert ALL Japanese characters (kanji, hiragana, katakana) in dialogue to romaji
- Keep all English text exactly as-is
- Do NOT translate Japanese to English
- Do NOT add parentheses, English translations, or explanations after romaji
- Do NOT remove, add, or modify any other part of the text
- Output the complete text without truncation
EXAMPLES:
"かっこいいでしょ！"→"Kakkoii desho!"
"これすき！"→"Kore suki!"
"さいこうね"→"Saikou ne"
"めっちゃたのしい！"→"Meccha tanoshii!"
"またあしたね！"→"Mata ashita ne!"

此提示由Claude设计，类似软编程。测试发现Qwen3.5 9B模型能正常运行，但4B模型偶尔转换失败，说明需要较大规模的LLM支持。

为LTX-2.3的T2V和I2V添加剧情生成功能（第一部分）

Sora 2的T2V（文本到视频）功能能从简单提示自动生成多个场景、对白和音乐，用户也可细化时间和分镜。其核心是“粗略描述即可生成合理视频”。

在本地用LTX-2.3实现时，T2V和I2V（图像到视频）需要不同的剧情生成策略：

T2V：在有限时长内尽可能多地包含不同场景和服装，若用户指定地点、季节、服装则遵循。
I2V：以参考图像为基础，保持背景和服装一致，通过镜头拉近拉远和角度变化丰富视频，避免画面突变造成违和感。

流程为：

T2V剧情生成→对白罗马字转换→转换为LTX-2.3易理解的提示词
I2V剧情生成→对白罗马字转换→转换为LTX-2.3易理解的提示词

LTX-2.3的提示词扩展由ComfyUI的TextGenerateLTX2Prompt节点支持，分为“T2V系统提示”和“I2V系统提示”，可直接使用或根据需要修改。

主要功能包括：

接收文本输入，自动补全照明、质感、服装、表情等细节
默认风格为“cinematic-realistic”
音效与视频同步，包含背景音乐、环境音、特效音
仅在需要时准确描述带声线特征的对白

对于I2V，还会分析参考图像，描述变化点，优先用户指令，避免重复视觉信息，音效分散描述，不允许无指令添加镜头动作或时间戳，语言自然简洁，不使用Markdown等格式。

为LTX-2.3的T2V和I2V添加剧情生成功能（第二部分）

剩余的剧情生成部分也通过系统提示实现。作者将T2V和I2V的系统提示分别托管于GitHub，核心功能为：

用户输入主题或概念，输出4-6个场景的连续英文视频提示
输出仅为英文，台词、歌唱、旁白必须为日语
每场景场所、服装、镜头、音效均不同
每场景必含日语对白/旁白/歌唱
若指定单场景，则严格生成一个场景和地点
不审查或软化用户内容

T2V与I2V的主要区别在于：

I2V分析参考图像，保持视觉一致性
默认全场景使用相同角色、服装、地点，除非用户明确要求更改
用户指定的台词严格使用，不得修改

这与前述的自由场景生成（T2V）和基于参考图像展开场景（I2V）相符。

该方法不仅适用于ComfyUI和LTX-2.3，也可在LM Studio等支持系统提示的聊天应用中使用，生成的英文提示可复制到Grok Imagine等视频生成服务，制作出类似Sora 2的视频。

例如：

春天樱花盛开，年轻日本美女OL期待周一见到帅气同事的日常
以Grok Imagine生成的T2V视频
使用年轻可爱日本模特的口红广告I2V视频

视频长度10秒，主题春天、樱花、可爱，地点为盛开的大樱树下，日语旁白围绕春天和口红，镜头角度变化，带背景音乐。

示例视频界面

无论T2V还是I2V，结合支持系统提示的聊天应用和外部视频生成服务，都能生成类似Sora 2的作品。

为LTX-2.3的T2V和I2V添加剧情生成功能（第三部分）及工作流程公开

本文将系统提示相关内容独立成一个工作流程公开于GitHub，因LTX-2.3本体工作流程因用户偏好多样，如是否使用放大、放大倍数等各异。工作流程包含剧情生成、日语转罗马字、LTX-2.3提示词转换等模块。

最终文本输出连接至LTX-2.3的CLIP Text Encode节点即可使用。也可连接付费API如Grok、Veo，或复制到Web版Grok Imagine、Sora 2等。

工作流程界面中绿色部分为Sora 2化系统提示集合，依次为剧情生成、日语/罗马字转换、LTX-2.3提示词转换。

紫色小节点用于给生成提示添加电影摄影风格关键词，如：

cinematic, film photography aesthetic, natural color grading
subtle film grain, muted and desaturated colors
warm shadows, soft highlights, anamorphic lens flare
shallow depth of field, organic texture, non-CGI look

无此部分视频画面清晰但缺少电影质感，Sora 2常用此风格，可根据需求开启或关闭。

红色节点用于切换T2V/I2V模式，控制剧情生成和提示词转换模块的切换。I2V模式下需连接参考图像输入，LLM需支持视觉输入，如Qwen3.5-9b。剧情质量对视频效果影响大，建议使用较大模型。

此外，作者公开了基于gemma-3-12b-it模型的工作流程，能在LTX-2.3内完成全部任务，无需外部LLM，节省资源。

使用该工作流程生成的4个视频示例展示了本地GPU PC可100%生成高质量视频。无特别说明的视频为HD生成，后期通过工具放大至全高清。

若只用T2V，可尝试gpt-oss-20b(120b)模型，生成的剧情更具特色，更接近Sora 2风格。不同模型带来不同个性，值得体验。

示例视频主题为日本美女游乐园欢乐时光。

工作流程界面

本地生成如此逼真视频，距离真正实现Sora 2功能仅一步之遥。

附加示例为不经过剧情生成，直接将日语提示转换为LTX-2.3易懂提示并转罗马字，生成最大20秒全高清视频，画面震撼。此提示由Claude设计。

总结：通过特殊系统提示，实现从关键词到剧情生成，再到日语转罗马字，最后转换为LTX-2.3提示词的三级LLM管线，结合LTX-2.3视频生成，成功打造出类似Sora 2的本地AI视频生成环境。

LTX-2.3默认工作流程为半分辨率生成8步，后2倍放大3步回到指定分辨率，导致远景人脸细节稍弱。可直接全分辨率生成，但耗时资源更大。日语转罗马字导致发音略显生硬，但整体本地生成高质量视频意义重大。

2026年第一季度刚开始，期待年底能真正实现完整的Sora 2功能！

本地AI视频生成新进展：利用LTX-2.3实现类似Sora 2的自动场景与剧情生成

理解系统提示（System Prompt）

为LTX-2.3的T2V和I2V添加剧情生成功能（第一部分）

为LTX-2.3的T2V和I2V添加剧情生成功能（第二部分）

为LTX-2.3的T2V和I2V添加剧情生成功能（第三部分）及工作流程公开

标签

评论

相关阅读

Grok新增“Build Mode”，仅凭创意即可制作游戏和应用

Siri AI或将为高级用户设立付费墙

美国xAI发布“Grok Voice Think Fast 2.0”，语音转写精度提升至最高两倍