产品详细介绍

Genmo 是一家致力于构建新一代视频生成模型的研究实验室,目标是通过更强大的“视频世界模型”来更好地理解和模拟物理世界。在这一愿景下,Genmo 推出了 Mochi 1——一款面向创作者、开发者与研究者的前沿开源文本生成视频(Text-to-Video)模型。

Mochi 1 的核心能力是将自然语言描述转化为连贯、具有物理一致性和视觉表现力的短视频。用户只需输入文字提示,即可生成具有故事感和画面细节的动态画面,用于创意表达、概念验证、内容制作或科研实验等多种场景。

作为开源模型,Mochi 1 提供了高度的可定制性:

  • 可在本地环境运行,便于在自有算力和数据安全前提下使用;
  • 支持通过官方开源仓库进行二次开发和参数调优,适配不同业务需求;
  • 可集成到现有内容生产流程或工具链中,构建自定义视频生成应用。

除了模型本身,Genmo 还提供了交互式在线 playground,用户无需复杂部署即可直接在网页中体验 Mochi 的文本生成视频能力,快速测试不同提示词、风格和场景效果。对于希望深入参与前沿生成式媒体技术的人群,Genmo 也在研究、工程和设计等方向开放招聘,共同探索 AI 视频生成的未来。

简单使用教程

以下是基于 Genmo 官方信息整理的简要使用路径,帮助你快速上手 Mochi 1:

  1. 在线体验(Playground)
  • 访问 Genmo 官网,进入 Mochi 交互式 playground;
  • 在输入框中用自然语言描述你想要的视频内容,例如:
    • “黄昏时分的未来城市航拍镜头,霓虹灯闪烁,镜头缓慢向前推进”;
  • 选择或调整可用的基础参数(如分辨率、时长、风格等,具体以页面为准);
  • 提交生成请求,等待系统渲染完成后在线预览并下载视频。
  1. 本地运行与开源仓库使用
  • 在 Genmo 官网或其开源平台页面找到 Mochi 1 的官方仓库链接;
  • 按仓库文档说明准备运行环境(如 Python 版本、依赖库、显卡与显存要求等);
  • 克隆仓库并下载模型权重;
  • 通过命令行或提供的示例脚本,输入文本提示并生成视频文件;
  • 如有需要,可根据文档修改配置文件或脚本参数,调整输出质量、时长或风格。
  1. 通过 ComfyUI 集成
  • 安装并配置 ComfyUI(一个可视化工作流式的 AI 图像/视频生成界面);
  • 根据 Genmo 或社区提供的说明,将 Mochi 1 模型集成到 ComfyUI 中;
  • 在 ComfyUI 中拖拽节点,搭建文本到视频的工作流:
    • 文本输入节点 → Mochi 生成节点 → 视频输出节点;
  • 通过图形界面调整参数并多次迭代提示词,直观对比不同设置下的视频效果。
  1. 定制与二次开发
  • 在本地环境中基于官方仓库进行二次开发:
    • 调整推理参数以平衡速度与质量;
    • 尝试与自有工具或服务(如编辑软件、内容平台)进行集成;
  • 如有研究或产品级需求,可在遵守开源协议的前提下,对模型进行微调或构建上层应用。

通过以上方式,无论是希望快速体验文本生成视频效果的创作者,还是需要深度集成与定制的开发者和研究者,都可以基于 Mochi 1 搭建自己的 AI 视频生成工作流。