阅读要点
先读这里,快速了解全文在讲什么
核心结论
如果你试过 Sora 但没资格内测,或者被闭源模型的价格劝退,Genmo 开源的 Mochi 1 可能是目前最值得你本地跑一把的视频生成模型。它用 Apache-2.0 许可发布,不需要排队,直接下载权重就能在单卡 A100 上生成 5 秒左右的连贯视频,效果直逼商业方案。核心看点端到端视频扩散:基于 Asymmetric VAE 和 Transformer 架构,直接在 RGB 像素空间生成视频,省去了单独动捕或帧插值步骤。支持 8…
你可以了解到
阅读后可获得与「Mochi 1 开源视频生成:一句提示词生成流畅电影级动态」相关的实用信息与站内延伸资源;最后更新 2026年6月19日。
延伸阅读
如果你试过 Sora 但没资格内测,或者被闭源模型的价格劝退,Genmo 开源的 Mochi 1 可能是目前最值得你本地跑一把的视频生成模型。它用 Apache-2.0 许可发布,不需要排队,直接下载权重就能在单卡 A100 上生成 5 秒左右的连贯视频,效果直逼商业方案。
核心看点
端到端视频扩散:基于 Asymmetric VAE 和 Transformer 架构,直接在 RGB 像素空间生成视频,省去了单独动捕或帧插值步骤。支持 8 秒 540p 的原始分辨率,运动幅度和物体一致性比前代 CogVideoX 更自然。
开源权重 + 商业友好许可证:模型权重和推理代码一并放出,MIT 许可证改写和商用限制极少,无论是做独立创作者工具原型还是集成到自家产品,法律风险都很低。

社区灵活扩展:官方提供了 Gradio 网页界面和 CLI 两种启动方式。已有开发者尝试 LoRA 微调来控制特定风格,Issues 里也有人在讨论低显存优化(如 FP8 量化)。
上手提示
建议使用 Linux + Python 3.10,单张 A100(40GB) 即可跑 5 秒视频;如果只有 24GB 显存(如 3090),可以降低帧数量或用官方的蒸馏版模型。权重自动从 HuggingFace 下载,约 10GB。仓库的 README 里贴了现成的 pip install -r requirements.txt 和启动命令,十分钟就能看到第一个 demo。
想立刻体验文字到视频的创作快感,直接戳 genmo/mochi 跑起官方脚本,Issues 区还有不少社区调参经验等你挖。

