CogVideo 开源视频生成模型,零门槛生成高清短片
如果你在找一款开源的文本到视频生成模型,CogVideo 值得你点开仓库。它来自清华团队,基于预训练的语言模型进行视频生成,不需要昂贵的商业 API,本地部署就能跑。对于想研究视频生成或者快速产出短视频原型的开发者来说,这是目前少有的高质量开源选择。核心看点- 多版本可选:官方提供了 9B 和 5B 参数的模型权重,兼顾效果与资源消耗。支持文本生成视频、图像生成视频两种模式。 - 高效推理架构:采用 VQ-VAE + Transformer 结构,结合 3D causal attention,能在 10 秒左右生成 4 秒 720×480 分辨率的视频(取决于显存)。 - 中文友好:模型对中文提示词理解较好,直接输入中文描述即可生成符合语义的视频,无需额外翻译。▲ github.com(阿里云通义万相 生成配图,非网页截图)上手提示部署需要至少 24GB 显存的 GPU(推荐 RTX 4090 或 A100),项目基于 PyTorch,通过 Hugging Face 下载权重。官方提供了详细的 Docker 镜像和 gradio demo,拉下来就能跑。无需 API Key,所有推理在本地完成。MIT 许可证,商用或二次开发都很自由。不过注意,当前版本生成的人脸细节和复杂动作仍有失真,适合做概念演示或辅助素材生成。建议先去 README 看看模型局限性和未来计划,说不定你的使用场景正好契合。仓库地址: CogVideo GitHub 仓库

