CogVideo 开源视频生成模型，零门槛生成高清短片

阅读要点

先读这里，快速了解全文在讲什么

核心结论

如果你在找一款开源的文本到视频生成模型，CogVideo 值得你点开仓库。它来自清华团队，基于预训练的语言模型进行视频生成，不需要昂贵的商业 API，本地部署就能跑。对于想研究视频生成或者快速产出短视频原型的开发者来说，这是目前少有的高质量开源选择。核心看点- 多版本可选：官方提供了 9B 和 5B 参数的模型权重，兼顾效果与资源消耗。支持文本生成视频、图像生成视频两种模式。 - 高效推理架构：采用 VQ-VAE + Transform…

你可以了解到

阅读后可获得与「CogVideo 开源视频生成模型，零门槛生成高清短片」相关的实用信息与站内延伸资源；最后更新 2026年6月26日。

核心看点

– 多版本可选：官方提供了 9B 和 5B 参数的模型权重，兼顾效果与资源消耗。支持文本生成视频、图像生成视频两种模式。
– 高效推理架构：采用 VQ-VAE + Transformer 结构，结合 3D causal attention，能在 10 秒左右生成 4 秒 720×480 分辨率的视频（取决于显存）。
– 中文友好：模型对中文提示词理解较好，直接输入中文描述即可生成符合语义的视频，无需额外翻译。

上手提示

部署需要至少 24GB 显存的 GPU（推荐 RTX 4090 或 A100），项目基于 PyTorch，通过 Hugging Face 下载权重。官方提供了详细的 Docker 镜像和 gradio demo，拉下来就能跑。无需 API Key，所有推理在本地完成。MIT 许可证，商用或二次开发都很自由。

不过注意，当前版本生成的人脸细节和复杂动作仍有失真，适合做概念演示或辅助素材生成。建议先去 README 看看模型局限性和未来计划，说不定你的使用场景正好契合。仓库地址： CogVideo GitHub 仓库