Stable Video Diffusion 是什么？

Stable Video Diffusion（SVD）是 Stability AI 家出品的 AI 视频生成器。简单说，你给它一段文字或者一张图，它就能给你“变”出一段会动的视频来。

主要就干三件事：

它有两个版本：基础版（SVD）能生成14帧、576×1024的视频；增强版（SVD-XT）能生成25帧，并且帧率可以调节。

技术是怎么实现的？

它的底子是图像生成模型 Stable Diffusion 2.1。训练分了三步走：先学会理解文字和图片，再用海量视频片段教它“动起来”是什么感觉，最后进行精细调整，让生成的视频看起来更真一点。

另外，它的代码和模型都是开源的，这意味着技术爱好者可以自己下载下来，在本地电脑上折腾和研究。

它的应用场景挺广：

如果你想自己部署来玩，大致步骤是：下载模型、选择模式（文字或图片）、输入内容并设置参数、然后等它生成（在V100显卡上大概需要2分钟）。

不过，它现在还不是万能的。主要的限制有：生成的视频很短，通常只有3到4秒；生成的人物和脸部可能不太准；动作有时会有点卡顿或者画面闪烁。把它当作一个有趣的创意辅助工具，可能更合适。