Stable Video Diffusion 是什么?
Stable Video Diffusion(SVD) 是 Stability AI 家出品的 AI 视频生成器。简单说,你给它一段文字或者一张图,它就能给你“变”出一段会动的视频来。
它能做什么?
主要就干三件事:
- 文字变视频:你写一段话,比如“一只猫在弹钢琴”,它就能生成个匹配的小短片。这对想快速把点子变成画面的创作者挺有用。
- 图片动起来:上传一张静态照片,比如风景照,它能想办法让里面的东西动一动,生成一个短视频。
- 搞出3D视角:给它一张物体的图片,它能绕着这个物体生成一圈不同角度的视图,做出简单的3D效果,这对做VR/AR的朋友可能有点帮助。
它有两个版本:基础版(SVD)能生成14帧、576×1024的视频;增强版(SVD-XT)能生成25帧,并且帧率可以调节。
技术是怎么实现的?
它的底子是图像生成模型 Stable Diffusion 2.1。训练分了三步走:先学会理解文字和图片,再用海量视频片段教它“动起来”是什么感觉,最后进行精细调整,让生成的视频看起来更真一点。
另外,它的代码和模型都是开源的,这意味着技术爱好者可以自己下载下来,在本地电脑上折腾和研究。
可以用在哪儿?
它的应用场景挺广:
- 做内容:快速生成广告创意短片、社交媒体上的动态内容,省点制作成本。
- 教与学:把抽象的概念,比如物理实验,用视频直观地展示出来。
- 开发VR/AR:为虚拟场景快速生成一些动态的背景或物体视角。
怎么用?有什么限制?
如果你想自己部署来玩,大致步骤是:下载模型、选择模式(文字或图片)、输入内容并设置参数、然后等它生成(在V100显卡上大概需要2分钟)。
不过,它现在还不是万能的。主要的限制有:生成的视频很短,通常只有3到4秒;生成的人物和脸部可能不太准;动作有时会有点卡顿或者画面闪烁。把它当作一个有趣的创意辅助工具,可能更合适。