51-41 Stable Video Diffusion，高质量视频生成新时代

23年11月，Stability AI公司公开了稳定视频扩散模型Stable Video Diffusion(SVD)的代码和权重，视频生成迎来了新时代。SVD是一种潜在扩散模型，支持文本生成视频、图像生成视频以及物体多视角3D合成。从工程角度来看，本文主要提出了一种高质量、大型视频数据集的制作流程，并提出成功训练视频潜在扩散模型Video LDM的三阶段方法：文本到图像预训练、视频预训练和高质量视频微调。

Abstract

我们提出了稳定视频扩散模型Stable Video Diffusion——一种用于高分辨率、最先进的文本到视频和图像到视频生成的潜在视频扩散模型。最近，通过在小的、高质量的视频数据集上插入时间层并对其进行微调，用于 2D 图像合成的潜在扩散模型已经转化为视频生成模型。然而，文献中的训练方法差异很大，该领域尚未就管理视频数据的统一策略达成一致。

在本文中，我们明确并评估了视频LDM成功训练的三个不同阶段:文本到图像的预训练、视频预训练和高质量视频微调。更进一步，我们证明了精心策划的预训练数据集对于生成高质量视频的必要性，并提出了一个系统的策划过程来训练强大的基础模型，包括字幕和过滤策略。

然后，我们探索了在高质量数据上微调基础模型的影响，并训练一个与闭源视频生成有竞争力的文本到视频模型。基础模型为下游任务提供了强大的运动表示，例如图像到视频的生成和对相机运动特定 LoRA 模块的适应性。最后，我们的模型提供了强大的多视图3D先验，可以作为微调多视图扩散模型的基础，该模型以前馈方式共同生成物体的多个视图，计算预算约优于基于图像的方法。

相关阅读:
SQL实现自定义排序
京东架构师呕心整理：jvm与性能调优有哪些核心技术知识点
canal安装与客户端使用
电商秒杀解决方案
【Vue + Koa 前后端分离】使用开源【林间有风】框架，快速搭建自己的后台管理系统
桂林电子科技大学计算机考研资料汇总
AUTOSAR词典：CAN驱动Mailbox配置技术要点全解析
Vue3项目关于轮播图的封装应该怎么封装才是最简单的呢
百分点科技再度亮相GITEX全球大会
python+vue+elementui校园二手书交易信息网站django

原文地址：https://blog.csdn.net/weixin_45035094/article/details/137793627