• Latte:一个类似Sora的开源视频生成项目


    前段时间OpenAI发布的Sora引起了巨大的轰动,最长可达1分钟的高清连贯视频生成能力秒杀了一众视频生成玩家。因为Sora没有公开发布,网上对Sora的解读翻来覆去就那么多,我也不想像复读机一样再重复一遍了。

    本文给大家介绍一个类似Sora的视频生成项目:Latte。为什么说它类似Sora呢?这个项目的全称是:Latent Diffusion Transformer for Video Generation(用于视频生成的潜在扩散转换器),对Sora生成技术有所了解的同学看到 Diffusion 和 Transformer 这两个单词应该就明白我在说什么了,Sora也同样使用了这两种技术。而且 Sora 和 Latte 都声称参考了DiT(Scalable Diffusion Models with Transformers)项目,它们的技术路线应该都是差不多的。最重要的是 Latte 是开源的,可以自己部署着玩,这篇文章就给大家介绍下 Latte 的原理和使用方法。

    对 Diffusion 和 Transformer 这两种技术完全没概念的同学可以看我之前写的一篇科普文章:AI视频生成的重大突破:OpenAI的梦幻制造机Sora

    效果演示

    下图是官网的文生视频效果展示。注意实际生成时也需要抽卡,有时候效果也是一言难尽。

    Latte介绍

    Latte(Latent Diffusion Transformer)是一种用于视频生成的创新模型。它首先通过预训练的变分自编码器(VAE)将输入视频编码为潜在空间中的特征,并从中提取出时空令牌(Token)。然后应用一系列 Transformer 块对这些令牌进行建模,以捕捉视频数据分布。由于视频具有复杂的时空信息且高分辨率帧内包含大量细节,Latte设计了四种不同的高效Transformer变体,这四种变围绕如何有效地利用Transformer网络捕获视频数据中的时空分布信息展开,各自探索了不同的空间-时间分解方法、信息融合策略以及计算效率优化方案。

    • 变体1:该变体的Transformer主干结构包括空间Transformer块和时间Transformer块。空间Transformer块专注于在同一时间索引下的视频令牌之间捕捉纯空间信息,通过关注相同时间步内的像素或区域之间的关联性来提取空间特征。而时间Transformer块则采用“交错融合”的方式处理跨时间维度的信息,以捕捉不同时间帧间的变化和动态内容。
    • 变体2:不同于变体1中的即时融合策略,变体2可能采用了“晚期融合”机制,即先独立处理空间和时间维度上的信息,在后续阶段再将两者合并,以另一种方式整合时空上下文。
    • 变体3:此变体主要聚焦于对Transformer内部多头注意力模块进行分解。它首先仅在空间维度上计算自注意力,随后再在时间维度上执行自注意力计算。这样设计的目的是让每个Transformer块能够先后分别从空间和时间角度理解输入序列,并最终综合捕获并建模视频的时空信息。
    • 变体4:变体4将多头注意力(MHA)分解为两个组件,利用不同的组件分别处理空间和时间维度上的令牌。在Transformer主干结构之后,通过采用标准线性解码器以及重塑操作,对视频令牌序列进行解码,从而得出预测噪声和预测协方差。。

    在实际应用时,Latte首先将视频帧序列转换为一系列令牌,并利用上述某种变体中对应的 Transformer 结构对这些令牌进行编码和解码。具体来说,在生成阶段,模型会依据学习到的反向扩散过程,在潜在空间中逐步还原出低噪声的视频帧表示,并最终重构为连续且逼真的视频内容。

    实验结果显示,Latte在FaceForensics、SkyTimelapse、UCF101和Taichi-HD这四个标准视频生成数据集上,Latte能够生成逼真的、具有连贯时序内容的视频,并在Fréchet视频距离(FVD)、Fréchet Inception Distance (FID)和Inception Score等指标上达到了最先进的性能水平。

    此外,Latte还被扩展到文本到视频生成任务(T2V),其表现与当前的T2V模型相当。不过可能模型训练的数据还不够,生成的视频效果还有很大提升空间。

    使用Latte

    这里主要介绍使用Latte进行推理的方法,有两种方式,一是直接使用我制作的AutoDL镜像,二是手动一步步安装。注意Latte预训练的模型只能生成2秒的视频,更长的视频需要自己训练模型,训练视频模型比较耗费资源,需要的直接看Github上的说明就行了:GitHub - Vchitect/Latte: Latte: Latent Diffusion Transformer for Video Generation.

    使用AutoDL镜像

    AutoDL访问地址:https://www.autodl.com,AutoDL的注册和使用方法可以看这篇文章:

    1、创建服务器实例时镜像选择:Vchitect/Latte/yinghuoai-latte 的最新版本。我已经在3090、4090、3080*2等显卡型号上测试通过,其它型号可能问题也不大。

    2、打开服务器实例的 JupyterLab,进入操作环境。

    操作环境如下图所示,左侧是文件及目录,我编写了一个生成器的页面,可以在其中直接执行相关视频生成命令,目前可以生成四种固定类型的视频,以及通过文本自由生成视频。

    3、点击选中下方的代码单元格后,再点击菜单栏中的“箭头按钮”即可执行对应的生成任务。

    注意需要先执行“初始化”命令,后边的视频生成任务随便执行。

    任务执行进度如下,执行可能较慢,请耐心等待!

    日志中显示了生成的视频位置。

    可在左侧目录中找到,然后在对应的文件上右键下载。

    手动安装

    手动安装步骤比较多,请大家跟紧了。

    安装conda

    因为需要安装大量的python包,为了方便,我们这里使用conda包管理,没安装的同学先安装:Installing Miniconda — Anaconda documentation

    如果已经安装过,可以通过命令升级到最新版本:

    conda update -n base -c defaults conda

    下载Latte

    代码地址:GitHub - maxin-cn/Latte: The official implementation of Latte: Latent Diffusion Transformer for Video Generation.

    通过git安装的方法:

    git clone https://github.com/maxin-cn/Latte.git

    修改依赖包的版本

    Latte对python和相关包的版本依赖比较重,实测需要调整下官方提供的环境依赖文件。

    在Latte根目录中找到 environment.yml 文件,完整修改如下:

    1. name: latte
    2. channels:
    3. - pytorch
    4. - nvidia
    5. dependencies:
    6. - python = 3.10.8
    7. - pytorch = 2.0.0
    8. - torchvision
    9. - pytorch-cuda=11.7
    10. - pip
    11. - pip:
    12. - timm
    13. - diffusers[torch]==0.24.0
    14. - accelerate
    15. - tensorboard
    16. - einops
    17. - transformers
    18. - av
    19. - scikit-image
    20. - decord
    21. - pandas
    22. - imageio-ffmpeg

    修改的就是下图中这三个:

    创建Python虚拟环境

    使用下边的命令,实测还需要再补充安装一些python包。

    1. # 进入Latte目录
    2. cd Latte
    3. # 清理latte虚拟环境
    4. conda remove --name latte --all
    5. # 创建latte虚拟环境
    6. conda env create -f environment.yml
    7. # 激活latte虚拟环境
    8. source activate latte
    9. # 在latte虚拟环境中补充安装一些python包
    10. pip install omegaconf
    11. pip install SentencePiece
    12. pip install beautifulsoup4
    13. pip install ftfy
    14. pip install codewithgpu

    下载预训练模型

    预训练模型是Latte官方提前训练好的模型,我们可以直接使用。

    建议从huggingface下载:

    https://huggingface.co/maxin-cn/Latte/tree/main

    或者从这个国内镜像站:

    maxin-cn/Latte · HF Mirror

    生成视频

    Latte项目中内置了几个脚本,可以帮我们快速生成视频。

    sample 目录下这几个sh文件就是,可以在shell或者命令行程序中执行它们。

    我们看一个 t2v.sh:

    1. export CUDA_VISIBLE_DEVICES=5
    2. python sample/sample_t2v.py --config configs/t2v/t2v_sample.yaml

    这里首先通过export设置使用哪个显卡,如果只有1个,请设置为0。

    然后就是运行python程序生成视频的命令,注意后边的配置文件,官方也提供了示例,就在config目录下,需要根据实际情况进行修改。

    • ckpt:使用的模型文件路径,请修改“/path/to”为上一步下载模型的本地保存目录。
    • save_img_path:视频保存路径。
    • pretrained_model_path:文本生成视频专用的一些模型,请修改“/path/to”为上一步下载模型的本地保存目录。

    其它参数基本不需要调整了,当然可以改改试试。


    以上就是本文的主要内容了,如有兴趣欢迎讨论交流。

  • 相关阅读:
    神经网络入门教程,现代神经网络教程
    xerces-c++内存管理策略&为何耗费大量内存
    js去除字符串空格的几种方式
    横向柱状图数据配置
    Vue 3中toRaw和markRaw的使用
    Istio(十三):Istio项目实际案例——Online Boutique
    Python学习 -- 常用数据交换格式(CSV、XML、JSON)
    java计算机毕业设计家政服务公司管理信息源码+系统+数据库+lw文档
    IPQ9574 with QCN9274 Solution for Industrial Applications|WiFi 7
    全链路压测效能10倍提升的压测工具实践笔记【开源】【原创】
  • 原文地址:https://blog.csdn.net/bossma/article/details/136475154