• deforum + kandinsky = 视频工作流


    像搭积木一样玩AI,随着模型种类的不断丰富,不同的组合会带来什么惊喜?今天和大家分享最近看到的一个视频工作流(工具箱)。

    首先,我们先对deforum和kandinsky做一些基本的介绍:

    deforum-art/deforum

    Deforum是一个Python包,用于扩散动画工具包。提供了生成动画的实际生成模型、辅助数据、辅助类和实用工具等功能。

    6e54201d32ddba67178bd76a828c2ebd.png

    生成效果是什么样的?参考以下网友分享的视频:

    Kandinsky 2.2

    朝着实现照片般逼真效果前进

    Kandinsky 2.2是一个图像生成模型,通过引入新的图像编码器CLIP-ViT-G和ControlNet机制,提供更好的图像生成和文本引导图像。

    7d5550b2b3719d78f2ee03e10ca9e5b4.png

    宇航员猫潜入充满可爱鱼的海洋,优雅,高度详细,流畅,清晰焦点,美丽,全身,电影级,8K

    Kandinsky 在2023年4月4日发布了2.1,3个月后发布了2.2版本,分辨率进行了提升,达到了1024,同时,支持了ControlNet功能,还有个特别的功能,生成贴纸!

    1830e007d9f41e24b378f2c1654f7583.png

    通过在提示的末尾添加“sticker”一词进行生成,然后通过分割模型去除背景。因此,可以生成任何主题的贴纸。

    d2f1e57e5603a061bd32178ab594236f.jpeg

    几种典型的任务

    更大的模型,参数总量4.6亿。主要是用于训练Image Prior模型的视觉编码器替换为更大的CLIP-ViT-G,从而提高了生成图像的质量。


    Kandinsky2.1Kandinsky 2.2

    类型

    潜在扩散

    潜在扩散

    参数数量

    3.3亿

    4.6亿

    文本编码器

    0.6亿

    0.6亿

    Diffusion Mapping

    1.0亿

    1.0亿

    U-Net

    1.2亿

    1.2亿

    ViT

    0.5亿

    1.8亿

    MoVQ

    0.08亿

    0.08亿

    数据集规模

    12亿对

    15亿对

    图像质量

    良好 (768×768)

    很好 (1024×1024),不同的长宽比

    发布日期

    2023年4月4日

    2023年7月12日

    deforum + kandinsky

    视频工作流

    主要借助deforum的几种对镜头控制的功能,加上kandinsky的生成能力,实现了此视频工作流。

    be13e047090851fd0bde5f90b7e5d513.jpeg

    图解原理

    丰富的视频镜头:

    f3f66a1d5a5c19db3fa8160f979fe136.gif

    最后,我们借助MixCopilot完成了对代码仓库的阅读理解,从代码层面也理解了整个技术的实现原理:

    b79d858bd68691a240e245d4b709ab35.png

    详细的中文注解,可以加入社群领取:

    827e1e55af06608a7961315ea2cefc82.jpeg

    除了animatediff的视频工作流,我们又多了一个可选方案。

    ComfyUI中文社区#文档汉化内测,全新的创作方式等你来探索!

  • 相关阅读:
    Drools 规则引擎一文读懂
    谈谈我的「数字文具盒」 - 数字基建
    数据标准化
    八、面向对象 之 封装
    每日学一个设计模式22——命令模式
    如何在Web前端实现CAD图文字全文搜索功能之技术分享
    C语言:关键字----switch、case、default(开关语句)
    Java关键字volatile
    Java 是否应该使用通配符导入( wildcard imports)
    Linux操作系统——线程概念
  • 原文地址:https://blog.csdn.net/shadowcz007/article/details/133896875