码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • deforum + kandinsky = 视频工作流


    像搭积木一样玩AI,随着模型种类的不断丰富,不同的组合会带来什么惊喜?今天和大家分享最近看到的一个视频工作流(工具箱)。

    首先,我们先对deforum和kandinsky做一些基本的介绍:

    deforum-art/deforum

    Deforum是一个Python包,用于扩散动画工具包。提供了生成动画的实际生成模型、辅助数据、辅助类和实用工具等功能。

    6e54201d32ddba67178bd76a828c2ebd.png

    生成效果是什么样的?参考以下网友分享的视频:

    Kandinsky 2.2

    朝着实现照片般逼真效果前进

    Kandinsky 2.2是一个图像生成模型,通过引入新的图像编码器CLIP-ViT-G和ControlNet机制,提供更好的图像生成和文本引导图像。

    7d5550b2b3719d78f2ee03e10ca9e5b4.png

    宇航员猫潜入充满可爱鱼的海洋,优雅,高度详细,流畅,清晰焦点,美丽,全身,电影级,8K

    Kandinsky 在2023年4月4日发布了2.1,3个月后发布了2.2版本,分辨率进行了提升,达到了1024,同时,支持了ControlNet功能,还有个特别的功能,生成贴纸!

    1830e007d9f41e24b378f2c1654f7583.png

    通过在提示的末尾添加“sticker”一词进行生成,然后通过分割模型去除背景。因此,可以生成任何主题的贴纸。

    d2f1e57e5603a061bd32178ab594236f.jpeg

    几种典型的任务

    更大的模型,参数总量4.6亿。主要是用于训练Image Prior模型的视觉编码器替换为更大的CLIP-ViT-G,从而提高了生成图像的质量。


    Kandinsky2.1Kandinsky 2.2

    类型

    潜在扩散

    潜在扩散

    参数数量

    3.3亿

    4.6亿

    文本编码器

    0.6亿

    0.6亿

    Diffusion Mapping

    1.0亿

    1.0亿

    U-Net

    1.2亿

    1.2亿

    ViT

    0.5亿

    1.8亿

    MoVQ

    0.08亿

    0.08亿

    数据集规模

    12亿对

    15亿对

    图像质量

    良好 (768×768)

    很好 (1024×1024),不同的长宽比

    发布日期

    2023年4月4日

    2023年7月12日

    deforum + kandinsky

    视频工作流

    主要借助deforum的几种对镜头控制的功能,加上kandinsky的生成能力,实现了此视频工作流。

    be13e047090851fd0bde5f90b7e5d513.jpeg

    图解原理

    丰富的视频镜头:

    f3f66a1d5a5c19db3fa8160f979fe136.gif

    最后,我们借助MixCopilot完成了对代码仓库的阅读理解,从代码层面也理解了整个技术的实现原理:

    b79d858bd68691a240e245d4b709ab35.png

    详细的中文注解,可以加入社群领取:

    827e1e55af06608a7961315ea2cefc82.jpeg

    除了animatediff的视频工作流,我们又多了一个可选方案。

    ComfyUI中文社区#文档汉化内测,全新的创作方式等你来探索!

  • 相关阅读:
    昇思25天学习打卡营第1天 | 快速入门
    第三届云原生编程挑战赛正式启动,Serverless 赛道邀你参加!
    Day03:Web架构&OSS存储&负载均衡&CDN加速&反向代理&WAF防护
    北斗提供关键技术支撑,车辆智能监管将迎来广阔发展前景
    【期末大作业】基于HTML+CSS+JavaScript网上订餐系统(23个页面)
    【深度学习21天学习挑战赛】4、初尝循环神经网络(RNN)——股票预测
    Android12之DRM基本接口实现(二)
    element-ui配置
    View基础知识-位置大小和滑动
    Spring基础篇:MVC框架整合
  • 原文地址:https://blog.csdn.net/shadowcz007/article/details/133896875
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号