一般地,deepfake可划分为如下四类:重现(reenactment),替换(replace),编辑(editing)和合成(synthesis)。
针对人脸的4种类别展示如下:
重现和替换的区别是:
重现相当于安吉拉宝贝上阵,但是脸部表情按照替身去演绎;替换则相当于替身直接上阵,然后换成安吉拉宝贝的脸。
核心技术:第一种是使用自动编码器然后操纵中间的latent向量来达到目的;第二种是使用GAN进行迁移。
各项任务需要一些额外的模块。我们以First Order Motion Model for Image Animation为例,其希望完成的任务是image animation,输入一张源图像(source image)和一个驱动视频(driving video),输出是一段视频,其中主角是源图像,动作是驱动视频中的动作。如下所示,源图像通常包含一个主体,驱动视频包含一系列动作。
模型会观察从同一视频中提取的帧对,它会学习到将动作编码为特定于动作的关键点位移和局部仿射变换的组合。
整个模型分为运动估计模块和图像生成模块两个主要组成部分。在运动估计模块中,该模型通过自监督学习将目标物体的外观和运动信息进行分离,并进行特征表示。
在图像生成模块中,模型会对目标运动期间出现的遮挡进行建模,然后从给定的名人图片中提取外观信息,结合先前获得的特征表示,进行视频合成。
注意生成模块是一个AE,运动信息操纵隐空间d,然后生成新的图片序列。
大多数换脸视频都是用这个项目做的。git地址为:https://github.com/iperov/DeepFaceLab