一、研究背景
1.现有deepfake检测方法大多关注于局部伪影或面部不协调,较少挖掘局部区域间的关系。
2.现有关系挖掘类的工作往往忽略了关系信息的传播。
3.遮挡建模在减轻信息冗余的同时促进高级语义信息(诱导性偏差较小)的挖掘,有助于提升网络的泛化性能。
二、研究动机
1.Deepfake技术会单独操纵视频中的每一帧,伪造结果缺乏时间连贯性。基于视频的检测技术更加关注相邻帧之间的时间不连贯性和时空不一致性,可降低对空间伪影的依赖并提升泛化性能。
2.将关系特征作为一种泛化模式可以提升检测性能,但大量的冗余关系信息会阻碍信息的表达。遮挡建模能减少信息的冗余,迫使模型习得更具泛化性的内在特征。
三、研究目标
从区域级关系中学习通用的鉴别性特征,减轻对视觉伪影的依赖。
四、技术路线
1.时空注意力模块(STA):
学习不同面部区域的注意力特征。
2.遮挡关系学习模块(MRL):
屏蔽部分区域间的相关性以减少信息冗余,以此促进对本质特征的学习并捕获全局视角下的不规则关系。
最小屏蔽策略:计算门限值
q
q
q,
p
p
p为预定义参数
随机屏蔽策略:根据伯努利分布采样
η
\eta
η
利用TGCN捕获不规则关系:TGCN由GCN和GRU构成
对特征关系图进行图卷积计算
对隐藏层进行图卷积计算
更新隐藏层
3.特征分类
4.损失函数
5.算法流程
五、实验结果
Although our method has sub-optimal performance on FF++(HQ), it outperforms state-of-the-art approaches on detecting
unseen deepfake datasets. Strong generalization ability is one of the pursuits of deepfake detection. Our method effectively promotes the generalization ability of detectors.
Hereby we localize the fake regions by Grad-CAM in Fig. 9. We observe that our method can highlight the fake regions of
manipulated faces. For instance, NeuralTextures only modifies the mouth region