图像处理的三种变换:DFT、DCT和DWT的联系和区别 - 知乎一、DFT、DCT和DWT的概述1.1 DFT与FFT简介 DFT(Discrete Fourier Transform)代表着离散傅里叶变换,是作为有限长序列的在数字信号处理中被广泛使用的一种频域表示方法,。DFT来源于傅里叶变换(FT)和周期序列的离散…
https://zhuanlan.zhihu.com/p/355025756也谈阿里达摩院的频域学习论文 - 知乎最近看了阿里达摩院的 Learning in the Frequency Domain[CVPR2020],感想颇多,随手调研了一下这篇文章里提到的频域学习方法。现在大部分基于图像的任务,都是通过RGB图像进行学习,也就是空域。频域学习的意思就…
https://zhuanlan.zhihu.com/p/115584408FcaNet解读_周先森爱吃素的博客-CSDN博客_fcanet解读从频域重新思考通道注意力的FcaNet这篇文章。https://blog.csdn.net/zhouchen1998/article/details/112780900频域(DCT,小波变换)与CNN结合 - 知乎0.前情回顾CNN大家在计算机视觉中运用得已经非常多了,一般认为CNN提取特征是循序渐进的,开始提取 low-level的特征,比如边缘、纹理,中间提取 middle-level的特征,最后提取更加抽象的 high-level的特征。从low…
https://zhuanlan.zhihu.com/p/342991714Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues_Kun Li的博客-CSDN博客F3-Net 商汤Deepfake检测模型 - 知乎前言这篇论文是商汤团队在ECCV2020的一个工作: Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues,通过引入两种提取频域特征的方法FAD (Frequency-Aware Decomposition) 和LFS (L…https://zhuanlan.zhihu.com/p/260998460本文还是很值得读的,在篡改检测上应用...https://blog.csdn.net/u012193416/article/details/125015835频域深度学习 Learning in the Frequency Domain - 知乎学过信号与系统的同学应该记得,信号可以分为:时域信号(一维),空间域(多维),频域,自相关域和小波域。真实世界的信号一般是连续的模拟信号,存在于时域和空间域。 通常通过 傅里叶变换从时域或者空间域转换…
https://zhuanlan.zhihu.com/p/112751461CNN:我不是你想的那样 - 知乎0 摘要论文名称:High-frequency Component Helps Explain the Generalization of Convolutional Neural Networks 论文地址: https://arxiv.org/abs/1905.13545 github: https://github.com/HaohanWang/HFC 每当…
https://zhuanlan.zhihu.com/p/315601295
转频域的方法一般有三种,dft,dct,dwt.频域一般是在压缩中使用,可以减少图片中冗余信息,保留有用信息,明确一点就是去除部分低频信息,保留高频信息,高频信息一般指的是边缘等,加上高频之后,图像会变的更加尖锐。在图像中,低频部分的信息量要大于高频部分的信息量,尽管低频部分的数据量要比高频部分的数据量比高频部分小很多。这块在图像检索和去重中应用很广泛,我自己在一些场景中用phash/dhash,效果也是很好的。dct的特点是将从前密度均匀的信息分布变换为密度不同的信息分布。输入从如果把转成频域输入,cnn具备识别高频的能力。
dct的过程一般为:
1.将输入图像分解为8x8的块,2.对每个小块做dct,3.计算每个8x8块dct系数非零值的平均值,输出图像。
1.fcanet,核心证明了se中的gap是dct的一种特殊情况,gap是只保留了低频信息,忽略了高频信息。
2.Thinking in Frequency: Face Forgery Detection by Mining Frequency-aware Clues,频域和空域来回转换。
3.learning in the frequency domin.对于视觉推理任务而言,低频通道比高频通道更具信息性。YcbCr中,亮度分量对视觉推理任务更有参考价值。在输入时将RGB转成YCbCr,在三个通道上分别使用dct,再concat回来。dct要比dft好很多,直观看dft确实很难表征篡改侧的特征。
4.High-frequency Component Helps Explain the Generalization of Convolutional Neural Networks,CNN学习过程中会先尝试拟合低频信息,随着训练进行如果loss不再下降,则会进一步引入高频成分;高频成分不仅仅是噪声,还可能包含和数据分布特性相关信息,但是CNN无法针对性的选择利用,如果噪声引入的程度比较多则会出现过拟合,泛化能力下降;暂时没有一个好手段去除高频成分中的噪声,目前唯一能做的就是尝试用合适的半径阈值r去掉高频成分,防止噪声干扰,同时测试也需要进行相应去高频操作,或许可以提升泛化能力;mix-up、BN、对抗样本和早停止等提点组件都可以促进CNN尽可能快且多的利用高频成分,从而提升性能;对抗鲁棒性较好的模型卷积核更加平滑,可以利用该特性稍微提高下CNN的鲁棒性。人类标注时候仅仅是考虑低频语义信息,而CNN学习会考虑额外的高频成分,从而学习出的模型表现有时候不符合人类想法,这不是bug,也不是CNN垃圾,而是大家看到的和它想的不一样。