小白大白读论文-关于EfficientNetV2论文的疑问与总结

主要参考了这篇csdn博客，但是存在一些问题：EfficientNetV2网络详解

Questions

1. Depthwise convolutions结构为什么相比普通卷积拥有更少的参数以及更小的FLOPs？

假设作用的特征图是 H * W * C，那么一个3 * 3的普通卷积的参数量就是 3 * 3 * C * C = 9C^2，而一个深度可分离卷积对应的参数量就是 3 * 3 * C = 9C，这个非常好理解，普通卷积和深度可分离卷积都需要C个卷积核，但是普通卷积的卷积核是三维的，是同时作用在原始的C个通道的，而深度可分离卷积的卷积核是二维的，是只用单个通道的。

在不改变图像尺寸的情况下，普通卷积的计算量是 3 * 3 * C * H * W * C = 9HWC^2, 深度可分离卷积的计算量是 3 * 3 * H * W * C = 9 HWC。

2. 为什么说理论计算量Flops小不代表推理速度快？

我觉得是因为理论计算量是计算的次数，并没有把每种数学计算所消耗时间的不同考虑在内，比如求导和求和操作的耗时肯定不同。

3. 为什么说增大参数量反而可以提高训练的效率？

暂未透彻理解，只谈自己的猜测，欢迎大佬指正小弟。
这里提到了将注意力加入到卷积模块、在大规模数据集上使用transformer，我觉得说明了：注意力的计算过程没有卷积耗时。注意力中Q、K、W以及权重的计算都依靠的是线性转化，包含相加求和的原子操作；卷积上本质也是相加求和等原子操作，但是求和的时候需要找到准确的 3 * 3网格区域，个人怀疑底层的这个定位操作会比较耗时。