• 小白大白读论文-关于EfficientNetV2论文的 疑问 与 总结


    主要参考了这篇csdn博客,但是存在一些问题:EfficientNetV2网络详解

    Questions

    1. Depthwise convolutions结构为什么相比普通卷积拥有更少的参数以及更小的FLOPs?

    假设作用的特征图是 H * W * C,那么一个3 * 3的普通卷积的参数量就是 3 * 3 * C * C = 9C^2,而一个深度可分离卷积对应的参数量就是 3 * 3 * C = 9C,这个非常好理解,普通卷积和深度可分离卷积都需要C个卷积核,但是普通卷积的卷积核是三维的,是同时作用在原始的C个通道的,而深度可分离卷积的卷积核是二维的,是只用单个通道的。

    在不改变图像尺寸的情况下,普通卷积的计算量是 3 * 3 * C * H * W * C = 9HWC^2, 深度可分离卷积的计算量是 3 * 3 * H * W * C = 9 HWC。

    2. 为什么说理论计算量Flops小不代表推理速度快?

    我觉得是因为理论计算量是计算的次数,并没有把每种数学计算所消耗时间的不同考虑在内,比如求导和求和操作的耗时肯定不同。

    3. 为什么说增大参数量反而可以提高训练的效率?在这里插入图片描述

    暂未透彻理解,只谈自己的猜测,欢迎大佬指正小弟。
    这里提到了将注意力加入到卷积模块、在大规模数据集上使用transformer,我觉得说明了:注意力的计算过程没有卷积耗时。注意力中Q、K、W以及权重的计算都依靠的是线性转化,包含相加求和的原子操作;卷积上本质也是相加求和等原子操作,但是求和的时候需要找到准确的 3 * 3网格区域,个人怀疑底层的这个定位操作会比较耗时。

    4 progressive learning 怎么简短快速理解?在这里插入图片描述

    在这里插入图片描述
    论文中是渐进式地增加图片尺寸来提高训练速度,**其属于渐进式训练的一种类型。**小图片给的正则化强度比较弱,这是因为小图片会使得模型学习到的东西也相对有限一些;而大尺度的图片会给一个较强的正则化强度来避免过拟合。

    5 NAS搜索的目的直接从为模型效果服务演变成了优化训练和参数效率,这是通过怎么改变NAS的搜索原理实现的?

    只贴出原论文的介绍,希望大佬看到了能解答一下吧。
    在这里插入图片描述在这里插入图片描述

    6 论文任务scale up模型的深度应该在更侧重于在网络的更晚阶段进行,这一点并没有做出解释,只给出了这个结论,所以该作何理解呢?

    7 FixRes方法是在训练阶段使用比测试阶段更小的图片,这样不会降低泛化性能吗?

  • 相关阅读:
    SpringBoot集成swagger
    【python】Windows 系统 chrome禁止更新
    5、Linux:如何将大文件切割成多份小文件
    MACday1
    sql查询之字符函数
    linux sleep命令详解
    User 10 must be unlocked for widgets to be available
    QT学习_05_各种对话框
    2022-回归日-蔚来已来秋招笔试
    贝叶斯分类(朴素)
  • 原文地址:https://blog.csdn.net/good18Levin/article/details/126211696