• Attention注意力机制学习(二)------->一些注意力网络整理


    SKNet——SENet孪生兄弟篇(2019)

    论文

    Selective Kernel Networks

    https://arxiv.org/abs/1903.06586  2019年

    介绍

            SKNet使用了两个思路在提高精度:

    • 很多网络使用了各种Trick来降低计算量,比如ResNeXt,计算量大大减少,精度却略有提升。那么如果不牺牲那么多计算量,能否精度提高一些呢?比如使用大一点的Kernel,如 5*5 的卷积提升精度。
    • 结合现在普遍使用的Attention操作

            加了上面两个操作之后,显然计算量会上去,于是作者再加了一个Group Convlution来做trade off权衡。

            上述结构可以分为三个步骤:

    1. Split:输入为 c*h*w 的特征图, 均表示Group Convlution。这里使用Group Convlution以减少计算量。注意,这里两路Group Convlution使用的卷积核大小不一致,原因在于Motivation中说的第一点,提升精度。
    2. Fuse:通过Split操作分成两路之后,再把两路结果进行融合,然后就是一个Sequeeze and Excitation block。
    3. Select:Select模块把Sequeeze and Excitation block模块的结果通过两个softmax以回归出Channel之间的权重信息。然后把这个权重信息乘到 中。这个过程可以看做是一个soft attention。最好把两路的特征图进行相加得到输出特征图 V 。

    总结

            整体感觉融合了较多的trick,Select部分使用soft attention和Sequeeze and Excitation block中对特征图加权蛮像的,区别在于Sequeeze and Excitation block考虑的是Channel之间的权重,而Select部分的attention不仅考虑了Channel之间的权重,还考虑了两路卷积的权重。

            同样的,SKNet可以很容易的嵌入到其他网络结构中。

    参考:后ResNet时代:SENet与SKNet - 知乎

    ResNeSt(2020)

    论文和官方代码

    https://hangzhang.org/files/resnest.pdf

    代码:https://github.com/zhanghang1989/ResNeSt

    介绍

    参考:[论文笔记] ResNeSt - 知乎

    最近在分类任务上流行用NAS方案,但是NAS驱动的模型往往很难优化计算效率或者优化在商用GPU/CPU上的内存,因此限制了NAS模型的使用。 ResNet在架构设计上很简单,有效,但是由于其本身最初适用于分类任务,因为感受野大小和缺乏跨通道的交互的问题,其实可能不太适用于下流的其他任务。因为很多时候会做一个网络手术,加入金字塔模块或者长距离的模块或者跨通道的特征图注意力机制来适应某个任务。因此作者提出一个问题,能不能有一个多功能的backbone来改善特征的表示,从而提高其多个下流任务的性能

    跨通道信息在下游应用中已证明是成功的,而最近的图像分类网络则更多地关注组或深度卷积。 尽管它们在分类任务中具有出色的计算能力和准确性,但这些模型无法很好地转移到其他任务,因为它们的孤立表示无法捕获跨渠道关系。因此,期望具有跨通道表示的网络。于是,本文的第一个贡献就是提出了Split-Attention模块,整合了跨通道的注意力机制,同时保持了ResNet架构的简单。ResNeSt中的S代表split。

    论文对于流行的其他技术做了对比分析:

    CNN架构:主要提到了AlexNet、NIN、VGG、Highway network和ResNet。

     多路和特征图注意力:主要提到了GoogleNet、ResNeXt、SENet和SKNet。

     NAS:提到了baNet、MNASNet和EfficientNet。

    Split-Attention模块

    特征图分组:ResNeXt中将特征图分成 K 组, K 为cardinality参数;作者在这个分组的基础上进一步将分完后的特征图再分为R组,记为cardinal groups。因此总的分组为 G=KR ,这里对分组的特征图定义了 F 操作。

    Cardinal Groups中的Split-Attention:先按照Cardinal Groups来逐元素相加,按K来分组计算;然后按K做全局平均值池化,就获得了 V^{k}=R^{HWC/K} ;继而,对K个分组做通道注意力,基本就是SE的乘法那步。

    ResNeSt模块:将cardinal group表示形式沿通道维度连接起来: V=Concat{V1,V2,...VK} 。 与标准残差块中一样,如果输入和输出特征图共享相同的形状,则我们的Split-Attention块的最终输出Y是使用残差连接生成的: Y=V+X 。对于具有stride的块,将适当的变换T应用于快捷连接以对齐输出形状: Y=V+T(X) 。 例如,stride或者pooling。

    与现有的注意力方法的关系:如果R=1,则对K组都执行了SE操作;诸如SK-Net的先前模型引入了两个网络分支之间的注意力功能,但是它们的操作并未针对训练效率和扩展到大型神经网络进行优化。本文的方法概括了cardinal group设置中关于特征图注意力的先前工作,并且其实现在计算上仍然有效。

    CBAM(2018)

    论文

    论文题目:《CBAM: Convolutional Block Attention Module》 2018年
    论文地址:https://arxiv.org/pdf/1807.06521.pdf

    介绍

    参考:【注意力机制】CBAM详解_姚路遥遥的博客-CSDN博客_cbam

    论文(2018年)提出了一种轻量的注意力模块( CBAM,Convolutional Block Attention Module ),可以在通道和空间维度上进行 Attention 。论文在 ResNet 和 MobileNet 等经典结构上添加了 CBAM 模块并进行对比分析,同时也进行了可视化,发现 CBAM 更关注识别目标物体,这也使得 CBAM 具有更好的解释性。

    CBAM 包含2个独立的子模块, 通道注意力模块(Channel Attention Module,CAM) 和空间注意力模块(Spartial Attention Module,SAM) ,分别进行通道与空间上的 Attention 。 这样不只能够节约参数和计算力,并且保证了其能够做为即插即用的模块集成到现有的网络架构中去。通道上的 Attention 机制在 2017 年的 SENet 就被提出,SENet可以参考Attention注意力机制学习(一)------->SENet_RayChiu_Labloy的博客-CSDN博客_senet框架

    BAM: Bottleneck Attention Module(2018)

    论文

    https://arxiv.org/pdf/1807.06514.pdf

    介绍

    bottlenect attention module(BAM)_just-solo的博客-CSDN博客

    BAM全程是bottlenect attention module,与CBAM很相似的起名,还是CBAM的团队完成的作品。

    CBAM被ECCV18接收,BAM被BMVC18接收。

    CBAM可以看做是通道注意力机制和空间注意力机制的串联(先通道后空间),BAM可以看做两者的并联。 

    Residual Attention(2017没太理解)

    论文

    CVPR 2017,港中文+北邮+商汤+清华 

     https://arxiv.org/abs/1704.06904

    介绍 

    [论文笔记] Residual Attention Network - 知乎

    作者提出了一种残差注意力模块。本来在我的理解中,注意力就是为正常的CNN前馈过程加一层权重(可以是对应每层CNN),但是没想到本文还融入了残差设计,并解释了为什么只添加mask在深层之后会导致性能下降。

    Dual Attention(2019没搞懂和CBAM的区别)

    论文

    https://arxiv.org/pdf/1809.02983.pdf

    介绍 

    论文阅读-Dual Attention Network for Scene Segmentation - 知乎

    场景分割任务中,需要区分一些容易混淆的类别以及考虑不同外形特征的目标,例如,草原与牧场有时候是很难区分的,公路上的车也存在尺度、视角、遮挡与亮度等的变化。因此,加强特征表达能力是必要的。 

    解决以上问题的现有方案:

    (1)多尺度上下文信息整合

    如ASPP、PSPNet、LargeKernel

    (2)encoder-decoder结构,融合中层与高层的语义信息

    以上方法可以捕获不同尺度的目标,但是它没有利用目标之间的关系,这些对于场景表达也是重要的。

    作者在场景分割任务中提出了一个双注意力网络 (DANet) 来自适应地将局部特征与其全局依赖关系集成。具体来说,我们在扩张的 FCN 之上附加了两种类型的注意力模块,它们分别对空间和通道维度的语义相互依赖关系进行建模。

    如上图所示。它引入了一种自注意力机制来分别捕获空间和通道维度上的特征依赖关系。具体来说,我们在扩张的 FCN 之上附加了两个并行的注意力模块。一个是位置注意模块,另一个是通道注意模块。对于位置注意模块,我们引入了自注意机制来捕获特征图任意两个位置之间的空间依赖关系。对于某个位置的特征,通过加权求和聚合所有位置的特征进行更新,其中权重由对应的两个位置之间的特征相似度决定。也就是说,任何两个具有相似特征的位置都可以相互促进,而不管它们在空间维度上的距离如何。对于通道注意模块,我们使用类似的自注意机制来捕获任意两个通道映射之间的通道依赖关系,并使用所有通道映射的加权和来更新每个通道映射。最后,融合这两个注意力模块的输出以进一步增强特征表示。 

  • 相关阅读:
    配置文件自动提示
    D359周赛复盘:贪心解决求最小和问题⭐⭐+较为复杂的双层线性DP⭐⭐
    RabbitMQ之发布确认高级
    医疗机器人技术研究现状
    Python---文件打开、读取、写入
    【Flutter】第一篇基础:站在一名web前端开发者的角度看代框架
    QT下跨平台库实现及移植经验分享
    【CNN记录】tensorflow slice和strided_slice
    jmeter入门:接口压力测试全解析
    Tableau:商业智能(BI)工具
  • 原文地址:https://blog.csdn.net/RayChiu757374816/article/details/123922671