Concealed Object Detection
3 COD10K DATASET
本章总体介绍了COD10K的训练过程,细节等,还与其他数据集对比,总之是为COD模型服务的。
Fig. 3,COD10K 每张图像有六种不同的注释内容
Fig. 8,COD10K 有大量全高清1080p分辨率的图像
4 COD FRAMEWORK
Fig. 13,COD总体架构
4.2 Search Phase
4.2.1 Feature Extraction
- 首先是对输入图像的特征提取:采用Res2Net-50网络,涵盖了从高分辨率,弱语义到低分辨率,强语义的多样化特征金字塔
*(removing the top three layers, i.e., ‘average pool’, ‘1000-d fc’, and ‘softmax’) *
4.2.2 Texture Enhanced Module (TEM)
- 每个TEM组件包括四个平行的残差分支和一个捷径分支 (灰色箭头)
- 对比标准的感受野模块,TEM增加一个具有较大扩张速率的分支,以扩大感受野,并进一步用两个不对称卷积层代替标准卷积
4.2.3 Neighbor Connection Decoder (NCD)
- NCD负责在TEM的协助下找到隐藏物体的相对粗糙的位置
- 为了提升学习能力,只汇总前三个最高级别的特征。
- 本文使用邻居连接函数修改了部分解码器组件 (PDC) ,并获得了三个改进的功能,计算如式(1)所示
4.3 Identification Phase
在搜索阶段得到的只能够捕捉隐藏物体的相对粗略位置,而忽略了结构和纹理细节。
4.3.1 Reverse Guidance
为了解决这个问题,我们引入了一种原则性的策略,通过删除对象来挖掘有区别的隐含区域。
如Fig, 14b所示,通过Sigmoid函数和反转运算输出反向注意力引导r1^k
式(2)
4.3.2 Group Guidance Operation (GGO)
- 团体引导操作包含两个主要步骤。
反向注意力是通过从侧面输出特征中删除现有的估计目标区域来挖掘互补区域和细节。
我们提出了一种新的GroupWise操作来更有效地利用先验反向引导。如Fig. 14a所示:
- 首先,我们沿着通道维度将候选特征p分成N组。
- 然后,再分割特征p,之间周期性地内插先验引导rk。
4.3.3 Group-Reversal Attention (GRA)
分组反向注意力模块(GRA),它协同工作从更深的层改进粗略的预测。通过不同的特征金字塔逐步细化粗略预测。式(4、5、6):