RGB-D SOD 通常被视为单独的视觉任务。
大多数的RGB-D SOD 直接从骨干中提取和融合原始特征。
在本文中,我们探索了这两个任务之间的潜在共性,并提出了一种新颖的端到端统一框架,该框架可同时用于rgb-d和rgb-t SOD。主要从以下三个问题入手:
(1) 如何有效地从多模态输入中提取单模态特征; (2) 如何对提取的多模态特征进行综合融合; (3) 如何利用融合后的特征推断最终的显著性图。
MIA 以通过自学习来学习每个单模态的重要性,并将RGB和深度/热特征融合以获得RDi或RTi。
JAGCD 模块来捕获三种模态 (Ri; Di; RDi或Ri; Ti; RTi) 的多尺度融合特征。
MFPD 通过集成从JAGCD模块获得的特征。
动机:不同模态的图像来源不同,因此本质上也不同。但是,对于SOD 任务,他们的作用不仅是一致的,而且还具有自己的额外有益效果。本文充分利用不同模态的特点,实现更好的SOD 性能。
方法:不同的层对整个物体有不同的响应。我们在每个不同级别上探索MIA单元,旨在对跨模态特征进行干扰物过滤和增强。
具体过程:
将上一级经过MIA 的交互特征,与下一级的两个模态的特征进行相加,再经过CA+SA,上采样和1*1卷积。
注意力:
动机:每个卷积都有多通道特征图,但并非所有通道都能预测显著性。同样,在每个特征图中,来自不同空间位置的特征可能在SOD中扮演不同的 角色。
方法:因此JAGCD 模块中使用CA+SA,以有效地过滤特征。CA 反应每个特征图的全局通道重要性,SA 表示特征的局部空间重要性。在本文中, 作者使用微调的CBAM。
具体过程:
FRF(.)是一个共享网络,由具有一个隐藏层的多层感知组成。f是输入特征。
JAGCD具体过程:
将 RM3 和 RM4 使用加法结合。并且加入原始的RGB和深度特征,目的是学习特征对确定显著目标的贡献是有益的。然后应用上面的 CA + SA ,目的是选择一些具有更高通道权重和空间权重的重要特征,并输入到下一个级别。最终,获得了4个尺度的融合特征,分别为F0,F1,F2,F3。这种渐进的方式,更有效地整合了局部和全局功能,增加了不同分支之间的相互作用:
MFPD这种结构可以进一步充分利用多尺度层次上的跨模态特征,有助于保证特征的兼容性。
MFPD 有3 层,输入为 JAGCD 生成的 4 个 不同尺度的融合特征F0,F1,F2,F3。输出为 3 个 特征图,S1,S2,S3,尺寸和R0相同。
每个层的信息通过逐层上采样和元素加法来积累,这为不同尺度的跨模态特征提供了更多的交互作用。
与 [13] 中提出的流体金字塔整合 (FPI) 相比,MFPD的结构更加稀疏。在两个相邻层中,只有更高级别的节点的特征被转移到下一层的节点,而不是像FPI那样以类似的密集连接方式在相邻层之间转移节点。此外,提议的MFPD与jl-dcf中的DCF组件不同 [22],尽管两者实际上都是密集构建的。
Jl-dcf中的解码器是一个复杂的结构,由跨模态融合模块,具有初始结构的特征聚合模块 [67] 以及从深层到浅层的密集连接组成。相比之下,从图2中可以看出,我们的MFPD仅包含简单的卷积操作,而密集连接主要促进浅层特征的增强,这是JAGCD提取的特征的另一种融合。
最后,在过渡卷积层和激活层之后,获得3个显著性图S1,S2,S3(最终显著图)。S0由F0经过上采样和1 *1 卷积获得。另外作者还说明,若直接将F0作为最终预测,已经超过很多算法,MFPD起到锦上添花的作用。
训练集为两个数据集,NJU2K和NLPR,骨干网络为ResNet50,输入尺寸为352*352,NVIDIA RTX 2080Ti GPU用于培训和测试。Adam [59] 优化参数,权重衰减为5e-4,动量 momentum 为0.99。学习率设置为1e-4。批量大小设置为5。我们在训练过程中不使用验证集。
这里是JL-DCF