FRNet：Feature Reconstruction Network for RGB-D Indoor Scene Parsing

1：铺垫
多数场景解析方法使用weak distinction和大的跨度，效果不是最好的。为了解决这个问题，作者使用了内在的多层跨模态数据和反向传播去构建一个新的特征重建网络FRNet，具体来说，encoder为了获得自上而下的逐层特征。特征节点从高层流向邻近的低层，作者提出cross-level enrich 模块去选择性完善和衡量每一层的特征。最后作者通过使用不通膨胀率的膨胀卷积聚合多层特征。
深度信息可以补充结构信息，多层特征表示也很重要，通过使用多层跨模态特征去重建多层特征表示。现存的方法有两个挑战：通过大的跨度充分使用多层特征，有效聚合跨模态RGB和深度特征。
为了解决现存问题，作者提出FRNet，包含特征构造encoder(FCE)，在encoder中从深层到浅层，有效的融合了RGB和Depth，获得多层特征表示。在decoder中，使用带有小的膨胀率去减少信息的损失。
先关工作跳过，里面有很多的RGB-D论文，大多是IEEE的。等有空再读。
2：框架
在这里插入图片描述
这个框架和之前的UACANet很像，都是自上而下的结构：

介绍：
作者使用了resnet34结构，在resnet通过不断的卷积，网络更深，获得的感受野更大，相反的是浅层有很多细节，但是也包含了噪声，因此作者引入了自上而下的传播去重构原始特征。首先作者将图片输入到网络中，五层产生五个输出，然后通过CAM产生丰富的model-aware信息。然后通过CEM重建相邻的低层，其他的几层也是这样。
在这里插入图片描述
模型的整体流程图可以用数学公式表示为：TBR进行转置上采样，CBR进行膨胀卷积。

我们可以简化来看这个模型：主要的点就是RGB和深度之间的一系列操作加到decoder上进行转置上采样。

下面逐个查看内部的构造：
1：Feature Construction Encoder (FCE)
在这里插入图片描述
逐层进行特征的重建，因为随着层数的下降，噪声会增加，作者进行当前层的构造时候会结合具有丰富语义信息和更少噪声的邻近层。首先先使用R5和D5产生第一个特征节点，然后利用第一个节点重建邻近的前一层R4,D4。可以表示为：
在这里插入图片描述
2：CAM：Cross-Modality Awareness Module（如何融合RGB和Depth两个分支）

①中的交叉即跨模态具体到反映在②中，作者受到 SA-Gate的启发：

图中的交叉可以表示为：

作者在CBR中使用了一个1x3和3x1卷积，分别在水平和垂直方向上进行特征的提取，有点类似于ESANet的non-bottleneck卷积。效果确实比普通的卷积好，同时减少了计算量。
在这里插入图片描述
深度/(RGB)信息的权重可以计算为：

这样Wu和Wl可以计算为：

最后再和原始的图片相乘：

通过softmax来扩大difference，使模型更好的辨别哪些是有效和无效信息。

为了弥补下采样丢掉的信息，将生成的fm经过四个并行的不同的膨胀率的卷积层，可以捕捉多尺度上下文信息。
在这里插入图片描述
3：CEM（Cross-Level Enriching Module）

逐像素相减是用来提取两个输入之间的difference，然后通过全局平均池化和sigmoid函数获得全局的difference权重。生成的权重与特征节点相乘再与resnet提取的特征图相加。
3：多尺度监督损失
之前已经提到过，不再赘述。
4：实验
作者做的实验还是挺丰富的，几乎对每一个创新点都有消融实验验证有效性。
4.1：
TITAN ：12G
尺寸：640x480
backbone：ResNet34
损失：交叉熵损失+多尺度监督损失
weight decay：0.0005
lr：0.005
epoch：nyu：200/sunrgbd:100
batchsize：6
与其它方法的对比：
在这里插入图片描述

可视化：发现一个有意思的事情：RedNet的边缘提取的相当好，没有锯齿感且十分的笔直，和本文的结果甚至差不多，下去研究一下如何提取物体的边界。

消融实验：自行分析。