• FRNet:Feature Reconstruction Network for RGB-D Indoor Scene Parsing


    1:铺垫
    多数场景解析方法使用weak distinction和大的跨度,效果不是最好的。为了解决这个问题,作者使用了内在的多层跨模态数据反向传播去构建一个新的特征重建网络FRNet,具体来说,encoder为了获得自上而下的逐层特征。特征节点从高层流向邻近的低层,作者提出cross-level enrich 模块去选择性完善和衡量每一层的特征。最后作者通过使用不通膨胀率的膨胀卷积聚合多层特征。
    深度信息可以补充结构信息,多层特征表示也很重要,通过使用多层跨模态特征去重建多层特征表示。现存的方法有两个挑战:通过大的跨度充分使用多层特征,有效聚合跨模态RGB和深度特征。
    为了解决现存问题,作者提出FRNet,包含特征构造encoder(FCE),在encoder中从深层到浅层,有效的融合了RGB和Depth,获得多层特征表示。在decoder中,使用带有小的膨胀率去减少信息的损失。
    先关工作跳过,里面有很多的RGB-D论文,大多是IEEE的。等有空再读。
    2:框架
    在这里插入图片描述
    这个框架和之前的UACANet很像,都是自上而下的结构:
    在这里插入图片描述
    介绍:
    作者使用了resnet34结构,在resnet通过不断的卷积,网络更深,获得的感受野更大,相反的是浅层有很多细节,但是也包含了噪声,因此作者引入了自上而下的传播去重构原始特征。首先作者将图片输入到网络中,五层产生五个输出,然后通过CAM产生丰富的model-aware信息。然后通过CEM重建相邻的低层,其他的几层也是这样。
    在这里插入图片描述
    模型的整体流程图可以用数学公式表示为:TBR进行转置上采样,CBR进行膨胀卷积。
    在这里插入图片描述
    在这里插入图片描述
    我们可以简化来看这个模型:主要的点就是RGB和深度之间的一系列操作加到decoder上进行转置上采样。
    在这里插入图片描述
    下面逐个查看内部的构造:
    1:Feature Construction Encoder (FCE)
    在这里插入图片描述
    逐层进行特征的重建,因为随着层数的下降,噪声会增加,作者进行当前层的构造时候会结合具有丰富语义信息和更少噪声的邻近层。首先先使用R5和D5产生第一个特征节点,然后利用第一个节点重建邻近的前一层R4,D4。可以表示为:
    在这里插入图片描述
    2:CAM:Cross-Modality Awareness Module(如何融合RGB和Depth两个分支)
    在这里插入图片描述
    ①中的交叉即跨模态具体到反映在②中,作者受到 SA-Gate的启发:
    在这里插入图片描述
    图中的交叉可以表示为:
    在这里插入图片描述
    作者在CBR中使用了一个1x3和3x1卷积,分别在水平和垂直方向上进行特征的提取,有点类似于ESANet的non-bottleneck卷积。效果确实比普通的卷积好,同时减少了计算量。
    在这里插入图片描述
    深度/(RGB)信息的权重可以计算为:
    在这里插入图片描述
    这样Wu和Wl可以计算为:
    在这里插入图片描述
    最后再和原始的图片相乘:
    在这里插入图片描述
    通过softmax来扩大difference,使模型更好的辨别哪些是有效和无效信息。
    在这里插入图片描述
    为了弥补下采样丢掉的信息,将生成的fm经过四个并行的不同的膨胀率的卷积层,可以捕捉多尺度上下文信息。
    在这里插入图片描述
    3:CEM(Cross-Level Enriching Module)
    在这里插入图片描述
    逐像素相减是用来提取两个输入之间的difference,然后通过全局平均池化和sigmoid函数获得全局的difference权重。生成的权重与特征节点相乘再与resnet提取的特征图相加。
    3:多尺度监督损失
    之前已经提到过,不再赘述。
    4:实验
    作者做的实验还是挺丰富的,几乎对每一个创新点都有消融实验验证有效性。
    4.1:
    TITAN :12G
    尺寸:640x480
    backbone:ResNet34
    损失:交叉熵损失+多尺度监督损失
    weight decay:0.0005
    lr:0.005
    epoch:nyu:200/sunrgbd:100
    batchsize:6
    与其它方法的对比:
    在这里插入图片描述
    在这里插入图片描述
    可视化:发现一个有意思的事情:RedNet的边缘提取的相当好,没有锯齿感且十分的笔直,和本文的结果甚至差不多,下去研究一下如何提取物体的边界。
    在这里插入图片描述
    消融实验:自行分析。

  • 相关阅读:
    Thymeleaf
    Pytorch学习:torch.randn()
    数据仓库入门介绍
    3. 无重复字符的最长子串 xp_xht123
    Docker入门-上篇
    【学生个人网页设计作品】使用HMTL制作一个超好看的保护海豚动物网页
    ROS的roslibjs基本功能使用测试
    【DBAPI教程】DBAPI如何使用复杂多层嵌套JSON作为请求参数
    PanTools v1.0.27 多网盘批量管理、遍历分享、转存、重命名、复制...
    Keil5----打开map文件方法和map文件解析
  • 原文地址:https://blog.csdn.net/qq_43733107/article/details/127869094