• Transformer Fusion for Indoor RGB-D Semantic Segmentation


    如何聚合多尺度特征这是一个问题,现有的方法大多通过卷积来实现,而很少在特征融合的地方使用长距离依赖,因此对于大物体的分割就会有挑战。本文提出基于transformer的融合策略,来更好的建模上下文。
    TransD-Fusion包含①:一个自完善,②:交叉矫正和③:深度引导融合,还有一个④语义位置编码将注意力限制到相邻的像素。
    当前模型融合有三个挑战,分别为多模态融合,每个模态含噪声,特征对齐。
    在这里插入图片描述
    现在大多的融合方法还是逐像素融合,限制了情景化的线索(上下文信息),导致结果遇到了瓶颈。
    transformer通过Q和K之间的关系建模全局的注意力,我们可以将内在的q和k之间的关系,延伸到跨模态的关系。(说明:平时的transformer通过对patch embedding进行三个线性投射形成的,操作的对象是token,即一个token序列形成了三个qkv,而跨模态的qkv则是qk或者v其中一个来自于其他的模态进行注意力计算)。因此这是一个很自然的方法去聚合RGB-D特征。

    通过利用上下文信息(transformer获得的),我们就可以处理表面比较形似的物体而深度值是不同的。

    ①通过transformer注意力实现的,②为了通过互补信息来完善每个模态。③为了有效的分割物体。④产生category-aware的位置编码。

    模型框架:
    在这里插入图片描述
    包含主分支和附属分支这种双流encoder,首先Depth转换为HHA,然后和RGB进行concat,接着分别送入swin transformer中。
    在这里插入图片描述
    将产生的结果图经过卷积来减少维度,然后新的特征图进一步进行展平。输入到transformer fusion中。
    在这里插入图片描述
    三步:自注意力,通过交叉注意力进行双向矫正,深度引导的query进行分割。
    首先看第一步:
    在这里插入图片描述
    多头自注意力,和普通的transfor一样的。
    在这里插入图片描述
    各个分支进行多头自注意力,然后与本身相加。Px是位置编码。
    在这里插入图片描述
    第二步:交叉完善
    在这里插入图片描述
    为了消除单模态的模糊,区别于之间的双注意力,作者提出的基于transformer的交叉完善。
    RGB分支的Q来自深度分支,因此他自带深度的位置编码,k和v来自自身,带RGB的位置编码。
    在这里插入图片描述
    第三步:深度引导的融合
    深度产生的结果作为query来进行跨模态的注意力。
    在这里插入图片描述
    用公式表示为:
    在这里插入图片描述
    语义位置编码:
    从低层次即分辨率的特征图来充分应用空间分辨率。
    具体操作:将两个序列reshpe为图片,然后通过卷积投射到高维,然后再通过两个3x3卷积增加序列的局部信息。和CPVT有些类似和CVT也有些类似,即将卷积引入到位置编码中。
    在这里插入图片描述
    实验:SOTA
    在这里插入图片描述
    可视化:
    在这里插入图片描述
    消融实验:自行分析

  • 相关阅读:
    SpringBoot 集成 AKKA
    想知道什么工具可以智能修复老照片?不妨看看这篇文章
    什么是高可用服务?
    IDEA -- bug笔记
    在C++中,`sync()`是一个用于刷新缓冲区的函数,通常用于文件或流的I/O操作。调用`sync()`函数会将所有等待写入的数据立即刷新到底层设备。
    基于workerman的实时推送(摒弃ajax轮询)
    剑指offer—day 12(双指针-2)
    JAVA毕业设计服装连锁店后台管理系统计算机源码+lw文档+系统+调试部署+数据库
    pytorch --- 二分类与多分类label及损失的使用
    雷神轮胎携手JBL 演绎科技降噪、感受非凡音悦
  • 原文地址:https://blog.csdn.net/qq_43733107/article/details/128008818