• 翻译:Fully Convolutional Networksfor Semantic Segmentation


    博主翻译能力有限,在不通顺的地方提供英文原文。

    专业术语:

    pixel-wise,patch-wise,image-wise的含义如下

    pixel-wise字面上的理解一样,一张图片是由一个个pixel组成的,这个是图像的基本单位,像素级别的

    image-wise图像级别,比如一张图片的标签是狗,是对整个图片的标注

    patch-wise介于像素级别和图像级别的区域,也就是块,每个patch都是由好多个pixel组成的
     

    DOI:10.1109/TPAMI.2016.2572683

    出版时间 APR 2017

    摘要:卷积网络是一种强大的可视化模型,可以产生特征的层次结构。我们表明,卷积网络本身,训练端到端,像素到像素,在语义分割中提高了以前的最佳结果。我们的关键见解是建立“完全卷积”网络,可以接受任意大小的输入,并通过高效的推理和学习产生相应大小的输出。我们定义并详细描述了完全卷积网络的空间,解释了它们在空间密集预测任务中的应用,并描述了与先前模型的联系。我们将同期的分类网络(AlexNet、VGG网络和GoogLeNet)改编为完全卷积网络,并通过微调细分任务来迁移它们学习到的特征。然后,我们定义了一个跳跃架构,该架构将来自较深、较粗层的语义信息与来自较浅、较细层的外观信息结合起来,以产生准确、详细的分割。我们的完全卷积网络实现了改进的PASCAL VOC分割(2012年30%相对改进到67.2%平均IU), NYUDv2, SIFT Flow和PASCAL- context,而对典型图像的推断需要十分之一秒。

    Index Terms—Semantic Segmentation, Convolutional Networks, Deep Learning, Transfer Learning

    介绍 卷积网络正在推动认知度的进步。卷积神经网络不仅改进了全图像分类[1],[2],[3],还改进了局部任务的结构化输出。其中包括边界框对象检测[4],[5],[6],部分和关键点预测[7],[8],以及局部对应[8],[9]方面的进展。从粗糙到精细推理的自然下一步是对每个像素进行预测。以前的方法使用卷积神经网络进行语义分割[10][11][12][13][14][15][16],其中,每个像素都用其外围对象或区域的类标记,但该工作解决了缺点。

    我们表明,全卷积网络(FCNs)训练端到端,像素到像素的语义分割超过了以前的最佳结果,在没有进一步的操作下。据我们所知,这是第一个训练FCNs端到端(1)像素预测(2)通过有监督预训练。现有网络的全卷积版本可以从任意大小的输入预测密集输出。学习和推理都是通过密集前馈计算和反向传播一次全图像进行的(whole-image-at-a-time),如图1所示。网络内上采样层可以在带有子采样的网络中实现像素预测和学习。

     这种方法在渐近和绝对上都是有效的,(This method is efficient, both asymptotically and absolutely)并且排除了其他工作中的复杂性。Patchwise training is common[10],[11],[12],[13],[16],但缺乏全卷积训练的效率。我们的方法不使用预处理和后处理的复杂性,包括超像素[12],[14],建议[14],[15],或随机字段或局部分类器[12],[14]的事后细化(or post-hoc refinement by random fields or local classifiers)。我们的模型将分类[1],[2],[3]最近的成功转化为密集预测,方法是将分类网络重新解释为完全卷积的,并对其学习到的表示进行微调。相比之下,以前的研究应用了小卷积神经网络,没有监督的预训练[10],[12],[13]。

    语义分割面临着语义和位置之间固有的紧张关系:全局信息解决什么,而局部信息解决什么。如何从位置导航到语义?局部决策如何尊重全局结构?目前还不清楚用于图像分类的深度网络是否能产生足够准确的像素级识别。在这篇论文[17]的会议版中,我们将预训练的网络转换为全卷积的形式,并使用一种利用全特征谱的跳跃架构来增强它们。跳跃结构融合特征层次结构,将深度、粗语义信息和浅层、细语义信息结合起来(见第4.3节和图3)。因此,深度特征层次结构在一个非线性的局部到全局金字塔中编码位置和语义.(In this light, deep feature hierarchies encode location and semantics in a nonlinear local-to-global pyramid)

    本文通过进一步的调优、分析和更多的结果扩展继承了我们之前的工作[17]。替代选择、调试和实现细节更好地涵盖了FCNs的内容。调优优化带来了更精确的网络,以及一种一次性而不是分阶段学习跳过体系结构的方法。遮蔽前景和背景的实验研究了背景和形状的作用。PASCAL-Context的对象和场景标注结果加强了合并对象分割和场景解析作为统一的像素预测。

    在下一节中,我们将回顾深度分类网、FCNs、最近使用卷积网络进行语义分割的方法以及对FCNs的扩展。下面几节解释FCN的设计、介绍我们的网络内上采样和跳层架构,并描述了我们的实验框架。接下来,我们在PASCAL VOC 2011-2、NYUDv2、SIFT Flow和PASCAL- context上演示了改进的准确性。最后,我们分析了设计选择,检查了FCN可以学习什么线索,并计算了语义分割的识别边界。

    2 RELATED WORK

    我们的方法借鉴了深网在图像分类[1],[2],[3]和迁移学习[18],[19]方面的最新成功。迁移首先在各种视觉识别任务[18],[19]上进行演示,然后在检测上进行演示,并在混合提议分类器模型[5],[14],[15]的实例和语义分割上进行演示。我们现在重新构建和微调分类网络,以直接、密集的预测语义分割。我们绘制了FCNs的空间图,并联系了历史和近期的先前模型。完全卷积网络。据我们所知,将卷积卷积扩展到任意大小的输入的想法最早出现在Matan等人[20]中,他们将经典的LeNet[21]扩展到识别数字字符串。因为他们的网络仅限于一维输入字符串,Matan等人使用Viterbi解码来获得他们的输出。Wolf和Platt[22]将convnet输出扩展为邮政地址块四个角的检测得分的二维地图。这两部历史著作都是完全卷积地进行推理和学习,以进行检测(Wolf and Platt [22] expand convnet outputs to two-dimensional maps of detection scores for the four corners of postal address blocks)。Ning等人[10]定义了一个卷积神经网络,用于对秀丽隐杆线虫组织进行完全卷积推理的粗多类分割。

    在多层网络时代,完全卷积计算也得到了应用。滑动窗口检测由Sermanet et al.[4],语义分割由Pinheiro和Collobert[13],图像恢复由Eigen et al.[23]进行完全卷积推理。完全卷积训练很少使用,但Tompson等人[24]有效地学习了端到端部件检测器和位姿估计的空间模型,尽管他们没有对这种方法进行说明或分析。

    卷积密集预测。最近的一些工作将卷积神经网络应用于密集预测问题,包括Ning等人的语义分割。[10], Farabet et al. [12], Pinheiro和Collobert [13];电子显微镜的边界预测由Ciresan等人[11]和自然图像的混合convnet/最近邻模型由Ganin和lenmpitsky [16];Eigen等人[23],[25].图像恢复和深度估计。这些方法的共同元素包括:

    小模型限制容量和接受域;

    patchwise训练[10],[11],[12],[16];

    通过超像素投影、随机场正则化、滤波或局部分类进行细化[11],[12], [16];

    “交错”得到密集输出[4],[13],[16];

    多尺度金字塔处理[12],[13],[16];

    饱和tanh非线性[12],[13],[23];

    和合奏 [11], [16],

     而我们的方法没有这种机制。然而,我们确实从FCNs的角度研究了patchwise训练(章节3.4)和“shift-and-stitch”密集输出(章节3.2)。我们还讨论了网络内上采样(3.3节),其中Eigen et al.[25]的全连接预测是一个特例。与这些现有的方法不同,我们适应和扩展了深度分类架构,使用图像分类作为监督前训练,并完全卷积微调,从整个图像输入和整个图像地面穿透简单和有效地学习。Hariharan等人[14]和Gupta等人[15]同样适应深度分类网络可以实现语义分割,但在混合提议-分类器模型中实现。这些方法可以对R-CNN进行微调系统[5]通过采样包围盒和/或区域建议检测,语义分割和实例分割。这两种方法都不是从头到尾学到的。他们分别在PASCAL VOC和NYUDv2上取得了之前最好的分割结果,因此我们直接将我们独立的端到端FCN与第5节中他们的语义分割结果进行比较。

    Hariharan等人[14]和Gupta等人[15]同样将深度分类网络用于语义分割,但采用的是混合提议-分类器模型。这些方法通过对检测、语义分割和实例分割的边界盒和/或区域提议采样来微调R-CNN系统[5]。这两种方法都不是从头到尾学到的。他们分别在PASCAL VOC和NYUDv2上取得了之前最好的分割结果,因此我们直接将我们独立的端到端FCN与第5节中他们的语义分割结果进行比较。

    结合功能层次结构。我们跨层融合特征,以定义一个非线性的局部到全局表示,并对其进行端到端调优。拉普拉斯金字塔[26]是由固定的平滑和差分组成的经典多尺度表示。Koenderink和van Doorn[27]的射流是由偏导数组合定义的一个丰富的局部特征。在深度网络环境中,Sermanet等[28]在这样做时融合中间层,但丢弃了分辨率。在当代工作中,Hariharan等人[29]和Mostajabi等人[30]也融合了多个层,但不学习端到端,依赖于固定的自下而上分组。

    FCN扩展。在本文[17]会议版之后,FCNs被扩展到新的任务和数据。任务包括区域建议[31],轮廓检测[32],深度回归[33],光流[34],弱监督语义分割[35],[36],[37],[38]。此外,新的工作改进了这里提出的FCNs,进一步推进了最先进的语义分割。DeepLab模型[39]通过扩张卷积和密集CRF推理提高了输出分辨率。联合CRFasRNN[40]模型是CRF的端到端集成,可以进一步改进。ParseNet[41]对融合特性进行规范化,并使用全局池捕获上下文。

    此外,新的工作改进了这里提出的FCNs,进一步推进了最先进的语义分割。DeepLab模型[39]通过扩张卷积和密集CRF推理提高了输出分辨率。联合CRFasRNN[40]模型是CRF的端到端集成,可以进一步改进。ParseNet[41]对融合特性进行规范化,并使用全局池捕获上下文。[42]的反卷积网络方法通过提议、学习到的反卷积堆栈和解池恢复分辨率。U-Net[43]结合了跳跃层和学习反卷积,用于显微镜图像的像素标记。[44]的膨胀结构充分利用了膨胀卷积,实现像素级精确输出,没有随机场和跳层。

    3 FULLY CONVOLUTIONAL NETWORKS

     卷积神经网络输出的每一层是一个大小为h x w x d的三维数组,其中h、w为空间维数,d为特征维数或通道维数。第一层是图像,像素大小为h x w,通道数为d。位于较高层的位置对应于它们通过路径连接到的图像中的位置,这些位置被称为它们的接收区域。

    卷积神经网络具有固有的翻译不变性。它们的基本组成部分(卷积、池化和激活函数)作用于局部输入区域,只依赖于相对的空间坐标。将某一层(i, j)位置的数据向量写为Xij,将下一层的数据向量写为y,这些函数计算输出yij

    当这些接收域显著重叠时,在整幅图像上逐层计算的前馈计算和反向传播比单独逐块计算的效率高得多。接下来,我们将解释如何将分类网络转换为产生粗输出映射的完全卷积网络。对于像素预测,我们需要将这些粗输出连接回像素。第3.2节描述了用于此目的的一个技巧(例如,通过“快速扫描”[45])。我们从网络修改的角度来解释这个技巧。作为一种高效、有效的替代方案,我们在3.3节中上采样,重用我们的卷积实现。在第3.4节中,我们考虑了patchwise sampling的训练,并在第4.4节给出证据,证明我们的整个图像训练更快,同样有效。

    3.1 Adapting Classifiers for Dense Prediction

    典型的识别网络,包括LeNet [21], AlexNet[1],以及它更深层次的后继者[2],[3],表面上接受固定大小的输入并产生非空间输出。这些网络的完全连接层有固定的尺寸和丢弃的空间坐标。然而,完全连接的层也可以被视为带有覆盖整个输入区域的内核的卷积。这样做将这些网络投射到完全卷积网络中,可以接受任何大小的输入,并生成空间输出映射。这种转换如图2所示。此外,虽然最终得到的地图相当于对特定输入补丁的原始网络的评估,但计算高度摊销在这些补丁的重叠区域。例如,AlexNet需要1.2 ms(在典型的GPU上)来推断227 x 227的图像的分类分数,而完全卷积网络需要22 ms来从500 x 500的图像产生10 x 10的网格输出,这比naive方法快了5倍多.

    这些卷积化模型的空间输出映射使它们成为解决语义分割等密集问题的自然选择。由于在每个输出单元都有地面真实值,因此向前和向后的传递都是直接的,并且都利用了卷积固有的计算效率(和积极的优化)。对于AlexNet示例,对应的向后时间为2.4 ms(单个图像)和37 ms(完全卷积10 x 10输出映射),导致了类似于前向传递的加速。虽然我们将分类网络重新解释为完全卷积,可以产生任何大小的输入的输出映射,但输出维度通常通过子采样来减少。分类网子样本保持滤波器小,计算量要求合理。这样可以粗化这些网络的完全卷积版本的输出,将其从输入的大小减少一个因子,该因子等于输出单元的接收域的像素步长。

  • 相关阅读:
    趋势分析是什么?市场趋势分析的经典方法,从数据中识别机会
    在Linux上安装Oracle 数据库 11g (含静默方式安装)
    【面试】C/C++面试八股
    GPT访问跨域如何解决呢?
    【Numpy】深入剖析Numpy.arange()与range()的区别
    spring探秘之ConfigurationClassPostProcessor(一):处理@ComponentScan注解
    C++新经典 | C++ 查漏补缺(模板与泛型)
    docker系列文章目录
    Leetcode—226.翻转二叉树【简单】
    十、Docker 常用命令
  • 原文地址:https://blog.csdn.net/weixin_44503976/article/details/125429538