目录
4.1、Feature Pyramid Networks for RPN
4.2、Feature Pyramid Networks for Fast R-CNN
特征金字塔是不同尺度目标识别系统的基本组成部分。但最近的深度学习目标检测器已经避免了金字塔表示,部分原因是它们需要大量的计算和内存。本文利用深卷积网络固有的多尺度金字塔结构构造特征金字塔,只有很少的额外消耗。提出了一种具有横向连接的自顶向下体系结构,用于在所有尺度上构建高级语义特征图。该体系结构称为特征金字塔网络(FPN),作为一种通用的特征提取器,对几个应用的性能进行了显著的改进。在一个基本的Fasater R-CNN系统中使用FPN,我们的方法在COCO检测基准上实现了最先进的单模型结果,没有任何附加条件,超过了所有现有的单模型条目,包括来自COCO 2016挑战赛冠军的条目。此外,我们的方法可以在GPU上以每秒6帧的速度运行,因此是一种实用而准确的多尺度目标检测解决方案。
在计算机视觉中,识别不同尺度的物体是一个基本的挑战。构建在图像金字塔之上的特征金字塔(简而言之,我们称这些特征金字塔为特征图像金字塔)构成了标准解决方案的基础,如下图所示(a)所示。这些金字塔是尺度不变的,因为一个物体的尺度变化是通过改变其在金字塔中的层级来抵消的。直观地说,这个属性使模型能够通过扫描位置和金字塔级别上的模型来跨大范围地检测目标。
在手工设计特征的时代,大量使用了特征图像金子塔。它们是如此重要,以至于像DPM这样的目标检测器需要密集的尺度采样才能获得良好的结果(例如,每组10个尺度)。对于识别任务,手工特征在很大程度上已经被深卷积网络(ConvNets)计算的特征所取代。除了能够表示更高层次的语义外,卷积网络对尺度的变化也更健壮,从而便于从单个输入尺度上计算的特征进行识别,如上图(b)所示。但是即使有了这种鲁棒性,金字塔仍然需要得到最精确的结果。ImageNet和COCO检测挑战中最近的所有顶级方法都使用了对特征化图像金字塔的多尺度测试。提取特征金字塔每一层的优点是它产生了一个多尺度的特征表示,其中所有层在语义上都是强的,包括高分辨率层。
然而,使图像金字塔的每一层都提取特征有明显的限制。推理时间显著增加,使得这种方法在实际应用中不切实际。此外,在图像金字塔上端到端训练深度网络在内存方面是不可行的,因此,如果利用图像金字塔,只在测试时使用,这造成了训练/测试时间推断之间的不一致。基于这些原因,Faster R-CNN在默认设置下选择不使用特征图像金字塔。
然而,图像金字塔并不是计算多尺度特征表示的唯一方法。深卷积神经网络逐层计算特征层次结构,通过子采样层,特征层次结构具有固有的多尺度金字塔形状。这种网络内的特征层次结构产生了不同空间分辨率的特征图,但由于深度不同,导致了较大的语义差异。高分辨率的特征图具有低水平的特征,损害了其对目标识别的表征能力。
单阶段检测器(SSD)是第一个尝试使用卷积神经网络的金字塔特征层级,就像它是一个featurized图像金字塔,如上图(c)所示。理想情况下,SSD样式的金字塔将重用来自不同层的多尺度特征图,并在向前传递中计算,因此不需要成本。但是为了避免使用底层特性,SSD放弃了重用已经计算好的层,而是从网络的高层开始构建金字塔,然后添加几个新层。因此,它错过了重用特性层次结构的高分辨率映射的机会。我们证明了这些对于探测小物体是很重要的。
本文的目标是利用ConvNet的特征层次结构的金字塔形状,同时创建一个在所有尺度上都具有强大语义的特征金字塔。为了实现这一目标,我们依赖于通过自顶向下的路径和横向连接将低分辨率、语义强的特性与高分辨率、语义弱的特性结合起来的体系结构,如上图(d)所示。其结果是一个特征金字塔,具有丰富的语义,在所有级别,并从一个单一的输入图像规模迅速建立。换句话说,我们展示了如何创建网络内的特征金字塔,这些特征金字塔可以用来替代已饱和的图像金字塔,而不牺牲表征能力、速度或内存。
类似的采用自顶向下和跳过连接的架构在最近的研究中很流行。他们的目标是生成一个高分辨率的单一高级特征图,并据此做出预测,如下图的顶部。相反,我们的方法利用架构作为一个特征金字塔,在每个层次上独立地进行预测(例如,目标检测),如下图底部。我们的模型呼应了一个特征图像金字塔,这在这些工作中没有讨论过。
我们评估了我们的方法,称为特征金字塔网络(FPN),在各种系统中用于检测和分割。基于FPN和Faster R-CNN在COCO挑战赛上评估了目标检测结果,超越所有现有的设计良好的单模型检测器。在消融实验中,我们发现对于包围框建议,FPN显著提高平均召回率(AR) 8.0个百分点;对于目标检测,它将COCO数据集的平均精度(AP)提高了2.3个点,PASCAL数据集的AP提高了3.8个点,超过了ResNets上Faster R-CNN的强大单尺度baseline。我们的方法也很容易扩展到mask proposals和提高实例分割AR和速度的最先进的方法,严重依赖于图像金字塔。
此外,金字塔结构可以在所有尺度上进行端到端训练,并在训练/测试时始终如一地使用,这将是内存不可行的使用图像金字塔。因此,FPN能够达到比所有现有的最先进的方法更高的精度。此外,这种改进是在不增加测试时间的情况下实现的。我们相信这些进展将促进未来的研究和应用。我们的代码将向公众开放。
手工设计的特征和早期的神经网络:SIFT特征最初是在尺度空间极值处提取,用于特征点匹配。 HOG特征,以及后来的SIFT特征,在整个图像金字塔上密集地计算。 这些HOG和SIFT金字塔已经被用于图像分类、目标检测、人体姿态估计等众多工作中。 人们对快速计算特征图像金字塔也有很大的兴趣。 Dollar等人通过首先计算一个稀疏采样(按比例)金字塔,然后插值缺失的水平,证明了快速金字塔计算。 在HOG和SIFT之前,早期使用ConvNets进行人脸检测的工作在图像金字塔上计算浅层网络来跨尺度检测人脸。
深度ConvNet目标检测器:随着现代深度ConvNets的发展,物体检测器如OverFeat和R-CNN显示了准确性的显著提高。 OverFeat采用了一种类似早期神经网络人脸检测器的策略,将一个ConvNet作为图像金字塔上的滑动窗口检测器。 R-CNN采用了一种基于区域建议的策略,其中每个提案在使用卷积神经网络进行分类之前都进行了尺度归一化。 SPPNet证明了这种基于区域的检测器可以更有效地应用于单一图像尺度上的特征地图提取。 最近和更准确的检测方法,如Fast R-CNN和Faster R-CNN提倡使用从单一尺度计算的特征,因为它提供了精度和速度之间的良好平衡。 然而,多尺度检测仍然表现得更好,特别是对于小目标。
使用多层的方法:最近的一些方法通过在ConvNet中使用不同的层来改进检测和分割。 FCN将每个类别在多个尺度上的部分分数相加,以计算语义分割。 Hypercolumns使用类似的方法来分割目标实例。 其他几种方法(HyperNet、ParseNet和ION)在计算预测之前将多个层的功能连接起来,这相当于将转换后的功能相加。 SSD和MS-CNN在不结合特征或分数的情况下,在多个特征层次上预测目标。
最近有一些方法利用横向/跳过连接,通过分辨率和语义级别关联低级特征图,包括用于分割的U-Net和SharpMask,用于人脸检测的重组网络,以及用于关键点估计的Stacked Hourglass网络。 Ghiasi等人提出了一个拉普拉斯金字塔表示的FCN,以逐步细化分割。 虽然这些方法采用的是金字塔形状的建筑,但与图像特征金子塔不同,特征图像金字塔在各个层次上独立进行预测,如图2所示。 事实上,对于图2(顶部)中的金字塔式建筑,图像金字塔仍然需要跨越多个尺度来识别物体。
我们的目标是利用ConvNet的金字塔式特征层次结构,它具有从低到高的语义,并构建一个自始至终具有高级语义的特征金字塔。所得到的特征金字塔网络是通用的,本文主要研究滑动窗口提出器和基于区域的检测器。在第6节中,我们也将FPNs推广到实例分割建议中。
我们的方法以任意大小的单尺度图像作为输入,并以完全卷积的方式在多个级别按比例大小输出特征映射。该过程独立于骨干卷积架构,本文使用ResNets给出结果。金字塔的构建包括自下而上的路径、自上而下的路径和横向连接,如下所述。
自底向上的通道:自底向上路径是主干网的前馈计算,它计算一个由多个尺度的特征映射组成的特征层次结构,其缩放步长为2。通常有许多层生成相同大小的输出映射,我们说这些层处于相同的网络阶段。对于我们的特征金字塔,我们为每个阶段定义一个金字塔级别。我们选择每一阶段最后一层的输出作为我们的参考特征图集,我们将对其进行丰富以创建我们的金字塔。这种选择是自然的,因为每个阶段的最深层应该具有最强的特性。
具体来说,对于ResNets,我们使用每个阶段最后残差块的特性激活输出。我们将这些最后剩余块的输出表示为conv2、conv3、conv4和conv5输出的,并注意它们对于输入图像的步长为{4、8、16、32}。我们没有将conv1包含到金字塔中,因为它占用了大量内存。
自上而下的通路和横向连接:自顶向下的路径通过从更高的金字塔层次向上采样空间更粗但语义更强的特征图,从而产生更高分辨率的特征。然后,通过横向连接,自底向上路径的特征增强了这些特征。每个横向连接从自底向上的通路和自顶向下的通路合并相同空间大小的特征图。自底向上的特征图具有较低层次的语义,但由于它的子采样次数较少,其激活的本地化程度较高。
图3显示了构建自顶向下特征映射的构建块。对于粗分辨率的特征图,我们将空间分辨率向上采样2倍(为了简单起见,使用最近邻向上采样)。然后将上采样的映射与相应的自底向上映射(该自底向上映射经过1×1卷积层以减少通道维数)通过元素的添加进行合并。此过程将迭代,直到生成最精确的分辨率映射。为了开始迭代,我们只需在上附加一个1×1的卷积层来生成最粗分辨率的map。最后,我们在每个合并后的特征图上追加一个3×3的卷积,生成最终的特征图,这是为了减小上采样的混叠效果。最后一组特征图称为,对应于空间大小相同的。
由于所有层次的金字塔都使用共享的分类器/回归器,就像传统的特征图像金字塔一样,我们在所有的特征图中固定了特征维数(通道数,记作)。我们在本文中设,因此所有额外的卷积层都有256通道输出。在这些额外的层中不存在非线性,我们从经验上发现它们的影响很小。
简单性是我们设计的核心,我们发现我们的模型对许多设计选择都是健壮的。我们已经用更复杂的块进行了实验(例如,使用多层残差块作为连接),并观察到稍好一些的结果。设计更好的连接模块并不是本文的重点,所以我们选择了上面描述的简单设计。
我们的方法是在深对流中构造特征金字塔的一种通用解决方案。下面我们采用RPN中生成边界框的方法和Fast R-CNN中生成目标检测的方法。
RPN是一个滑动窗口的类无关目标检测器。在原始的RPN设计中,在一个单尺度卷积特征图上,在密集的3×3滑动窗口上对一个小的子网络进行评估,执行目标/非目标二分类和边界盒回归。这是通过一个3×3卷积层和两个同级的1×1卷积进行分类和回归来实现的,我们称之为网络头。目标/非目标标准和边界框回归目标是根据一组称为锚的参考框定义的。锚具有多个预定义的尺度和纵横比,以覆盖不同形状的目标。
通过用FPN替换单尺度特征图来适应RPN。在特征金字塔的每一层上附加一个相同设计的头部(3×3 conv和两个同级的1×1 convs)。由于头部在所有金字塔层的所有位置上都密集地滑动,因此没有必要在特定的层上使用多尺度锚。相反,为每个级别分配单一比例的锚。在形式上,我们定义锚点在上分别具有像素的区域。我们也在每一层使用多个宽高比{1:2,1:1,2:1}的锚,金字塔上总共有15种锚。
我们根据锚点与Ground Truth边界框的相交-联合(IoU)比为锚点分配训练标签。如果一个锚点对一个给定的ground-truth框有最高的IoU,或者对任何ground-truth框有超过0.7的IoU,那么它就被赋予一个正标签;如果对所有ground-truth框有低于0.3的IoU,那么它就被赋予一个负标签。请注意,Ground Truth框的比例并没有显式地用于将它们分配到金字塔的级别;相反,Ground Truth框与锚相关联,锚被分配到金字塔级别。因此,除了Faster R-CNN中的规则外,我们不引入任何额外的规则。
我们注意到头部的参数在所有特征金字塔级别上是共享的;我们也评估了不共享参数的替代方案,并观察到类似的准确性。共享参数的良好性能表明,我们的金字塔的所有层共享相似的语义层。这一优点类似于使用一个非饱和的图像金字塔,其中一个通用的头部分类器可以应用于任何图像尺度计算的特征。
有了以上的适应性,RPN就可以像Faster R-CNN一样,通过我们的FPN进行自然的训练和测试。我们在实验中详细阐述了实现细节。
Fast R-CNN是一种基于区域的目标检测器,其中使用感兴趣区域(RoI)池来提取特征。Fast R-CNN通常在单尺度特征图上执行。要将其与FPN一起使用,我们需要将不同尺度的RoI分配到金字塔级别。
我们把我们的特征金字塔看作是由一个图像金字塔产生的。因此,当基于区域的检测器在图像金字塔上运行时,我们可以采用这种分配策略。在形式上,我们将宽度为,高度为(在网络输入图像上)的RoI分配到特征金字塔的级,方法为:
这里224是标准的ImageNet训练前大小,是将的RoI映射到的目标级别。类似于基于ResNet的Faster R-CNN系统使用作为单尺度特征图,我们将设置为4。表示如果RoI的比例变小(例如,224的1/2),则应该将其映射到一个更精细的分辨率级别(例如,)。
我们将预测头(在Fast R-CNN中,头是类特定的分类器和边界框回归器)附加到所有级别的RoI。同样的,不管它们的水平如何,头部都共享参数。ResNet的conv5层(9层深子网)作为conv4特征的头部,但我们的方法已经利用conv5构造了特征金字塔。因此,与ResNet不同的是,我们简单地采用RoI池来提取7×7个特征,并在最终的分类和边界框回归层之前附加两个隐藏的1024 -d全连通(fc)层(每个fc层后面跟着ReLU)。这些层是随机初始化的,因为ResNets中没有预先训练好的FC层。注意,与标准的conv5头相比,我们的2-FC MLP头重量更轻,速度更快。
基于这些适应性,我们可以在特征金字塔的顶部训练和测试Faster R-CNN。
在80类COCO检测数据集上进行了实验。我们使用80k个训练图像和一个35k个val图像子集(trainval35k)的组合进行训练,并报告一个5k个val图像子集(minival)的消融实验。还报告了没有公开标签的标准测试集(test-std)的最终结果。
与R-CNN方法一样,所有的网络骨架都是在ImageNet1k分类集上进行预训练,然后在检测数据集上进行微调。我们使用预训练的ResNet-50和ResNet-101模型,这些模型是公开可用的。
我们根据[21]中的定义评估coco风格的平均回忆(AR)和小、中、大目标(、和)上的AR。 我们报告结果为100和1000建议每图像(和)。
实现细节
表1中的所有架构都是端到端训练的。 将输入图像的大小调整为较短的一侧为800像素。 我们在8个gpu上采用同步SGD训练。 一个小批量涉及2图像每个GPU和256锚每图像。 我们使用的重量衰减为0.0001,动量为0.9。 第一个30k小批的学习速率是0.02,接下来的10k小批的学习速率是0.002。 对于所有的RPN实验(包括基线),我们包括用于训练的图像之外的锚框,这与[29]不同,在那里这些锚框被忽略。 其他实现细节如[29]所示。 训练RPN与FPN在8个GPU上需要大约8小时的COCO。
与baseline的比较:为了与原始的RPN进行公平地比较,我们使用C4或C5的单比例尺地图运行两个baseline(下表(a, b)),两者都使用与我们相同的超参数,包括使用}的5个比例尺锚。下表(b)没有显示出比(a)更好的性能,这表明一个更高级别的功能图是不够的,因为在更粗的分辨率和更强的语义之间存在权衡。
将FPN放入RPN后,提高到56.3(下表(c)),比单尺度RPN基线提高8.0个百分点(下表(a))。此外,在小对象(AR1ks)上的性能提高了12.9个百分点。我们的金字塔表示大大提高了RPN对目标尺度变化的鲁棒性。
横向连接有多重要?
表1(d)显示了我们没有自上而下路径的特征金字塔的结果。 通过这个修改,1×1横向连接和3×3卷积连接到自下而上的金字塔上。 这个体系结构模拟了重用金字塔结构的效果(图1(b))。
表1(d)的结果刚好与RPN基线相同,但远远落后于我们。 我们推测这是因为在自下而上的金字塔的不同层次之间有很大的语义差距(图1(b)),特别是对于非常深的ResNet。 我们还评估了表1(d)的一个变体,但没有共享头部的参数,但观察到类似的性能下降。 这个问题不能简单地由特定级别的主管来解决。
金字塔表示有多重要?
我们可以将头部连接到的高分辨率、强语义特征图(即,是金字塔中最高的一层)。与单尺度baseline类似,我们将所有锚点分配到特征图。这种变体(表1(f))比baseline好,但不如我们的方法。RPN是一种固定窗口大小的滑动窗口检测器,对金字塔级的扫描增强了其对尺度方差的鲁棒性。此外,我们注意到,单独使用会产生更多的锚点(750k,表1(f)),这是由于的空间分辨率较大造成的。这一结果表明,大量的锚点本身不足以提高精度。
接下来我们研究基于区域(非滑动窗口)检测器的FPN。我们使用COCO平均精度(AP)和PASCAL的AP(在单个IoU阈值为0.5)来评估目标检测器的性能。我们还根据COCO中的定义给出了关于小、中、大目标的COCO AP。
实现细节:输入图像调整大小,使其较短的一面有800像素。同步SGD用于在8个GPU上对模型进行训练。每个小批处理涉及每个GPU 2张图像和每个图像512 RoI。我们使用重量衰减率为0.0001,动量为0.9。前60k个小批的学习率为0.02,后20k为0.002。我们使用每幅图像2000 RoI进行训练,1000 RoI进行测试。在COCO数据集上用FPN训练Faster R-CNN大约需要10个小时。
为了更好地研究FPN单独对基于区域的检测器的影响,我们在一组固定的方案上对Fast R-CNN进行了消融实验。选择将RPN在FPN上计算得到的建议冻结(上表(c)),因为它对待检测器识别的小目标具有良好的性能。为简单起见,我们不共享功能之间的Faster R-CNN和RPN,除非指定。
作为一个基于ResNet的Faster R-CNN基线,在Resnet之后,我们采用输出大小为14×14的RoI池,将所有conv5层作为头部的隐藏层。下表(a)给出了AP为31.9。下表(b)是一个baseline,它利用了一个具有两个隐藏fc层的MLP网络头,类似于我们架构中的网络头。它的AP值为28.8,表明头部与表2(a)中的基线相比没有任何正交优势。
表2(c)显示了我们的FPN在Fast R-CNN中的结果。与下表(a)中的baseline相比,我们的方法提高了AP 2.0点,小目标AP 2.1点。与同样采用2fc头的基线相比(表2(b)),我们的方法提高了AP 5.1个点。这些比较表明,对于基于区域的目标检测器,我们的特征金字塔要优于单尺度特征。
表2(d)和(e)显示,删除自顶向下连接或删除横向连接会导致较差的结果,类似于我们在上述RPN小节中观察到的情况。值得注意的是,去掉自顶向下的连接(下表(d))显著降低了精度,这表明Faster R-CNN在高分辨率地图上使用低水平的特征。
在表2(f)中,我们对P2的单个最细尺度特征图采用Fast R-CNN。其结果(33.4 AP)略低于使用所有金字塔级别的结果(33.9 AP,下表(c))。我们认为,这是因为RoI池化是一种类似于扭曲的操作,对该特征图的大小不那么敏感。尽管这种变体的精度很高,但它是基于的RPN建议的,因此已经受益于金字塔表示。
在上面我们使用了一组固定的区域建议来研究检测器。但是在一个Faster R-CNN系统中,RPN和Faster R-CNN必须使用相同的网络骨干网才能实现功能共享。表3显示了我们的方法和两个基线之间的比较,所有RPN和Fast R-CNN使用一致的主干架构。 表3(a)显示了我们对[16]中描述的基线Faster R-CNN系统的复制。 在受控的设置下,我们的FPN(表3(c))比这个强大的基线好2.3点AP和3.8点AP@0.5。
注意,表3(a)和(b)是基线,比表3(*)中He等人提供的基线强得多。 我们发现以下实现有助于缩小差距:(i)、我们使用800像素的图像比例,而不是在[11,16]中的600像素;(ii)、我们对每张图像进行512 RoIs的训练,以加速收敛,而[11,16]中为64 RoIs;(iii)、我们在[16]中使用5个刻度锚,而不是4个(添加322); (iv)在测试时,我们使用1000建议每图像,而不是300在[16]。 因此,与表3(*)中He等人的ResNet-50 Faster R-CNN基线相比,我们的方法提高了AP 7.6个点,AP@0.5 9.6个点。
共享特征:在上面,为了简单起见,我们不分享RPN和Fast R-CNN之间的特征。 在表5中,我们根据[29]中描述的4步训练来评估共享特性。 与[29]类似,我们发现共享特性可以在很小的程度上提高准确性。 特性共享也减少了测试时间。
分享特征:在上面,为了简单起见,我们不共享RPN和Faster R-CNN之间的特性。在表5中,我们评估了遵循Faster R-CNN中描述的4步训练的共享特性。与Faster R-CNN类似,我们发现共享特性可以小幅提高准确性。特性共享还减少了测试时间。
运行时间:在功能共享的情况下,我们基于FPN的Faster R-CNN系统在单个NVIDIA M40 GPU上对ResNet-50的每张图像的推理时间为0.148秒,相比之下,对ResNet-101.6的推理时间为0.172秒,表3(a)中的单尺度ResNet-50基线运行时间为0.32秒。我们的方法引入了额外的层在FPN小额外成本,但有一个较轻的重量头。总的来说,我们的系统比基于ResNet的Faster R-CNN对应的更快。我们相信我们的方法的效率和简单性将有利于未来的研究和应用。
我们发现表5中的ResNet-101模型没有使用默认的学习速率计划进行足够的训练。因此,我们在训练Faster R-CNN步骤时,以每一个学习率增加2倍的小批量数量。在不共享功能的情况下,将minival上的AP增加到35.6。这个模型是我们提交给COCO检测排行榜的模型,如表4所示。由于时间有限,我们还没有评估它的功能共享版本,如表5所示,这应该会稍微好一些。
表4将我们的方法与COCO竞赛获胜者的单模型结果进行比较,包括2016年的冠军G-RMI和2015年的冠军Faster R-CNN+++。在没有添加额外功能的情况下,我们的单机产品已经超过了这些强大的、设计精良的竞争对手。在测试开发集上,我们的方法比现有的最佳结果提高了0.5个AP点(36.2 vs. 35.7)和3.4个AP点(59.1 vs. 55.7)。值得注意的是,我们的方法不依赖于图像金字塔,只使用单一的输入图像比例尺,但在小尺度目标上仍然有出色的AP。这只能通过以前方法的高分辨率图像输入来实现。
我们的方法是一个通用的金字塔表示,可以用于除目标检测以外的应用。 在本节中,我们使用FPNs来生成分割建议,遵循DeepMask/SharpMask框架。
对DeepMask/SharpMask进行图像裁剪训练,以预测实例分割和对象/非对象评分。 在推理时,这些模型以卷积方式运行,以在图像中生成密集的建议。 为了在多个尺度上生成分割,图像金字塔是必要的。
它很容易适应FPN生成掩码建议。 我们使用一个完全卷积的设置来进行训练和推理。 我们像第5.1节一样构建特征金字塔,并设置。 在特征金字塔的每一层的顶部,我们应用一个小的5×5 MLP以完全卷积的方式预测14×14掩码和目标得分,如图4所示。 此外,在[27,28]的图像金字塔中使用每个八度的2个尺度,我们使用输入大小为7×7的第二个MLP来处理半八度。 这两个MLP在RPN中扮演着类似的锚点角色。 该体系结构是端到端训练的; 完整的实施细节在附录中给出。
结果如表6所示。 我们在小、中、大目标上报告分段AR和分段AR,总是为1000个建议。 我们的基线FPN模型使用一个5×5 MLP实现了43.4的AR。 切换到一个稍微大一点的7×7 MLP,精确度基本不变。 同时使用两个MLP将精度提高到45.7 AR。将掩码输出大小从14×14增加到28×28增加AR另一点(更大的尺寸开始降低精度)。 最后,加倍训练迭代将AR增加到48.1。
我们还报告了与DeepMask、SharpMask和InstanceFCN的比较,这些都是先前在掩码建议生成方面最先进的方法。 我们比这些方法的准确性提高了8.3点AR。
特别是,我们在小物体上的准确性几乎翻了一倍。 现有的掩模建议方法[27,28,4]是基于密集采样的图像金字塔(例如,在[27,28]中缩放),这使得它们的计算成本很高。 我们基于FPN的方法要快得多(我们的模型以6到7 FPS运行)。 这些结果表明,我们的模型是一个通用的特征提取器,可以代替图像金字塔来解决其他多尺度检测问题。
我们提出了一个简洁的框架,用于在对卷积网络内构建特征金字塔。我们的方法在几个强大baseline和竞争对手上显示了显著的改进。为特征金字塔的研究和应用提供了一种实用的解决方案,不需要计算图像金字塔。最后,我们的研究表明,尽管深对卷积网络具有强大的表示能力和对尺度变化的隐式鲁棒性,但使用金字塔表示显式地解决多尺度问题仍然是至关重要的。