使用单尺寸图像做训练和测试,所有的图像全部resize到了600(短边,并保持纵横比),论文中提到不使用金字塔的image图像来使用多尺度训练的原因是,多尺度训练会增加训练时间,再说原理中提到,faster rcnn中引入的anchor就已经引入了多尺度训练的逻辑。所以也不需要再使用多尺度的图像进行训练了。Multi-scale feature extraction (using an image pyramid) may improve accuracy but does not exhibit a good speed-accuracy trade-off。
之前那一篇,提到了对于训练过程中筛选了anchor的过程。论文中重点提到了超出边界的anchor的问题。因为RPN中的3 * 3卷积核的感受野是针对全图像了,自然有很多anchor会超出。如果这些anchor进入训练过程的话,会导致训练不收敛的问题。If the boundary-crossing outliers are not ignored in training, they introduce large, difficult to correct error terms in the objective, and training does not converge.
所以,基于上面两点,有些物体可能只有中间部分较为清晰,但是实际尺寸较大的情况下,也是可能被识别到的,因为anchor就有那么大的尺寸和几种纵横比。Such predictions are not impossible—one may still roughly infer the extent of an object if only the middle of the object is visible.
论文中的下一个实验是想发现共享卷积层对于RPN的有效性。实验步骤就是将上一篇提到的4-step的训练过程,在RPN和Fast RCNN训练完成之后就不继续后面两步训练了,实际上就是不去共享两者的权重参数,在论文中是通过shared和unshared来区分。如果缺乏后两步训练过程,准确率会降低到58.7%,在下图中有列出来。论文中解释实际上这个共享卷积层权重参数的过程就是两个网络互相fine-tuning的过程,所以会对准确率有提升作用。We observe that this is because in the third step when the detector tuned features are used to fine-tune the RPN, the proposal quality is improved.
如果RPN在测试过程中生成的是300个候选框,准确率为56.8。比58.7要低是因为训练集和测试集不一样,这个正常。这个指标只是作为下面两个实验的基准值。The loss in mAP is because of the inconsistency between the training/testing proposals. This result serves as the baseline for the following comparisons.
首先是在test过程中,去掉了cls分支,也就是没有了score,那么由reg分支生成的anchor对应的9个框就没法做NMS和rank了,那么就随机挑选N个anchor作为候选框,经过回归调整后作为RPN的输出。从上图中可以看到,N从100开始一直到1000,mAP是上升的,但是到了1000再往上,就没有变化了。The mAP is nearly unchanged with N = 1000 (55.8%), but degrades considerably to 44.6% when N = 100. This shows that the cls scores account for the accuracy of the highest ranked proposals. 这里也能说明cls提供的score是有效的,因为有了score后做的筛选,才能以更少的anchor box达到较高的准确率。
在确认目标检测的正确率的时候说过,哪些proposal算成正例是和IoU强相关的(预测框与Ground Truth box的IoU)。如果交并比设置的太高,也就是正样本要和Ground Truth box非常相像才行。那么肯定会漏掉很多正例,所以recall率就会低。 实验对比了SS,EB和RPN三个方法,在使用300,1000,2000个候选框中的情况。
经过一些小改动(We conjecture that the reason for this gap is mainly due to the definition of the negative samples and also the changes of the mini-batch sizes),在COCO数据集上,Fast RCNN比之前的那片论文给出的结果要好一点,而且在0.05和0.95这两个IoU上区别不大。