在目前的研究中,基本都是采用特征融合的方式,即将浅层特征图和深层特征图做一个特征融合。主要原因就是浅层的特征图对于物体有更好的位置信息,而深层的特征图对于物体有更强的语义信息。
下面就针对我近期读的论文来梳理一下目前研究的现状。
《Small Object Detection using Context and Attention》
这篇文章主要贡献就是将上下文信息和注意力结合起来。这篇文章的作者认为由于分辨率低,像素有限,小目标检测很困难。例如,通过只看下图上的目标,人类甚至很难识别这些物体。然而,通过考虑到它位于天空中的背景,这个物体可以被识别为鸟类。因此,作者认为,解决这个问题的关键取决于如何将上下文作为额外信息来帮助检测小目标。框架如下图所示:
首先,SSD与特征融合,以获取上下文信息,名为F-SSD;然后A-SSD就添加了注意力模块,最后一幅图就是把他两结合了起来。
对于他上下文信息的具体做法是将目标层和他更高层次的特征图融合。如下图所示:
接下来就是《Augumentation for small object detetction》
这篇文章的主要思想就是对小目标样本进行过采样,然后对样本里的小目标进行复制粘贴,以此来提供足够的小目标来和anchor进行匹配,以此实现提高小目标检测的性能。
作者提出了三种复制粘贴小目标的方式:
接下来是《D-SSD》这篇文章
先把他的模型图贴出来,他的主要思想看模型图一看就能看明白
上一半是普通的SSD网络模型,下一半是加入了反卷积后的网络。主要做法就是将深层特征图进行反卷积后得到原来特征图的大小,之后将他们两个进行特征融合,但是这里特征融合的方法是进行对应位置的点乘。
最后一篇是《R-SSD》,它的主要思想如下图所示
这是一种新的特征融合方式,a图是将浅层特征图先做pooling,和下一层的特征图一样大,然后做concate,然后递归做下去,从左至右。而b图则是从最小的1*1的紫色future map往左做concate,因为deconvolution是升维,所以顺序是从右到左。作者认为前两种特征融合的方式的缺点在于信息的传递都是单向的,这样分类网络就没法利用其他方向的信息,因此有了c,同时从左至右和从右至左。细节是在做concate之前都会对feature map做一个normalization操作,因为不同层的featur额map的scale是不同的。
现阶段对于小目标检测,无非就是像金字塔类型的特征融合,只不过特征融合的方法有很多种,但是都是浅层和深层的进行融合。再然后就是结合上下文信息,这个也有很多不同的实现方法,比如几个连续的特征层融合,特征图平均池化。。。之后就是生成对抗网络,这是一种可以增加图片分辨率的一种方法。我个人的创新点在于如何消除背景对于小目标的噪声。初始做法是看做一个二值化能不能消除掉背景,将所要检测的目标更突出,,但是还没有试验,效果等待检验