现代分类架构,如 ResNet 或 Inception,自始至终都使用卷积层
最后一层没有全连接层
减少参数数量
通过空间池化获得特征向量
经典对象检测器使用两个阶段:
1、在图像中提出类不可知区域;2、将区域分类为对象类或背景
Examples: Faster R-CNN, R-FCN, Mask-RCNN
第一阶段:区域提议网络(RPN)
第二阶段:对区域进行分类/回归
基础网络:VGG16
在特征图上滑动一个小窗口
滑动窗口的位置提供参考图像的定位信息
框回归参考这个滑动窗口提供了更精细的定位信息
在每个位置使用多尺度/尺寸锚点:3 个比例和 3 个纵横比 (2:1, 1:1, 1:2) 产生 9 个锚点
每个anchor都有自己的预测功能
单尺度特征,多尺度预测
正负训练区域
空间池化层 (SP) 最大池化给定区域中的卷积特征响应
这可用于通过重用相同的卷积特征来提取许多特定于区域的特征向量。
改进:RoIAlign 操作(针对每个提案)
特定分类和回归
VGG16 在 ImageNet 上预训练
在 WIDER 人脸数据集上训练:12,880 张图像和 159,424 张人脸
区域内置于架构中(卷积层),即没有独立的 RPN
基于锚,例如 YOLO、SSD、RetinaNet、EfficientDet
基于点,例如 CornerNet , CenterNet , FCOS
特征金字塔网络 (FPN)
Focal Loss
复制和粘贴增强训练
无锚网络
目标检测器必须在广泛的范围内进行分类和定位
带有 FPN + 类特定锚点的骨干网(最终检测)
训练有焦点损失
将对象检测为配对关键点
避免需要许多锚点才能与真实检测重叠的问题
将对象检测为配对关键点
密集监督,相似分割
在特征金字塔中以适当的比例分配边界框