前言
本文为8月31日目标检测学习笔记,分为七个章节:
- Faster-RCNN;
- SPPNet(Spatial Pyramid Pooling);
- Fast-RCNN;
- HyperNet;
- RFCN;
- Light-Head RCNN;
- Cascade RCNN。
1、原理
2、步骤
-
训练分类网络(AlexNet);
-
Fine-tuning:
-
特征提取:
-
训练 SVM 分类器,每个类别对应一个 SVM;
-
回归器精修候选框位置,利用线性回归模型判定框的准确度。
3、RoI Pooling
将 proposal 抠出来,然后 resize 到统一的大小:
- 根据输入的 image,将 RoI 映射到 featrue map 对应的位置;
- 将映射后的区域划分为相同大小的 sections;
- 对每个 section 进行 max pooling。
4、网络结构
- 主干网络:13con + 13relu + 4pooling;
- RPN:3×3 + 背景前景区分 + 初步定位;
- RoI Pooling;
- 分类+位置精确定位。
二、SPPNet(Spatial Pyramid Pooling)
三、Fast-RCNN
结合 SSPNet 改进 RCNN:
多任务网络同时解决分类和位置回归:
四、HyperNet
Faster-RCNN 变种。
五、RFCN
- VGG16 ⇒ ResNet;
- 通过 position sensitive score map 把目标的位置信息融合进 RoI pooling;
- 耗时的卷积尽量移到前面共享的 subnetwork 上。
六、Light-Head RCNN
- Thinner feature map:score map 维度 ⇒ 10×p×p = 490;
- 将 k×k 的卷积 转化为 1×k 和 k×1;
- 最后通过两个 fc 层实现分类和回归。
七、Cascade RCNN
只有 proposal 自身的阈值和训练器所用的阈值较为接近的时候,训练器的性能最好。