论文地址:https://arxiv.org/abs/1311.2524
R-CNN(Region with CNN feature)
4个步骤:
1k~2k个候选区域(使用Selective Search方法)
非极大抑制
4个值:中心点的xy坐标、w和h的缩放因子。
论文地址:https://arxiv.org/abs/1504.08083
3个步骤:
正样本和负样本
ROI Pooling缩放到统一的尺寸(7×7)
这样就不用限制图像的尺寸。
并联两个全连接层:一个用于目标概率预测(分类器),一个用于边界框预测(边界框回归器)。
回顾:
见https://blog.csdn.net/qq_43406895/article/details/126361642
假设真实标签的one-hot编码是:[0,0,…1,…,0]
预测的softmax概率为[0.1,0.3,…,0.4,…,0.1]
那么Loss=-log(0.4)
x、y、w、h
回归损失函数1:L1 loss, L2 loss以及Smooth L1 Loss的对比
[u>=1]表示当u>=1时值为1,否则为0。
计算速度瓶颈在于 Selective Search 算法。
论文地址:https://arxiv.org/abs/1506.01497
回顾,Fast R-CNN
Faster R-CNN(RPN + Fast R-CNN):3个步骤
cls layer 中的 2k scores 中的 2 分别对应 前景和背景 的概率。
intermediate layer的256-d对应ZF的256,如果使用VGG16的话会变成512-d。
回顾:感受野的计算方式
F(i)=(F(i+1)-1)×Stride+Ksize
分类损失
2k。多类别的交叉熵损失。
k。二分类的交叉熵损失。
边界框回归损失