候选区域(Proposal Region):每个AiBj所代表的矩形框,也被称为感兴趣区域(Region of Interest,RoI)
SIFT、HOG
SVM、Adaboost
NMS:过滤框
Anchor-Based单阶段 | Anchor-Based两阶段 | Anchor-Free | |
---|---|---|---|
网络结构 | 简单 | 复杂 | 简单 |
精度 | 优 | 更优 | 较优 |
预测速度 | 快 | 稍慢 | 快 |
超参数 | 较多 | 多 | 相对少 |
扩展性 | 一般 | 一般 | 较好 |
RoI:Region of Interest
Region Proposal
RPN:Region Proposal Network
IoU:Intersaction over Union
mAP
TP:IoU>=阈值(如0.3)检测框数量
FP:IoU<阈值(如0.3)检测框数量
FN:没有检测到的GT数量
举例:
输入样本:某个类别10个框
预测结果:预测到8个框,6个正确,2个错误
Precision:6 / 8 = 0.75
Recall:6 / 10 = 0.6
P-R曲线:以Precision、Recall为纵、横坐标的曲线。
AP(Average Precision):某一类P-R曲线下的面积
mAP(mean Average Precision):所有类别AP平均
NMS:非极大值抑制,Non-Maximum Suppression
def nms(dets, thresh):
# boxes位置
x1 = dets[:, 0]
y1 = dets[:, 1]
x2 = dets[:, 2]
y2 = dets[:, 3]
# boxes scores
scores = dets[:, 4]
areas = (x2 - x1 + 1) * (y2 - y1 + 1) # 各box的面积
order = scores.argsort()[:: -1] # boxes按照score排序
keep = [] # 记录保留下的boxes
while order.size > 0;
i = order[0] # score最大的box对应的index
keep.append(i) # 将本轮score最大的box的index保留
# 计算剩余boxes与当前box的重叠程度IoU
xx1 = np.maximum(x1[i], x1[order[1:]])
yy1 = np.maximum(y1[i], y1[order[1:]])
xx2 = np.maximum(x2[i], x2[order[1:]])
yy2 = np.maximum(y2[i], y2[order[1:]])
w = np.maximum(0.0, xx2 - xx1 + 1)
h = np.maximum(0.0, yy2 - yy1 + 1)
inter = w * h
# IoU
ovr = inter / (area[i] + area[order[1: ]] - inter)
# 保留IoU小于设定阈值的boxes
inds = np.where(ovr <= thresh)[0]
order = order[inds + 1]
return keep
数据集 | 类别数 | train图片数,box数 | val图片数,box数 | boxes/Image |
---|---|---|---|---|
Pascal VOC-2012 | 20 | 5717,1.3万+ | 5823,1.3万+ | 2.4 |
COCO | 80 | 118287,4万+ | 5000,3.6万+ | 7.3 |
Object365 | 365 | 600k,9623k | 38k,479k | 16 |
OpenImages18 | 500 | 1643042,86万+ | 100000,69.6万+ | 7.0 |
https://github.com/rafaelpadilla/Object-Detection-Metics
https://github.com/PaddlePaddle/PaddleSlim