思路
论文参考:You only look once unified real-time object detection
- 输入图片 resize 4484483
- 将图片分成7*7 的网格
- 经过Googlenet 提取图片特征
- 经过全联接层
- 最后输出7730(每个网格预测5520个类别的概率)
- 进行非极大值抑制
细节
confidences 计算
c=Pr(Object)∗IOU pred-truth
Pr(Object)表示当前格子包含目标的概率,如果检测到另一个物体的confidences 很大, 则另一个设置为0,