三种scale:
为了检测到不同大小的物体,设计了3个scale。
特征融合不好。
感受野大的特征图预测大的,中的预测中的,小的预测小的。各自预测各自的,不用做特征融合。
三个候选框:
每个特征图三个候选框。
怎么得到大中小的特征图?
不能单独拎出来,要两两进行联系,做一些特征融合。
这两不适合YOLO:
右图是YOLOV3的核心思想:
13×13做一个上采样(插值),变成26×26,跟中间的26×26进行融合。
26×26做一个上采样(插值),变成52×52,跟最前面52×52进行融合。
我们都知道,网络越深,效果越差。
采用残差连接,两种方案,效果更差的话,就把残差块学成0,使用一致性映射x。残差肯定不会原来的差。
V2中用聚类给预测5个,V3先分三类。
softmax不能做多标签的分类,V3做的也不是多标签的分类,而是对每一个类别进行二分类。如下:
判断是个猫的概率是0.8,是个狗的概率是0.2。。。。
设置一个阈值,比如是0.7,大于0.7的则属于这个类。