yolov2

改进点：主要集中在改进召回率和定位，同时保持分类精度

yolov2融合了大量想法，如下表所示：

批量归一化导致收敛的显着改善，而不需要其他形式的正则化。通过在YOLO中的所有卷积层上添加批量归一化，我们在mAP中获得超过2％的改进效果。批量规范化也有助于规范模型。使用批次标准化，我们可以从模型中去掉dropout，而不会过度拟合。

（2）高分辨率分类器

yolov1：先用224*224在ImageNet上训练分类器，然后再在448*448上训练检测器。

yolov2：先用224*224在ImageNet上训练分类器，再用448*448的分辨率在ImageNet上微调10个epoch，然后再在448*448上训练检测器。增加中间这一步可以使网络的filter适应高分辨率的输入。这种高分辨率分类网络使我们增加了近4％的mAP。

（3）Convolutional with Anchor Boxes

yolov1使用fc预测偏移量(x,y相对于ceil左上角的偏移量)。

yolov2使用conv层代替fc预测。

yolov2引入anchor box，预测Anchor Box的偏移值与置信度。

（4）Dimension Clusters

使用k-means聚类，以自动找到好的先验bbox。

我们真正想要的是好的iou得分，这个框的尺寸是不相关的。

使用距离公式：k=5

（5）Direct location prediction

RPN输出的tx,ty是是相对于anchor的左上角的偏移，这种方式没有任何限制，使得无论在什么位置进行预测，任何anchor boxes可以在图像中任意一点结束,模型随机初始化后，需要花很长一段时间才能稳定预测敏感的物体位置。xa,ya,wa,ha是anchor的坐标位置。

虽然和RPN都是用了anchor，但yolov2使用yolov1 的方式输出tx,ty-输出值是相对于ceil的。而tw,th是相对于anchor的。

bx,by表示最终预测的bbox的中心点的坐标(此处仍然是归一化的值。)

（6）Fine-Grained Features

细粒度特征，13*13的特征对于大目标预测是足够的，但是它仍可以从用于定位小目标的细粒度特征中获得好处。

只使用一个passthrough layer将26×26×512特征映射转换为13×13×2048。该特征与后面的特征concat在一起，尺寸是12*13*3072，最后再接一个conv层。

（7）多尺度训练

每迭代10个batch我们的网络随机选择一个新的图像尺寸大小。由于我们的模型以32的因子下采样，我们从以下32的倍数中抽取：{320,352，…，608}。因此，最小的选项是320×320，最大的是608×608.我们调整网络的大小，并继续训练。

（8）darknet19

darknet19有19个conv层，5个maxpool和1个avgpool。

darknet19用作检测训练时，去掉5conv层后面连接的一个conv层，并用3个conv替代。

并使用passthrough,passthrough的输出和这3个conv的输出concat后，连接一个conv层。

相关阅读:
成像雷达量产突破：木牛携手全球合作伙伴突破智驾瓶颈
ESP8266--Arduino开发（环境搭建）
Solon v2.2.1 发布。向 Graalvm Native 友好靠近
4WRBA6EB15-2X/G24N9Z4/M比例换向阀控制器
jupyter notebook进不去指定目录怎么办？
为什么Dapr是比SpringCloud和Istio更优雅的微服务框架？
用matlab做bp神经网络预测,神经网络预测matlab代码
uniapp vue3 静态图片引入
视频汇聚/视频云存储/视频监控管理平台EasyCVR启动时打印starting server:listen tcp，该如何解决？
ubuntu18.04下confluence7.4+mysql5.7.39安装教程

原文地址：https://blog.csdn.net/baidu_38262850/article/details/126450985