参考文献:《You Only Look Once: Unified, Real-Time Object Detection(2016)》
以前的目标检测是利用分类器来执行检测任务,而YOLO将目标检测看作关于边界框和相关类别的回归问题,直接从完整的图像上预测边界框和类别概率,可以实现端到端。推理速度45FPS 448×448,准确率63.4mAP。
✔️诞生背景
截至到目前(2016)的目标检测方法:(1)变形部件模型(DPM)这样的系统使用滑动窗口,在整张图上遍历各种位置各种大小;(2)RCNN使用区域提出(Region Proposal)方法,然后在提出区域上使用分类器。这两种方法流程复杂速度慢很难优化,因为每个单独的组件都必须单独进行训练。YOLO将目标检测重新看作单一回归问题,直接从图像像素到边界框坐标和类概率,速度非常快。
✔️网络结构
YOLOv1的网络结构如上图所示,包括24个卷积层和2个全连接层,卷积层提取图像特征全连接层预测输出坐标及类别,使用一个网络同时预测边界框和类别信息。输入448×448×3输出7×7×30,输出表示为grid_cell×grid_cell×