8月23日计算机视觉理论学习笔记——目标检测

系列文章目录

本文为8月23日计算机视觉理论学习笔记——目标检测，分为四个章节：

检测图片中所有物体的：

IoU = (A∩B) / (A∪B)
- 正样本（N 类）：跟 Ground-truth 重合 $\ge 0.5$ ；
- 负样本（1 类）： $I o U < 0.5$ 。
M：在图像上对 CNN 进行 pre-train；
M‘：在 SS 生成的所有区域上对 M 进行 fine-tune。
训练流程：
1. C：在 M’ 的Fc7 特征上训练线性 SVMs 分类器：
  - Hinge loss；
  - 每个类别（N 类）对应一个 SVM 分类器；
  - 正样本：所有 Ground-truth 区域；
  - 负样本：跟 Ground-truth 重合 $I o U < 0.3$ 的 SS 区域。
2. SVM 训练完成后，若完全分类正确，所有正样本的输出概率都大于 0.5，而所有负样本的输出概率都小于 0.5。但会有一部分的负样本的输出概率也大于 0.5，这些样本就称为“False Positives”。把这些 “False Positives” 收集起来，对 SVM 进行二次训练，可提升分类准确度。
3. R：在 M’ 的Fc7 特征上训练 Bounding box 回归模型：
  - 将 SS 提供的 Bounding box 做重新映射 $P \Rightarrow G$ ；
  - 训练输入：
    - 中心位置（x, y）： $P^i = (P_x^i, P_y^i, P_w^i, P_h^i)$ ；
    - 宽高尺寸（w, h）： $G^i = (G_x^i, G_y^i, G_w^i, G_h^i)$ ；
    - P 的 $I o U > 0.6$ 。

SPP 实现了：

RoI pooling 感兴趣区域池化：
- 将 RoI 区域的卷积特征拆分成 H×W 网格（7×7 for VGG）；
- 每个 Bin 内的所有特征进行 Max pooling。

Multi-task loss多任务损失函数：
- $t^u, \upsilon ) = L_{cls}(p, u) + \lambda [u \ge 1] L_{loc}(t^u, \upsilon )$ ；
- 分类器 Loss： $L_{cls}(p, u) = -logp_{u}$ ：
  - 每个 RoI 的概率分布： $p = (p_0, …, p_K)$ ；
- Bounding box 回归 L1 Loss： $L_{loc}(t^u, \upsilon ) = \sum_{i\in \{x, y, w, h\}}smooth_{L1}(t_i^u - \upsilon_i)$ ， $\begin{matrix} 0.5 x^{2} i f | x | < 1 \\ | x | - 0.5 o t h e r w i s e \end{matrix}$ ；
  - 每个 RoI 有 N个Loss；
  - 偏差目标： $\upsilon = (\upsilon_x, \upsilon_y, \upsilon_w, \upsilon_h)$ ；
  - 预测偏差： $t^u = (t^u_x, t^u_y, t^u_w, t^u_h)$ ；
  - 指示函数： $[u\ge 1]$ 。

相关阅读:
计算机毕业设计ssm趣评美食管理评论系统lrt3w系统+程序+源码+lw+远程部署
leetcode 2. 两数相加
How to capture Microsoft logs IE Activex issue
【Go电商实战03】如何使用ORM链式操作?如何优雅的实现软删除？
混合云运维解决方案，支持公有云、私有云、信创云等环境
谣言检测论文精读——3.Detect Rumor and Stance Jointly by Neural Multi-task Learning
三大电商平台（淘宝/京东/阿里巴巴）封装商品详情API接口附代码实例|参数解析
ArcGIS Pro SDK （四）框架 2
[机缘参悟-59]：《素书》-6-安于礼仪[安礼章第六]
rabbitMq 针对于当前监听的队列，来控制消费者并发数量，不影响其他队列，代码示例

原文地址：https://blog.csdn.net/Ashen_0nee/article/details/126480595