知识蒸馏2:目标检测中的知识蒸馏 - 码农知识堂 - 文章详情页

知识蒸馏2:目标检测中的知识蒸馏
1. 目标检测知识蒸馏介绍

 1. Faster-RCNN 知识蒸馏

 1.1 原理介绍

本博客介绍目标检测任务中知识蒸馏如何操作，首先介绍下相关的论文。
第一篇：Learning Efficient Object Detection Models with Knowledge Distillation

这篇文章是针对Faster -RCNN进行知识蒸馏的方法，
- Faster RCNN是一个两阶段的目标检测算法，包括region proposal network(RPN) 和region classification network (RCN) ,这两阶段都用到了classifier和bounding-box regressor,论文使用教师网络RPN和RCN的输出作为蒸馏的目标，并应用了中间层的输出作为提示Hint
- 图中，上半部分是教师网络，网络中间层的输出叫做Hint知道学生网络中间层输出的学习，中间层一般是feature map。我们希望student也学习到中简层特征的输出。让二者也有某种近视，这种层通过L2 Loss。
- 对于检测部分Detection，包括classification和regression输出，对于这两部分的预测输出，通过教师网络的输出指导学生网络的学习，同时学生网络也可以从ground truth中的硬标签中进行学习。
1.2 损失函数

对于Faster RCNN中的RCN 和RPN部分都有分类损失和回归损失，然后通过RPN ,RCN,Hint的Loss三者加权求和
- 对于 $L_{cls}$ 结合了与ground truth之间的hard softmax loss 以及与soft label之间的蒸馏损失。 $L_{reg}$ 也结合了ground truth之间的smooth L1 loss和教师网络的bounded L2 regression loss的蒸馏损失。 $L_{hint}$ 鼓励学生网络到教师网络的特征响应。公式中的 $r$ 是平衡不同损失的超参。
1.2.1 分类损失：类别不平衡
- 其中 $P_t$ 为教师网络通过升温T后的预测输出， $P_s$ 为学生网络通过升温T后的预测输出， $x$ 输入数据， $y$ 为标签数据，分类损失的构建如下：
  
  在 $L_{hard}$ 和 $L_{soft}$ 两者之间通过超参 $u$ 进行平衡.
- 在 $L_{soft}$ 中作者考虑了类别不平衡，在Faster RCNN这种两阶段的模型有大量的bcakground类别，而foreground类别相对很少。因此论文作者对bcakground施加了较大权重 $w_{0}=1.5$ ,其他类别 $w_{i}=1$
1.2.2 回归损失
- 对于回归损失作者利用了 $L_1$ 和 $L_b$ 损失，使用的smooth L1 loss , $L_1$ 是学生网络和真实标签之间的损失； $L_b$ 是学生网络，教师网络，预测标签之间的损失。
- 对于 $L_b$ 损失,主要是个L2 Loss, 但这里考虑了一个条件 $R_s-y||_2^2+m >||R_t-y||_2^2$ ,就是说学生网络与ground truth的误差要比教师网络的误差打一个margin。这样设计损失的目的是鼓励学生网络在学习回归的时候接近或者比教师网络要好，但是一旦达到教师网络的性能之后，就不在要求学生网络再进一步学习。
1.2.3 Hint Loss
- Hint 是中间层特征的学习， Hint Loss是一个V和Z的L2 损失，V是学生网络中间层的特征输出，Z是教师网络中间层的特征输出。作者对L1 Loss和L2 Loss都进行了实验。
- 注意：教师网络和学生网络输出的维度并不一定相同，因此通过一个自适应层去调节网络的输出，比如1x1卷积
2. YOLO 知识蒸馏

论文：Object detection at 200 Frames Per Second,这篇论文研究对于YOLO目标检测知识蒸馏的方法

 2. 1 介绍
- yolo是单阶段目标检测算法，上面是Tiny-YOLO作为教师网络，下面是Yolo作为教师网络，原理和上面的Faster RCNN知识蒸馏比较相似，但它没有中间层的学习。
2. 2 损失函数
- 损失函数包括3部分： $f_{obj}$ 目标置信度得分， $f_{obj}$ 分类以及 $f_{bb}$ 回归的损失函数。
- 对每部分的损失函数考虑了distillation loss ,同时考虑了object scaled，即蒸馏损失和hard 损失之间的加权。详见：知识蒸馏1：基础原理讲解及项目实战介绍
相关阅读:
JVM虚拟机：CMS垃圾回收器的日志分析
 视频集中存储/云存储/磁盘阵列EasyCVR平台分组批量绑定/取消设备功能详解
 3-falsk-登录认证装饰器、类装饰器、flask的配置使用方式、flask的内置配置、flask的路由系统、 CBV(基于类的视图)
神经网络编译器TVM
Java8新特性
 预测市场赛道新机遇：Moonquiz生态基于FIFA WORLD CUP推出首个预测应用
 MIL图像处理那些事:直角坐标和极坐标间变换MimPolarTransform
力控软件与2台200Smart之间无线以太网通信
 x-cmd ai | x openai - 用于发送 openai API 请求，以及与 ChatGPT 对话
 vue自定义指令来控制按钮权限
原文地址：https://blog.csdn.net/weixin_38346042/article/details/126069809