IoU、GIoU、DIoU、CIoU、EIoU

文章目录

1. IoU (Intersection over Union)
2. GIoU (Generalized IoU)
3. DIoU(Distance-IoU)
4. CIoU(Complete-IoU)
5. EIoU(Efficient-IoU)
6. α IoU

1. IoU (Intersection over Union)

在这里插入图片描述
另一种IoU损失计算：L_IoU = 1 - IoU

优点
1. IoU具有尺度不变性
2. 结果非负，且范围是(0, 1)
缺点
1. 如果两个对象不重叠，则IoU值将为零，并且将不反映两个形状彼此相距多远。在非重叠对象的这种情况下，如果IoU被用作损失，则其梯度将为零并且不能被优化。

2. GIoU (Generalized IoU)

为了解决IoU Loss在不重叠的边界框的情况下进行优化不可行的情况，有人提出了GIoU
在这里插入图片描述

A^C代表是两个框的最小外接矩形的面积。
$u$ 代表两个边界框的并集

举两个极端的例子，当IoU为1时，也就是两个框完全重合时，GIoU = IoU - 0 = IoU
当两个边界框相距无穷远的时候，A^c是无穷大的，GIoU = IoU - 1

在这里插入图片描述

优点
1. 当IoU=时，仍然可以很好的表示两个框的距离
2. GIoU不仅关注重叠区域，还关注其他的非重合区域，能够更好的反应两者的重叠度
缺点
1. 当两个框属于包含关系，或者在同一方向重合时会退化成IoU
2. 收敛较慢，由于严重依赖IoU项，GIoU经验上需要更多迭代来收敛。

3. DIoU(Distance-IoU)

为了解决IoU和GIoU收敛速度慢和回归不准确的问题提出了DIoU。通过合并预测框和目标框之间的归一化距离来实现，它在训练中的收敛速度比IoU和GIoU损失快得多。

在这里插入图片描述
b是预测框的中心点，b^gt是真实框的中心点， ρ(g,g^t) 代表两点的距离，C是覆盖两个框的最小矩形的对角线长度。

同样举两个极端的例子，当两个框重合的时候给ρ(b,b^gt)=0, DIoU=IoU=1
当两个框无穷远的时候，DIoU= 0 - 1 = -1
在这里插入图片描述

优点
1. DIoU loss可以直接最小化两个目标框的距离，因此比GIoU loss收敛快的多
2. DIoU可以替换溥侗的IoU评价策略，应用于NMS中，使得NMS得到的结果更加合理和有效
缺点
1. 虽然DIOU能够直接最小化预测框和真实框的中心点距离加速收敛，但是Bounding box的回归还有一个重要的因素纵横比暂未考虑。如下图，三个红框的面积相同，但是长宽比不一样，红框与绿框中心点重合，这时三种情况的DIoU相同，证明DIoU不能很好的区分这种情况。

4. CIoU(Complete-IoU)

IoU和DIoU来自同一篇论文，作者认为一个好的边界框回归损失应该考虑三个重要的几何因素，即重叠面积、中心点距离和宽高比。DIoU损失是同时考虑包围盒的重叠面积和中心点距离，但没有考虑包围框的纵横比，因此CIoU在DIOU的基础上，考虑边界框宽高比的尺度信息
在这里插入图片描述

在这里插入图片描述

优点
考虑了框的纵横比，可以解决DIoU的问题
缺点
1. 如果预测框和gt框的长宽比是相同的，那么长宽比的惩罚项恒为0，不合理
2. 观察CIoU中w, h相对于v的梯度，发现这两个梯度是一对相反数，也就是说，w和h不能同时增大或减小，这显然也不够合理的。

5. EIoU(Efficient-IoU)

EIoU是在CIoU的惩罚项基础上将预测和真实框的纵横比的影响因子拆开，分别计算预测框和真实框的长和宽，来解决CIoU存在的问题。

该损失函数包含三个部分：重叠损失、中心距离损失、宽高损失，前两部分延续CIoU中的方法，但是宽高损失直接使目标框与预测框的宽度和高度之差最小，使得收敛速度更快。

在这里插入图片描述

在这里插入图片描述
w^c和h^c是覆盖两个框的最小外接矩形框的宽度和高度。

优点
1. 将纵横比的损失项拆分成预测的宽高分别与最小外接框宽高的差值，加速了收敛，提高了回归精度
2. CIOU loss= IOUloss+中心点损失+长宽比例损失、EIOU loss =IOUloss+中心点损失+宽损失+长损失，将预测和真实框的纵横比的影响因子拆开了。

6. α IoU

作者将现有的基于IoU Loss推广到一个新的IoU系列，该系列具有一个Power IoU项和一个附件的Power正则项，具有单个Power参数α。
通过调节α，是检测器在不同水平的BBox回归精度方面具有更大的灵活性。并且α IoU对小数据集和噪声的鲁棒性更强。
在这里插入图片描述

经过实验发现α=3，性能最好。

相关阅读:
基于springboot实现在线小说阅读平台系统【项目源码】计算机毕业设计
excel 65536
解决rosbag播放‘[FATAL] [1662351033.122111074]: Expected INDEX_DATA record‘
商业智能BI业务分析思维：供应链分析 – 如何控制牛鞭效应（二）
5G投资下降，遥遥领先的主流5G或被运营商抛弃，“假5G”更获青睐
帆软列表自动滚动脚本
“客户端到服务器的数据传递”和“服务器上的数据传递”这两种数据传递的方式的区别
PIL中的P模式、P模式转为L模式
智能驾驶功能软件平台设计规范第三部分：预测功能服务接口
价值1000元的稀有二开版的无限坐席在线客服系统源码+教程

原文地址：https://blog.csdn.net/m0_50127633/article/details/133465142