• 基于YOLOv5的车牌识别系统(YOLOv5+LPRNet)


    YOLOv5网络结构图

    YOLOv5s的网络结构如图1所示,该结构分为四个部分输入端、Backbone(主干网络)、Neck网络和Prediction(输出端)。

    各部分具有的主要功能结构如下:

    输入端:Mosaic数据增强、自适应锚框计算,以及自适应图片缩放。

    主干网络:Focus结构、CSP结构。

    Neck网络:FPN+PAN结构。

    输出端:GIOU_Loss。

    输入端

    (1) Mosaic数据增强

    输入端使用的数据增强方式是Mosaic方式,对数据集合采取随机缩放、随机剪裁、随机排布。

    主要有两个优点:

    第一,提高了数据集的复杂度:对多张图片,进行随机的缩放以及剪裁,之后再随机分布,进行拼接,使数据集得到极大地丰富,特别是进行随机缩放操作,可以增加许多小目标,训练得到的模型,鲁棒性会更好;

    第二,减少 GPU 内存使用:使得 Mini-batch 也就是一个批次从数据集读取进行训练的图片张数,不需要设置的很大,因此,训练时使用一个GPU也能达到比较好的训练效果。

    (2) 自适应锚框计算

    YOLO系列检测算法中,针对不同目标,都会初始设定好默认长宽的锚框,进行训练时,在初始设定好的锚框基础上,输出一个预测框,将标注的真实框和预测框做对比,并且计算它们的差距,之后再反向更新,迭代网络结构中的参数。在 YOLOv3、YOLOv4中,训练不同的数据集时,计算初始锚框的值是通过单独的程序运行的,但在YOLOv5中将此功能嵌入到算法结构中,每次训练时,自适应的计算不同训练集中的最佳锚框值。

    (3) 自适应图片缩放

    在目标检测算法中,针对数据集中图片长宽一般不相同的问题,经常是将原始图片先缩放成一个统一的标准尺寸,全部处理后,再送入检测网络中,将长宽800*600的图像进行缩放,使用黑色背景来填充,填充后会出现大区域的黑边。在项目实际使用时,图片的长宽比几乎都不相同,因此缩放填充后,黑边大小都不同,如果填充的比较多,则存在信息冗余,影响网络推理速度。

    因此,在最新的 YOLOv5 算法中进行了改进,这也是 YOLOv5算法推理速度能够变快的一个方面。该算法对原始图像进行缩放操作时,可以根据图片尺寸,自适应的添加最少黑边,图像的黑边明显变少了,这样处理后,在推理时,计算量也会得到减少,从而使得网络的目标检测速度会得到提高。

    通过这种自适应缩放的优化改进,YOLOv5的推理速度得到了提升,把长宽 800*600 的图像缩放填充为 416*416 尺寸的图像为例,介绍自适应图片缩放的三步:

    第一步,计算长宽的缩放比例,将原始图像尺寸 800*600,分别除以缩放后的尺寸 416*416,可以计算出长边的缩放系数为0.52,宽边的缩放系数为0.69。

    第二步,选择较小的缩放系数 0.52,将原始图像的长宽都乘以0.52,计算出此时的长边是416,宽边是312。

    第三步,计算需要填充的黑色区域,宽边312和需要缩放到的 416相差104,差值除以 2,就得到了两端需要填充的黑色区域的高度。

    主干网络

       (1) Focus结构

    Focus结构中关键的是切片操作,切片操作演示过程,将4×4×3的特征图经过切片处理,变成2×2×12的特征图。将608×608×3 的三通道图像输进 Focus 结构,经过切片操作,先变成304×304×12 的特征图,之后,经过使用 32 个卷积核的卷积操作,最终变成 304×304×32 的特征图。需要注意的是,YOLOv5s网络结构中的 Focus 结构使用32个卷积核,进行卷积操作,而其他三种网络结构,使用的卷积核数量有所增加。

    (2) CSP结构

    YOLOv5中有两种结构的CSP,CSP1_X结构在Backbone主干网络中,另一种CSP2_X结构在Neck中。对于Backbone的主

    干网络结构,CSP 模块中的卷积核大小都是 3*3,步进值为 2,假如输入的图像尺寸是 608*608,那么它的特征图变化的规律

    是:608*608 -> 304*304 -> 152*152 -> 76*76 -> 38*38 -> 19*19,最终得到了一个19*19大小的特征图。

    使用CSP模块的优点:

    一是增强网络的学习能力,使得训练出的模型,既能保持轻量化,又能有较高的准确性。

    二是降低计算瓶颈。

    三是降低内存成本。

     Neck网络

    (1) FPN+PAN

    FPN 是自顶向下的,通过上采样操作,将高层的特征信息和低层特征进行融合,计算出预测的特征图。YOLOv5网络结构中在FPN层后面,还添加了一个特征金字塔,自下向上,其中有两个PAN 结构,通过下采样操作,将低层的特征信息和高层特征进行融合,输出预测的特征图。

    优点:通过自顶向下的FPN层,传达强语义特征,而通过自底向上的特征金字塔,传达强定位特征,从不同的主干层,对不同的检测层,进行参数聚合。

    输出端

    (1) GIOU_Loss损失函数

    目标检测算法的损失函数一般由 Classification Loss(分类损失函数)以及 Bounding Box Regression Loss(回归损失函数)两大部分组成。回归损失函数在近几年的发展过程是:

    Smooth L1 Loss -> IOU _Loss(2016)-> GIOU_Loss(2019)-> DIOU_Loss(2020)-> CIOU_Loss(2020)。

    假设预测框和真实框的交集为A,并集为B,IOU定义为交集A除以并集B,IOU的Loss为:

    IOU_Loss = 1-IOU=1-AB      (1)

    IOU的Loss比较简单,但存在两个问题。

    问题1:预测框和真实框不相交的情况,此时 IOU 为 0,无法反应出预测框和真实框距离的远近,此时损失函数不能求导,IOU_Loss损失函数无法优化预测框和真实框不相交的情况。

    问题 2:当预测框和真实框大小相同,IOU 也可能会相同,此时 IOU_Loss 损失函数也不能区分这两种情况的不同。

    因此使用GIOU_Loss来进行改进。令预测框和真实框的最小外接矩形为集合C,差集定义为集合C和并集B的差,则GIOU_Loss为:

    GIOU_Loss=1-GIOU=1-(IOU-|差集||C |)  (2)

    GIOU_Loss损失函数提高了衡量相交尺度的方式,减少了单纯IOU_Loss时的不足。

     YOLOv5网络结构分析

    YOLOv5的4种网络结构YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x内容基本一样,只在深度和宽度上不同,通过depth_multiple 和 width_multiple 两个参数来进行控制,其中前者控制网络深度,后者控制网络宽度。现在分析4 种网络结构的差异。

    网络结构深度

    YOLOv5 网络结构中有两种CSP结构,分别是CSP1和CSP2,其中CSP1结构存在于Backbone主干网络中,CSP2结构存在于Neck网络中,四种网络中每个CSP结构的深度都是不同的。

    图5 YOLOv5四种网络的CSP结构

    以 YOLOv5s为例,第一个CSP1中,使用了1个残差组件,因此是CSP1_1,在YOLOv5m中,增加了网络的深度,在第一个CSP1中,使用了2个残差组件,因此是CSP1_2,YOLOv5l中,同样的位置,则使用了3个残差组件,YOLOv5x中,使用了4个,其余CSP也是同样的原理,使用残差组件的个数如图5所示。

    在CSP2结构中,以第一个CSP2结构为例,YOLOv5s中使用了1组2*1等于2的卷积,因此是 CSP2_1,而YOLOv5m中使用了2 组,YOLOv5l中使用了3组,YOLOv5x中使用了4组,其他的四个CSP2结构,同理。YOLOv5的四种网络结构,随着不断加深网络层数,网络的特征提取能力以及特征融合能力也不断提高。
     

    1,实现流程

    1. 训练车牌识别数据集  ,得到.pt文件
    2. 定义detect函数来执行目标检测和车牌识别的操作。
    3. 初始化一些设置,包括设备选择、输出文件夹、模型加载等。
    4. 根据输入来源(摄像头或图像/视频文件)设置数据加载器。
    5. 获取目标类别名称和颜色信息。
    6. 遍历数据集中的每个图像或帧,并执行目标检测。
    7. 应用非极大值抑制(NMS)来移除重叠的边界框。
    8. 如果启用车牌识别,应用LPRNet模型来识别车牌号。
    9. 处理检测结果,包括绘制边界框和标签。
    10. 如果需要,将结果保存到图像或视频文件中。

    1.1 LPRNet模型介绍

    LPRNet(License Plate Recognition Network)是一个专门用于车牌号码识别的深度学习模型。它的主要目标是从图像中准确地提取和识别车牌上的字符和数字。车牌号码识别是计算机视觉中的一个重要应用,通常用于自动化停车场管理、交通监控系统、道路收费、安全监控等领域。

    LPRNet通常是一个端到端的神经网络,它接受输入图像,并通过一系列卷积神经网络层和循环神经网络(RNN)层来实现字符识别。该模型的主要组成部分包括:

    1. 卷积神经网络(CNN):用于特征提取。这些层帮助模型从车牌图像中学习重要的特征,例如字符的形状和纹理。

    2. 循环神经网络(RNN):RNN通常用于处理字符序列,因为车牌号码是一个字符序列。RNN层能够捕捉字符之间的依赖关系和顺序。

    3. CTC 损失函数(Connectionist Temporal Classification):用于训练模型。CTC损失函数有助于将模型的输出与标签对齐,从而实现字符识别。

    LPRNet的训练通常涉及大规模的车牌数据集,其中包含各种不同地区和国家的车牌号码样本。模型通过反向传播算法进行训练,逐渐提高其在字符识别任务上的性能。

    一旦训练完成,LPRNet可以用于实时车牌识别应用,它可以自动识别和提取图像中的车牌号码,为各种应用提供了高效的解决方案。

    1.2 检测代码展示

    1. 先进行图片中车牌的识别定位
    2. LPRNet进行从图像中准确地提取和识别车牌上的字符和数字

    1.3主函数展示

    进行检测函数调用,以及pyqt界面设计

    2,效果展示

  • 相关阅读:
    治愈系书单|林曦《只生欢喜不生愁》
    uniapp cli化一键游项目启动报错总结
    外观模式:简化复杂系统
    Ubuntu 20.04 下编译 Lego Loam 踩过的一些坑
    算法系列九:十大经典排序算法之——快速排序
    马斯克搞脑机得“开瓢”?MIT 早在研究「挂耳式耳机」,戴上=“把整个互联网装进脑子”!...
    POSIX与System v消息队列
    【毕业设计】 基于java+SSH+JSP的保险业务管理系统设计与实现(毕业论文+程序源码)——保险业务管理系统
    使用BENCHMARKSQL工具对KingbaseES预热数据时执行:select sys_prewarm(‘NDX_OORDER_2 ‘)报错
    微软宣布 S2C2F 已被 OpenSSF 采用
  • 原文地址:https://blog.csdn.net/qq_53545309/article/details/133809242