• MindSpore论文解读 | EPRNet:应用于实时街景分割的高效金字塔表征网络


    MindSpore作为一个端边云协同的的全场景AI开源框架(https://gitee.com/mindspore/),为开发者带来编程更简单、调试更轻松、性能更卓越、部署更灵活、使用更安全的体验,2020.3.28开源来得到数五十万以上的下载量,走入100+高校教学,拥有数量众多的开发者,在AI计算中心,云、CT、消费者1+8+N等端边云全场景逐步广泛引用,是Gitee指数最高的开源软件。欢迎大家参与开源贡献、模型众智合作、行业创新与应用、算法创新、学术合作、AI书籍合作等,贡献您在云侧、端侧、边侧以及安全领域的应用案例。

    基于MindSpore的AI顶会论文越来越多,我会不定期挑选一些优秀的论文来推送和解读,希望更多的产学研专家跟MindSpore合作,一起推动原创AI研究,MindSpore社区会持续支撑好AI原创和AI应用,本文是MindSpore AI顶会论文第二篇,我们选择了来自国内高校在期刊IEEE TITS的一篇论文进行解读,感谢华南理工大学刘老师团队投稿。

    研究背景

    研究方向:属计算机视觉领域,具体为基于深度卷积神经网络的图像语义分割或场景解析。

    研究背景:当前主流的场景解析方法均基于深度学习,以分割准确率为导向,模型通常较为复杂,表现在模型参数量大(千万数量级),计算复杂度高,推理效率低,依赖于专业的图形计算卡。故而,这类方法不适用于计算资源受限的移动端设备和嵌入式设备。本文聚焦于城市街道场景解析,通过设计轻量化的实时语义分割模型,在嵌入式终端(如自动驾驶汽车)上取得性能和效率的有效平衡。

    团队介绍:本研究依托于华南理工大学计算机科学与工程学院视听觉与服务计算团队,由广东省科技进步一等奖获得者、国务院特殊津贴专家刘发贵教授领衔。本团队近年来主要参与云计算操作系统,类脑智能计算等多项重大课题研究,并长期致力于推进校企合作,积极深化产学研结合,拥有丰硕的研究成果和扎实的技术沉淀。

    论文主要内容

    设计轻量化模型的目标决定了网络不可能做得很“深”,既有实时场景解析方法通常采用“小”图像分类模型作为骨干网络,这些方法一般是通过设计多样的特征增强策略来获取多尺度的像素特征,但通常也会面临感受野受限的问题。受GoogLeNet启发,本文着眼于骨干网络本身,结合深度可分离卷积和空间金字塔池化模块(Atrous Spatial Pyramid Pooling, ASPP),提出了一个轻量化金字塔表征模块(Pyramid Representation Module, PRM),可快速增大和丰富模型的感受野(receptive field)。

    文章采用残差网络所提出的模型构建范式,重复堆叠上述PRM构成本文模型,称为高效金字塔表征网络(Efficient Pyramid Representation Network, EPRNet)。为了进一步缩减模型参数,EPRNet采用空洞卷积(亦称扩张卷积)近似不同尺寸的卷积核,处在不同深度的空洞卷积层具备不同的空洞率(dilation rates)。

    • 论文链接:

      https://ieeexplore.ieee.org/abstract/document/9384352

    • 开源链接:

      https://github.com/BebDong/MindSeg

    算法框架技术要点

    如下图所示,既有方法通常采用(a)所示骨干网络加特征增强的模式,极少关注骨干网络本身。本文是基于骨干网络本身对实时语义分割的探索,如(b)所示。

    如下图所示,本文采用深度可分离卷积对(a)原始ASPP进行了轻量化改造,得到(b)所示结构。由于逐点卷积(point-wise convolution, PWC)主要作用是加强通道维度的信息交互,我们进一步将PWC简化得到(c)所示的多尺度处理单元(multi-scale processing unit, MPU),以编码像素的多尺度特征。

    我们使用MPU替换原始残差模块中的第一个卷积层,得到本文模型EPRNet的基本构件,称为PRM,如下图所示。

    通过连续堆叠PRM得到EPRNet,每一层的设置如下表所示:

    实验结果

    所提出的EPRNet仅有约90万模型参数,在Cityscapes测试集上取得了73.9%的平均交并比(mean intersection over union, mIoU),以较低的计算复杂度和存储开销取得了具有竞争力的分割性能。论文同时给出了一个更加轻量化的版本EPRNet-Light,在损失少量精度的同时进一步提升约50%的推理效率。本文推理效率实验结果未使用任何技巧,比如TensorRT优化。

    在CamVid数据集上,较既有方法取得了显著的性能提升,同时保持了较高的推理速度:

    下面给出了一些可视化结果:

    MindSpore代码实现

    (1)对图像数据集进行预处理,并存储为.mindrecord格式,如下图(Cityscapes为例):

    (2)模型定义:

    (3)模型训练:

    (4)模型性能评估:

    总结与展望

    EPRNet大量使用深度可分离卷积,实现上通过分组卷积(group convolution)加逐点卷积(point-wise convolution)实现。当前主流深度学习框架未对其进行计算性能优化,导致计算速度较慢。后续工作考虑对深度可分离卷积进行计算优化,加快执行效率。另外,EPRNet仅考虑空间结构上的模型拓扑设计,与当前主流融合先验知识的注意力机制尚有差距。

  • 相关阅读:
    快速上手thymeleaf
    springboot基于微信小程序的化妆品商城系统设计与实现毕业设计源码041152
    石油数字孪生可视化管理平台,推动石油行业数字化转型与智能化应用
    《QT从基础到进阶·二十五》界面假死处理
    Zookeeper入门(一)
    OpenCV自学笔记十八:模板匹配
    Java集合部分总结
    PDF免费文件格式转换软件-Calibre,再也不用担心文件打不开了
    LeetCode 80. 删除有序数组中的重复项 II
    ConcurrentHashMap源码解析 1.内部结构
  • 原文地址:https://blog.csdn.net/Kenji_Shinji/article/details/125612703