• 【机器学习】顶会冠军图像分割算法深度解密


    图像分割深度解密

    data:2021.07.13
    课程链接:图像分割深度解密
    10分钟get语义分割模型基础及进阶设计思路;CVPR自动驾驶场景理解冠军方案策略解读;百度全新Transformer算法最新揭秘。
    在这里插入图片描述

    图像分割产业应用

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    图像分割任务简介

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    分类任务只需要回答里面有几个类别,比如说人、树、草地、天空;这个描述很粗糙,一万个人有一万个哈姆雷特。

    语义分割是图像分类的扩展,是像素级别的。
    在这里插入图片描述
    在这里插入图片描述
    全景分割是语义分割+实例分割的结合。
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    语义分割算法设计

    在这里插入图片描述
    其中最常用的:下采样用max-pooling最大池化、上采样用双线性插值法。
    上面这个FCN已经实现了一个简单的分割模型了,但是这种简单的分割模型是得不到比较好的效果的。那如何提高分割模型的效果呢?这里的重点来了,我么你又五个基础的设计思路和两个进阶的设计思路。

    基础设计思路1:跳跃链接(残差结构)[U-Net]

    在这里插入图片描述
    我们知道,网络在下采样的过程中会逐渐输出高阶信息,因此低阶的细节信息就会丢失,从而导致我们模型的分割结果比较粗糙,所以我们会加上跳跃链接让低层的信息和高层的信息融合起来,以此来弥补我们的细节丢失。这里的代表作就是U-net,这个模型在医疗和遥感领域应用的非常广泛,使用少量的数据就可以得到一个不错的效果,是一个分割入门的必备算法。

    基础设计思路2:空洞卷积 [DeeplabV3]

    在这里插入图片描述
    这里是通过另外一个角度去看待下采样,由于下采样会丢失细节信息,那我们就减少下采样的层数,保持模型的高分辨率,这样细节信息丢失的就少了,但是会引发另外一个问题,就是计算量会倍增,感受野会减小,因此就有学者引入了空洞卷积的概念。我们可以看到在同样的卷积大小的情况下,我们的空洞卷积可以看到更大范围的内容。所以就能够得到更全的特征信息。 著名的Deeplab系列就应用了这个方法,这个方法在工业界的应用特别多。什么任务都可以用deeplabv3跑一下。是一个通用的基础模型。

    基础设计思路3:全局上下文 [PSPNet、DeepLabV3+]

    为了获取更大的感受野
    在这里插入图片描述
    这里的代表作包括:PSPNet里的PPmodel,PP模块和Deeplabv3+里的asPP。 这两个模块是他们提出来的,为什么影响这么大呢?这是因为在后面很多分割算法里面,都被采用到了,可见这个设计的思想是非常重要的。

    上述这三个设计思路,都是在帮助模型增加信息,目前来看给大家的感觉就是信息越多越好,但是其实这是不怎么可能的,因为模型的容量毕竟有限。比如听这节课,你们能记住我说过的每一个词吗?显然是不行的,人脑的容量没有那么大。而且其实也没必要,只要记住关键的信息,就可以得到很好的效果。因此,现在的关键问题就是如何去注意到关键信息。这样注意力就很重要了,要去让模型找到注意力(重点)。

    基础设计思路四:注意力 [OCRNet]

    在这里插入图片描述
    出了获取全局上下文信息,我们好需要获取像素点之间的关系强弱。通过进入注意力机制,来获取像素点的重要性关系。从而显示地增强来自同一物体的像素的贡献。
    如果我们看右边的图,如果说,我们用非注意力机制的方法来分割,我们可以看到对于分类红色这个点,最外层蓝色的像素点对于我们的分类是毫无帮助的。因此这部分的计算是浪费的(无意义的)。注意力机制的方式,会更关注整体的车。
    从左下角的图我们可以看到,卷积中蓝色的像素只关注周围部分像素的信息,而注意力关注了所有像素的信息。
    其中的代表作是OCRNet,是一个基于CNN的sota模型。

    前四个设计都是对于decoder的设计,都需要结合骨干网络。因此第五个基础设计就讲一下骨干网络。

    基础设计思路五:骨干网络

    在这里插入图片描述
    骨干网络是深度学习模型的基本功,我们知道分割是像素级别的分类,因此骨干网络的分类精度会间接地影响到分类结果。因此,一般高精度的分割算法一般会采用高精度的骨干网络。
    ResNet和HRNet这两个骨干网络,结合FCN就会达到比较好的效果。

    举例:骨干网络就像是内功,内功好了,随便打一个简单的拳法(七伤拳)就可以打败很多高手了。

    下面我们来看看上面讲的这五个基础设计思路(我又称之为提升思路),都有哪些模型采用了:
    在这里插入图片描述
    跳跃连接和骨干网络是最常用的基础设计模型。其中采用基础设计比较多的模型有Deeplabv3+、GSCNN(一个比较新基于CNN的模型)、OCRNet(SOTA 2021.07.13)。

    在这里插入图片描述
    遇到刷榜和打比赛的时候,就需要进阶设计了。

    语义分割算法进阶设计

    进阶分割模型设计1:多尺度注意力

    在这里插入图片描述
    我们之前所说的所有的模型,他们的输入只有一个,即使有多尺度方法也是在特征层面上的。而这里所说的多尺度指的是输入图片的多种尺寸,每一个尺寸的图片会过整个模型,最后再将不同输入尺寸对应的输出结果再过一个注意力模块。
    这里我们做了一个实验,我们一般采用的是单尺度的OCRNet,它在验证集里面只能达到83%,如果我们用多尺度的,它的结果可以提升到87%,
    在这里插入图片描述
    通过注意力机制,可以选择性地选择哪一个尺度的输出结果,可以通过优势互补提升预测精度。

    上面,我们讲的全都是基于CNN的分割模型,下面我们将介绍基于Transformer的分割模型。

    进阶分割模型设计二:Transformer(全注意力模型)

    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述
    固定尺寸会导致在多尺度图片中会存在缺陷,例如同样的尺寸,在大尺寸图片中可能代表一个小的局部,如果在小尺寸图片中,可能代表一个整体。

    由于固定patch尺寸,因此计算量是图标大小的平方。

    在这里插入图片描述
    两个月之后,一个新的工作,通过层次化的图片切分方式,没有固定的切分大小,并添加了偏置的窗口。一定程度上,改善了ViT的缺陷。
    其中两个关键的思路就是,1patch merging 2swin transformer Block
    patch merging实现了CNN里面的一个下采样的机制
    Swin transformer Block实现了attention的机制
    在这里插入图片描述
    在这里插入图片描述

    好文推荐:注意力机制、Transformer、ViT的区别与联系

    CVPR2021冠军方案解读

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    增加数据量的常规操作:数据增强
    新的打法如上图
    在这里插入图片描述
    在这里插入图片描述
    基于CNN模型(OCRNET)的basenet实验。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

    百度全新Transformer

    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

  • 相关阅读:
    SIMD理解和学习入门资源
    代码规范问题,“static“ base class members should not be accessed via derived types
    js日期排序
    yolov5 优化——mosaic相关
    Java跳过证书访问HTTPS
    园子的现代化建设-博客版本控制:发布博客设置历史版本功能
    视频时序动作识别(video action recognition)介绍
    详解cv2.copyMakeBorder函数【OpenCV图像边界填充Python版本】
    尚硅谷大数据项目《在线教育之离线数仓》笔记007
    使用docker-compose 实现发布本地的jar包
  • 原文地址:https://blog.csdn.net/adreammaker/article/details/127676198