发表年份:2020
论文地址:https://arxiv.org/abs/2004.08790
代码地址:https://github.com/ZJUGiveLab/UNet-Version
提出了UNet3+模型,利用的是全尺度的跳跃连接和深度监督
作者进一步提出了一个混合损失函数和一个分类引导模块,来增强图像的边界和减少对于非器官图像的过度分割。
图1是三种网络简要的概述,对比于UNet和UNet++,UNet3+通过重新设计的跳跃连接结合了多尺度特征,也使用了一个全尺度的深度监督,这提供了更少的参数,但产生了更准确的位置感知和边界增强分割图。
全尺度跳跃连接改变了编码器和解码器之间的相互连接,也改变了编码器子网络之间的内部连接。带有普通连接的UNet和带有嵌套和稠密连接的UNet++,在获取足够的全尺度信息上存在不足,不能广泛的学习器官的位置和边界信息。为了弥补它们的缺点,UNet3+的每一个解码器层都接收来自于编码器的更小尺度和相同尺度的特征图,还有来自于解码器的更大尺度的特征图。这些特征图捕获了全尺度的细粒度细节和粗粒度语义。
图2说明了如何创建
X
D
e
3
X_{De}^3
XDe3 的特征图。类似于UNet,来自于同尺度编码器层
X
E
n
3
X_{En}^3
XEn3 的特征图是直接在解码器中获得的。与UNet相反,一套编码器-解码器间的inter-connection传送来自于更小尺度编码器层
X
E
n
1
X_{En}^1
XEn1 和
X
E
n
2
X_{En}^2
XEn2 的低水平细节信息。一串解码器intra-connection传输来自于更大尺度解码器层
X
D
e
4
X_{De}^4
XDe4 和
X
D
e
5
X_{De}^5
XDe5 的高水平语义信息。收到了五个同分辨率的特征信息,我们需要进一步统一通道数,也要减少其中的冗余信息。我们想到了3×3的卷积可以是一个满意的选择,为了无缝地合并浅层细节信息和深层的语义信息,我们使用了一个特征传播机制,从五个尺度来连接特征图,包括320个3×3的卷积,一个批标准化和一个ReLU激活函数。
C
(
⋅
)
C(·)
C(⋅) 代表一个卷积操作,
H
(
⋅
)
H(·)
H(⋅) 代表特征传播机制,包括一个卷积、一个批标准化、一个ReLU激活函数。
D
(
⋅
)
D(·)
D(⋅) 和
U
(
⋅
)
U(·)
U(⋅) 代表下采样和上采样,
[
⋅
]
[·]
[⋅] 代表连接操作。
关于三种结构参数的数目:
对比于UNet++的在生成全分辨率特征监督,UNet3+在每个解码器层生成一个边输出,此输出被真实数据监督。为了实现深度监督,每个解码器的最后一层被送入一个普通的3×3卷积、一个双线性上采样、一个sigmoid激活函数。
为了增强器官的边界,提出了一个multi-scale structural similarity index(MS-SSIM)损失函数来使模糊的边界具有更高的权重。区域分布的差异越大,MS-SSIM的值越大。两个对应的 N×N patch从分割结果 P 和 真实数据 G 裁剪, p = { p j : j = 1 , . . . , N 2 } p=\{p_j:j =1,...,N^2\} p={pj:j=1,...,N2} g = { g j : j = 1 , . . . , N 2 } g=\{g_j:j=1,...,N^2\} g={gj:j=1,...,N2}。
M 是尺度的总体数目,
在大部分的医学图像分割中,假阳性在一个无器官图像中是一个不可避免地情况。为了更精确地分割,我们尝试使用了引入一个额外的分类任务,来预测输入图像有没有器官。
如图3所示,经过一系列的操作,一个二维张量从
X
E
n
5
X_{En}^5
XEn5 中生成,表示有无器官的可能性。利用argmax函数可以得到输出结果 {0, 1} ,随后再使用分类结果乘以分割side结果。
使用焦点损失函数,比较了UNet网络和UNet++网络
基于RenNet-101的三种网络的量化比较
对比的网络使用的是在论文里面提出的损失函数
深度监督是为了最大地使用全尺度的特征图,以更少的参数来实现准确的分割和有效的网络结构
分类引导模块和混合损失函数是为了生成更准确的位置感知和边界感知的分割图
在肝和脾数据集上的实验结果表明,UNet3+超过了所有之前最优的方法,并且可以突出器官和生成清楚的边界。