目录
综述:A review: Deep learning for medical image segmentation using multi-modality fusion
深度学习中的多模态融合技术是模型在分析和识别任务时处理不同形式数据的过程。
多模态融合技术主要包括模态表示,融合,转换,对齐技术。多模态融合技术的主要目标是缩小语义子空间中的分布差异,同时保持模态特定语义的完整性。
目前,编解码器结构重点关注的是共享语义捕获和多模序列的编解码问题,为有效捕获源模态和目标模态两种模态的共享语义。,主流的解决方案是通过一些正则化术语保持模态之间的语义一致性,需确保编码器能正确检测和编码信息,而解码器能推理高级语义和生成语法,以保证源模态中语义的正确理解和目标模态中新样本的生成。
多模态的融合方法分为模型无关的方法和基于模型的方法,前者不直接依赖于特定的深度学习方法,后者利用深度学习模型显式的解决多模态融合问题
模型无关的融合方法可以分为早期融合(基于特征),晚期融合(基于决策)和混合融合策略,早期融合在提取特征后立即集成特征,晚期融合在每种模态输出结果后才执行集成。混合融合结合早期融合方法和单模态预测器的输出。
当模态之间的相关性较大时晚期融合优于早期融合,当各个模态在很大程度上不相关时采用晚期融合的方法则更合适。混合融合策略在综合了二者的优点的同时也增加了模型的结构复杂度和训练难度。
综上,三种融合方法各有缺点,早期融合能比较好的捕获特征之间的关系,但容易过拟合。晚期融合能够较好的处理过拟合问题,但不允许分类器同时训练所有的数据。
基于模型的融合方法 主要包括MKL,GM.NN等方法
多核学习方法:MKL是内核支持向量机方法的扩展,其允许使用不同的核对应数据的不同的视图,核可以看做各数据点之间的相似函数。MKL的另一个优势是损失函数为凸,允许使用标准优化包和全局最优解进行模型训练,可大幅提升深度神经网络模型性能。MKL的主要缺点是在测试期间需要依赖训练数据,且占用大量内存资源。
图像模型方法:图模型方法是一种常用的多模态融合方法,主要通过图像分割,拼接和预测对浅层或深度图形进行融合,从而生成模态融合结果。常见的图像模型有联合概率生成模型和条件概率判别模型,GM融合方法的优点是能够有效利用数据空间和时间结构。
神经网络方法:NN是目前应用最广泛的方法之一,已用于各种多模态融合任务中。近期神经网络方法通过使用循环神经网络(Recurrent Neural Network,RNN )和长短期记忆网络(Long Short-Term Memory,LSTM )来融合时间多模态信息,例如文献[50]使用 LSTM模型进行连续多模态情感识别,相对于 MKL和 GM方法表现出更优的性能。
多模态对齐方法是多模态融合的关键技术之一,指的是从两个模态或者多个模态中查找实例子组件之间的对应关系。例如,给定一个图像和一个标题,需找到图像区域与标题单词或短语的对应关系。多模态的对齐方法分为显示对齐和隐式对齐。显式对齐关注模态之间子组件的对齐问题,而隐式对齐则是在深度学习模型训练期间对数据进行潜在的对齐。
显式对齐方法:无监督方法在不同模态之间的实例之间没有用于直接对齐监督标签。
隐式对齐方法:利用神经网络模型进行模型隐式对齐,主要是在模型训练期间引入了对齐机制,通常会考虑注意力机制
早期融合是常用的,其结构简单,并且专注于后续的分割网络框架,后期融合更多关注融合策略,以了解复杂模态之间的复杂关系。
与单个模态的图像相比多模态图像有助于从不同的视图提取特征并带来互补信息,这有助于更好的数据表示以及更好的网络辨别能力。
MRI磁共振图像具有4种成像模式,T1加权(T1)、对比增强T1加权图像(T1c)、T2加权图像和流体衰减反转恢复图像(Flair)。T2和Flair适用于检测有瘤周水肿的肿瘤,而T1和T1c适用于检测无瘤周水肿肿瘤核心。
多模态医学图像分割的基本步骤由以下四个部分组成:数据准备,网络架构,融合策略和数据后处理。
在数据准备阶段,首先选择数据维度,并使用预处理来减少图像之间的变化,还可以使用数据增强策略来增加训练数据,以避免过拟合问题。在网络架构和融合策略阶段,提出了基本网络和详细的多模态图像融合策略,以训练分割网络。在数据后处理阶段,植入一些后处理技术,如形态学技术和条件随机场,以细化最终的分割结果。
根据进行融合的网络体系结构的级别,融合策略可以分为三组:输入级融合,层级融合和决策级融合
根据多模态融合策略,我们将网络架构分为输入级融合网络、层级融合网络和决策级融合网络。对于每种融合策略总结了一些常用的方法。融合策略的主要架构图如下:
在输入级融合策略中,多模态图像被逐通道融合,作为多通道输入,以学习融合的特征表示,然后训练分割网络。输入级融合策略直接将多模态图像集成在原始输入空间中。通过使用输入级融合策略。可以在第一层到最后一层的所有层中充分利用来自不同模态的丰富特征信息。这种融合通常使用4种技术:多任务分割,多视图分割,多尺度分割和基于GAN的分割
在脑肿瘤分割任务中将脑肿瘤分割为三个区域,包括整个肿瘤,肿瘤核心,增强肿瘤核心。它使用了多任务和多视图技术,为了获得统一的特征集其将四种模态的数据直接集成为输入空间中多通道输入。然后根据复杂脑肿瘤层次结构,将复杂的多分类分割任务分离为几个简单的任务。下图展示了输入级融合策略的通用网络架构
输入级融合策略可以最大限度的保留原始图像信息,并学习图像的内在特征,使用顺序分割网络能够采取不同的策略如多任务,多视图,多尺度和基于GAN的分割网络以充分利用多模态的图像特征表示。
在分层融合策略中,使用单个或者两个模态图像作为单个输入来训练个体分割网络,然后将这些学习到的个体特征表示在网络的各个层中进行融合,最后将融合结果反馈到决策层以获得最终的分割结果。层级融合可以有效的集成和充分的利用多模态图像。下图展示了层级融合通用网络框架
总之在分层融合分割网络中,DenseNet是最常用的网络,它具有以下3个优点:首先所有层之间的直接连接有助于改善整个网络中的信息流和梯度,缓解梯度消失的问题。其次,架构中所有特征图的短路径引入了隐式深度监督。第三,密集的连接具有规则化的效果,这可以减少在训练集较小的任务中过度适应的风险
在决策级分割网络中,与分层融合一致,每个模态的图像都被用作单个分割网络的单个输入。单个网络可以更好的利用相应模态的唯一信息,然后将各个网络的输出进行求和,以获得最终的分割结果。
决策级融合分割网络被设计为独立的从不同的模态获取互补的信息,下图描述了决策级融合分割网络的通用架构
对于决策级融合其大多数是基于平均和多数投票的。在决策级融合分割网络中,可以训练多个分割网络以充分利用多模态特征,但是在内存使用方面,决策级融合策略需要更多的内存。但是决策级融合可以获得更好的性能,因为每一个模态用作一个网络的输入,与输入级融合网络相比,这个网络可以学习复杂和互补的特征信息
在脑肿瘤分割任务中,所有的方法都应用了输入级融合策略来直接整合输入空间中不同的MR图像,这可以保持固有的图像特征,并允许该方法专注于后续分割网络的架构设计