TV-SAM 新型零样本医学图像分割算法:GPT-4语言处理 + GLIP视觉理解 + SAM分割技术
提出背景
论文:https://arxiv.org/ftp/arxiv/papers/2402/2402.15759.pdf
代码:https://github.com/JZK00/TV-SAM
利用了GPT-4的强大语言处理能力、GLIP的视觉理解能力以及SAM的分割技术,TV-SAM能够自动解析医疗图像,生成精准的文本和视觉提示,从而实现了前所未有的零样本分割效果。
经过在七个涵盖八种成像技术的公共数据集上的全面测试,TV-SAM不仅大幅度超越了SAM AUTO和GSAM的性能,而且与采用黄金标准边界框提示的SAM BBOX表现媲美,甚至在ISIC和WBC等特定挑战上刷新了记录。
医学图像分割通常面临的挑战包括数据的多模态性、高复杂度以及缺乏足够的标注信息。
之所以使用TV-SAM,是因为它能通过结合语言和视觉模型的优势,解决上述挑战,尤其是在零样本学习场景下,无需依赖大量的标注数据即可实现准确的图像分割。
- 利用GPT-4生成的文本提示,为图像内容提供丰富的描述性信息,辅助图像分割模型理解图像内容。
- 结合VLM(如GLIP)和SAM,通过文本和视觉信息的互补,提高模型在特定医学图像数据上的泛化能力和分割准确度。
基于上文的介绍,我们可以将2 方法论部分拆解成如下中文解释和逻辑关系:
TV-SAM 方法论
通过三个阶段说明了该过程:
- 第一阶段使用GPT-4生成文本提示
- 第二阶段使用视觉语言模型(VLM)预测边界框
- 第三阶段使用Segment Anything Model(SAM)生成最终的分割掩码。
该图包括一个流程图,描述了用户输入、语言模型以及导致分割结果的视觉提示之间的交互。
TV-SAM 方法包含三个主要阶段:文本提示生成、视觉提示创建、掩码解码。
-
文本提示生成(子解法1)
- 背景:需要生动描述医学图像中的医学概念。
- 特征:使用GPT-4作为知识来源,生成描述医学图像中医学概念的详细文本提示。
-
视觉提示创建(子解法2)
- 背景:基于提供的提示,识别医学概念的可能区域通常使用边界框格式。
- 特征:使用预训练的视觉语言模型(VLM),如GLIP,自动生成视觉提示,实现零样本对象检测。
-
掩码解码(子解法3)
- 背景:使用视觉提示帮助SAM更准确地预测这些区域的分割掩码。
- 特征:采用SAM(分割注意力模型)进行零样本分割,特别是在医疗领域,采用盒式提示效果最佳。
具体阶段与技术细节:
-
GPT-4用于表达式提示设计
- 利用GPT-4生成详细的文本提示,通过图像和对话模板输入,结合视觉编码器和文本编码器提取特征,通过交叉注意力机制融合特征,最后通过解码器返回目标概念的具体信息。
-
通过VLM生成视觉提示
- 选择GLIP作为VLM,输入图像到GLIP图像编码器并结合之前获得的描述性提示,通过GLIP提示编码器获得特征,通过非最大抑制算法过滤和选择预测的边界框。
-
SAM零样本分割与视觉提示
- 在医学图像分割领域,盒式提示被证明特别有效。利用SAM模型,重新输入图像并将GLIP预测的边界框作为视觉提示输入SAM提示编码器,最后通过SAM掩码解码器生成准确的分割掩码。
通过这种方法,TV-SAM能够在仅有未标记医学图像和感兴趣的概念、对象或异常的情况下,自动执行这三个阶段并生成相应的分割掩码,有效提高医学图像分析的效率和准确性。
以肺结节的识别和分割为例:
-
GPT-4用于表达式提示设计:
- 在肺结节的例子中,GPT-4可以用来生成描述肺部图像中结节特征(如大小、形状、位置和可能的类型)的详细文本提示。
- 通过将肺部CT扫描图像和一个包含患者信息及疑似肺结节描述的对话模板输入GPT-4,模型能够通过视觉编码器从图像中提取高级特征,同时文本编码器从对话模板中提取文本特征。
- 通过交叉注意力机制,这些特征被融合,并通过解码器返回关于肺结节的具体信息,比如其可能的恶性或良性特征。
-
通过VLM生成视觉提示:
- 利用从GPT-4获得的详细描述性文本提示,GLIP模型能够对输入的肺部CT图像进行分析,自动识别并预测包含结节的区域。
- 这一步骤通过非最大抑制算法(NMS)来过滤和优化预测的边界框,确保仅选取最有可能包含肺结节的区域。
-
SAM零样本分割与视觉提示:
- 最后,将筛选后的边界框作为视觉提示输入到SAM模型中。
- SAM模型再次分析肺部CT图像,并使用这些视觉提示作为引导,通过其掩码解码器精确生成肺结节的分割掩码。
- 这一步不仅提高了分割的准确性,而且大大减少了手动标记数据所需的时间和专业知识要求。
通过这种三阶段方法,TV-SAM能够有效支持肺结节的自动检测和分割,为临床医生提供了一个强大的工具,以更准确和高效地评估肺部扫描结果,进而改善病人的诊断和治疗过程。
不同医学成像模态的分割性能分布,以Dice系数为衡量标准。
该图表比较了非放射数据(如内窥镜和皮肤镜图像)与放射数据(如CT和MRI图像)的性能,表明算法在非放射图像上的性能更好。