论文总结
这篇论文是发表在《Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical Decision Support》上,属于MICCAI(Medical Image Computing and Computer-Assisted Intervention)会议的论文集,这个会议是医学图像计算与计算机辅助干预领域内最重要、最有影响力的国际会议之一。
目前Google学术引用量6895次。作者团队均来自于亚利桑那州立大学 (Arizona State University)。
动机
UNet++论文的主要动机是解决当前医学图像分割任务中存在的挑战。传统的U-Net架构在分割任务中表现良好,但在医学图像中,由于需要极高的精确度,U-Net在处理细节和复杂背景时存在一些不足。UNet++的设计旨在通过改进跳跃连接(skip connections)和引入深度监督来减少编码器和解码器特征图之间的语义差距,从而提高分割精度。
核心方法
UNet++改进了传统的U-Net架构
- 嵌套密集跳跃连接:在编码器和解码器子网络之间添加了一系列嵌套的密集跳跃路径,这些路径通过多个卷积层逐渐丰富编码器的高分辨率特征图,然后再与解码器的特征图进行融合。这种方式旨在缩小编码器和解码器特征图之间的语义差距。
- 深度监督:在网络的多个语义层引入了深度监督,使得模型可以在不同的语义层上生成分割图。这不仅提高了分割精度,还允许在推理时通过剪枝来加速模型。
实验结果
UNet++在多个医学图像分割任务中表现优异,具体包括:
- 肺结节分割(低剂量CT扫描)
- 细胞核分割(显微图像)
- 肝脏分割(腹部CT扫描)
- 息肉分割(结肠镜视频)
实验结果显示,UNet++在引入深度监督后,平均IoU(交并比)比U-Net和宽U-Net分别提高了3.9和3.4个百分点。
对比算法
与U-Net和Wide U-Net模型进行对比
U-Net是标准的U-Net架构,是许多医学图像分割任务中的基准模型。
Wide U-Net是在U-Net的基础上,增加了更多参数的变体。
数据集
- Cell Nuclei:细胞核显微图像(来自Data Science Bowl 2018)
- Colon Polyp:结肠镜视频中的息肉图像(ASU-Mayo Clinic提供)
- Liver:肝脏CT图像(MICCAI 2018 LiTS Challenge提供)
- Lung Nodule:肺结节CT图像(LIDC-IDRI提供)
改进空间
- 优化模型复杂度和推理速度:通过更有效的模型剪枝和优化技术,进一步减少模型的复杂度和推理时间。
- 集成其他先进技术:例如结合自注意力机制、Transformer架构等,进一步提高分割精度。
- 扩展到更多任务:除了现有的医学图像分割任务,可以将UNet++应用于其他领域的图像分割任务,验证其通用性和鲁棒性。
论文阅读
Abstract
提出了UNet++模型,UNet++是对原始UNet架构的一种改进,主要针对跳跃连接进行了优化。作者认为,在UNet中直接将编码器的浅层特征与解码器的深层特征相结合可能会产生语义间隔(semantic gap)。因此,他们提出了一种嵌套的、密集的跳跃连接来优化特征融合过程,用于减少Encoder和Decoder的特征映射之间的语义差距,从而使优化器可以更简单地解决优化问题。此外作者还在模型中加入了深度监督,可以更准确地分割病变,特别是出现在多个尺度上的病变,如结肠镜检查视频中的息肉。通过在多个数据集上进行实验,UNet++相比于具有相同参数量的原始UNet,在医学图像分割任务上取得了更好的性能。作者在多个数据集上的实验表明,与UNet和wide-UNet(作者设计的和UNet++参数规模接近的对比模型)相比,UNet++的mIoU分别提升了3.9和3.4个点。
Introduction
此前的图像分割模型是Encoder-Decoder架构的变体,如U-Net和全卷积网络(FCN),他们有一个关键的相似之处:跳过连接,它将来自解码器子网络的深度、语义、粗粒度特征映射与来自编码器子网络的浅、低级、细粒度特征映射结合在一起。事实证明,跳跃连接在恢复目标对象的细粒度细节方面是有效的,即使在复杂的背景。跳过连接也是实例级分割模型(如MaskRCNN)成功的基础,它可以分割被遮挡的对象。
然而,在医学图像中分割病变或异常需要比在自然图像中期望的更高的准确性。虽然在自然图像中,精确的分割掩码可能并不重要,但在医学图像中,即使是微小的分割错误,也可能导致临床环境中糟糕的用户体验。例如,结节周围细微的毛刺图案可能表明结节恶性;因此,从临床角度来看,将它们排除在分割掩码之外会降低模型的可信度。此外,不准确的分割也可能导致随后计算机生成的诊断发生重大变化。例如,在纵向研究中对结节生长的错误测量可能导致给筛查患者分配不正确的Lung-RADS类别。因此,需要设计更有效的图像分割架构,以有效地恢复医学图像中目标物体的精细细节。
为此,作者提出了一种新的基于嵌套和密集跳跃连接的分割架构UNet++。作者的架构背后的基本假设是,当来自编码器网络的高分辨率特征图在与来自解码器网络的相应语义丰富的特征图融合之前逐渐丰富时,该模型可以更有效地捕获前景对象的细粒度细节。作者认为,当来自解码器和编码器网络的特征映射在语义上相似时,网络将更容易处理学习任务。这与U-Net中常用的普通跳跃连接形成对比,后者直接将高分辨率特征图从编码器快速推进到解码器网络,从而导致语义上不同的特征图融合。另外作者还认为通过用嵌套密集跳跃连接替换普通跳跃连接的UNet++可以很容易地部署为Mask-RCNN的骨干架构。
Related Work
Long 等人首次介绍了全卷积网络 (FCN),而 U-Net 是由 Ronneberger 等人提出的。它们都共享一个关键思想:跳跃连接。在 FCN 中,上采样的特征图与来自编码器的跳跃特征图相加,而 U-Net 则将它们拼接起来,并在每次上采样步骤之间添加卷积和非线性激活函数。这些跳跃连接有助于恢复网络输出的完整空间分辨率,使得全卷积方法适用于语义分割。受到 DenseNet 架构的启发,Li 等人提出了用于肝脏和肝脏肿瘤分割的 H-denseunet。以同样的精神,Drozdzalet 等人系统地研究了跳跃连接的重要性,并在编码器内引入了短跳跃连接。尽管上述架构之间存在一些微小差异,它们都倾向于融合来自编码器和解码器子网络的语义上不相似的特征图,而根据我们的实验,这可能会降低分割性能。
另外两个相关的近期工作是 GridNet和 Mask-RCNN。GridNet 是一种编码器-解码器架构,其中特征图以网格方式连接,概括了几种经典的分割架构。然而,GridNet 缺乏在跳跃连接之间的上采样层,因此,它不代表 UNet++。Mask-RCNN 可能是最重要的目标检测、分类和分割的元框架。我们想指出,UNet++ 可以通过简单地用建议的嵌套稠密跳跃路径替换普通的跳跃连接,作为 Mask-RCNN 的骨干架构进行部署。由于篇幅有限,我们无法包含 UNet++ 作为骨干架构的 Mask-RCNN 结果;有兴趣的读者可以参考补充材料获取更多细节。
Proposed Network Architecture:UNet++
网络整体结构如图所示:
- 图a是UNet++的整体结构 其中黑色部分是原始的UNet结构,设Xi,j表示节点Xi,j的输出,其中i表示沿编码器的下采样层数,j表示沿跳过路径的密集块的卷积层数。 绿色和蓝色部分是重新设计的连接两个子网的跳跃连接,绿色部分可以看出UNet++的跳跃连接加入了卷积层来减少深层特征和浅层特征的语义间隔(semantic gap),蓝色部分可以看出跳跃连接更加密集了 红色部分指的是使用了深度监督(对第0个采用层的四个卷积层做1x1卷积和sigmoid激活,再将四个输出的分割图都返回),有深度监督的unet++比没有深度监督的unet++在IoU指标上平均提高了0.6个点,但这种改善在细胞核和结肠息肉分割中消失。
- 图(b) 是UNet++的第一层跳跃路径的详细分析。
- 我们建议在UNet++中使用深度监督,使模型能够在两种模式下运行:(1)精确模式,其中所有分割分支的输出被平均;(2)快速模式,仅从一个分割分支中选择最终的分割映射,其选择决定了模型修剪(即把最右下删了)的程度和速度增益。图c显示了在快速模式下选择分段分支如何导致不同复杂性的架构,UNet++ Li表示UNet++在第0个上采样层的第i个卷积层被修剪。 作者将二元交叉熵和dice指数的组合作为损失函数添加到上述图c的四个语义级别中:
Experiments
作者做实验使用的数据集:
对比结果如下:
下图显示了应用不同级别修剪后UNet++的分割性能,如图所示,UNet++ L3平均减少了32.2%的推理时间,而IoU仅降低了0.6个点。而更激进的剪枝进一步减少了推理时间,但代价是显著的精度下降。
Conclusion
为了满足对更准确医疗图像分割的需求,我们提出了UNet++。该架构利用了重新设计的跳跃路径和深度监督。重新设计的跳跃路径旨在减少编码器和解码器子网络特征图之间的语义差距,从而使优化问题可能变得更简单,便于优化器求解。深度监督还特别有助于更准确的分割,尤其是对在多尺度上出现的病变,如结肠镜视频中的息肉。我们使用了四个医疗影像数据集来评估UNet++,这些数据集包括肺结节分割、结肠息肉分割、细胞核分割和肝脏分割。实验结果表明,带有深度监督的UNet++在IoU上分别比U-Net和宽U-Net提高了平均3.9和3.4个百分点。
请登录后查看评论内容