Abstract
图像分割是计算机视觉和图像处理中的一项关键任务,具有场景理解、医学图像分析、机器人感知、视频监控、增强现实和图像压缩等重要应用,并且在文献中发现了许多分割算法。在这种背景下,深度学习的广泛成功促使利用深度学习模型开发新的图像分割方法。我们全面回顾了最近的这篇文献,涵盖了语义和实例分割方面的开创性努力,包括卷积像素标记网络、编码器-解码器架构、多尺度和基于金字塔的方法、循环网络、视觉注意模型和对抗性环境中的生成模型。我们调查了这些基于深度学习的分割模型的关系、优势和挑战,检查了广泛使用的数据集,比较了性能,并讨论了有前途的研究方向。
Introduction
应用领域
图像分割是计算机视觉领域中的一个基本问题,它是许多视觉理解系统的核心,因为它可以将图像划分为多个部分和对象,并在医学(肿瘤边界分割和组织体积测量)、自动驾驶(导航区域检测和障碍识别)、机器人技术(场景识别和物体操控)、视频监控(例如移动物体检测)、增强现实(例如场景分割和对象覆盖)以及图像压缩(例如对象分割)在内的广泛应用中发挥着重要作用。
近些年技术的发展
传统的图像分割算法依赖于人为设计的特征和规则,这些方法处理复杂场景和高维数据时效果不好。近些年来深度学习和计算机视觉领域成果比较好,促使了基于计算机视觉的新图像分割方法的发展。这些方法使用深度神经网络,特别是CNN。深度学习这个方法成为了图像分割研究的主要方向,出现了大量创新的算法和模型。
这篇综述涵盖了什么内容
深度学习的图像分割网络、编码器-解码器架构、多尺度和金字塔结构、递归网络、视觉注意力模型和对抗生成模型。分析了这些基于深度学习的分割模型的关系、优点和挑战,审查了广泛使用的数据集,比较了不同模型的性能,并讨论了有前景的研究方向。
Deep Neural Network Architectures
卷积神经网络 (CNNs)
主要讲述了CNN的发展历史和模型结构。CNN最初由Fukushima在其关于“Neocognitron”的开创性论文中提出,这基于Hubel和Wiesel的视觉皮层分层感受野模型。随后,Waibel等人引入了在时间感受野之间共享权重并使用反向传播训练的CNN用于音素识别,而LeCun等人开发了一种用于文档识别的实际CNN架构。
CNN通常包括三种层:卷积层(使用卷积核进行卷积进而提取特征),非线性层(激活函数使得网络可以构建非线性函数),池化层(替换特征图中的小邻域来减少空间分辨率。池化层中的神经元单元是局部连接的,即每个单元从前一层中的一个小邻域(称为感受野)接收加权输入。通过堆叠层以形成多分辨率金字塔,更高级别的层从越来越宽的感受野中学习特征)。CNN的主要计算优势在于所有层的感受野共享权重,从而导致参数数量显著少于全连接神经网络。一些最著名的CNN架构包括AlexNet、VGG和ResNet。
循环神经网络 (RNNs) 和长短期记忆网络 (LSTM)
循环神经网络通常用于处理序列数据,如语音、文本、视频和时间序列。在每个时间步t,模型收集输入x和前一步的隐藏状态h,并输出目标值o和下一个隐藏状态h。对于长序列,RNNs通常存在问题,因为它们无法捕捉许多现实应用中的长期依赖性,并且常常遭遇梯度消失或爆炸问题。然而,一种名为长短期记忆网络(LSTM)的RNN设计用于避免这些问题。LSTM架构包括三个门(输入门、输出门和遗忘门),它们调节信息进入和流出存储值的记忆单元。
编码器-解码器和自动编码器模型(Encoder-Decoder and Auto-Encoder Models)
编码器-解码器是一类通过两阶段网络将数据点从输入域映射到输出域的模型。编码器执行编码函数,将输入压缩到潜在空间表示,而解码器从潜在空间表示预测输出。潜在或特征表示捕捉输入的语义信息,有助于预测输出。
简单来说,编码器用于提取图像特征,将输入图像通过一系列卷积层和池化层进行处理,逐渐降低图像的分辨率并增加特征图的通道数。这一过程中,编码器逐渐提取出图像中的高级语义特征,同时减少了空间信息的分辨率。而解码器逐步恢复图像的空间分辨率,并生成最终的分割结果。解码器将编码器输出的低分辨率、高维度特征图转换回高分辨率、低维度的分割图。这里从低分辨率高维度到高分辨率低纬度是通过反卷积层等操作完成的。
编码器-解码器模型在自然语言处理中的序列到序列建模以及图像到图像翻译(如图像去模糊或超分辨率)中很受欢迎。而自动编码器是编码器-解码器模型的一种特例,其中输入和输出是相同的。
生成对抗网络 (GANs)
生成对抗网络由生成器(G)和判别器(D)两个网络组成。生成器网络G学习从噪声z(具有先验分布)到目标分布y的映射,该目标分布类似于“真实”样本。判别器网络D试图区分生成的“假”样本和真实样本。GAN可以描述为G和D之间的一个最小最大博弈,其中D试图最小化其在区分假样本和真实样本中的分类错误,从而最大化损失函数,而G试图最大化判别器网络的错误,从而最小化损失函数。
DL-BASED IMAGE SEGMENTATION MODELS
1.全卷积模型 (Fully Convolutional Models)
Long等人提出了全卷积网络(FCNs),这是深度学习语义图像分割模型的一个里程碑。FCN仅包含卷积层,使其能够输出与输入图像大小相同的分割图。为了处理任意大小的图像,作者修改了现有的CNN架构,如VGG16和GoogLeNet,通过去除所有全连接层,使模型输出空间分割图而不是分类得分。
通过使用跳跃连接(图8),将模型最后层的特征图上采样并与早期层的特征图融合,模型结合了来自深层、粗糙层的语义信和来自浅层、精细层的外观信息,从而生成准确和详细的分割。在PASCAL VOC、NYUDv2和SIFT Flow数据集上测试时,该模型实现了最先进的分割性能。
局限性:FCN通过全卷积层和上采样层进行逐像素分类,但是其卷积操作的感受野有限,这导致了难以捕捉到更大范围的上下文信息。
2.图卷积模型 (CNNs With Graphical Models)
卷积神经网络的不变性使其在分类等高级任务中表现不错,但深度卷积神经网络的后期层响应在精确的物体分割中并不足够局部化。为了应对这一缺点,Chen等人提出了一种结合CNNs和全连接CRFs的语义分割算法(利用卷积神经网络进行初步的像素分类,然后使用全连接条件随机场(Full-CRF)进一步细化分割结果 )(图10)。
Schwing和Urtasun提出了一种用于图像分割的全连接深度结构网络。他们联合训练了CNNs和全连接CRFs用于语义图像分割,并在具有挑战性的PASCAL VOC 2012数据集上取得了令人鼓舞的结果。Zheng等人提出了类似的语义分割方法。在相关工作中,Lin等人提出了一种基于上下文深度CRFs的高效语义分割模型。他们探索了“补丁-补丁”上下文和“补丁-背景”上下文,旨在图像区域和背景之间捕捉的不同类型的上下文信息,提高分割的准确性和连贯性。
Liu等人提出了一种将丰富信息引入MRFs的语义分割算法,包括高阶关系和标签上下文的混合。与以前使用迭代算法优化MRFs的尝试不同,他们提出了一种名为解析网络的CNN模型,该模型可以在一次传递中实现确定性端到端计算。
3.基于编码器-解码器的模型 (Encoder-Decoder Based Models)
3.3.1 一般图像分割
Noh等人引入了基于反卷积(又称转置卷积)的语义分割方法。他们的模型DeConvNet(图11)由两部分组成:一个采用VGG 16层网络的卷积层的编码器和一个多层反卷积网络,该网络输入特征向量并生成像素精确的类别概率图。后者包括反卷积和反池化层,用于识别像素级类别标签并预测分割掩码。
Badrinarayanan等人提出了SegNet,一种用于图像分割的全卷积编码器-解码器架构(图12)。与反卷积网络类似,SegNet的核心可训练分割引擎由一个与VGG16网络的13个卷积层拓扑结构相同的编码器网络和一个对应的解码器网络组成,随后是一个像素级分类层。SegNet的主要创新在于解码器上采样其低分辨率输入特征图的方法;具体而言,使用在相应编码器的最大池化步骤中计算的池化索引进行非线性上采样。
编码器-解码器模型的一个限制是,由于编码过程中的分辨率损失,导致细粒度图像信息的丢失。HRNet(图13)解决了这一缺点。与DeConvNet、SegNet和其他模型中恢复高分辨率表示的方式不同,HRNet通过在编码过程中并行连接高到低分辨率的卷积流,并反复交换跨分辨率的信息,保持高分辨率表示。HRNet有四个阶段:第一个阶段由高分辨率卷积组成,第二/第三/第四阶段重复了2分辨率/3分辨率/4分辨率的块。几种最近的语义分割模型使用HRNet作为骨干网络。
还有一些其他工作采用转置卷积或编码器-解码器进行图像分割,如堆叠反卷积网络(SDN)、Linknet、W-Net和用于RGB-D分割的局部敏感反卷积网络。
3.3.2 医学和生物医学图像分割
受FCN和编码器-解码器网络启发,最初开发了一些用于医学/生物医学图像分割的模型,但现在这些模型也被应用于医学领域之外。
Ronneberger等人提出了U-Net(图14),用于高效分割生物显微镜图像。U-Net架构包括两部分:一个用于捕捉上下文的收缩路径和一个对称的扩展路径,能够实现精确定位。U-Net的训练策略依赖于数据增强,从而有效地从少量标注图像中学习。它在30张透射光显微镜图像上进行了训练,并在2015年ISBI细胞追踪挑战赛中以很大优势获胜。
U-Net的各种扩展被开发用于不同类型的图像和问题领域。例如,Zhou等人开发了一个嵌套的U-Net架构,Zhang等人基于U-Net开发了一个道路分割算法,Cicek等人提出了一种用于3D图像的U-Net架构。
Milletari等人提出的V-Net(图15)是另一个著名的基于FCN的3D医学图像分割模型。作者引入了一种基于Dice系数的新损失函数,使模型能够处理前景和背景体素数量存在显著不平衡的情况。该网络在前列腺的MRI图像上进行端到端训练,学习预测整个体积的分割。其他一些与医学图像分割相关的工作包括用于自动分割胸部CT图像中的肺叶的渐进式密集V-Net,以及用于病变分割的3D-CNN编码器。
4.基于多尺度和金字塔网络的模型 (Multiscale and Pyramid Network Based Models)
多尺度分析是图像处理领域的一个成熟理念,已被应用于各种神经网络架构中。其中最著名的模型之一是Lin等人提出的特征金字塔网络(FPN),该网络最初是为目标检测而开发的,但也被应用于分割任务。深度CNN的固有多尺度金字塔层次结构被用来以较小的额外成本构建特征金字塔。为了融合低分辨率和高分辨率特征,FPN由自底向上的路径、自顶向下的路径和横向连接组成。拼接后的特征图通过一个3x3的卷积层处理,以生成每个阶段的输出。最终,自顶向下路径的每个阶段生成一个预测以检测目标。在图像分割任务中,作者使用两个多层感知机(MLPs)生成掩码。
Zhao等人开发了金字塔场景解析网络(PSPN),这是一种多尺度网络,用于更好地学习场景的全局上下文表示(图16)。该网络使用残差网络(ResNet)作为特征提取器,从输入图像中提取多种模式,并通过扩张网络处理这些特征图。然后,这些特征图被送入金字塔池化模块,以区分不同尺度的模式。它们在四个不同的尺度上被池化,每个尺度对应一个金字塔层,并通过1x1卷积层处理以减少其维度。金字塔层的输出被上采样并与初始特征图拼接,以捕获局部和全局的上下文信息。最终,一个卷积层用于生成像素级的预测。
Ghiasi和Fowlkes开发了一种基于拉普拉斯金字塔的多分辨率重建架构,该架构使用来自高分辨率特征图的跳跃连接和乘法门控,逐步细化从低分辨率图中重建的分割边界。他们表明,尽管卷积特征图的表观空间分辨率较低,但高维特征表示包含显著的亚像素定位信息。
其他一些模型也使用多尺度分析进行分割,包括动态多尺度滤波网络(DM-Net)、上下文对比网络和门控多尺度聚合(CCN)、自适应金字塔上下文网络(APC-Net)、多尺度上下文交织(MSCI)以及显著目标分割。
5.基于R-CNN的模型 (R-CNN Based Models)
区域卷积神经网络(R-CNN)及其扩展在目标检测应用中取得了成功。特别是,Faster R-CNN架构(图17)使用了区域提议网络(RPN),该网络提出候选边界框。RPN提取兴趣区域(RoI),RoIPool层计算这些提议的特征,以推断边界框坐标和目标类别。R-CNN的一些扩展被用于解决实例分割问题,即同时执行目标检测和语义分割的任务。
He等人提出了Mask R-CNN(图18),在许多COCO目标实例分割挑战赛(图19)中超越了之前的基准,能够高效地检测图像中的目标,同时生成每个实例的高质量分割掩码。基本上,它是一个具有三个输出分支的Faster R-CNN——第一个计算边界框坐标,第二个计算相关类别,第三个计算用于分割目标的二值掩码。Mask R-CNN的损失函数结合了边界框坐标、预测类别和分割掩码的损失,并共同训练这些分支。
Liu等人提出的路径聚合网络(PANet)基于Mask R-CNN和FPN模型(图20)。该网络的特征提取器使用了带有新增强自底向上路径的FPN骨干网,改进了低层特征的传播。第三路径的每个阶段以前一阶段的特征图为输入,并通过一个3x3卷积层处理。横向连接将输出添加到同一阶段的自顶向下路径的特征图中,这些特征图再馈送到下一个阶段。
Dai等人开发了一种实例感知语义分割的多任务网络,该网络包括三个用于区分实例、估计掩码和分类目标的网络。这些网络形成了级联结构,并设计为共享其卷积特征。Hu等人提出了一种新的部分监督训练范式,并结合了一种新颖的权重转移函数,使得实例分割模型能够在大量类别上进行训练,这些类别都有框注释,但只有一小部分具有掩码注释。
Chen等人通过基于Faster R-CNN的语义和方向特征精炼目标检测,开发了一个实例分割模型MaskLab。该模型产生三个输出(图21):框检测、像素级分类的语义分割logits和预测每个像素指向其实例中心的方向logits。基于Faster R-CNN目标检测器,预测的框提供了目标实例的准确定位。在每个兴趣区域内,MaskLab通过结合语义和方向预测执行前景/背景分割。
Chen等人提出的TensorMask基于密集滑动窗口实例分割。作者将密集实例分割视为对4D张量的预测任务,并提出了一个通用框架,允许对4D张量进行新颖的操作。他们证明了张量方法相对于基线有显著提升,结果可与Mask R-CNN媲美。
其他基于R-CNN的实例分割模型包括R-FCN、DeepMask、PolarMask、边界感知实例分割和CenterMask。另一种有前途的方法是通过学习底层分割的分组线索来解决实例分割问题,例如深度分水岭变换、实时实例分割和通过深度度量学习的语义实例分割。
6.空洞卷积模型 (Dilate Convolutional Models)
空洞卷积(也称为“扩张卷积”)在卷积层中引入了另一个参数,即扩张率。例如,一个3x3的卷积核(图22)如果扩张率为2,那么它的感受野与一个5x5的卷积核相同,但仅使用9个参数,从而在不增加计算成本的情况下扩大了感受野。
空洞卷积在实时分割领域很受欢迎,许多最近的文献报告了这种技术的使用。其中一些最重要的包括DeepLab系列、多尺度上下文聚合、密集上采样卷积和混合空洞卷积(DUC-HDC)、密集连接的空洞空间金字塔池化(DenseASPP)和高效网络(ENet)。
Chen等人开发的DeepLabv1和DeepLabv2是最受欢迎的图像分割模型之一。后者有三个关键特性(图23)。首先是使用空洞卷积解决由最大池化和步幅引起的网络分辨率降低问题。其次是空洞空间金字塔池化(ASPP),它以多种采样率对输入的卷积特征层进行探测,从而捕捉多尺度图像上下文以稳健地分割多尺度目标。第三是通过结合深度卷积神经网络(如全卷积的VGG-16或ResNet 101)和概率图模型(特别是全连接条件随机场)的方法,提高目标边界的定位精度。
随后,Chen等人提出了DeepLabv3,该模型结合了级联和并行的空洞卷积模块。并行卷积模块被分组到ASPP中。在ASPP中添加了1x1卷积和批量归一化。所有输出都被拼接并通过另一个1x1卷积处理,以创建每个像素的最终输出logits。接着,Chen等人发布了DeepLabv3+(图24),它使用包含空洞可分离卷积的编码器-解码器架构,其中空洞可分离卷积由深度卷积(针对输入的每个通道的空间卷积)和点卷积(以深度卷积作为输入的1x1卷积)组成。他们使用DeepLabv3框架作为编码器。最相关的模型使用了具有更多层、空洞深度可分离卷积(代替最大池化)和批量归一化的修改版Xception骨干网络。
7.基于RNN的模型 (RNN Based Models)
尽管CNNs是计算机视觉问题的自然选择,它们并不是唯一的可能性。RNNs在建模像素间的短期/长期依赖关系方面很有用,从而(潜在地)改善分割图的估计。使用RNNs,像素可以被链接在一起并顺序处理,以建模全局上下文并提高语义分割效果。然而,图像的自然2D结构带来了挑战。
Visin等人提出了一种基于RNN的语义分割模型ReSeg(图25)。该模型主要基于ReNet,后者是为图像分类开发的。每个ReNet层由四个RNN组成,这些RNN在水平方向和垂直方向上来回扫描图像,编码补丁/激活,并提供相关的全局信息。为了使用ReSeg模型进行图像分割,ReNet层堆叠在预训练的VGG-16卷积层之上,这些卷积层提取通用的局部特征,然后通过上采样层恢复原始图像分辨率以进行最终预测。
Byeon等人使用2D LSTM网络对自然场景图像进行了每像素分割和分类。这些网络学习纹理和标签的复杂空间依赖关系,并在一个单一模型中执行分类、分割和上下文集成。
Liang等人提出了一种基于图-LSTM网络的语义分割模型(图26),其中卷积层通过构建在超像素图上的图-LSTM层增强,这些层提供了更全局的结构上下文。这些层将LSTM从用于均匀、阵列结构数据(如行、网格或对角LSTM)推广到非均匀、图结构数据,其中任意形状的超像素是语义一致的节点,超像素之间的邻接关系对应于边,从而形成无向图(图27)。
Xiang和Fox提出了数据关联递归神经网络(DA-RNNs),用于联合3D场景映射和语义标注。DA-RNNs使用了一种新的递归神经网络架构对RGB-D视频进行语义标注。网络的输出与诸如Kinect-Fusion之类的映射技术集成,以将语义信息注入重建的3D场景中。
Hu等人开发了一种结合CNN和LSTM的语义分割算法,CNN用于编码图像,LSTM用于编码其语言描述。为了从语言输入生成像素级图像分割,他们提出了一种端到端可训练的递归和卷积模型,该模型能够联合学习处理视觉和语言信息(图28)。这与传统的在预定义语义类集上的语义分割不同,例如,“右边长凳上坐着两个人”这一短语要求仅分割右边长凳上的两个人,而不包括坐在另一长凳上或站着的其他人。图29显示了该模型的示例分割结果。
RNN模型的一个缺点是其顺序性质不利于并行化,因此通常比CNN模型慢。
8.基于注意力机制的模型 (Attention-Based Models)
近年来,注意力机制在计算机视觉领域中一直备受关注,并且在语义分割中的应用也取得了显著进展。
Chen等人提出了一种注意力机制,该机制学习在每个像素位置对多尺度特征进行软加权。他们改进了一种强大的语义分割模型,并将其与多尺度图像和注意力模型联合训练。在图30中,该模型对背景中的人物(绿色虚线圆)和大孩子(品红色虚线圆)在不同尺度下的特征分别赋予较大权重。注意力机制使模型能够评估不同位置和尺度特征的重要性,其性能优于平均和最大池化。
与训练卷积分类器以学习标记对象的代表性语义特征的方法不同,Huang等人提出了一种反向注意力网络(RAN)架构(图31),该架构也应用了反向注意力机制,从而训练模型捕捉相反的概念——即与目标类别无关的特征。RAN网络同时执行直接和反向注意力学习过程。
Li等人开发了一种金字塔注意力网络用于语义分割,该网络利用全局上下文信息进行语义分割。舍弃了复杂的扩张卷积和解码器网络,他们结合了注意力机制和空间金字塔来提取精确的密集特征以进行像素标记。Fu等人提出了一种双重注意力网络用于场景分割,该网络基于自注意力机制捕捉丰富的上下文依赖关系。具体来说,他们在膨胀FCN之上添加了两种类型的注意力模块,分别建模空间和通道维度上的语义依赖关系。位置注意力模块通过加权和选择性地聚合每个位置的特征。
其他将注意力机制应用于语义分割的模型包括:OCNet,它采用了受自注意力机制启发的对象上下文池化;ResNeSt:分割注意力网络;高度驱动的注意力网络;期望最大化注意力网络(EMANet);交叉注意力网络(CCNet);基于递归注意力的端到端实例分割;用于场景解析的逐点空间注意力网络;以及判别特征网络(DFN)。
9.生成模型和对抗训练 (Generative Models and Adversarial Training)
生成对抗网络(GANs)在计算机视觉的众多任务中得到了广泛应用,包括图像分割。
Luc等人提出了一种用于语义分割的对抗训练方法,他们训练了一个卷积语义分割网络(图32),同时训练了一个判别网络,该网络用于区分真实的分割图和分割网络生成的分割图。他们的实验表明,对抗训练方法在Stanford Background和PASCAL VOC 2012数据集上提高了准确性。
Souly等人提出了一种使用GANs的半弱监督语义分割方法。其模型由一个生成器网络和一个多类分类器(在GAN框架中作为判别器)组成,生成器提供额外的训练样本,而判别器则将样本分配到可能的标签类别或标记为假样本(额外类别)。
Hung等人开发了一种用于半监督语义分割的对抗网络框架。他们设计了一个FCN判别器,用于区分预测的概率图与真实分割分布,考虑了空间分辨率。该模型的损失函数包括三部分:分割真实标签上的交叉熵损失、判别网络的对抗损失以及基于判别器输出的置信度图的半监督损失。
Xue等人提出了一种带有多尺度L1损失的对抗网络,用于医学图像分割。他们使用一个FCN作为分割器生成分割标签图,并提出了一个具有多尺度L1损失函数的新型对抗评论网络,以迫使评论者和分割器学习捕捉像素之间长短程空间关系的全局和局部特征。
其他基于对抗训练的方法还包括使用GANs的细胞图像分割,以及对象不可见部分的分割和生成。
10.结合主动轮廓模型的卷积神经网络 (CNN Models With Active Contour Models)
最近,研究人员对全卷积网络(FCNs)与主动轮廓模型(ACMs)之间的协同作用进行了探索。一种方法是基于ACM原理制定新的损失函数。例如,受全局能量公式启发,Chen等人提出了一种监督损失层,该层在FCN的训练过程中结合了预测掩膜的面积和大小信息,解决了心脏MRI中的心室分割问题。同样,Gur等人提出了一种基于无边缘形态学主动轮廓的无监督损失函数,用于微血管图像分割。
另一种方法最初是将ACM仅作为FCN输出的后处理器,并尝试通过预训练FCN进行适度的协同学习。Le等人的工作就是一个例子,他们将水平集ACMs实现为RNNs,用于自然图像的语义分割。Rupprecht等人提出的深度主动轮廓也是一个例子。对于医学图像分割,Hatamizadeh等人提出了一种集成的深度主动病变分割(DALS)模型,该模型训练FCN骨干网预测一种新颖的、局部参数化的水平集能量函数的参数函数。在另一个相关工作中,Marcos等人提出了深度结构化主动轮廓(DSAC),它在结构化预测框架中结合了ACMs和预训练的FCNs,用于航空图像中的建筑实例分割(尽管需要手动初始化)。对于相同的应用,Cheng等人提出了深度主动射线网络(DarNet),该网络与DSAC类似,但基于极坐标的不同显式ACM公式,防止轮廓自交。
最近,Hatamizadeh等人引入了一种真正的端到端反向传播可训练的完全集成的FCN-ACM组合,被称为可训练深度主动轮廓(TDAC)。超越,他们以附加卷积层的形式实现了局部参数化的水平集ACM,这些卷积层紧随FCN的骨干层之后,利用Tensorflow的自动微分机制在整个DCAC框架中反向传播训练误差梯度。这个全自动模型在训练或分割过程中无需干预,可以自然地分割多个感兴趣对象实例,并处理包括锐角在内的任意对象形状。
11.其他模型 (Other Models)
其他流行的图像分割深度学习架构包括以下几种:
- Context Encoding Network(EncNet)使用基本的特征提取器,并将特征图输入到上下文编码模块中。
- RefineNet是一个多路径细化网络,明确利用下采样过程中的所有信息,通过长距离残差连接实现高分辨率预测。
- Seednet介绍了一种自动种子生成技术,通过深度强化学习解决交互式分割问题。
- Object-Contextual Representations(OCR)学习对象区域及每个像素与对象区域之间的关系,增强了具有对象上下文表示的像素表示。
其他模型和方法包括:
- BoxSup
- 图卷积网络(GCN)
- 宽ResNet
- Exfuse(增强低级和高级特征融合)
- Feedforward-Net
- 用于测地视频分割的显著性感知模型
- 双图像分割(DIS)
- FoveaNet(视角感知场景解析)
- Ladder DenseNet
- 双边分割网络(BiSeNet)
- 场景解析的语义预测指导(SPGNet)
- 门控形状卷积神经网络
- 自适应上下文网络(AC-Net)
- 动态结构语义传播网络(DSSPN)
- 符号图推理(SGR)
- CascadeNet
- 尺度自适应卷积(SAC)
- 统一感知解析网络(UperNet)
- 通过再训练和自我训练进行分割
- 密集连接神经架构搜索
- 分层多尺度注意力
- 高效RGB-D语义分割(ESA-Net)
- 迭代金字塔上下文
- 学习动态路由进行语义分割
全景分割[143] 也在日益流行。此方向的努力包括:
- 全景特征金字塔网络(PFPN)
- 用于全景分割的注意力引导网络
- 无缝场景分割
- 全景DeepLab
- 统一全景分割网络
- 高效全景分割
图33提供了自2014年以来一些最具代表性的深度学习图像分割模型的时间线。
DATASETS
1. 2D图像数据集 (2D Image Datasets)
PASCAL Visual Object Classes (VOC):这是一个很热门的计算机视觉数据集,包含5个任务的标注图像,包括分类、分割、检测、动作识别和人体布局。分割任务中有21个标记的物体类别,背景被标记为不属于这些类别的像素。
PASCAL Context:PASCAL VOC 2010检测挑战的扩展,包括所有训练图像的像素级标签。它包含400多个类别,通常选择59个类别的子集进行使用。
Microsoft Common Objects in Context (MS COCO):这是一个大规模的对象检测、分割和图像描述数据集。COCO包含复杂日常场景的图像,包含91种对象类型的2.5百万标记实例。
Cityscapes:专注于城市街道场景的语义理解的大型数据库。包含50个城市的街道场景的立体视频序列,有5K帧的高质量像素级注释。
ADE20K / MIT Scene Parsing (SceneParse150):提供了用于场景解析算法的训练和评估平台。数据集包含20K张以场景为中心的图像,这些图像详尽地标注了对象和对象部分。
SiftFlow:包含2,688张标注图像,来自LabelMe数据库的一个子集,涉及8种不同的户外场景。
Stanford Background:包含户外场景的图像,至少包含一个前景对象,像素级注释,可用于语义场景理解。
Berkeley Segmentation Dataset (BSD):包含12,000个人标记的分割,来自1,000张Corel数据集图像,目的是为图像分割和边界检测研究提供经验基础。
Youtube-Objects:包含来自YouTube的视频,包括十个PASCAL VOC类别的对象。
CamVid:专注于道路/驾驶场景的场景理解数据库,包含701帧手动标注的32个类别。
KITTI:用于自动驾驶的流行数据集,包含交通场景的视频,记录了多种传感器模态。
2. 2.5D数据集 (2.5D Datasets)
NYU-Depth V2:包含各种室内场景的视频序列,由Microsoft Kinect的RGB和深度相机记录。
SUN-3D:包含415个序列的大型RGB-D视频数据集,从41个不同建筑的不同空间捕获。
SUN RGB-D:提供了RGB-D基准测试,用于推进所有主要场景理解任务的最新技术。
ScanNet:包含超过1,500个扫描的2.5百万视图的RGB-D视频数据集,注释了3D相机姿势、表面重建和实例级语义分割。
Stanford 2D-3D:提供了2D、2.5D和3D模态的互注册数据,包括从6个室内区域获取的超过70,000张RGB图像。
UW RGB-D Object Dataset:包含300个常见家庭物品的数据集,使用类似Kinect的传感器记录。
DL SEGMENTATION MODEL PERFORMANCE
1.图像分割模型的指标 (Metrics for Image Segmentation Models)
像素准确率 (Pixel accuracy / PA):正确分类的像素数量除以总像素数,K+1个类别(K个前景类别和背景)。
平均像素准确率 (Mean Pixel Accuracy / MPA):按类别计算正确像素的比率,然后对所有类别取平均值。
交并比 (Intersection over Union / IoU) 或 雅卡尔指数 (Jaccard Index):预测分割图A和真实分割图B交集的面积与并集的面积之比,范围在0到1之间。
平均交并比 (Mean-IoU):所有类别上交并比的平均值。
精确度/召回率/F1分数 (Precision/Recall/F1 Score):
骰子系数 (Dice coefficient):通常用于医学图像分析,可以定义为预测和真实图之间的重叠面积的两倍除以两个图的像素总数之和。Dice系数与二元图中的F1分数相同:
当应用于二元图时,Dice系数等同于F1分数。
2.基于深度学习的模型的定量性能 (Quantitative Performance of DL-Based Models)
“Backbone" 是指用于语义分割模型的基础网络架构或特征提取器。这些基础网络通常是预先在大型数据集上训练过的卷积神经网络。它们负责提取输入图像的特征,然后这些特征会被更高级的网络层或模块用来进行进一步处理,最终生成分割结果。
表1侧重于PASCAL VOC测验集。显然,自引入第一个基于DL的图像分割模型FCN以来,模型的准确率有了很大提高。
表2侧重于Cityscape测试数据集。最新的模型在该数据集上比pio-neering FCN模型具有约23%的相对增益。
表3侧重于MS COCO的测验集。这个数据集比PASCAL VOC和城市景观更具挑战性,因为最高mIoU约为40%。
表4重点介绍了ADE20k验证集。该数据集也比PASCAL VOC和Cit-yeseces数据集更具挑战性。
表5提供了COCO test-dev 2017数据集上突出实例分割算法的平均精度及其速度方面的性能。
表6提供了MS-COCO val数据集上突出全景分割算法的全景质量方面的性能[143]。
表7总结了几个突出的RGB-D分割模型在NYUD-v2和SUN-RGBD数据集上的性能。
CHALLENGES AND OPPORTUNITIES
毫无疑问,图像分割从深度学习中受益匪浅,但未来还有几个挑战。
1.更多具有挑战性的数据集 (More Challenging Datasets)
需要创建更大规模、更复杂的数据集,这对于3D图像分割尤其重要,尤其是在医学图像分析领域。
2.结合DL和早期的分割模型 (Combining DL and Earlier Segmentation Models)
深度学习基础的分割算法的性能已趋于饱和,特别是在医学图像分析等某些应用领域。为了提升到下一个性能水平,我们必须进一步探索将基于CNN的图像分割模型与传统的“经典”基于模型的图像分割方法结合起来。
3.可解释的深度模型 (Interpretable Deep Models)
尽管基于DL的模型在具有挑战性的基准测试上取得了有希望的性能,但这些模型究竟学到了什么,我们应该如何解释这些模型学习到的特征,以及实现给定数据集上特定分割精度的最小神经架构是什么,这些问题仍然存在。
4.弱监督学习和无监督学习 (Weakly-Supervised and Unsupervised Learning)
弱监督(也称为少样本)学习和无监督学习正在成为非常活跃的研究领域。这些技术承诺在图像分割中特别有价值,因为在许多应用领域,尤其是医学图像分析中,收集精确标记的训练图像是有问题的。
5.各种应用的实时模型 (Real-Time Models for Various Applications)
在许多应用中,准确性是最重要的因素;然而,也有一些应用场景中,拥有能够在接近实时或普通相机帧率(至少每秒25帧)下运行的分割模型也至关重要。这对于部署在自动驾驶车辆中的计算机视觉系统非常有用。
6.内存高效模型 (Memory Efficient Models)
许多现代分割模型即使在推理阶段也需要大量的内存。到目前为止,大部分工作都集中在提高这些模型的准确性上,但为了将它们适应到特定设备上,如手机,网络必须被简化。
7.应用领域 (Applications)
基于DL的分割方法已成功应用于遥感图像,例如支持城市规划和精准农业。使用基于DL的分割方法对由航空平台和无人机收集的图像进行分割,以解决包括与气候变化相关的重要环境问题。
CONCLUSION
本篇综述调查了基于深度学习模型的图像分割算法,这些算法在各种图像分割任务和基准测试中取得了令人印象深刻的性能,被归类为不同的架构类别,例如:卷积神经网络(CNN)和全卷积网络(FCN)、递归神经网络(RNN)、区域卷积神经网络(R-CNN)、扩张卷积神经网络、基于注意力的模型、生成对抗模型等。
同时总结了这些模型在一些流行的基准测试上的定量性能,例如PASCAL VOC、MS COCO、Cityscapes和ADE20k数据集。
最后,综述讨论了未来几年基于深度学习的图像分割面临的一些开放性挑战和有前景的研究方向。
暂无评论内容