论文日期:2023.7
0 - Abstract
语义分割是像素级遥感(RS)数据分析中一个基础但具有挑战性的问题。基于航拍图像和卫星图像的语义分割任务在广泛的应用领域中起着重要作用。近年来,随着深度学习(DL)在计算机视觉(CV)领域的成功应用,越来越多的研究人员将DL方法引入到RS数据语义分割任务中,并取得了优异的成果。尽管已有大量DL方法被提出,但在RS数据语义分割技术的评价和推进方面仍存在不足。为了解决这一问题,本文综述了过去五年中该领域的100多篇论文,并详细阐述了技术框架分类讨论、数据集、实验评估、研究挑战及未来研究方向等方面的内容。不同于此前发表的几篇综述,本文首次着重于在重要且难点上全面总结各技术和模型的优缺点。此研究将帮助初学者快速建立该领域的研究思路和流程,使他们能专注于算法创新,而不必过多关注数据集、评价指标和研究框架。
1 - Introduction
2 - Overview
本节概述了遥感(RS)领域中语义分割的方法。首先,介绍了语义分割的基本定义。其次,解释了传统和主流的方法。再次,统计了过去五年中RS图像的语义分割方法,并分析了主要发表的期刊、数量及论文的关键词可视化。
2.1 定义与概念
语义分割是计算机视觉(CV)中非常重要的一个方向。与目标检测和识别不同,语义分割实现了图像的像素级分类。它可以根据类别的相似性和差异性将图片划分为多个区域。语义相关的像素会被标注为相同的标签。语义分割算法可以全面完成场景中视觉元素的识别、检测和分割,提升图像理解的效率和准确性。相比图像分类和目标检测,语义分割的结果能够提供更丰富的图像局部和细节信息。语义分割算法在多个领域具有广泛的应用和长期的发展前景。例如,在自动驾驶技术中,语义分割算法可以通过分割道路、车辆和行人来帮助自动驾驶系统判断路况。对于RS图像,语义分割在灾害评估、作物产量估算和土地变化监测中起着不可替代的作用。
2.2 研究概述
通过Google Scholar以“semantic segmentation”和“remote sensing”为关键词进行搜索,统计了自2015年以来发表的论文数量,如图1所示。可以看到,作为遥感领域中的一项重要任务,语义分割吸引了众多研究人员的关注。并且,越来越多的新技术和方法不断涌现。
我们基于RS语义分割收集了100多篇文章的研究成果,并对它们进行了统计。已发表的研究统计结果如图2A所示(发表少于三篇文章的期刊未显示)。根据发表期刊的数量,排名前四的期刊依次是《Remote Sensing》、《IEEE Transactions on Geoscience and Remote Sensing》、《Journal of Photogrammetry and Remote Sensing》和《IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing》。研究论文的年度分布如图2B所示。可以发现,我们更关注过去两年的最新研究,这些研究代表了语义分割领域当前的先进技术。
我们还对过去五年内论文的关键词进行了分析。关键词在表达论文核心内容方面具有重要意义,并且能够映射近年来的研究内容和方向。通过词云图(图3)展示了统计结果。我们可以看到,除了任务关键词“semantic segmentation”和数据关键词“remote sensing”之外,从方法技术的角度来看,“attention”、“convolutional neural”、“Transformer”、“GAN”和“unsupervised”这些词汇的使用频率较高。
2.3 方法概述
所有的发展都需要长期的技术积累。早期的语义分割方法多采用传统方法。随着DL的出现,越来越多的新方法不断涌现。在RS数据领域,也有许多优秀的DL方法。
早期的语义分割研究主要集中在非DL模型上,如阈值法(Davis等, 1975)、基于聚类的方法(Özden和Polat, 2005)、边缘检测方法(Senthilkumaran和Rajesh, 2009)和条件随机场(CRFs)(Nowozin和Lampert, 2011)。这些传统方法的效率和准确性较低。
全卷积网络(FCN)(Long等, 2015)是首个成功应用于语义分割的DL模型,它将CNN的全连接层改为卷积层。然而,FCN的感受野是固定的,容易丢失细节信息。为了解决这个问题,提出了SegNet模型(Badrinarayanan等, 2017),通过使用池化索引保存图像的轮廓信息来减少参数数量。U-Net网络(Ronneberger等, 2015)是FCN的扩展,其主要创新在于中间使用了四层跳跃连接。DeepLab V1(Chen等, 2015)通过使用空洞卷积代替传统卷积层,缓解了下采样问题,使分割边界更加清晰。DeepLab v2(Chen等, 2017a)、DeepLab v3(Chen等, 2017b)和DeepLab v3+(Chen LC.等, 2018)随后被提出。DeepLab v2的贡献在于更加灵活地使用空洞卷积和空洞空间金字塔池化(ASPP),并放弃了CRF,改进了ASPP,使用空洞卷积加深了网络。DeepLab v3+进一步修改了主网络,并将ResNet-101升级为Xception。
近年来,许多基于经典DL语义分割的改进方法已应用于RS图像(Zhou等, 2018;Ding等, 2020b;Pan等, 2020;Bai等, 2021;Huang等, 2022)。例如,Bai等(2021)提出了一种改进模型HCANet,并设计了两个紧凑的空洞空间金字塔池化(CASPP和CASPP+)模块。Huang等(2022)改进了U-Net和U-net++(Zhou等, 2018)在U-Net的四层连接中的结构,这种结构的优势在于网络可以学习不同深度特征的意义并进行融合。还有许多采用最新技术的研究,如注意力机制(Wang等, 2022a)、生成对抗网络(Pan等, 2020)和Transformer(Ding等, 2020b)。这些新方法提升了RS数据中语义分割任务的性能,并对该任务的发展产生了重要影响。
从DL技术框架的角度来看,本文将过去五年中RS数据的语义分割方法分为六类,即基于CNN、基于注意力机制、多尺度策略、基于Transformer、基于GAN和基于融合的方法,并对这些网络模型进行了分类和概述。我们将近年来的这些网络模型展示在图4中。
3 - Semantic segmentation framework
3.1 基于CNN的方法概述
许多基于CNN的语义分割研究应用于遥感(RS)数据。该部分将从以下几个类别讨论这些论文:基于FCN的、基于U-Net的、基于SegNet的、基于DeepLab的以及其他卷积网络方法。
3.1.1 FCN架构
在全卷积网络(FCN)中,1×1卷积替代了CNN中的全连接层。然后,通过softmax层得到每个像素的类别概率值。FCN引入了反卷积(如图5所示)。每个像素的真实类别是对应最大概率值的类别。最后,得到的分割图像与输入图像的分辨率相同。反卷积使用已知的卷积核和卷积输出恢复图像,从而获取精细的特征。相比于传统的CNN,FCN更高效,因为避免了对每个像素块进行重复卷积计算,其中相邻的像素块计算结果是重复的。
尽管FCN在场景分割问题上取得了重大突破,但它依赖于大规模的图像识别网络,通常在大量图像上进行训练(Marmanis等,2016)。然而,在遥感领域,标签的匮乏是一个难题。Kemker等(2018)首次将FCN应用于多光谱遥感图像的分割,利用了大量自动标注的合成多光谱图像并取得了良好的效果。随后,许多基于FCN的方法(Iglovikov等,2018;Shao等,2020;Wei等,2020;Chen等,2022)被引入,以提高分割性能。
由于RS数据具有多传感器提供的附加光谱波段,常用的基于RGB的预训练模型无法满足要求。根据RS数据的特性,一些研究改进了基于FCN的方法,取得了良好的语义分割结果(Liu等,2019;Chen G.等,2021;Chen L.等,2021)。Liu等(2019)通过将RGB特征与LiDAR特征融合,从深度学习框架中获取语义标签。Chen G.等(2021)提出了一种改进结构SDFCNv2,以优化RS数据的分割结果。他们设计了混合模型的基本卷积模块以获得更大的感受野,并开发了空间通道融合模型以减少训练压力并提高实验结果。Chen L.等(2021)的EFCNet是一个端到端网络,使用深度变化块来学习不同尺度特征的权重。使用FCN的迁移学习可以提高分割精度(Wurm等,2019)。FCN网络的不同卷积模块可以提取多尺度信息,无需使用集成学习技术(Pastorino等,2022a)。结合从FCN网络中提取的特征和空间信息可以获得更精确的结果(Pastorino等,2022b)。
3.1.2 U-Net架构
U-Net架构(Long等,2019)是当前语义分割研究中最广泛使用的模型。它在传统的编码器–解码器层上增加了跳跃连接,以融合扩展路径中的低层和高层特征,从而提高定位精度。后来出现了许多变体方法,例如Unet++(Zhou等,2018)、DC-Unet(Lou等,2021)和TransUNet(Chen J.等,2021)。基于U-Net结构的方法被用于RS图像(Huang等,2017;Huang等,2018;Tasar等,2019;Maxwell等,2020;Liu Z.等,2022;Priyanka等,2022;Wang K.等,2022)并表现出更好的性能。
Maxwell等(2020)在美国地质调查局的大规模历史地表数据集上实验了一种基于U-Net的方法,并减少了手动数字化操作。Tasar等(2019)提出了一种增量学习方法,这是U-Net的变体,包括了VGG16的前13层卷积层作为编码器和两个中央卷积层的解码器。ResUNet-a(Foivos等,2020)在U-Net骨干网络中加入了残差连接,解决了梯度消失和爆炸问题。它采用了多重并行的空洞卷积来在多尺度上提取目标特征。Priyanka等(2022)设计了DIResUNet模型,通过集成初始模块、改进的残差块和密集全局空间金字塔池化(DGSPP),结合了U-Net的结构。这种方式可以通过专用处理操作符并行提取局部和全局相关场景,从而实现更高效的语义分割。HCANet(Bai等,2021)与U-Net的编码器–解码器结构相似。HCANet中有两个模块,CASPP和CASPP+。CASPP模块替代了U-Net中的裁剪操作,并从ResNet中获取多尺度上下文信息。为了获取聚合的上下文信息,HCANet方法在网络的中间层采用了CASPP+模块。Yue等(2019)提出了TreeUNet,它连接了分割模块和Tree-CNN块。
3.1.3 SegNet架构
SegNet网络包含一个编码器网络、一个对称的解码器网络和一个像素级分类层。它具有与VGG16相同的13个卷积层。在编码器中,最大池化的索引被应用于解码器,以提高分割任务对边界的识别效果。图6展示了四种颜色的最大值位置的记录。在上采样块中,这些位置被标记,其他位置被填充为零。这样可以提高分割任务在边界上的识别效果。
许多研究利用SegNet与其他操作相结合的方法来实现语义分割任务(Marmanis等,2017),一些研究者还使用SegNet的思想设计了改进的模型(Weng等,2020;Zheng等,2020b)。Marmanis等(2017)通过在SegNet的编码器–解码器架构中加入边界检测,节省了内存。Weng等(2020)提出了SR SegNet来实现水体分割。通过在编码器中加入改进的残差块和深度可分离卷积,减少参数数量,并使用膨胀卷积增强特征提取能力。同时,SR SegNet在编码器网络中使用更多卷积核,并采用级联方法结合图像的不同层次特征。
3.1.4 DeepLab架构
DeepLab系列包含了一些由Google团队提出的语义分割算法。DeepLab v1于2014年推出,并在PASCAL VOC2012数据集的分割任务中获得了第二名。随后,从2017年到2018年,DeepLab v2、DeepLab v3和DeepLab v3+相继推出。DeepLab v1的两个创新是空洞卷积和全连接条件随机场(CRF)。DeepLab v2引入了ASPP,而DeepLab v3进一步优化了ASPP,包括添加卷积和批归一化操作。DeepLab v3+在U-Net的基础上,增加了一个上采样解码器模块,以提高边缘的精确度。
在遥感领域,也有许多方法使用DeepLab系列结构模型,如基于DeepLab的方法(Chen K.等,2018;Hu等,2019;Venugopal,2020;Wang Y.等,2021),以及一些基于DeepLab v3的模型(Du等,2014;Kong等,2021;Andrade等,2022;Wang等,2022a;Wang M.等,2022)。Venugopal(2020)提出了一种基于DeepLab的膨胀卷积方法,用于捕捉图像中的差异。Wang Y.等(2021)提出了一种特征正则化的掩码DeepLab模型,以缓解小样本规模引起的过拟合问题。Chen K.等(2018)在DeepLab模型的基础上引入了一种shuffle操作,以改进卷积网络。
DeepLabv3+扩展了DeepLabv3,添加了一个有效的解码模块来优化分割结果(Du等,2014;Kong等,2021;Andrade等,2022;Wang等,2022a;Wang M.等,2022)。Wang等(2022a)通过一种基于注意力机制的CFAMNet结合了DeepLabv3+,首先,特征模块基于注意力机制关注不同类别之间的关联性,然后,多并行空间金字塔池结构提取了输入数据的不同尺度特征。为了解决不同类别间的不平衡问题,Andrade等(2022)扩展了原始DeepLabv3+模型,并通过引入像素级权重,减少小类别损失的权重。
3.1.5 其他CNN方法
CNN的强大之处在于其多层结构可以自动学习特征(Li Y.等,2020;Mi和Chen,2020;Ma等,2021;Zhang Y.等,2021;Cui H.等,2022;Ma J.等,2022)。Cui H.等(2022)提出了一种新的混合域自适应网络(MDANet)用于小块图像的适应性调整。通过将不同小块图像的投影分布置于混合域的虚拟中心,MDANet减少了它们之间的差异。Ma J.等(2022)设计了一个基于ASPP模块的渐进式重建模块,使用不同比例的空洞卷积层连续处理不同分辨率的特征。Mi和Chen(2020)提出的超像素增强深度神经森林(SDNF),通过将深度卷积神经网络(DCNN)与决策森林结合,提高了分类准确率。
针对遥感(RS)图像中大范围覆盖区域与高分辨率(HRS)图像中关键物体(如汽车、船只)仅包含少量像素的问题,Ma等(2021)设计了一种小物体的语义分割模型,名为前景激活(FA),从结构和优化的角度出发。Li Y.等(2020)结合了CNN与图神经网络(GNN)设计模型,以发现视觉元素之间的空间拓扑关系。Avenash和Viswanath(2019)提出了一种新的激活函数Hard-Swish,取得了更好的分类结果。一些基于CNN网络的新方法也涌现,例如,Yang和Ma(2022)提出了一种通过原型解决背景类复杂上下文的稀疏且完整的潜在结构。基于CNN网络的弱监督方法也能够更好地解决树种分割问题(Ahlswede等,2022)。
3.1.6 讨论
基于FCN的方法的优势在于它可以适应任意大小的输入图像。尽管8倍上采样的效果比32倍要好得多,但上采样的结果仍然相对模糊和平滑,且对图像细节不敏感。每个像素的分类并没有充分考虑像素之间的关系,空间正则化忽略了空间一致性。基于U-Net结构的模型由于在卷积过程中不添加填充(pads),每次卷积后都会减少两个像素。SegNet网络使用池化索引保存输入图像的轮廓特征,减少了参数量。DeepLab系列采用了ASPP,利用DCNN提高了目标边界的定位,并减轻了DCNN的不变性对定位精度的影响。
3.2 基于注意力机制的方法
注意力机制是深度学习方法中的常见技术(Vaswani等,2017;Fu等,2019;Guo等,2022)。优秀的语义分割模型通常较为复杂,且需要大量的计算资源,特别是常用的FCN依赖于详细的空间和上下文信息,这在一定程度上限制了其实际应用。在DANet(Fu等,2019)中,利用点积操作可以获取丰富的信息关系。尽管注意力技术显著提高了分割精度,但对大量计算资源的需求也阻碍了其应用。近年来,出现了越来越多改进的方法,例如自注意力机制和融合注意力机制。本节总结并讨论了线性注意力、子注意力机制以及通道和空间注意力机制。
3.2.1 自注意力与线性注意力
神经网络接收到的输入通常是许多不同大小的向量,这些向量之间存在一定的关系,但实际训练过程中无法充分利用这些关系。为了解决全连接神经网络无法建立多个相关输入间关联的问题,自注意力操作应运而生。它要求机器能够识别不同组成部分之间的相关性。
RSANet(Zhao D.等,2021)是一种区域自注意力机制,与传统方法相比,它能够减少特征噪声和冗余特征。Li C.等(2021)采用了一种层次自注意力嵌入的神经网络,并具有密集连接,充分利用了短程和长程的上下文特征。Chen Z.等(2021)学习了自动学习通道和位置权重的自注意力模型,并构建了特征库,用于提取类别约束特征(Deng等,2021)。Li C.等(2021)提出了多尺度上下文自注意力网络(MSCSANet),它结合了自注意力的优势和CNN的机制,以提高分割质量。通过位置和通道注意力模块,计算特征图内的相关性以及多尺度上下文特征图和局部特征。
Li等(2021a)使用了一种线性注意力机制(LAM)。他们重构了原U-Net的跳跃连接,并设计了一种多阶段方法。Li等(2021c)设计了一种新颖的注意力双边上下文网络(ABCNet),它利用轻量级的CNN空间路径和上下文路径进行高分辨率遥感图像的语义分割,并通过LAM建模全局上下文信息。A2-FPN(Li R.等,2022)提出了用于注意力聚合的模型。该模型引入了LAM和注意力聚合模块,用于特征金字塔网络,增强多尺度特征学习。Wang L.等(2021)利用堆叠卷积构建纹理路径,并融合依赖性和纹理特征。Marsocci等(2021)提出了一种结合自监督算法与注意力机制的语义分割算法,基于LAM进行航拍图像的形状分割。
3.2.2 通道与空间注意力
在遥感数据的语义分割方法中,广泛使用了通道与空间注意力机制。通道注意力主要关注重要的通道维度进行特征学习,并弱化其他不重要的通道;空间注意力则着重于关键区域并削弱背景。当前的多数研究方法将这两种方法结合,以提高分割效果,而也有一些方法仅使用其中之一。
3.2.2.1 通道注意力
通道注意力在通道域生成一个注意力掩码,以选择重要的通道。通道注意力关注的是特征图中各个通道的不同维度,如图7A所示。一个特征检测器检测每个通道的特征图,对于某个特征图,首先计算每个通道的重要性,然后通过将特征图与权重相乘来获得加权的特征图。Su等(2022)设计了类似U-Net的架构,使用小波频率通道注意力模块作为注意力机制。Panboonyuen等(2019)为了选择最具区分性的特征,改变了遥感特征在每个阶段的权重,以自适应地为重要特征分配更多的权重值。CFAMNet(Wang等,2022a)改进了DeepLabv3+网络,其注意力模块通过多平行的ASPP模块获取了不同类别之间的相关性,并提取了不同尺度的上下文特征。
3.2.2.2 空间注意力
空间注意力则侧重于空间维度上每个通道中哪些点更为重要(Luo等,2019;Zhao Q.等,2021;Li等,2022b),因此,需要为空间维度生成权重,如图7B所示。首先,对同一平面空间点上的不同通道值进行平均池化(AvgPool)和最大池化(MaxPool),以获得权重。接着,使用卷积层和sigmoid函数得到最终的权重,并将该权重与每个通道相乘,获得在空间维度上的加权特征图。由于卷积核大小及梯度消失等问题,一些建筑物的数据提取可能不准确,随着网络的加深,一些较小建筑的信息可能丢失。Li等(2022b)设计了一种多尺度空间注意力模块,提供了该网络模型所获得特征的上下文信息。Zhao Q.等(2021)则使用多尺度模块,提升了高分辨率航拍图像标注的精度。
3.2.2.3 融合注意力机制
许多实验表明,融合通道和空间注意力可以得到更好的分割结果(Ding等,2020a;Li H.等,2020;Sun等,2020;Seong和Choi,2021;Fan等,2022;Liu R.等,2022),如图7C所示。通道和空间注意力的融合有两种方式:(1)并行模式,即通道注意力和空间注意力并行执行;(2)串行模式,先通过通道注意力,再通过空间注意力,或反之。大多数实验表明,先通过通道注意力的效果更佳。双边分割网络(BiSeNetV2)包括详细分支和语义分支。详细分支使用宽通道和浅层网络捕获低级细节,生成高分辨率特征表示。该分支以{C1, C2, C3, C4, C5}特征图为输入,C1包含丰富的空间位置信息,通过1×1卷积和C2拼接卷积操作后获得C12特征图,接着通过sigmoid操作得到空间边界注意力图A1=1/1(1+exp(C12))。通道注意力门根据每个通道的重要性分配权重,空间注意力门则根据像素点位置的重要性分配权重。Ding等(2020a)提出了基于上下文信息计算的注意力模块,通过局部拼接增强嵌入注意力。Fan等(2022)结合膨胀卷积层形成新的中心区域编码和解码模块,提升了河流分割的精度。Li H.等(2020)提出了一种轻量级的端到端语义分割网络,集成了自适应的通道与空间注意力模块,能够自适应地细化特征。Mou等(2020)提出了基于关系增强表示的模型,能够学习和推理不同空间位置或特征图之间的全局关系。
3.2.3 讨论
自注意力根据输入数据之间的关系,为每个输入分配不同的权重。自注意力在计算时具有并行计算的优势。线性注意力类似于点积注意力,但它占用的内存和计算量更少。通道注意力侧重于不同通道的重要性,而空间注意力侧重于不同像素位置的重要性。近年来,为了提升语义分割性能,大多数方法将通道与空间注意力机制融合。然而,研究人员往往只是简单地将空间和通道维度的注意力结果相加或连接。如何解决复杂背景下的语义分割问题仍然是一个需要持续探索的问题。因此,设计高效的融合模型以满足更高的精度要求仍然十分必要。
3.3 基于多尺度策略的方法
遥感(RS)图像具有高分辨率和多尺度变化特性,然而卷积神经网络(CNN)的感受野大小是固定的。在图像中的大尺度视觉元素上,感受野只能覆盖其局部区域,这容易导致错误的识别结果;而在小尺度视觉元素上,也存在识别挑战。多尺度分割的挑战在于自动选择最佳的连续分割尺度分析(Zhang et al., 2020; Zhong et al., 2022a)。多数方法基于分层结构或并行结构,结合注意力机制实现多尺度特征融合。以下部分从分层结构和并行结构讨论遥感图像的多尺度语义分割方法。
3.3.1 分层结构
基于分层结构的算法通过CNN不同阶段的特征来获取多尺度信息,如图8A所示。在CNN的前向传播过程中,随着卷积和池化操作的进行,感受野不断增加。通过融合CNN不同阶段的特征,可以捕捉到通道和空间维度上的多尺度特征(Zheng et al., 2020a; Li Z. et al., 2021; Liu B. et al., 2022; Luo et al., 2022; Wang et al., 2022b; Zhao et al., 2022; Zheng et al., 2022)。
由于高分辨率遥感数据比普通自然图像的维度更大,Mou等(2020)研究了基于分层多尺度分割的线段树模型,识别并融合有意义的对象。每条路径上的节点从叶子节点开始。EaNet模型(Zheng et al., 2020b)是一种边缘感知CNN,包含一个内核金字塔池化(LKPP)模块,用以提取不同尺度的信息,并设计了一种新的损失函数优化边界。Zheng等(2022)使用不同尺度的输入卷积模块提取局部信息。Li Z.等(2021)在多尺度下提取不同特征,SS AConv级联多尺度结构(SCMS)通过集成不同比率的SS AConv实现了级联空间金字塔的转换。
Xu H.等(2022)设计了FSHRNet,利用高分辨率特征的强线性可分性实现VHR图像中的多尺度对象分割。Li等(2021c)提出了一种具有密集连接的分层自注意力模型,充分利用了短期和长期上下文特征。受迁移学习的启发,Zhao等(2022)改进了一种多尺度网络,增强了网络的鲁棒性,学习了尺度不变性和小物体的上下文信息。Liu B.等(2022)设计了一种能够高效提取不同尺度特征并生成地图的方法,有助于将物体细化为不同大小。Luo等(2022)从多尺度像素特征中提取类别对象表示,能够识别类别之间的相似性和差异性。Zheng等(2020a)通过前景-场景关系模块学习了场景间的共生关系,从而减少了误报。Wang等(2022b)使用动态多尺度膨胀卷积提取不同尺度的特征。
3.3.2 并行结构
并行结构算法在卷积模块获得的语义特征图后连接多个具有不同感受野的并行分支,形成并行结构来捕捉不同尺度的特征,如图8B所示。Liu等(2018b)通过深度监督网络自动学习多尺度和多层次特征,提供了直接的监督来处理各种场景和道路的尺度变化。Liu等(2018a)在CNN编码器的输出结果中捕捉不同尺度的上下文,然后以自级联的方式连续聚合它们。Bello等(2022)提出了一种高效的密集多尺度分割网络,能够准确实时地进行遥感图像的分割。Wang等(2022)设计了一种新的骨干网络,以多尺度问题为切入点,能够更好地关注多尺度的重要信息。
由于CNN卷积核大小和梯度消失的问题,从建筑物中提取的数据可能不准确,随着网络加深,一些小型建筑的信息可能会丢失。Duan和Hu(2019)提出了一种新的擦除注意力模块,与多尺度细化方案配合高效地进行特征嵌入。
3.3.3 讨论
多尺度策略是遥感数据语义分割任务中的常用技术。由于高分辨率图像包含不同的对象尺度,结合不同尺度的感受野信息是满足各种对象准确分割要求的必要条件。FCN对整个图像使用相同的卷积操作,没有考虑到视觉元素的多尺度问题,这降低了大尺度和小尺度视觉元素的分割精度。多尺度模型通常先构建一个多尺度遥感图像分割网络,然后融合多尺度特征,最后通过卷积和上采样预测结果。
基于分层结构的方法通过CNN不同阶段的特征来获取多尺度信息。浅层特征图对应较小的感受野,特征尺度也较小;深层特征图对应较大的感受野,特征尺度较大。因此,可以通过融合不同阶段的特征图来获得不同尺度的特征。基于并行结构的方法在卷积模块得到的语义特征图后连接多个不同感受野的并行分支,形成并行结构以捕捉不同尺度的特征。与分层结构算法相比,并行结构更适合学习语义特征。
3.4 基于Transformer的方法
Transformer最初应用于自然语言处理(NLP)领域。在NLP中,每个单词被称为一个token,而在计算机视觉(CV)中,图像被分割为类似于token的不重叠patch序列。SETR(Zheng et al., 2021)是基于视觉Transformer(ViT)的第一个代表性语义分割模型,它用纯Transformer结构的编码器替代了传统的CNN编码器,推动了近年来语义分割技术的发展。
近年来,Transformer技术在提高遥感领域的语义分割性能方面做出了显著贡献(Li W. et al., 2022;Ma L et al., 2022;Sun et al., 2022)。然而,与文本中的词相比,图像中的像素具有非常高的分辨率,而在CV中使用Transformer的计算复杂度与图像尺寸的平方成正比,这将导致计算量过大。为了解决这一问题,提出了Swin Transformer(ST)(Liu et al., 2021)网络,如图9A所示。它通过滑动窗口来学习特征,滑动窗口不仅提高了效率,还大大减少了序列长度。其分层结构的优势在于能够灵活地提供多尺度信息。由于自注意力可以在窗口内计算,其计算复杂度随图像大小线性增长,而不是平方增长。因此,ST在遥感语义分割中得到了广泛应用(Panboonyuen et al., 2021;Xu et al., 2021;Feng et al., 2022;Gu et al., 2022;Liu Y. et al., 2022;Li X. et al., 2022;Meng et al., 2022;Xu Y. et al., 2022)。ST首先将数据分割为多个不重叠的不同patch。遥感数据中分割任务的最先进解决方案通常通过CNN方法和Transformer技术实现。预训练的Swin Transformer(SwinTF)(Panboonyuen et al., 2021)模型与ViT作为骨干网络,通过在预训练的编码器上拼接任务层来加权下游任务。原始ST作为编码器模块的骨干包含卷积层和注意力操作。Li X.等(2022)利用ST模块和卷积模块提高了分割性能。Xu等(2021)指出,基于Transformer的架构通常面临两个主要问题:巨大的计算量和边缘分割困难。因此,作者提出了一种基于Transformer网络的新模型,以实现精确的边缘检测并减少参数。使用高效的Transformer骨干改进ST以减少计算负担。Liu Y.等(2022)设计了使用ST的UPer head模型,以应对地物覆盖分割任务。
CNN无法模拟全局语义关联,而Transformer模型可以构建全局特征(Ghali et al., 2021)。结合CNN和Transformer可以提升语义分割的性能(Zhao X. et al., 2021;Wang H. et al., 2022;Zhang C. et al., 2022;Zhang et al., 2022a)。CNN提取局部细节特征,Transformer模块则获取全局上下文特征。Zhong等(2022b)设计了一种结合CNN和Transformer部分的语义分割网络,解决了由于湖泊之间的细微差异和复杂纹理特征导致的过度分割和边缘检测不准确问题。StransFuse(Gao et al., 2021)是一种结合Transformer和CNN优势的新方法,它能够更好地提升各种遥感图像的性能,如图9B所示。多层Transformer能够在每种模态中的不同层次上融合特征,以及高层次的跨模态特征(Ma X. et al., 2022)。
Transformer突破了CNN模型无法并行计算的限制,能够合理利用GPU资源。然而,Transformer获取局部信息的能力不如CNN。因此,结合Transformer和CNN能够提升语义分割性能。Swin Transformer改进了普通的Transformer,能够通过分层架构在各种尺度上灵活建模。Swin Transformer的滑动窗口特性使其能够在局部不重叠的窗口内计算自注意力,并允许跨窗口的连接。
3.5 基于GAN的方法
训练神经网络通常依赖大量带有精确像素级标注的图像,这在处理大规模遥感(RS)数据时非常耗费人力。使用监督机器学习算法对多光谱图像进行分割需要大量像素级标注数据,使得任务极具挑战性。近年来,一些研究将GAN引入遥感图像的语义分割任务中(Creswell等, 2018; Kerdegari等, 2019; Hong等, 2020; Li D.等, 2022)。GAN(Creswell等, 2018)由生成器(G)和判别器(D)组成。生成器能够生成虚假图像以欺骗判别器,而判别器负责区分真假图像。生成器G将随机样本z ∈ R^d分布g转换为生成的样本G(z)。判别器D通过从训练样本分布m中区分这些样本,而生成器则试图使生成样本的分布与训练样本的分布相似。对抗目标的损失函数如下所示:
Tian等(2021)提出了结合GAN和FCN的网络,并构建了基于FCN的分割网络,增强了模型的深层语义感受野。GAN被集成到FCN语义分割网络中,以综合全局图像特征信息,从而更准确地分割和感知复杂的遥感图像。Hong等(2020)提出了两种网络中的即插即用单元:自生成GAN模块和互生成GAN模块,用于学习对扰动不敏感的特征表示,并消除多模态性,分别实现更高效和更鲁棒的信息传输。Sun等(2021)提出了一种基于GAN的细分方法,以减少类内差异。背景和目标应该通过正交GAN(O-GAN)分别生成。O-GAN通过向其判别器添加新的损失函数来工作。为了更好地提取建筑特征,该方法基于细粒度图像分类的思想,通过O-GAN的中间卷积层(SCDA)实现选择性卷积描述符聚合。
由于遥感图像的标注繁琐且困难,探索无监督和半监督模型的难度很大。通过生成对抗网络的域自适应方法,生成器和判别器之间的对抗可以学习到域不变特征,从而有效减少不同域之间的差异。大多数方法使用GAN生成遥感图像,并将其与CNN等网络模型结合用于语义分割。
3.6 基于融合的方法
随着研究者们不断追求语义分割的精度,出现了大量不同技术和结构的融合模型,并取得了优异的结果。近年来一些融合方法列于表1中。首先,CNN网络是大多数模型的基础。在融合模型的研究中,添加注意力机制模块是最常见的方法之一(Panboonyuen等, 2019; Shamsolmoali等, 2020; Kong等, 2021; Liu Z.等, 2022)。其次,不同目标在图像上具有不同的尺度。因此,多尺度方法通常结合其他特征提取方法来改进模型,例如CNN和Transformer(Chen等, 2020; Zheng等, 2020b; Zhao Q.等, 2021; Zhang等, 2022a)。第三,一些复杂模型集成了更多模块,如GAN、ST和多尺度(Li Z.等, 2021; Marsocci等, 2021; Xu等, 2021)。然而,复杂模型通常需要大量计算资源,因此需要更多能够平衡计算资源与精度的模型。
4 - 数据集描述与实验讨论
4.1 数据集描述
本节描述了一些用于语义分割任务的公共遥感(RS)数据集。最常被引用的数据集包括ISPRS Vaihingen和Potsdam数据集,其次是GID和WHDLD。四个数据集的图像样本和分类如图10所示。我们描述了引用较多的数据集,这些数据集的描述、类别、通道和URL信息见补充表1。
4.1.1 卫星图像数据集
本节列出了一些由卫星捕获的用于语义分割任务的数据集。卫星图像来自搭载在卫星上的地球观测遥感仪器。
4.1.1.1 ISPRS Vaihingen
ISPRS Vaihingen是一个相对较小的村庄,有许多独立的小建筑。该数据集包含33张真正射影正射影像(GSD约为9厘米),每张图像尺寸为2,500 × 2,000像素,分辨率非常高。大约16张图像被标注了像素级标签。此外,每个像素被分为六类:不可渗透地面、建筑物、低植被、树木、汽车和杂物。
4.1.1.2 ISPRS Potsdam
ISPRS Potsdam数据集覆盖了3.42平方公里的区域,包含38张空间分辨率为5厘米的图像块。所有图像尺寸为6,000 × 6,000像素,包含近红外(NIR)、红(R)、绿(G)和蓝(B)四个通道。与Vaihingen区域类似,它也由三通道的RS TIFF文件和一个单通道的数字测绘(DSM)组成。由于每个RS图像覆盖面积相同,RS图像和DSM被定义在同一个参考系统(UTM WGS84)中。数据集还提供了TOP图像的不同通道组合的TIFF存储格式,参与者可以选择所需的数据。数据集标签是通过多套商业软件基于内外方位元素匹配的DSM数据平均生成的半密集视差图,不需要人工标注。
4.1.1.3 GID
GID(Tong等,2020)覆盖了506平方公里的区域,捕获自高分二号卫星。该数据集包含150张高质量的高分二号遥感图像,每张图像尺寸为7,200 × 6,800像素。GID数据集在光谱、纹理和结构上具有丰富的多样性,非常接近真实的特征分布。该数据集分为两个部分:大规模的标注类别集(GID-5)和精细地表覆盖集(GID-15),GID-5包含五类。此外,数据集还提供了150张带有图像级标签的高分二号遥感图像,其中120张用于训练,30张用于验证。
4.1.1.4 WHDLD
武汉密集标注数据集(WHDLD)(Shao等,2020)捕获自武汉市中心区域,分辨率为2米。该数据集提供了4,940张RGB图像,尺寸为256 × 256像素。WHDLD标注了六个类别:建筑物、道路、人行道、植被、裸土和水体。
4.1.1.5 Deep Globe Land Cover
该数据集的空间分辨率为0.5米,由红、绿、蓝波段组成,图像尺寸为2,448 × 2,448像素。数据集分为七个类别:市区、农田、牧场、森林、水域、荒地和未知区域。
4.1.1.6 GF-2
基于GF-2卫星的该数据集具有0.8米的空间分辨率,图像尺寸为2,000 × 2,000像素。通过ENVI对GF-2图像进行预处理,数据集中的数据由Matlab软件通过不同颜色和多种图像类型进行标注。
4.1.1.7 RSSCN7
RSSCN7(Qin等,2015)由2,800张遥感图像组成,从Google Earth中收集。每类图像包含400张,图像尺寸为400 × 400像素。数据集分为七类:草地、森林、农田、停车场、居民区、工业区和河流/湖泊。
4.1.1.8 LoveDA
LoveDA数据集(Wang J.等,2021)收集了来自中国南京、常州和武汉的城市和村庄的图像,分辨率为3米。该数据集提供了5,987张遥感图像,每张图像分辨率为1,024 × 1,024像素。数据集提供了六类:建筑物、道路、水体、贫瘠土壤、森林和农业。
4.1.2 航空图像数据集
本节介绍了一些由飞机捕获的遥感语义分割数据集。这些数据具有以下特点:高清、大规模、小区域和高可视性。
4.1.2.1 Landcover
Landcover航空图像标注数据集包含了波兰农村地区的图像,覆盖面积为39.51平方公里,图像分辨率为50厘米/像素,另有176.76平方公里的图像分辨率为25厘米/像素。图像被标注为四类:森林、水体、建筑物和其他。
4.1.2.2 UAVid
UAVid(Ye等,2020)是一个无人机语义分割数据集,围绕城市街景,图像分辨率为4,096 × 2,160和3,840 × 2,160。该数据集包含了300张密集标注的图像,包含八类:建筑物、城市道路、树木、低植被、移动汽车、静止汽车、人类和杂物/背景。无人机领域的挑战在于图像分辨率高且场景复杂。
4.1.2.3 ISAID
该数据集专为实例分割设计(Zheng等,2020a),提供了2,806张高分辨率遥感图像,尺寸从800 × 800像素到约4,000 × 13,000像素不等,包含15个前景类和1个背景类。
4.1.2.4 Massachusetts road datasets
马萨诸塞道路数据集覆盖了2,600平方公里的马萨诸塞州。数据集由至少1,500 × 1,500像素的航空图像组成,分辨率为1米。此外,数据集还提供了来自OpenStreetMap的七个像素级地面分割真值。
4.1.2.5 DLRSD
DLRSD(Shao等,2020)包含了2,100张RGB图像,分辨率为0.3米,图像尺寸为256 × 256像素。该数据集基于UCMerced LandUse数据集进行标注,包含17类:飞机、裸土、建筑物、汽车、灌木、法院、码头、田地、草地、移动房屋、人行道、沙地、海洋、船只、油罐、树木和水体。
这部分内容介绍了各种用于遥感图像语义分割任务的公开数据集,包括卫星和航空图像数据集,并简要描述了它们的规模、分辨率和类别。
4.2 实验比较
遥感图像的语义分割方法最常在ISPRS Vaihingen和ISPRS Potsdam数据集上进行实验比较。本文总结了在这两个数据集上进行实验的遥感语义分割论文,比较指标包括mF1(平均F1分数)、mIoU(平均交并比)和OA(总体精度),具体见表2。
由于不同论文在实验中的训练集和测试集大小不同,这些数值不能直接对方法的性能进行排名。然而,通过表中的不同方法比较可以看出,基于注意力机制和Transformer机制的方法整体性能优于其他方法。
- 注意力机制被广泛应用于遥感语义分割,通过结合通道和空间注意力或多尺度特征来提高分割性能。
- Transformer能够感知输入序列的全局信息,这是其相对于CNN的巨大优势。在CNN中,信息只能从局部开始,随着层数的增加,感知的区域才逐渐扩大。而Transformer从输入开始,每一层结构都可以看到全部信息并建立基本单元之间的关联,因此它可以处理更复杂的问题。
4.3 讨论
结合实验结果分析了典型技术的优缺点,如表3所示。研究人员可以根据这些方法的优缺点,作为未来研究的参考。
5 - 结论与未来方向
本文综述了遥感图像语义分割的最新进展,从深度学习框架和技术的角度进行总结。最早的基于卷积神经网络(CNN)的经典方法已被应用于遥感数据的语义分割任务,并取得了良好的实验结果。随后,随着注意力机制、多尺度、Transformer 和生成对抗网络(GAN)等新兴技术的发展,高像素语义分割的性能得到了提升。将多种技术融合是研究人员的明智选择,这有助于提高分割的准确性和效率。
经过对语义分割技术的深入研究,我们发现尽管研究人员已做出有效努力,但该领域仍面临许多挑战,未来的工作还需进一步努力。
- 高分辨率遥感图像需要手动像素标注,这是一项艰巨且劳动密集的任务。因此,样本不足的问题仍然存在。未来的工作可以在以下方面进行改进:(1) 如何构建多角度、多色调等样本分析模型;(2) 探索实现更有前景的性能的方法,尽量减少精细标注或粗略标签的使用,从而减少训练样本;(3) 合并数据集,结合不同的光学和合成孔径雷达(SAR)数据集。可以探索针对多源遥感数据的鲁棒性 Transformer 模型,这些数据包括具有不同空间和光谱分辨率的航空和卫星图像。
- 优化和改进语义分割模型。语义分割技术可以直接促进智能城市、资源监测等领域的发展。这些任务对模型的需求更高。(1) 如何更好地捕捉高分辨率图像中更多的区分特征和上下文信息。(2) 如何设计无监督学习模型以提升高分辨率图像的性能,包括弱监督和半监督方法,这些方法不需要大量标注数据。(3) 更改卷积模型中的卷积数量或类型。(4) 如何替换边缘引导上下文聚合方法,并在显式增强方法中使用更好的边缘提取器。
- 降低计算复杂性,提高模型的鲁棒性。改进现有模型的性能和质量是关键,因为这些模型大且计算密集,阻碍了它们的广泛应用。如何平衡语义分割的性能和计算能力是未来的研究方向。(1) 构建具有较小模型尺寸和计算复杂度的实时语义分割模型。(2) 设计更高效且简洁的特征提取方法。(3) 减少延迟。
- 研究更复杂的实际场景。许多实验仅在特定数据集上实施。因此,如何设计适用于实际复杂场景的新方法仍需研究。
- 研究小目标分割。由于小目标的像素面积占比小,在多次下采样后会丢失一定量的细节信息,从而在一定程度上降低准确性。未来可以从小目标入手,通过残差连接、注意力机制和金字塔结构等方法提高准确性。
不幸的是,由于遥感图像语义分割是一个热门研究领域,近年来涌现了大量研究方法,并不断更新,因此很难找到所有的语义分割方法。未来,研究人员应将注意力集中在遥感图像语义分割的新方法和理论上。
请登录后查看评论内容