![图片[1] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2024/11/04/672828b1a8053.png)
![图片[2] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2024/11/04/672828f635f74.png)
![图片[3] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2024/11/04/6728293260f00.png)
![图片[4] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2024/11/04/6728296296bb9.png)
![图片[5] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2024/11/04/67282995c04e6.png)
![图片[6] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14cb3061a9.png)
遥感领域顶刊:《IEEE Transactions on Geoscience and Remote Sensing》(TGRS)
作者团队由三位来自华东师范大学计算机科学与技术学院的学者组成,他们的研究领域主要集中在遥感图像处理、深度学习和人工智能等方向。
Renhe Zhang:他于2019年毕业于南京工程学院自动化学院,获得学士学位,目前在华东师范大学计算机科学与技术学院攻读硕士学位。他的研究兴趣包括深度学习和遥感图像分割。
Qian Zhang:她于2012年在武汉大学获得博士学位,现任华东师范大学计算机科学与技术学院副教授。她的研究兴趣包括高分辨率遥感图像的深度学习方法、医学影像处理和计算机视觉。
Guixu Zhang:他于1998年在中国科学院近代物理研究所获得博士学位,目前是华东师范大学计算机科学与技术学院的教授。他的研究兴趣涵盖高光谱遥感、图像处理和人工智能。
动机
局部上下文信息和全局上下文信息对于航空图像的语义分割至关重要,CNN能很好捕捉局部上下文信息,ViT擅长捕捉全局信息,为了结合它们的优点,本论文将它们整合到一个模型中。但是ViT的全局token交互带来了高计算成本,为了解决这个问题作者提出了LSRFormer即插即用模块。
创新点
长短程Transformer(LSRFormer)高效ViT块,它作为无需预训练的即插即用模块,附加在CNN阶段之后,以补充全局信息。LSRFormer由长程自注意力(LR-SA)、短程自注意力(SR-SA)和多尺度卷积前馈网络(MSC-FFN)组成。LR-SA在窗口交界处建立长程依赖关系,而SR-SA将长程信息从窗口边界扩散到内部。MSC-FFN能够捕捉ViT模块内部的多尺度信息。作者在纯卷积网络的每个CNN阶段后附加LSRFormer模块,构建名为ConvLSR-Net的模型。
![图片[7] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14cdab31d7.png)
图B中的主干级别的串联组合(TC)以CNN为主,在网络前面提供大量CNN完成局部特征提取,特征图之后传入Transformer块进行全局上下文建模。
图C中的主干级别的并联组合(PC)使用融合模块融合两个分支的输出。
图D中的块级别的并联组合实现了在特定阶段内CNN和Transformer的并联。
由于ViT的高计算成本,这些模型在某些阶段缺乏全局信息交互。
作者提出的图E则是在每个CNN后附加LSRFormer模块,可以在各个阶段高效地学习局部和全局特征表示。
![图片[8] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14cf543605.png)
![图片[9] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14d0654b65.png)
![图片[10] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14d1514ee6.png)
实验结果
ConvLSR-Net在四个具有挑战性的遥感图像分割基准测试中取得了最先进的(SOTA)结果,包括iSAID、LoveDA、ISPRS Potsdam和Vaihingen数据集。
在iSAID数据集上,ConvLSR-Net实现了70.8%的mIoU,超越了所有先前的工作。
在Vaihingen和Potsdam数据集上,与先前的SOTA模型相比,分别提高了0.30%和0.46%的mIoU。
在LoveDA数据集上,ConvLSR-Net在mIoU上超越了所有基于CNN的模型,并超越了最近提出的SOTA模型。
对比算法
包括SOTA通用和航空图像分割方法在内的一系列基准方法进行定量比较:SegNeXt、PFNet、FT-UNetFormer等。
![图片[11] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14d2b99c57.png)
![图片[12] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14d3fb0771.png)
![图片[13] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14d4e87d6f.png)
![图片[14] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14d590d248.png)
![图片[15] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14d6610027.png)
![图片[16] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14d710d20a.png)
为验证我们模型在遇到图像质量下降时的有效性,我们在Vaihingen数据集上进行了实验。对原始图像添加了高斯模糊(GB)、噪声和雾霾等降质策略。
与最近的SOTA分割方法相比,本论文的模型表现出更好的鲁棒性。尤其是在图像质量最严重降质的噪声图像上,作者的方法在mIoU方面超越了其他方法10%至20%。
![图片[17] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14d88d0bb0.png)
消融实验
![图片[18] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14da499d00.png)
![图片[19] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14db127151.png)
![图片[20] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14db96bccb.png)
表VIII:作者用其他注意力模块替换ConvLSR-Net中的LSRFormer块进行消融研究。
图9:进一步比较了LSRFormer与其他先进的ViT模块在计算成本方面的表现。随着输入特征图大小的增加,其他ViT的FLOPs(每秒的浮点运算次数)逐渐呈指数增长,而LSRFormer模块几乎是线性增加的。
![图片[21] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14dc74fe36.png)
![图片[22] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14dd70083e.png)
表IX:探讨了LSRFormer块插入位置的影响,结果表明在模型的所有阶段补充全局信息是必要的。
表X:与其他FFN相比,作者的MSC-FFN增加了少量的参数和FLOPs,同时也带来了更好的性能提升。
![图片[23] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14debdc20a.png)
![图片[24] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14df2a46ef.png)
表XI:探讨了在其他CNN架构上的即插即用性能,结果表明LSRFormer块可以通过略微增加计算成本来带来更大的性能提升。
表XII:探究不同窗口大小的影响。当窗口大小为2时,计算成本最低,但由于窗口大小较小,长距离信息未能有效扩散,准确性也显著降低。当窗口大小为8时,准确性结果与4相差无几,但也带来了额外的计算成本。
数据集
iSAID:包含15个前景类别和1个背景类别,训练集1411张,验证集458张,测试集937张图像。
LoveDA:包含农村和城市区域的大型航空图像分割数据集,包含7个土地覆盖类别。
ISPRS Vaihingen和Potsdam:这两个数据集是航空图像分割任务中最常用的,包含5个前景类别和1个背景类别。
改进空间
论文中提到了LSRFormer在处理大型特征图时的计算成本相对较低,但仍有改进空间,例如通过优化算法或硬件加速来进一步提高效率。
论文还探讨了在图像质量退化情况下模型的有效性,这表明在实际应用中,模型可能需要进一步优化以处理各种退化和噪声效应。
![图片[25] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14e0e4373c.png)
![图片[26] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14e1d22ece.png)
图10:展示了本模型与最近的SOTA ViT方法,在Vaihingen数据集上的预测结果比较。
图11:第一行,本模型具有更好的全局依赖性,从而避免了在大区域内的误判。第二行,得益于ViT与CNN的结合,本模型在细节处理能力上优于之前的方法。
![图片[27] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14e2d05f9a.png)
![图片[28] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14e374a4d5.png)
图12:展示了在iSAID数据集上的更多预测结果
图13:展示了在LoveDA验证集上的结果。
手写笔记
![图片[29] - AI科研 编程 读书笔记 - 【人工智能】LSRFormer:高效的Transformer为航空图像分割提供具有全局信息的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/28/67c14ee1dbedc.jpg)
暂无评论内容