![图片[1] - AI科研 编程 读书笔记 - 【人工智能】MSHFormer:一种具有边界增强的多尺度混合Transformer网络,用于高分辨率遥感图像建筑物提取 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/07/18/6879bca111048.png)
期刊:IEEE Transactions on Geoscience and Remote Sensing(TGRS);出版日期:2025年2月28日;作者团队来自重庆邮电大学。
文章链接:https://ieeexplore.ieee.org/abstract/document/10908214
研究动机
小建筑遗漏与误检:VHR(超高分辨率)遥感图像中,建筑尺度差异大,细小建筑易被忽略。
边界模糊与背景干扰:遮挡、阴影和地物光谱相似性导致建筑边界难以准确分割,背景噪声严重影响分割质量。
全局与局部信息缺乏兼容:CNN 擅长局部细节,但难以建模长程依赖;Transformer 全局建模能力强,却弱于提取高频局部特征。
面临的问题:亟需一种能同时兼顾局部与全局、并强化边界信息的高效网络架构。
核心方法
![图片[2] - AI科研 编程 读书笔记 - 【人工智能】MSHFormer:一种具有边界增强的多尺度混合Transformer网络,用于高分辨率遥感图像建筑物提取 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/07/18/6879bde789d04.png)
总体架构如图2所示,包含多级混合 Transformer 编码器与渐进式解码器(Stage1–Stage4),并在低层特征处嵌入边界增强模块(EHM),解码融合时引入分组对齐特征融合模块(GAFFM)。
多尺度局部感知模块 (MSLP):在每个 Transformer Block 中,先用输入依赖深度卷积 (IDConv) 提取动态局部特征,再沿通道分为 1×1、3×3、5×5 三种深度可分离卷积分支,实现多尺度上下文融合,补强小建筑及细节提取能力。
全局感知模块 (GPM):沿用 SegFormer 中的高效自注意力(ESA)与 Mix-FFN,通过标准 LayerNorm + 残差连接,强化全局依赖建模。
边界增强模块 (EHM):利用深层语义特征生成的权重矩阵,在频域通过 FFT/IFFT 操作对浅层特征进行频谱加权,以抑制背景噪声、突出建筑边缘,并在空间上残差融合后送入 MLP 进一步精炼。
分组对齐特征融合模块 (GAFFM):将解码器高层特征先 1×1 卷积降维后上采样,再按通道分组预测语义流场,对每组特征分别进行可微双线性采样对齐,最后与上一阶段编码器特征拼接融合,解决跨层特征空间错位问题。
数据集
Massachusetts:151 幅 1 m 分辨率航片,切分为 256×256 的 16 577 /144/360 张训练/验证/测试块。
Potsdam:38 幅 5 cm GSD 四波段航片,裁剪后 17 443/1 365/1 184 张 256×256 块。
WHU:8 188 张 0.2 m 分辨率航片,划分为 4 736/1 036/2 416 张训练/验证/测试集。
实验结果
Massachusetts 上,MSHFormer 达到 mIoU 73.6%、F1 84.8%,相比 FCN(+6.2%)、SegNet(+1.6%)、Swin Transformer(+0.7%)、UNetFormer(+0.6%) 等均有提升。
Potsdam 上,mIoU 89.1%,较 TransUNet(+0.6%)、ConvLSR-Net(+0.8%)、Swin(+1.1%) 明显优越。
WHU 上,mIoU 89.5%,超越所有对比方法(STUNet 88.7%、Twins-Svt 88.3% 等)。
效率对比:在 Params、FLOPs 与 FPS 上优于多数混合模型,且获得良好准确率与效率平衡(Massachusetts 上 mIoU 73.6%)。
对比算法
对比方法包括:
纯 CNN:FCN、SegNet、DeepLabv3+;
Transformer:PVT-S, Swin-S, Twins-Svt;
混合架构:UNetFormer、TransUNet、ST-UNet、ConvLSR-Net。
MSHFormer 在三大数据集上均获得最高 IoU 与 F1,验证了多尺度混合与边界增强设计的有效性。
改进空间与未来工作
论文结论中指出,未来可进一步探索:
模型轻量化:在保证提取精度的同时,降低模型参数与计算开销;
进一步优化模块设计:如更加高效的频域边界增强策略或更精简的特征对齐方法;
扩展到更多场景:验证在不同城市规模、不同传感器分辨率下的泛化能力。
MSHFormer 通过多尺度局部感知、全局建模、频谱边界增强和精细特征对齐的有机结合,显著提升了 VHR 遥感影像楼宇提取的准确性与边界精细度,并在三大数据集上取得了最先进性能,为城市规划、灾害评估等应用提供了有力技术支撑。
2. 论文总结类文章中涉及的图表、数据等素材,版权归原出版商及论文作者所有,仅为学术交流目的引用;若相关权利人认为存在侵权,请联系本网站删除,联系方式:i@smallbamboo.cn。
3. 违反上述声明者,将依法追究其相关法律责任。
暂无评论内容