本站从此篇论文阅读起,不再提供全文翻译,LaTex公式在WordPress上不友好,若全部转化为svg图片我的图床又不支持,所以之后的论文阅读文章仅进行论文的核心点总结。如需全文翻译请私聊我,我会发送语雀笔记的PDF文档。
![图片[1] - AI科研 编程 读书笔记 - 【人工智能】FreqFormer: 一种用于遥感图像语义分割的频率Transformer - Python AI C++笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/25/67bd5cd9b0df0.png)
第六届ACM亚洲多媒体国际会议论文集,2024年12月28日出版,作者团队来自河海大学、南京中医药大学。研究方向聚焦于遥感图像分析、深度学习、计算机视觉等领域。
动机
CNN和Transformer模型在遥感图像语义分割中主要关注空间域的低频特征(如全局结构),但忽视了频域中的高频细节(如局部边缘)和光谱特征。这导致模型在复杂场景中难以区分具有显著类间相似性和类内差异的像素。FreqFormer的提出旨在通过融合频域中的高频和低频信息,结合光谱与空间特征,提升模型的判别能力和分割精度。
创新点
①频率注意力(FA)模块
- 高频分支(HFB):使用Canny算子卷积层提取高频细节,再通过多头自注意力(MHSA)建模高频上下文。
- 低频分支:通过标准空间分析捕获低频全局上下文。
- 融合:两分支通过元素求和结合,生成综合的频域特征表示。
②FreqFormer块(FFB)
- 编码器阶段堆叠多个FFB,每个FFB包含两个FA模块、多层归一化(LN)和多层感知机(MLP)。
- 通过Patch Merging(PM)逐步缩减空间维度,保留关键信息。
③掩码Transformer解码器(MD)
- 将编码器的特征与可学习的类别嵌入进行标量积计算,生成逐块语义预测。
- 通过双线性上采样恢复原始分辨率,结合Softmax输出像素级类别概率。
![图片[2] - AI科研 编程 读书笔记 - 【人工智能】FreqFormer: 一种用于遥感图像语义分割的频率Transformer - Python AI C++笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/25/67bd5ce635b91.png)
实验结果
数据集:
- ISPRS Potsdam(航空图像,5cm分辨率,包含5类地物)。
- LoveDA(卫星图像,0.3m分辨率,覆盖城乡场景,7类地物)。
性能指标:
AF(平均F1分数)、OA(总体精度)、mIoU(平均交并比)。
关键结果:
- FreqFormer在ISPRS Potsdam上达到AF 92.77、OA 91.34%、mIoU 83.12%,在LoveDA上达到AF 74.89、OA 72.23%、mIoU 65.73%,均优于所有对比模型。
- HFB的作用:移除HFB后,ISPRS Potsdam的mIoU下降2.78%,LoveDA的mIoU下降4.33%,验证了高频细节的重要性。
对比算法
- CNN-based:U-Net、DeepLabV3+、ResUNet-a、RAANet、MACU-Net。
- Attention-based:DANet、SSCNet、SSCBNet。
- Transformer-based:Segmenter、SegFormer。
FreqFormer在两类数据集上均显著优于上述模型,尤其在边缘细节(如道路、建筑)和复杂场景(如植被、水体)的分割中表现突出。
![图片[3] - AI科研 编程 读书笔记 - 【人工智能】FreqFormer: 一种用于遥感图像语义分割的频率Transformer - Python AI C++笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/25/67bd5d18a91f7.png)
![图片[4] - AI科研 编程 读书笔记 - 【人工智能】FreqFormer: 一种用于遥感图像语义分割的频率Transformer - Python AI C++笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/25/67bd5d21120ab.png)
![图片[5] - AI科研 编程 读书笔记 - 【人工智能】FreqFormer: 一种用于遥感图像语义分割的频率Transformer - Python AI C++笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/25/67bd5cf89331a.png)
改进空间
- 计算效率:未提及模型推理速度,可能需优化以适应实时应用。
- 多模态数据:当前仅使用RGB或YCbCr数据,未来可融合多光谱或时序数据。
- 频域扩展:探索其他频域变换(如小波变换)以增强特征表达能力。
- 类别不平衡:LoveDA数据集存在类别分布不均衡问题,需针对性优化损失函数。
- 泛化性:需验证模型在更大规模或跨区域数据集上的表现。
FreqFormer通过频域注意力机制有效结合高频细节与低频全局信息,显著提升了遥感图像语义分割的精度。实验表明其在复杂场景中具有更强的判别能力,为地物分类和地理空间分析提供了新的解决方案。
手写笔记
![图片[6] - AI科研 编程 读书笔记 - 【人工智能】FreqFormer: 一种用于遥感图像语义分割的频率Transformer - Python AI C++笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/25/67bda7d79b69d.jpg)
![图片[7] - AI科研 编程 读书笔记 - 【人工智能】FreqFormer: 一种用于遥感图像语义分割的频率Transformer - Python AI C++笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/25/67bda7dcc823a.jpg)
© 版权声明
若无特殊说明,文章版权归作者所有,请勿转载至任何平台。
THE END
暂无评论内容