【人工智能】FreqFormer: 一种用于遥感图像语义分割的频率Transformer

本站从此篇论文阅读起，不再提供全文翻译，LaTex公式在WordPress上不友好，若全部转化为svg图片我的图床又不支持，所以之后的论文阅读文章仅进行论文的核心点总结。如需全文翻译请私聊我，我会发送语雀笔记的PDF文档。

第六届ACM亚洲多媒体国际会议论文集，2024年12月28日出版，作者团队来自河海大学、南京中医药大学。研究方向聚焦于遥感图像分析、深度学习、计算机视觉等领域。

动机

CNN和Transformer模型在遥感图像语义分割中主要关注空间域的低频特征（如全局结构），但忽视了频域中的高频细节（如局部边缘）和光谱特征。这导致模型在复杂场景中难以区分具有显著类间相似性和类内差异的像素。FreqFormer的提出旨在通过融合频域中的高频和低频信息，结合光谱与空间特征，提升模型的判别能力和分割精度。

创新点

①频率注意力（FA）模块

高频分支（HFB）：使用Canny算子卷积层提取高频细节，再通过多头自注意力（MHSA）建模高频上下文。
低频分支：通过标准空间分析捕获低频全局上下文。
融合：两分支通过元素求和结合，生成综合的频域特征表示。

②FreqFormer块（FFB）

编码器阶段堆叠多个FFB，每个FFB包含两个FA模块、多层归一化（LN）和多层感知机（MLP）。
通过Patch Merging（PM）逐步缩减空间维度，保留关键信息。

③掩码Transformer解码器（MD）

将编码器的特征与可学习的类别嵌入进行标量积计算，生成逐块语义预测。
通过双线性上采样恢复原始分辨率，结合Softmax输出像素级类别概率。

实验结果

数据集：

ISPRS Potsdam（航空图像，5cm分辨率，包含5类地物）。
LoveDA（卫星图像，0.3m分辨率，覆盖城乡场景，7类地物）。

性能指标：

AF（平均F1分数）、OA（总体精度）、mIoU（平均交并比）。

关键结果：

FreqFormer在ISPRS Potsdam上达到AF 92.77、OA 91.34%、mIoU 83.12%，在LoveDA上达到AF 74.89、OA 72.23%、mIoU 65.73%，均优于所有对比模型。
HFB的作用：移除HFB后，ISPRS Potsdam的mIoU下降2.78%，LoveDA的mIoU下降4.33%，验证了高频细节的重要性。

对比算法

CNN-based：U-Net、DeepLabV3+、ResUNet-a、RAANet、MACU-Net。
Attention-based：DANet、SSCNet、SSCBNet。
Transformer-based：Segmenter、SegFormer。

FreqFormer在两类数据集上均显著优于上述模型，尤其在边缘细节（如道路、建筑）和复杂场景（如植被、水体）的分割中表现突出。

改进空间

计算效率：未提及模型推理速度，可能需优化以适应实时应用。
多模态数据：当前仅使用RGB或YCbCr数据，未来可融合多光谱或时序数据。
频域扩展：探索其他频域变换（如小波变换）以增强特征表达能力。
类别不平衡：LoveDA数据集存在类别分布不均衡问题，需针对性优化损失函数。
泛化性：需验证模型在更大规模或跨区域数据集上的表现。

FreqFormer通过频域注意力机制有效结合高频细节与低频全局信息，显著提升了遥感图像语义分割的精度。实验表明其在复杂场景中具有更强的判别能力，为地物分类和地理空间分析提供了新的解决方案。

手写笔记

1. 除特殊说明外，本网站所有原创文章的版权归作者所有，未经授权，禁止以任何形式（包括但不限于转载、摘编、复制、镜像等）发布至任何平台。
2. 论文总结类文章中涉及的图表、数据等素材，版权归原出版商及论文作者所有，仅为学术交流目的引用；若相关权利人认为存在侵权，请联系本网站删除，联系方式：i@smallbamboo.cn。
3. 违反上述声明者，将依法追究其相关法律责任。

THE END