【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究)

本站不再提供全文翻译，LaTex公式在WordPress上不友好，若全部转化为svg图片我的图床又不支持，所以之后的论文阅读文章仅进行论文的核心点总结。如需全文翻译请私聊我，我会发送语雀笔记的PDF文档。

语雀笔记展示

发表于：2024 IEEE 模式分析与机器智能学报（TPAMI）出版日期：2024 年 8 月 26 日，添加到Arxiv的日期：2024 年 8 月 23 日。

这组团队由来自多领域的研究学者组成，他们在图像处理、计算机视觉、模式识别、智能系统等方面具有丰富的经验，涵盖了基础研究和实际应用的多个方向。

动机

密集图像预测任务的需求：如语义分割、对象检测、实例分割和全景分割等任务，需要特征具备强类别信息和精确空间边界细节，以实现精准的像素级预测。
标准特征融合的问题：现代分层模型中常用的标准特征融合方法（直接将上采样的粗特征与高分辨率特征相加）存在类别内不一致性和边界位移问题。类别内不一致性源于同一对象不同部分特征差异大，标准融合方法无法有效处理，且简单双线性上采样会加剧该问题；边界位移则是由于简单插值使特征过度平滑，导致边界模糊。
特征相似性分析的引入：通过特征相似性分析（包括类别内相似性、类别间相似性和相似性边缘等指标），能够量化上述问题，为开发和评估新的特征融合方法提供依据。

核心方法

整体框架：提出频率感知特征融合（FreqFusion）方法，包含自适应低通滤波器（ALPF）生成器、偏移生成器和自适应高通滤波器（AHPF）生成器三个关键组件，通过两个主要阶段（初始融合和最终融合）来实现特征融合，旨在提高特征一致性并锐化边界。
自适应低通滤波器（ALPF）生成器
- 功能：预测空间变化的低通滤波器，平滑高层特征以减少特征不一致性并上采样。
- 工作流程：以初始融合的特征作为输入，经 3×3 卷积层和 softmax 层得到空间变化的滤波器权重，将高层特征进行像素重组（pixel unshuffle）后，用滤波器进行卷积操作得到低通滤波后的特征，再通过像素洗牌（pixel shuffle）恢复尺寸，实现特征的平滑和增强一致性。
偏移生成器
- 功能：通过计算局部余弦相似度，预测偏移量来重采样特征像素，用类别内相似度高的附近特征替换低相似度的不一致特征，细化大区域不一致特征和边界。
- 工作流程：先计算输入特征与其 8 邻域像素的余弦相似度，然后与输入特征一起输入由两个 3×3 卷积层组成的网络，分别预测偏移方向和偏移尺度，得到最终的偏移量，用于重采样特征。
自适应高通滤波器（AHPF）生成器
- 功能：提取低层特征在降采样中丢失的高频细节，增强边界信息。
- 工作流程：对初始融合的特征进行 3×3 卷积和 softmax 操作得到初始核，通过对其进行反转操作得到高通滤波器，应用于低层特征并残差相加，增强高频功率，使边界更清晰。

模型代码和结构解读请见以下文章：

【人工智能】关于FreqFusion.py官方代码的研究（修正版）

5个月前

045910

实验结果

语义分割
- 实验设置：在 Cityscapes、ADE20K 和 COCO-Stuff 等数据集上进行实验，采用 mIoU 和 bIoU 作为评估指标，应用于 SegFormer、Mask2Former、SegNeXt 等模型，遵循其原始训练设置。
- 实验结果：显著提升了多种模型的性能，如在 ADE20K 数据集上，使 SegFormerB1 的 mIoU 提升 2.8，在 Challenging ADE20K 数据集上，使 Heavy Mask2FormerSwin – B/L 分别提升 1.4/0.7 mIoU；在 Cityscapes 数据集上，使 Mask2Former 的 mIoU 提升 1.4；在不同数据集上对 SegNeXt 也有不同程度的提升。可视化结果显示融合特征更一致，边界更清晰。
对象检测
- 实验设置：使用 MS COCO 数据集，以 Average Precision（AP）为评估指标，基于 Faster R – CNN（ResNet – 50 和 ResNet – 101）进行实验，修改特征融合阶段。
- 实验结果：在 COCO 数据集上，FreqFusion 使 Faster R – CNN – R50 的 AP 提升 1.8，超过了包括 CARAFE、IndexNet、A2U 等在内的对比方法，且与使用 ResNet – 101 的模型相比也具有竞争力。
实例分割
- 实验设置：同样使用 MS COCO 数据集，评估指标为 Box AP 和 Mask AP，基于 Mask R – CNN（ResNet – 50 和 ResNet – 101）进行实验，修改特征融合阶段。
- 实验结果：在 COCO 数据集上，使 Mask R – CNN – R50 的 box AP 提升 1.7，mask AP 提升 1.3，表现优于其他对比方法，使用 ResNet – 101 时也能获得显著提升。
全景分割
- 实验设置：在 MS COCO 数据集上进行实验，报告 PQ、SQ 和 RQ 等指标，选择 Panoptic FPN（ResNet – 50）模型，修改上采样阶段。
- 实验结果：在 COCO 数据集上，使 Panoptic FPN – R50 的 PQ 提升 1.9，显著优于其他对比方法，使用 ResNet – 101 时也有出色表现。

对比算法

特征融合与聚合相关方法
- 基于核的方法：如 CARAFE、IndexNet、A2U、SAPA 等，它们通过生成动态上采样核来融合特征，但存在引入噪声或仅依赖单一层次特征等问题。
- 基于采样的方法：如 AlignSeg、IFA、SFNet、FaPN、Dysample 等，主要通过调整采样坐标来改进特征融合，而 FreqFusion 采用先平滑高层特征再重采样的新方法。
其他先进方法：在不同任务中，与各自领域的先进方法进行对比，如在语义分割中与 Dysample、FADE 等对比，在对象检测中与 CARAFE、IndexNet 等对比，在实例分割中与 CARAFE、Mask R – CNN 等对比，在全景分割中与 CARAFE、Dysample 等对比，FreqFusion 在各项任务中均展现出优势。

定量特征分析结果：FreqFusion极大地提高了整体区域和边界区域的类内相似性（IntraSim）、相似性裕度（SimMargin）以及相似性准确率（SimAcc），缓解了类内不一致性和边界偏移问题。

表2展示了在ADE20K验证集上与近期最先进的方法进行比较。我们展示了平均交并比（mIoU）和边界交并比（bIoU）结果，以评估最终预测的类别内一致性和边界位移情况。

表3展示了与Cityscapes验证集上近期最先进的基于动态采样的分割方法进行比较。

表4展示了本文的FreqFusion与各种最先进的模型结构相结合的结果。

表5展示了使用近期最先进的大型模型（Mask2Former）在ADE20K上进行语义分割的结果。

表6展示了使用 SegNeXt 在各种具有挑战性的数据集上的结果。

表7展示了在ADE20K验证集上与近期最先进的方法进行比较。

数据集

语义分割：Cityscapes（包含 19 个语义类别，5000 张图像）、ADE20K（150 个语义类别，20210 张训练图像等）、COCO – Stuff（172 个语义类别，118k 训练图像等）。
对象检测与实例分割：MS COCO（80 个对象类别）。
全景分割：MS COCO（80 个对象类别）。

改进空间

计算效率和实时性：在资源受限环境中，进一步研究 FreqFusion 的计算效率和实时适用性，以推动其实际部署。
扩展到视频领域：将 FreqFusion 扩展到包含时间输入的视频领域，解决运动模糊或遮挡对时间类别一致性和边界清晰度的影响，增强其在对象跟踪等视觉感知任务中的适应性。

关于官方代码的问题（issues汇总）

carafe的作用

carafe（Convolutional-Adaptive Receptive Field Aggregation 卷积自适应感受野聚合）作为一个算子，通常被用来实现空间变换的低通滤波。与传统的卷积不同，carafe能够动态地生成权重用于加权平均，并且能够自适应地调节输入特征图的不同区域。

在代码中，使用carafe对低分辨率特征图或高分辨率特征图执行低通滤波后，得到的是图像的低频部分。为了得到高频部分，通常是通过减法操作来实现的。

关于低通与高通的滤波器生成

为什么低通滤波器使用低分辨率特征图来生成，而高通滤波器使用高分辨率特征图来生成？低通滤波关注的是图像的全局结构和语义信息，通常通过低分辨率特征来处理，因为低分辨率特征包含了图像的整体布局和较大范围的平滑区域。低分辨率特征图中没有细节信息，更适合用来提取低频信息。高通滤波关注的是图像的细节和边缘，需要使用高分辨率特征图来获得更细致的局部信息。因此，高分辨率图像包含了更多细节，适合用于生成高频信息，例如边缘和纹理等。

GitHub官方代码仅作为实现，并没有体现出频域时域之间的转换，forward函数也与FreqFusion模块图很多地方有差异