【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究)

图片[1] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
图片[2] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
图片[3] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
图片[4] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
图片[5] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
图片[6] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
图片[7] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本

发表于:2024 IEEE 模式分析与机器智能学报(TPAMI)出版日期:2024 年 8 月 26 日,添加到Arxiv的日期:2024 年 8 月 23 日。

这组团队由来自多领域的研究学者组成,他们在图像处理、计算机视觉、模式识别、智能系统等方面具有丰富的经验,涵盖了基础研究和实际应用的多个方向。

动机

  1. 密集图像预测任务的需求:如语义分割、对象检测、实例分割和全景分割等任务,需要特征具备强类别信息和精确空间边界细节,以实现精准的像素级预测。
  2. 标准特征融合的问题:现代分层模型中常用的标准特征融合方法(直接将上采样的粗特征与高分辨率特征相加)存在类别内不一致性和边界位移问题。类别内不一致性源于同一对象不同部分特征差异大,标准融合方法无法有效处理,且简单双线性上采样会加剧该问题;边界位移则是由于简单插值使特征过度平滑,导致边界模糊。
  3. 特征相似性分析的引入:通过特征相似性分析(包括类别内相似性、类别间相似性和相似性边缘等指标),能够量化上述问题,为开发和评估新的特征融合方法提供依据。

核心方法

  1. 整体框架:提出频率感知特征融合(FreqFusion)方法,包含自适应低通滤波器(ALPF)生成器、偏移生成器和自适应高通滤波器(AHPF)生成器三个关键组件,通过两个主要阶段(初始融合和最终融合)来实现特征融合,旨在提高特征一致性并锐化边界。
  2. 自适应低通滤波器(ALPF)生成器
    • 功能:预测空间变化的低通滤波器,平滑高层特征以减少特征不一致性并上采样。
    • 工作流程:以初始融合的特征作为输入,经 3×3 卷积层和 softmax 层得到空间变化的滤波器权重,将高层特征进行像素重组(pixel unshuffle)后,用滤波器进行卷积操作得到低通滤波后的特征,再通过像素洗牌(pixel shuffle)恢复尺寸,实现特征的平滑和增强一致性。
  3. 偏移生成器
    • 功能:通过计算局部余弦相似度,预测偏移量来重采样特征像素,用类别内相似度高的附近特征替换低相似度的不一致特征,细化大区域不一致特征和边界。
    • 工作流程:先计算输入特征与其 8 邻域像素的余弦相似度,然后与输入特征一起输入由两个 3×3 卷积层组成的网络,分别预测偏移方向和偏移尺度,得到最终的偏移量,用于重采样特征。
  4. 自适应高通滤波器(AHPF)生成器
    • 功能:提取低层特征在降采样中丢失的高频细节,增强边界信息。
    • 工作流程:对初始融合的特征进行 3×3 卷积和 softmax 操作得到初始核,通过对其进行反转操作得到高通滤波器,应用于低层特征并残差相加,增强高频功率,使边界更清晰。
图片[8] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本

模型代码和结构解读请见以下文章:

实验结果

  1. 语义分割
    • 实验设置:在 Cityscapes、ADE20K 和 COCO-Stuff 等数据集上进行实验,采用 mIoU 和 bIoU 作为评估指标,应用于 SegFormer、Mask2Former、SegNeXt 等模型,遵循其原始训练设置。
    • 实验结果:显著提升了多种模型的性能,如在 ADE20K 数据集上,使 SegFormerB1 的 mIoU 提升 2.8,在 Challenging ADE20K 数据集上,使 Heavy Mask2FormerSwin – B/L 分别提升 1.4/0.7 mIoU;在 Cityscapes 数据集上,使 Mask2Former 的 mIoU 提升 1.4;在不同数据集上对 SegNeXt 也有不同程度的提升。可视化结果显示融合特征更一致,边界更清晰。
  2. 对象检测
    • 实验设置:使用 MS COCO 数据集,以 Average Precision(AP)为评估指标,基于 Faster R – CNN(ResNet – 50 和 ResNet – 101)进行实验,修改特征融合阶段。
    • 实验结果:在 COCO 数据集上,FreqFusion 使 Faster R – CNN – R50 的 AP 提升 1.8,超过了包括 CARAFE、IndexNet、A2U 等在内的对比方法,且与使用 ResNet – 101 的模型相比也具有竞争力。
  3. 实例分割
    • 实验设置:同样使用 MS COCO 数据集,评估指标为 Box AP 和 Mask AP,基于 Mask R – CNN(ResNet – 50 和 ResNet – 101)进行实验,修改特征融合阶段。
    • 实验结果:在 COCO 数据集上,使 Mask R – CNN – R50 的 box AP 提升 1.7,mask AP 提升 1.3,表现优于其他对比方法,使用 ResNet – 101 时也能获得显著提升。
  4. 全景分割
    • 实验设置:在 MS COCO 数据集上进行实验,报告 PQ、SQ 和 RQ 等指标,选择 Panoptic FPN(ResNet – 50)模型,修改上采样阶段。
    • 实验结果:在 COCO 数据集上,使 Panoptic FPN – R50 的 PQ 提升 1.9,显著优于其他对比方法,使用 ResNet – 101 时也有出色表现。

对比算法

  1. 特征融合与聚合相关方法
    • 基于核的方法:如 CARAFE、IndexNet、A2U、SAPA 等,它们通过生成动态上采样核来融合特征,但存在引入噪声或仅依赖单一层次特征等问题。
    • 基于采样的方法:如 AlignSeg、IFA、SFNet、FaPN、Dysample 等,主要通过调整采样坐标来改进特征融合,而 FreqFusion 采用先平滑高层特征再重采样的新方法。
  2. 其他先进方法:在不同任务中,与各自领域的先进方法进行对比,如在语义分割中与 Dysample、FADE 等对比,在对象检测中与 CARAFE、IndexNet 等对比,在实例分割中与 CARAFE、Mask R – CNN 等对比,在全景分割中与 CARAFE、Dysample 等对比,FreqFusion 在各项任务中均展现出优势。
图片[9] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
定量特征分析结果:FreqFusion极大地提高了整体区域和边界区域的类内相似性(IntraSim)、相似性裕度(SimMargin)以及相似性准确率(SimAcc),缓解了类内不一致性和边界偏移问题。
图片[10] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
表2展示了在ADE20K验证集上与近期最先进的方法进行比较。我们展示了平均交并比(mIoU)和边界交并比(bIoU)结果,以评估最终预测的类别内一致性和边界位移情况。
图片[11] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
表3展示了与Cityscapes验证集上近期最先进的基于动态采样的分割方法进行比较。
图片[12] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
表4展示了本文的FreqFusion与各种最先进的模型结构相结合的结果。
图片[13] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
表5展示了使用近期最先进的大型模型(Mask2Former)在ADE20K上进行语义分割的结果。
图片[14] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
表6展示了使用 SegNeXt 在各种具有挑战性的数据集上的结果。
图片[15] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
表7展示了在ADE20K验证集上与近期最先进的方法进行比较。

数据集

  1. 语义分割:Cityscapes(包含 19 个语义类别,5000 张图像)、ADE20K(150 个语义类别,20210 张训练图像等)、COCO – Stuff(172 个语义类别,118k 训练图像等)。
  2. 对象检测与实例分割:MS COCO(80 个对象类别)。
  3. 全景分割:MS COCO(80 个对象类别)。

改进空间

  1. 计算效率和实时性:在资源受限环境中,进一步研究 FreqFusion 的计算效率和实时适用性,以推动其实际部署。
  2. 扩展到视频领域:将 FreqFusion 扩展到包含时间输入的视频领域,解决运动模糊或遮挡对时间类别一致性和边界清晰度的影响,增强其在对象跟踪等视觉感知任务中的适应性。

关于官方代码的问题(issues汇总)

carafe的作用

carafe(Convolutional-Adaptive Receptive Field Aggregation 卷积自适应感受野聚合)作为一个算子,通常被用来实现空间变换的低通滤波。与传统的卷积不同,carafe能够动态地生成权重用于加权平均,并且能够自适应地调节输入特征图的不同区域。

在代码中,使用carafe对低分辨率特征图或高分辨率特征图执行低通滤波后,得到的是图像的低频部分。为了得到高频部分,通常是通过减法操作来实现的。

关于低通与高通的滤波器生成

为什么低通滤波器使用低分辨率特征图来生成,而高通滤波器使用高分辨率特征图来生成?低通滤波关注的是图像的全局结构和语义信息,通常通过低分辨率特征来处理,因为低分辨率特征包含了图像的整体布局和较大范围的平滑区域。低分辨率特征图中没有细节信息,更适合用来提取低频信息。高通滤波关注的是图像的细节和边缘,需要使用高分辨率特征图来获得更细致的局部信息。因此,高分辨率图像包含了更多细节,适合用于生成高频信息,例如边缘和纹理等。

GitHub官方代码仅作为实现,并没有体现出频域时域之间的转换,forward函数也与FreqFusion模块图很多地方有差异

手写笔记

图片[16] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
图片[17] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本
© 版权声明
THE END
点赞14 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容