![图片[1] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/01/13/6784b972023c4.png)
![图片[2] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/01/13/6784b91f4163f.png)
![图片[3] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/01/13/6784b9a17c48e.png)
![图片[4] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/01/13/6784b9c818933.png)
![图片[5] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/01/13/6784b9f23eabe.png)
![图片[6] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/01/13/6784ba2785c76.png)
![图片[7] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/26/67bea92b16290.png)
发表于:2024 IEEE 模式分析与机器智能学报(TPAMI)出版日期:2024 年 8 月 26 日,添加到Arxiv的日期:2024 年 8 月 23 日。
这组团队由来自多领域的研究学者组成,他们在图像处理、计算机视觉、模式识别、智能系统等方面具有丰富的经验,涵盖了基础研究和实际应用的多个方向。
动机
- 密集图像预测任务的需求:如语义分割、对象检测、实例分割和全景分割等任务,需要特征具备强类别信息和精确空间边界细节,以实现精准的像素级预测。
- 标准特征融合的问题:现代分层模型中常用的标准特征融合方法(直接将上采样的粗特征与高分辨率特征相加)存在类别内不一致性和边界位移问题。类别内不一致性源于同一对象不同部分特征差异大,标准融合方法无法有效处理,且简单双线性上采样会加剧该问题;边界位移则是由于简单插值使特征过度平滑,导致边界模糊。
- 特征相似性分析的引入:通过特征相似性分析(包括类别内相似性、类别间相似性和相似性边缘等指标),能够量化上述问题,为开发和评估新的特征融合方法提供依据。
核心方法
- 整体框架:提出频率感知特征融合(FreqFusion)方法,包含自适应低通滤波器(ALPF)生成器、偏移生成器和自适应高通滤波器(AHPF)生成器三个关键组件,通过两个主要阶段(初始融合和最终融合)来实现特征融合,旨在提高特征一致性并锐化边界。
- 自适应低通滤波器(ALPF)生成器
- 功能:预测空间变化的低通滤波器,平滑高层特征以减少特征不一致性并上采样。
- 工作流程:以初始融合的特征作为输入,经 3×3 卷积层和 softmax 层得到空间变化的滤波器权重,将高层特征进行像素重组(pixel unshuffle)后,用滤波器进行卷积操作得到低通滤波后的特征,再通过像素洗牌(pixel shuffle)恢复尺寸,实现特征的平滑和增强一致性。
- 偏移生成器
- 功能:通过计算局部余弦相似度,预测偏移量来重采样特征像素,用类别内相似度高的附近特征替换低相似度的不一致特征,细化大区域不一致特征和边界。
- 工作流程:先计算输入特征与其 8 邻域像素的余弦相似度,然后与输入特征一起输入由两个 3×3 卷积层组成的网络,分别预测偏移方向和偏移尺度,得到最终的偏移量,用于重采样特征。
- 自适应高通滤波器(AHPF)生成器
- 功能:提取低层特征在降采样中丢失的高频细节,增强边界信息。
- 工作流程:对初始融合的特征进行 3×3 卷积和 softmax 操作得到初始核,通过对其进行反转操作得到高通滤波器,应用于低层特征并残差相加,增强高频功率,使边界更清晰。
![图片[8] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/01/22/6790dfd2e2918.png)
模型代码和结构解读请见以下文章:
实验结果
- 语义分割
- 实验设置:在 Cityscapes、ADE20K 和 COCO-Stuff 等数据集上进行实验,采用 mIoU 和 bIoU 作为评估指标,应用于 SegFormer、Mask2Former、SegNeXt 等模型,遵循其原始训练设置。
- 实验结果:显著提升了多种模型的性能,如在 ADE20K 数据集上,使 SegFormerB1 的 mIoU 提升 2.8,在 Challenging ADE20K 数据集上,使 Heavy Mask2FormerSwin – B/L 分别提升 1.4/0.7 mIoU;在 Cityscapes 数据集上,使 Mask2Former 的 mIoU 提升 1.4;在不同数据集上对 SegNeXt 也有不同程度的提升。可视化结果显示融合特征更一致,边界更清晰。
- 对象检测
- 实验设置:使用 MS COCO 数据集,以 Average Precision(AP)为评估指标,基于 Faster R – CNN(ResNet – 50 和 ResNet – 101)进行实验,修改特征融合阶段。
- 实验结果:在 COCO 数据集上,FreqFusion 使 Faster R – CNN – R50 的 AP 提升 1.8,超过了包括 CARAFE、IndexNet、A2U 等在内的对比方法,且与使用 ResNet – 101 的模型相比也具有竞争力。
- 实例分割
- 实验设置:同样使用 MS COCO 数据集,评估指标为 Box AP 和 Mask AP,基于 Mask R – CNN(ResNet – 50 和 ResNet – 101)进行实验,修改特征融合阶段。
- 实验结果:在 COCO 数据集上,使 Mask R – CNN – R50 的 box AP 提升 1.7,mask AP 提升 1.3,表现优于其他对比方法,使用 ResNet – 101 时也能获得显著提升。
- 全景分割
- 实验设置:在 MS COCO 数据集上进行实验,报告 PQ、SQ 和 RQ 等指标,选择 Panoptic FPN(ResNet – 50)模型,修改上采样阶段。
- 实验结果:在 COCO 数据集上,使 Panoptic FPN – R50 的 PQ 提升 1.9,显著优于其他对比方法,使用 ResNet – 101 时也有出色表现。
对比算法
- 特征融合与聚合相关方法
- 基于核的方法:如 CARAFE、IndexNet、A2U、SAPA 等,它们通过生成动态上采样核来融合特征,但存在引入噪声或仅依赖单一层次特征等问题。
- 基于采样的方法:如 AlignSeg、IFA、SFNet、FaPN、Dysample 等,主要通过调整采样坐标来改进特征融合,而 FreqFusion 采用先平滑高层特征再重采样的新方法。
- 其他先进方法:在不同任务中,与各自领域的先进方法进行对比,如在语义分割中与 Dysample、FADE 等对比,在对象检测中与 CARAFE、IndexNet 等对比,在实例分割中与 CARAFE、Mask R – CNN 等对比,在全景分割中与 CARAFE、Dysample 等对比,FreqFusion 在各项任务中均展现出优势。
![图片[9] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/26/67bea9736ff97.png)
![图片[10] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/26/67bea98daac9b.png)
![图片[11] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/26/67bea99ac91ac.png)
![图片[12] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/26/67bea9ba81973.png)
![图片[13] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/26/67bea9c8afd13.png)
![图片[14] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/26/67bea9ee40eb1.png)
![图片[15] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/26/67beaa0736dc2.png)
数据集
- 语义分割:Cityscapes(包含 19 个语义类别,5000 张图像)、ADE20K(150 个语义类别,20210 张训练图像等)、COCO – Stuff(172 个语义类别,118k 训练图像等)。
- 对象检测与实例分割:MS COCO(80 个对象类别)。
- 全景分割:MS COCO(80 个对象类别)。
改进空间
- 计算效率和实时性:在资源受限环境中,进一步研究 FreqFusion 的计算效率和实时适用性,以推动其实际部署。
- 扩展到视频领域:将 FreqFusion 扩展到包含时间输入的视频领域,解决运动模糊或遮挡对时间类别一致性和边界清晰度的影响,增强其在对象跟踪等视觉感知任务中的适应性。
关于官方代码的问题(issues汇总)
carafe的作用
carafe(Convolutional-Adaptive Receptive Field Aggregation 卷积自适应感受野聚合)作为一个算子,通常被用来实现空间变换的低通滤波。与传统的卷积不同,carafe能够动态地生成权重用于加权平均,并且能够自适应地调节输入特征图的不同区域。
在代码中,使用carafe对低分辨率特征图或高分辨率特征图执行低通滤波后,得到的是图像的低频部分。为了得到高频部分,通常是通过减法操作来实现的。
关于低通与高通的滤波器生成
为什么低通滤波器使用低分辨率特征图来生成,而高通滤波器使用高分辨率特征图来生成?低通滤波关注的是图像的全局结构和语义信息,通常通过低分辨率特征来处理,因为低分辨率特征包含了图像的整体布局和较大范围的平滑区域。低分辨率特征图中没有细节信息,更适合用来提取低频信息。高通滤波关注的是图像的细节和边缘,需要使用高分辨率特征图来获得更细致的局部信息。因此,高分辨率图像包含了更多细节,适合用于生成高频信息,例如边缘和纹理等。
GitHub官方代码仅作为实现,并没有体现出频域时域之间的转换,forward函数也与FreqFusion模块图很多地方有差异
手写笔记
![图片[16] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/26/67bea8ed4cd1f.jpg)
![图片[17] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率感知特征融合(频域特征融合的基础研究) - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/02/26/67bea8ed1b696.jpg)
暂无评论内容