【人工智能】用于密集图像预测的频率动态卷积

图片[1] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率动态卷积 - AI科研 编程 读书笔记 - 小竹の笔记本
CVPR2025,与FreqFusion是同一作者。

动机(Motivation)

  • 问题背景:传统动态卷积(DY-Conv)通过多个并行权重和注意力机制实现自适应权重选择,但存在以下局限性:
    • 频率响应相似性:多个并行权重的频率响应高度相似(如图1a),导致参数冗余且适应性受限。
    • 参数成本高:传统方法需显著增加参数(如CondConv +90M、DY-Conv +75.3M),但性能提升有限。
  • 核心目标:提出一种在傅里叶域学习固定参数预算的方法,生成频率多样化的权重,以更低的参数成本提升模型对多频段特征的适应性。
图片[2] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率动态卷积 - AI科研 编程 读书笔记 - 小竹の笔记本
图1. 权重频率响应和t-SNE分析。我们将权重数量设置为4,以便与ODConv [32] 保持一致。(a) ODConv中四个并行权重的频率响应高度相似,这表明多样性有限。(b) 相比之下,FD-Conv对每个权重显示出不同的频率响应,覆盖了频谱的不同部分。(c) ODConv的t-SNE图显示,四个权重中的滤波器紧密聚集,这表明缺乏多样性。(d) FDConv的t-SNE图显示,四个权重中的滤波器具有不同的分布,这表明具有更高的多样性。

核心方法(Core Method)

FDConv由三个模块组成

图片[3] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率动态卷积 - AI科研 编程 读书笔记 - 小竹の笔记本
图2展示了所提出的频率动态卷积,它由傅里叶不相交权重(FDW)、核空间调制(KSM)和频带调制(FBM)模块组成。FC表示全连接层。
  1. 傅里叶不相交权重(Fourier Disjoint Weight, FDW)
    • 傅里叶域分组:将参数在傅里叶域划分为不相交的频段组(每组对应不同频率范围)。
    • 逆傅里叶变换:通过iDFT将每组参数转换为空间域权重,确保各权重具有独特频率响应(图1b)。
    • 参数效率:生成大量频率多样化权重(如64组),参数成本仅增加3.6M(传统方法需4×参数)。
  2. 核空间调制(Kernel Spatial Modulation, KSM)
    • 局部与全局信息融合:结合1D卷积(局部通道信息)和全连接层(全局通道信息),生成密集调制矩阵。
    • 细粒度调整:逐元素调整权重,增强空间层面的频率响应灵活性。
  3. 频带调制(Frequency Band Modulation, FBM)
    • 频域分解:将权重分解为不同频带(如低、中、高频),通过二进制掩码隔离频段。
    • 空间动态调制:基于输入内容动态调整各频带的空间权重(图6),抑制噪声并增强细节。
图片[4] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率动态卷积 - AI科研 编程 读书笔记 - 小竹の笔记本
图6. 频带调制的可视化结果。(a)展示了输入图像及其对应的真实标注(GT)。(b)至(d)显示了从低频到高频不同频带的调制图。(e)和(f)可视化了特征频谱。

实验结果(Experimental Results)

  • 任务与数据集
    • 目标检测/实例分割:COCO数据集(AP指标)。
    • 语义分割:Cityscapes(mIoU)、ADE20K(mIoU)。
    • 图像分类:ImageNet(Top-1精度)。
  • 关键结果
    • ResNet-50改进
      • 目标检测(Faster R-CNN):AP从37.2提升至39.4(+2.2),仅增加3.6M参数(CondConv需+90M)。
      • 语义分割(UPerNet):ADE20K mIoU从40.7提升至43.8,参数成本低于ODConv(70M vs. 131M)。
    • 先进架构适配
      • ConvNeXt-T:AP_box从43.4提升至45.2,FLOPs仅增加1G。
      • Swin Transformer:MaskDINO在ADE20K上mIoU提升0.5(56.6→57.2)。

对比算法(Baselines)

  • 动态卷积方法
    • CondConv(NeurIPS 2019):参数+90M,AP_box=38.1。
    • DY-Conv(ICLR 2020):参数+75.3M,AP_box=38.3。
    • ODConv(ICLR 2022):参数+65.1M,AP_box=39.2。
    • KW(ICML 2024):参数+76.5M,AP_box=42.4。
  • FDConv优势:参数仅+3.6M,AP_box=39.4,显著优于所有对比方法。

数据集(Datasets)

  • COCO:目标检测/实例分割(118K训练图像,5K验证集)。
  • Cityscapes:街景语义分割(5K高分辨率图像,19类)。
  • ADE20K:复杂场景语义分割(20K图像,150类)。
  • ImageNet:图像分类(1.28M训练图像,1K类)。

改进空间(Future Work)

  • 计算复杂度:频域变换(FFT/iFFT)可能增加计算成本,需进一步优化。
  • 频段划分策略:当前采用固定频段划分(如四分法),未来可探索自适应频段选择。
  • 跨任务泛化性:需验证在视频分析、医学图像等领域的适用性。
  • 理论分析:频率多样性对模型鲁棒性的影响机制尚未完全明确。

© 版权声明
THE END
点赞16 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容