![图片[1] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率动态卷积 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/05/29/6838064595176.png)
动机(Motivation)
- 问题背景:传统动态卷积(DY-Conv)通过多个并行权重和注意力机制实现自适应权重选择,但存在以下局限性:
- 频率响应相似性:多个并行权重的频率响应高度相似(如图1a),导致参数冗余且适应性受限。
- 参数成本高:传统方法需显著增加参数(如CondConv +90M、DY-Conv +75.3M),但性能提升有限。
- 核心目标:提出一种在傅里叶域学习固定参数预算的方法,生成频率多样化的权重,以更低的参数成本提升模型对多频段特征的适应性。
![图片[2] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率动态卷积 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/05/29/68380727a4221.png)
核心方法(Core Method)
FDConv由三个模块组成:
![图片[3] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率动态卷积 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/05/29/6838074e0268f.png)
- 傅里叶不相交权重(Fourier Disjoint Weight, FDW):
- 傅里叶域分组:将参数在傅里叶域划分为不相交的频段组(每组对应不同频率范围)。
- 逆傅里叶变换:通过iDFT将每组参数转换为空间域权重,确保各权重具有独特频率响应(图1b)。
- 参数效率:生成大量频率多样化权重(如64组),参数成本仅增加3.6M(传统方法需4×参数)。
- 核空间调制(Kernel Spatial Modulation, KSM):
- 局部与全局信息融合:结合1D卷积(局部通道信息)和全连接层(全局通道信息),生成密集调制矩阵。
- 细粒度调整:逐元素调整权重,增强空间层面的频率响应灵活性。
- 频带调制(Frequency Band Modulation, FBM):
- 频域分解:将权重分解为不同频带(如低、中、高频),通过二进制掩码隔离频段。
- 空间动态调制:基于输入内容动态调整各频带的空间权重(图6),抑制噪声并增强细节。
![图片[4] - AI科研 编程 读书笔记 - 【人工智能】用于密集图像预测的频率动态卷积 - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/05/29/683807859cba5.png)
实验结果(Experimental Results)
- 任务与数据集:
- 目标检测/实例分割:COCO数据集(AP指标)。
- 语义分割:Cityscapes(mIoU)、ADE20K(mIoU)。
- 图像分类:ImageNet(Top-1精度)。
- 关键结果:
- ResNet-50改进:
- 目标检测(Faster R-CNN):AP从37.2提升至39.4(+2.2),仅增加3.6M参数(CondConv需+90M)。
- 语义分割(UPerNet):ADE20K mIoU从40.7提升至43.8,参数成本低于ODConv(70M vs. 131M)。
- 先进架构适配:
- ConvNeXt-T:AP_box从43.4提升至45.2,FLOPs仅增加1G。
- Swin Transformer:MaskDINO在ADE20K上mIoU提升0.5(56.6→57.2)。
- ResNet-50改进:
对比算法(Baselines)
- 动态卷积方法:
- CondConv(NeurIPS 2019):参数+90M,AP_box=38.1。
- DY-Conv(ICLR 2020):参数+75.3M,AP_box=38.3。
- ODConv(ICLR 2022):参数+65.1M,AP_box=39.2。
- KW(ICML 2024):参数+76.5M,AP_box=42.4。
- FDConv优势:参数仅+3.6M,AP_box=39.4,显著优于所有对比方法。
数据集(Datasets)
- COCO:目标检测/实例分割(118K训练图像,5K验证集)。
- Cityscapes:街景语义分割(5K高分辨率图像,19类)。
- ADE20K:复杂场景语义分割(20K图像,150类)。
- ImageNet:图像分类(1.28M训练图像,1K类)。
改进空间(Future Work)
- 计算复杂度:频域变换(FFT/iFFT)可能增加计算成本,需进一步优化。
- 频段划分策略:当前采用固定频段划分(如四分法),未来可探索自适应频段选择。
- 跨任务泛化性:需验证在视频分析、医学图像等领域的适用性。
- 理论分析:频率多样性对模型鲁棒性的影响机制尚未完全明确。
© 版权声明
1. 除特殊说明外,本网站所有原创文章的版权归作者所有,未经授权,禁止以任何形式(包括但不限于转载、摘编、复制、镜像等)发布至任何平台。
2. 论文总结类文章中涉及的图表、数据等素材,版权归原出版商及论文作者所有,仅为学术交流目的引用;若相关权利人认为存在侵权,请联系本网站删除,联系方式:i@smallbamboo.cn。
3. 违反上述声明者,将依法追究其相关法律责任。
2. 论文总结类文章中涉及的图表、数据等素材,版权归原出版商及论文作者所有,仅为学术交流目的引用;若相关权利人认为存在侵权,请联系本网站删除,联系方式:i@smallbamboo.cn。
3. 违反上述声明者,将依法追究其相关法律责任。
THE END
暂无评论内容