【人工智能】OverLoCK: 一种先概览后细察且具有上下文混合动态内核的卷积神经网络

图片[1] - AI科研 编程 读书笔记 - 【人工智能】OverLoCK: 一种先概览后细察且具有上下文混合动态内核的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本

动机(Motivation)

  1. 生物启发:人类视觉系统通过“先概览后细查”的机制快速定位物体,但传统ConvNet采用金字塔结构逐步下采样,缺乏这种自上而下的注意力机制。
  2. 现有问题:传统ConvNet的中间层缺乏全局语义引导,导致深层特征难以准确定位物体(如图2所示,Swin-T等模型在深层阶段激活图定位模糊)。
  3. 动态卷积的局限性:现有动态卷积(如大核卷积、可变形卷积)无法同时建模长距离依赖和保持局部归纳偏置。

核心方法(Core Method)

  1. 深度阶段分解策略(DDS)
    • Base-Net:编码低/中层特征(输入图像下采样至H/16 x H/16)。
    • Overview-Net:轻量级网络生成粗略的全局上下文(“概览”),输出作为上下文先验(Context Prior)。
    • Focus-Net:在上下文先验引导下细化特征(“细查”),通过ContMix动态卷积融合全局信息。
  2. 上下文混合动态卷积(ContMix)
    • 动态核生成:通过计算输入特征与全局上下文区域的亲和力,生成空间变化的动态卷积核。
    • 混合全局与局部:大核(如17×17)建模长距离依赖,小核(如5×5)保留局部细节,避免可变形卷积的归纳偏置损失。
  3. 动态上下文流
    • 特征级引导:Overview-Net的上下文先验与Base-Net特征拼接后输入Focus-Net。
    • 权重级引导:上下文先验用于生成动态卷积核权重,并在网络前向传播中更新。
图片[2] - AI科研 编程 读书笔记 - 【人工智能】OverLoCK: 一种先概览后细察且具有上下文混合动态内核的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本
图2. (a) 深度阶段(即阶段3和阶段4)最后一层骨干网络间有效感受野(ERF)的比较。结果通过对ImageNet-1K验证集中300张图像求平均得到。如图所示,尽管OverLoCK-T是纯卷积神经网络,但在阶段3和阶段4中,其有效感受野均大于强调全局建模的VMambaT。(b) 使用GradCAM计算的深度阶段(即阶段3和阶段4)输出的类别激活图可视化。这两张图像的类别标签分别是“桶”和“颈部护具”。结果表明,尽管经典的层次模型能在不同程度上捕捉长距离依赖关系,但它们难以对具有正确类别标签的对象进行定位,尤其是在距离分类器更远的阶段3。相比之下,我们提出的新网络架构在阶段3和阶段4中都能生成更准确的类别激活图。
图片[3] - AI科研 编程 读书笔记 - 【人工智能】OverLoCK: 一种先概览后细察且具有上下文混合动态内核的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本
图3. 作者的OverLoCK网络架构。
图片[4] - AI科研 编程 读书笔记 - 【人工智能】OverLoCK: 一种先概览后细察且具有上下文混合动态内核的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本
图4. 网络构建模块的结构
图片[5] - AI科研 编程 读书笔记 - 【人工智能】OverLoCK: 一种先概览后细察且具有上下文混合动态内核的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本
图5. (a) 作者提出的动态卷积(ContMix)的示意图。(b) ContMix在捕捉长距离依赖关系和保留归纳偏置方面能力的说明。

实验结果(Experimental Results)

  1. ImageNet-1K分类
    • OverLoCK-T:84.2% Top-1准确率,FLOPs仅5.5G,显著优于ConvNeXt-T(82.1%)、VMamba-T(82.6%)。
    • 模型扩展:OverLoCK-B达到85.1% Top-1,超越MaxViT-B(84.9%)和InternImage-B(84.9%)。
  2. 下游任务
    • 目标检测(COCO):OverLoCK-S在Mask R-CNN框架下APb达49.4%,优于MogaNet-B(48.5%)和VMamba-S(48.7%)。
    • 语义分割(ADE20K):OverLoCK-T的mIoU为50.3%,优于UniRepLKNet-T(48.6%)和MogaNet-S(49.2%)。
  3. 效率对比
    • OverLoCK-T吞吐量(810 imgs/s)显著高于ConvNeXt-T(1507 imgs/s),同时保持更高准确率。

对比算法(Baselines)

  • ConvNet系列:ConvNeXt、RepLKNet、MogaNet、InternImage。
  • Transformer系列:Swin、PVTv2、BiFormer、MaxViT。
  • Mamba系列:VMamba。
  • 混合模型:UniFormer、HorNet。

数据集(Datasets)

  1. ImageNet-1K:分类任务预训练。
  2. COCO:目标检测与实例分割。
  3. ADE20K:语义分割。
图片[6] - AI科研 编程 读书笔记 - 【人工智能】OverLoCK: 一种先概览后细察且具有上下文混合动态内核的卷积神经网络 - AI科研 编程 读书笔记 - 小竹の笔记本
表2. 在分辨率为224×224的ImageNet-1K上图像分类性能的比较。#F和#P分别表示模型的浮点运算次数(FLOPs)和参数数量。#T指模型类型,其中“C”、“T”、“M”和“H”分别指卷积神经网络(ConvNet)、Transformer、Mamba和混合模型。

改进空间(Future Work)

  1. 动态卷积优化:进一步降低ContMix的计算复杂度,探索更高效的全局上下文建模方式。
  2. 多尺度扩展:在更高分辨率输入(如384×384)下优化模型,提升长距离建模能力。
  3. 跨任务泛化:验证OverLoCK在视频理解、点云处理等任务中的表现。
  4. 模型轻量化:针对移动端设计更紧凑的变体(如减少Overview-Net的参数量)。

关键贡献

  1. 首个纯ConvNet架构:通过DDS和ContMix实现生物启发的自上而下注意力机制。
  2. 动态卷积创新:ContMix在保留局部归纳偏置的同时建模全局依赖,优于传统动态卷积。
  3. 性能突破:在分类、检测、分割任务上全面超越ConvNeXt、Transformer和Mamba模型。
© 版权声明
THE END
点赞7 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片快捷回复

    暂无评论内容