【人工智能】MedFormer:具有内容感知双稀疏选择注意力的分层医学视觉Transformer

图片[1] - AI科研 编程 读书笔记 - 【人工智能】MedFormer:具有内容感知双稀疏选择注意力的分层医学视觉Transformer - AI科研 编程 读书笔记 - 小竹の笔记本

作者团队来自重庆理工大学,来源:Arxiv预印本v2(2025年8月5日),链接:https://arxiv.org/abs/2507.02488

1.研究动机

任务泛化问题:现有医疗视觉Transformer多为任务特定架构定制化(如疾病诊断、解剖结构分割、异常检测),在不同模态(MRI、CT、光学图像)及不同图像质量(噪声、伪影)下的泛化性差。

注意力机制的效率与鲁棒性问题

  • 全局注意力计算量高、显存占用大。
  • 手工设计的稀疏注意力模式缺乏自适应性。
  • 部分动态稀疏方法只在区域级选择相关Token,可能引入噪声像素,降低性能。

目标:提出一个任务无关、模态不变、质量自适应的通用医疗视觉Transformer骨干,既能建模长程依赖,又具备高效率和抗噪声能力。

2.核心方法

图片[2] - AI科研 编程 读书笔记 - 【人工智能】MedFormer:具有内容感知双稀疏选择注意力的分层医学视觉Transformer - AI科研 编程 读书笔记 - 小竹の笔记本
图3. 上:展示了MedFormer的整体架构,它是一个四阶段的分层金字塔网络。在每个阶段i,输入特征图经过补丁嵌入层或补丁合并层,以降低空间分辨率同时增加通道数。每个阶段包含\(N_{i}\)个堆叠的MedFormer模块。这种设计有助于提取多尺度特征,同时保持计算效率。下:MedFormer模块的详细设计。

2.1.总体框架

MedFormer:基于四阶段金字塔结构(Pyramid Structure)的通用医疗视觉Transformer骨干。

  • 多尺度特征表示:高分辨率阶段保留更多局部信息用于精细分割;低分辨率阶段聚焦全局信息用于分类、检测。
  • 通道逐级加深、空间逐级降采样,降低计算量同时保留语义信息。
  • 三个版本:Tiny、Small、Base,适应不同计算资源需求。

2.2.核心创新——Dual Sparse Selection Attention (DSSA)

图片[3] - AI科研 编程 读书笔记 - 【人工智能】MedFormer:具有内容感知双稀疏选择注意力的分层医学视觉Transformer - AI科研 编程 读书笔记 - 小竹の笔记本
图2. 双重稀疏选择注意力(DSSA)示意图。首先,通过区域平均获取查询和关键特征,进行区域级令牌稀疏选择,筛选出top-\(k_{1}\)个相关区域。随后,在这些选定区域内执行像素级令牌稀疏选择,挑选出top-\(k_{2}\)个相关像素令牌。最后,通过矩阵乘法得到输出。该机制能够在提取最相关特征的同时降低计算复杂度。

双稀疏选择策略

1)区域级稀疏选择

将特征划分为\(S\times S\)个不重叠区域,计算每个区域的平均 Query/Key。

为每个Query区域选择\(k_1\)个最相关的Key区域,减少候选范围。

2)像素级稀疏选择

在已选的\(k_1\)个区域内,进一步为每个Query像素选择\(k_2\)个最相关的像素Token(\(k_2=\lambda \cdot \frac{k_1HW}{S^2}\))。

剔除噪声像素,保留关键像素Token。

3)最终注意力计算

对筛选后的像素Token执行全像素注意力。

引入5×5深度可分卷积的局部上下文增强模块(LCE)补充局部特征。

优势

①计算复杂度降至\(O((HW)^{4/3})\)(低于标准注意力的 \(O((HW)^2)\))。

②同时保留长程依赖和抗噪声能力。

③可在多分辨率特征图上自适应应用。

3.实验结果

3.1.分类任务(ISIC-2018、ColonPath、Brain Tumor)

最佳表现:MedFormer-B在三数据集均取得最高准确率(未预训练时分别为 89.71%、98.72%、98.13%)。

高效性:MedFormer-T仅3.2M参数、0.58G FLOPs,性能接近更大模型。

预训练提升显著:预训练版本在ColonPath和Brain Tumor上接近100%准确率。

3.2.分割任务(Synapse、ISIC-2018 Seg、CVC-ClinicDB)

Synapse:MedFormer-B*(预训练)Dice 84.07%,优于所有对比方法,但在HD指标上略逊,原因是双稀疏选择可能忽略边界像素。

ISIC-2018 & CVC

  • MedFormer-B*在CVC上取得最佳Dice(94.73%)。
  • 在ISIC-2018上仅略低于BRAU-Net++,但计算复杂度显著更低。

3.3.检测任务(Kvasir-Seg、Brain Tumor Detection)

检测性能:MedFormer-B*在两个数据集的mAP、AP50、AP75均为最高。

在多类别、嵌套框任务(Brain Tumor Detection)上,相比专用检测方法表现更优。

4.对比算法

论文主要对比了:

通用Transformer骨干:ViT-S、PVT-S、Swin-T、BiFormer-S、DAT-T。

医学特定模型:MedT、MISSFormer、BRAU-Net++、HiFormer、MAXFormer、Focal-UNet、TransUNet。

检测框架:RetinaNet、Faster R-CNN、Deformable DETR(均替换不同骨干网络)。

5.数据集

一共8个数据集:

分类

  • SIC-2018 Classification(7类皮肤病,224×224)
  • ColonPath(结肠镜病理二分类,224×224)
  • Brain Tumor(MRI四分类,224×224)

分割

  • SIC-2018 Segmentation(皮肤病变分割,224×224)
  • CVC-ClinicDB(息肉分割,256×256)
  • Synapse(腹部CT多器官分割,224×224)

检测

  • Kvasir-Seg(息肉检测,256×256)
  • Brain Tumor Detection(脑肿瘤检测,256×256)

6.改进空间

边界信息不足:DSSA的双稀疏选择可能忽略数量少且语义模糊的边界像素,导致HD指标偏高。

分割性能提升空间:在特定数据集(如ISIC-2018分割)仍略低于专用的高复杂度模型(BRAU-Net++)。

任务特化模块缺失:目前仅用简单的UPerNet作为分割头,若结合任务特化解码器或边界增强模块,可能进一步提升性能。

检测优化:虽然检测任务表现强,但仍可探索与DSSA更紧密结合的多尺度检测头。

© 版权声明
THE END
点赞8 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容