【人工智能】MedFormer：具有内容感知双稀疏选择注意力的分层医学视觉Transformer

作者团队来自重庆理工大学，来源：Arxiv预印本v2（2025年8月5日），链接：https://arxiv.org/abs/2507.02488

1.研究动机

任务泛化问题：现有医疗视觉Transformer多为任务特定、架构定制化（如疾病诊断、解剖结构分割、异常检测），在不同模态（MRI、CT、光学图像）及不同图像质量（噪声、伪影）下的泛化性差。

注意力机制的效率与鲁棒性问题：

全局注意力计算量高、显存占用大。
手工设计的稀疏注意力模式缺乏自适应性。
部分动态稀疏方法只在区域级选择相关Token，可能引入噪声像素，降低性能。

目标：提出一个任务无关、模态不变、质量自适应的通用医疗视觉Transformer骨干，既能建模长程依赖，又具备高效率和抗噪声能力。

2.核心方法

图3. 上：展示了MedFormer的整体架构，它是一个四阶段的分层金字塔网络。在每个阶段i，输入特征图经过补丁嵌入层或补丁合并层，以降低空间分辨率同时增加通道数。每个阶段包含\(N_{i}\)个堆叠的MedFormer模块。这种设计有助于提取多尺度特征，同时保持计算效率。下：MedFormer模块的详细设计。

2.1.总体框架

MedFormer：基于四阶段金字塔结构（Pyramid Structure）的通用医疗视觉Transformer骨干。

多尺度特征表示：高分辨率阶段保留更多局部信息用于精细分割；低分辨率阶段聚焦全局信息用于分类、检测。
通道逐级加深、空间逐级降采样，降低计算量同时保留语义信息。
三个版本：Tiny、Small、Base，适应不同计算资源需求。

2.2.核心创新——Dual Sparse Selection Attention (DSSA)

图2. 双重稀疏选择注意力（DSSA）示意图。首先，通过区域平均获取查询和关键特征，进行区域级令牌稀疏选择，筛选出top-\(k_{1}\)个相关区域。随后，在这些选定区域内执行像素级令牌稀疏选择，挑选出top-\(k_{2}\)个相关像素令牌。最后，通过矩阵乘法得到输出。该机制能够在提取最相关特征的同时降低计算复杂度。

双稀疏选择策略：

1）区域级稀疏选择：

将特征划分为\(S\times S\)个不重叠区域，计算每个区域的平均 Query/Key。

为每个Query区域选择\(k_1\)个最相关的Key区域，减少候选范围。

2）像素级稀疏选择：

在已选的\(k_1\)个区域内，进一步为每个Query像素选择\(k_2\)个最相关的像素Token（\(k_2=\lambda \cdot \frac{k_1HW}{S^2}\)）。

剔除噪声像素，保留关键像素Token。

3）最终注意力计算：

对筛选后的像素Token执行全像素注意力。

引入5×5深度可分卷积的局部上下文增强模块（LCE）补充局部特征。

优势：

①计算复杂度降至\(O((HW)^{4/3})\)（低于标准注意力的 \(O((HW)^2)\)）。

②同时保留长程依赖和抗噪声能力。

③可在多分辨率特征图上自适应应用。

3.实验结果

3.1.分类任务（ISIC-2018、ColonPath、Brain Tumor）

最佳表现：MedFormer-B在三数据集均取得最高准确率（未预训练时分别为 89.71%、98.72%、98.13%）。

高效性：MedFormer-T仅3.2M参数、0.58G FLOPs，性能接近更大模型。

预训练提升显著：预训练版本在ColonPath和Brain Tumor上接近100%准确率。

3.2.分割任务（Synapse、ISIC-2018 Seg、CVC-ClinicDB）

Synapse：MedFormer-B*（预训练）Dice 84.07%，优于所有对比方法，但在HD指标上略逊，原因是双稀疏选择可能忽略边界像素。

ISIC-2018 & CVC：

MedFormer-B*在CVC上取得最佳Dice（94.73%）。
在ISIC-2018上仅略低于BRAU-Net++，但计算复杂度显著更低。

3.3.检测任务（Kvasir-Seg、Brain Tumor Detection）

检测性能：MedFormer-B*在两个数据集的mAP、AP50、AP75均为最高。

在多类别、嵌套框任务（Brain Tumor Detection）上，相比专用检测方法表现更优。

4.对比算法

论文主要对比了：

通用Transformer骨干：ViT-S、PVT-S、Swin-T、BiFormer-S、DAT-T。

医学特定模型：MedT、MISSFormer、BRAU-Net++、HiFormer、MAXFormer、Focal-UNet、TransUNet。

检测框架：RetinaNet、Faster R-CNN、Deformable DETR（均替换不同骨干网络）。

5.数据集

一共8个数据集：

分类：

SIC-2018 Classification（7类皮肤病，224×224）
ColonPath（结肠镜病理二分类，224×224）
Brain Tumor（MRI四分类，224×224）

分割：

SIC-2018 Segmentation（皮肤病变分割，224×224）
CVC-ClinicDB（息肉分割，256×256）
Synapse（腹部CT多器官分割，224×224）

检测：

Kvasir-Seg（息肉检测，256×256）
Brain Tumor Detection（脑肿瘤检测，256×256）

6.改进空间

边界信息不足：DSSA的双稀疏选择可能忽略数量少且语义模糊的边界像素，导致HD指标偏高。

分割性能提升空间：在特定数据集（如ISIC-2018分割）仍略低于专用的高复杂度模型（BRAU-Net++）。

任务特化模块缺失：目前仅用简单的UPerNet作为分割头，若结合任务特化解码器或边界增强模块，可能进一步提升性能。

检测优化：虽然检测任务表现强，但仍可探索与DSSA更紧密结合的多尺度检测头。

1. 除特殊说明外，本网站所有原创文章的版权归作者所有，未经授权，禁止以任何形式（包括但不限于转载、摘编、复制、镜像等）发布至任何平台。
2. 论文总结类文章中涉及的图表、数据等素材，版权归原出版商及论文作者所有，仅为学术交流目的引用；若相关权利人认为存在侵权，请联系本网站删除，联系方式：i@smallbamboo.cn。
3. 违反上述声明者，将依法追究其相关法律责任。

THE END