![图片[1] - AI科研 编程 读书笔记 - 【人工智能】MedFormer:具有内容感知双稀疏选择注意力的分层医学视觉Transformer - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/08/12/689b0836d2548.png)
作者团队来自重庆理工大学,来源:Arxiv预印本v2(2025年8月5日),链接:https://arxiv.org/abs/2507.02488
1.研究动机
任务泛化问题:现有医疗视觉Transformer多为任务特定、架构定制化(如疾病诊断、解剖结构分割、异常检测),在不同模态(MRI、CT、光学图像)及不同图像质量(噪声、伪影)下的泛化性差。
注意力机制的效率与鲁棒性问题:
- 全局注意力计算量高、显存占用大。
- 手工设计的稀疏注意力模式缺乏自适应性。
- 部分动态稀疏方法只在区域级选择相关Token,可能引入噪声像素,降低性能。
目标:提出一个任务无关、模态不变、质量自适应的通用医疗视觉Transformer骨干,既能建模长程依赖,又具备高效率和抗噪声能力。
2.核心方法
![图片[2] - AI科研 编程 读书笔记 - 【人工智能】MedFormer:具有内容感知双稀疏选择注意力的分层医学视觉Transformer - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/08/12/689b08a3a25ed.png)
2.1.总体框架
MedFormer:基于四阶段金字塔结构(Pyramid Structure)的通用医疗视觉Transformer骨干。
- 多尺度特征表示:高分辨率阶段保留更多局部信息用于精细分割;低分辨率阶段聚焦全局信息用于分类、检测。
- 通道逐级加深、空间逐级降采样,降低计算量同时保留语义信息。
- 三个版本:Tiny、Small、Base,适应不同计算资源需求。
2.2.核心创新——Dual Sparse Selection Attention (DSSA)
![图片[3] - AI科研 编程 读书笔记 - 【人工智能】MedFormer:具有内容感知双稀疏选择注意力的分层医学视觉Transformer - AI科研 编程 读书笔记 - 小竹の笔记本](https://img.smallbamboo.cn/i/2025/08/12/689b08cef35ed.png)
双稀疏选择策略:
1)区域级稀疏选择:
将特征划分为\(S\times S\)个不重叠区域,计算每个区域的平均 Query/Key。
为每个Query区域选择\(k_1\)个最相关的Key区域,减少候选范围。
2)像素级稀疏选择:
在已选的\(k_1\)个区域内,进一步为每个Query像素选择\(k_2\)个最相关的像素Token(\(k_2=\lambda \cdot \frac{k_1HW}{S^2}\))。
剔除噪声像素,保留关键像素Token。
3)最终注意力计算:
对筛选后的像素Token执行全像素注意力。
引入5×5深度可分卷积的局部上下文增强模块(LCE)补充局部特征。
优势:
①计算复杂度降至\(O((HW)^{4/3})\)(低于标准注意力的 \(O((HW)^2)\))。
②同时保留长程依赖和抗噪声能力。
③可在多分辨率特征图上自适应应用。
3.实验结果
3.1.分类任务(ISIC-2018、ColonPath、Brain Tumor)
最佳表现:MedFormer-B在三数据集均取得最高准确率(未预训练时分别为 89.71%、98.72%、98.13%)。
高效性:MedFormer-T仅3.2M参数、0.58G FLOPs,性能接近更大模型。
预训练提升显著:预训练版本在ColonPath和Brain Tumor上接近100%准确率。
3.2.分割任务(Synapse、ISIC-2018 Seg、CVC-ClinicDB)
Synapse:MedFormer-B*(预训练)Dice 84.07%,优于所有对比方法,但在HD指标上略逊,原因是双稀疏选择可能忽略边界像素。
ISIC-2018 & CVC:
- MedFormer-B*在CVC上取得最佳Dice(94.73%)。
- 在ISIC-2018上仅略低于BRAU-Net++,但计算复杂度显著更低。
3.3.检测任务(Kvasir-Seg、Brain Tumor Detection)
检测性能:MedFormer-B*在两个数据集的mAP、AP50、AP75均为最高。
在多类别、嵌套框任务(Brain Tumor Detection)上,相比专用检测方法表现更优。
4.对比算法
论文主要对比了:
通用Transformer骨干:ViT-S、PVT-S、Swin-T、BiFormer-S、DAT-T。
医学特定模型:MedT、MISSFormer、BRAU-Net++、HiFormer、MAXFormer、Focal-UNet、TransUNet。
检测框架:RetinaNet、Faster R-CNN、Deformable DETR(均替换不同骨干网络)。
5.数据集
一共8个数据集:
分类:
- SIC-2018 Classification(7类皮肤病,224×224)
- ColonPath(结肠镜病理二分类,224×224)
- Brain Tumor(MRI四分类,224×224)
分割:
- SIC-2018 Segmentation(皮肤病变分割,224×224)
- CVC-ClinicDB(息肉分割,256×256)
- Synapse(腹部CT多器官分割,224×224)
检测:
- Kvasir-Seg(息肉检测,256×256)
- Brain Tumor Detection(脑肿瘤检测,256×256)
6.改进空间
边界信息不足:DSSA的双稀疏选择可能忽略数量少且语义模糊的边界像素,导致HD指标偏高。
分割性能提升空间:在特定数据集(如ISIC-2018分割)仍略低于专用的高复杂度模型(BRAU-Net++)。
任务特化模块缺失:目前仅用简单的UPerNet作为分割头,若结合任务特化解码器或边界增强模块,可能进一步提升性能。
检测优化:虽然检测任务表现强,但仍可探索与DSSA更紧密结合的多尺度检测头。
2. 论文总结类文章中涉及的图表、数据等素材,版权归原出版商及论文作者所有,仅为学术交流目的引用;若相关权利人认为存在侵权,请联系本网站删除,联系方式:i@smallbamboo.cn。
3. 违反上述声明者,将依法追究其相关法律责任。
暂无评论内容