【人工智能】Pest-ConFormer: 一种用于大规模多类别农作物害虫识别的CNN-Transformer混合架构

图片[1] - AI科研 编程 读书笔记 - 【人工智能】Pest-ConFormer: 一种用于大规模多类别农作物害虫识别的CNN-Transformer混合架构 - AI科研 编程 读书笔记 - 小竹の笔记本

《Expert Systems with Applications》(专家系统及其应用)顶刊,2024年7月18日被接收。 作者团队来自广东工业大学、广东技术师范大学等,涵盖了计算机科学、农业工程、生物系统工程等多个领域,团队成员在深度学习、图像识别、农业智能化等方向有着丰富的研究经验。

研究动机

  1. 问题背景:农作物害虫是导致全球农业减产和品质下降的主要因素,现有识别方法在复杂自然环境中面临类间相似性高、类内差异大、背景干扰严重等问题,导致分类精度低、泛化能力差。
  2. 现有方法不足:传统CNN缺乏全局依赖建模能力,而纯Transformer模型对局部特征提取不足,且依赖大规模数据训练。
  3. 核心目标:提出一种结合CNN局部特征提取能力与Transformer全局建模能力的混合架构,通过多尺度特征融合和弱监督学习,提升细粒度害虫分类的准确性和鲁棒性。

核心方法

  1. 混合卷积-Transformer编码器(Backbone)
    • 采用自监督掩码自编码器(MAE)预训练,融合CNN的局部特征与Transformer的全局建模能力。
    • 前两阶段使用卷积块提取局部细节特征,第三阶段通过Transformer的自注意力机制捕获全局上下文。
  2. 双路径特征聚合模块
    • Top-down路径:类似FPN结构,将高层语义特征与低层细节特征融合。
    • Bottom-up路径:基于注意力机制(空间注意力SAM和通道注意力CAM),增强低层特征对高层的贡献,抑制背景噪声。
  3. 细粒度分类模块
    • 弱监督特征选择:通过分类得分筛选多尺度特征中的关键区域,过滤冗余和噪声特征。
    • 图卷积网络(GCN):将选中的特征点构建为图结构,通过节点聚合生成全局判别性特征,最终分类。

实验结果

  1. IP102数据集
    • 准确率77.81%,F1分数77.36%,优于所有对比方法(包括CNN、Transformer和集成模型)。
    • 对比算法
      • CNN模型:ResNet-50(49.5%)、MobileNetV2(71.32%)、PCNet(73.7%)。
      • Transformer模型:FRCF+LSMAE(74.69%)、CNN+Transformer(74.89%)。
      • 集成模型:六模型集成(74.11%)。
    • 计算代价:参数量87.37M,FLOPs 25.61G,模型复杂度较高。
  2. D0数据集: 准确率99.52%,接近当前最优的轻量级模型(如MobileNetV2的99.89%),但参数量显著更大。
  3. 消融实验
    • CutMix增强提升准确率0.32%(77.16%→77.48%)。
    • 双路径聚合模块贡献0.33%增益(77.48%→77.81%)。
    • 细粒度分类模块(GCN)提升0.25%性能。

对比算法

  1. CNN模型:ResNet系列、MobileNetV2、EfficientNet-V2等,依赖局部特征,最高准确率73.7%。
  2. Transformer模型:ViT变体(如FRCF+LSMAE)和混合架构(如CNN+Transformer),准确率74.69%~76%。
  3. 集成模型:结合多个CNN模型的预测结果,最高准确率74.11%。

数据集

  1. IP102:大规模数据集,含102类害虫共75,000张图像,覆盖卵、幼虫、蛹、成虫四个阶段。数据集的挑战在于类间相似性高(如不同切根虫)、类内差异大(如不同生命周期形态)、长尾分布和复杂背景。
  2. D0:小规模数据集,含40类约4,500张图像,图像质量高且类别平衡,测试准确率普遍高于IP102。

改进空间

  1. 计算效率:模型参数量和计算成本高(87.37M参数),难以部署到移动设备,未来需设计轻量化模块。
  2. 小目标识别:在IP102的卵和幼虫阶段(目标小、背景复杂)识别精度较低,需针对性优化或增加数据。
  3. 数据增强优化:CutMix在某些场景下可能导致背景混淆,需改进增强策略(如自适应区域选择)。
  4. 长尾问题:IP102存在类别不平衡,未来可结合重采样或损失函数设计缓解。

总结

Pest-ConFormer通过融合CNN与Transformer的优势,结合多尺度特征聚合和弱监督学习,显著提升了细粒度害虫分类性能,但计算复杂度较高。未来工作可围绕轻量化、小目标优化和数据增强展开。

手写笔记

图片[2] - AI科研 编程 读书笔记 - 【人工智能】Pest-ConFormer: 一种用于大规模多类别农作物害虫识别的CNN-Transformer混合架构 - AI科研 编程 读书笔记 - 小竹の笔记本
图片[3] - AI科研 编程 读书笔记 - 【人工智能】Pest-ConFormer: 一种用于大规模多类别农作物害虫识别的CNN-Transformer混合架构 - AI科研 编程 读书笔记 - 小竹の笔记本

© 版权声明
THE END
点赞7 分享
相关推荐
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片快捷回复

    暂无评论内容