【人工智能】无归一化的Transformer&遥感自适应矩形卷积&CNN+ViT的作物病虫害分类&ShiftingNet对比实验-2025年4月19日人工智能组会总结

完整PPT不公开，谢谢理解

此次组会的汇报内容（按顺序）如下：

【人工智能】无归一化的Transformer

6个月前

014811

【人工智能】用于遥感影像融合的自适应矩形卷积

6个月前

036113

【人工智能】PlantAIM: 一种融合全局注意力与局部特征以提升植物病害识别能力的新型基准模型

6个月前

01556

无归一化的Transformer

作者使用DyT（DyT(x) = γ * tanh(αx) + β）实现了替换LN。动机来源于作者观测LN层输入x和输出y（仿射变换前）所构成的y-x图像时，发现随着LN层变多，图象越来越像tanh函数的形状。式子中x是输入特征，α控制缩放程度，影响函数斜率，tanh(·)是双曲正切函数，γ和β是仿射变换的参数，每个通道独立学习，用于对结果进行放缩和平移，增加泛化能力。

遥感自适应矩形卷积

作者使用ARConv模块生成自适应矩形卷积。具体流程是这样的：

①动态学习卷积核的高度和宽度

输入特征图：假设输入是一张遥感图像的特征图（例如尺寸为H×W）。
双通道预测：使用两个独立的子网络（类似于小型神经网络）分别预测每个像素位置的卷积核高度h和宽度w。
输出归一化：子网络的输出通过Sigmoid函数压缩到(0,1)范围，再通过线性变换调整到特定区间（奇数）（如高度范围[1,4]，宽度范围[1,6]）。
意义：每个位置的卷积核不再是固定方形，而是根据物体尺寸自动调整的矩形。例如，小汽车可能对应较小的核（如3×1），而大型建筑对应较大的核（如4×5）。

②自适应选择采样点数量

动态采样点数：根据预测的平均高度和宽度，计算垂直和水平方向的采样点数：k_h = 奇数(平均高度 × 缩放系数)，k_w = 奇数(平均宽度 × 缩放系数)。
强制奇数采样点：确保卷积核有中心点，避免偏移问题（例如5×3的矩形核）。
意义：大核用更多采样点捕捉整体结构，小核用较少采样点聚焦细节。

③生成非均匀采样网格

标准网格变形：在标准方形网格基础上，根据预测的高度和宽度进行缩放：
缩放矩阵Z：每个位置的h和w生成一个缩放因子，将方形网格拉伸为矩形。
偏移矩阵R：缩放后的网格与标准网格逐元素相乘，得到动态采样位置。
双线性插值：对非整数位置像素值进行插值，确保采样位置连续可调。

④仿射变换增强灵活性

空间自适应调整：通过两个子网络预测仿射变换参数（旋转、平移、缩放），对卷积后的特征图进一步调整。
意义：增强卷积核对不同形状物体的适应性（如倾斜建筑物）。

⑤实现高效卷积

动态扩展技术：将每个像素对应的动态采样窗口拼接成新特征图，用标准卷积操作处理。
计算优化：仅需学习高度、宽度和仿射参数，避免了传统可变形卷积的大量偏移参数。

通俗来说，这个过程是这样的：从前有个小孩，他拿了两个小工具（两个子网络）测量了画布上每个位置的物体的长和宽。接着，根据测量结果调整尺子的长和宽，并决定使用多少个刻度（采样点）。他用这把尺子沿着物体的边缘绘制了采样点，确保这些点贴合物体。最后他用一把可以旋转的尺子（仿射变换）来精细地调整位置。

CNN+ViT的作物病虫害分类（PlantAIM）

PlantAIM模型虽然在Plant Village上Test Acc较高，其实也没比我的ShiftingNet高多少，而参数量是暴增的。所以这个模型我用来当对比模型。

总结

之后的组会没必要汇报PlantAIM这样的对比模型，这种模型有源码的话跑3~4次实验即可，时间有限不必详细探究论文内容。

接下来尽快完成ShiftingNet对比实验，开始写论文。

1. 除特殊说明外，本网站所有原创文章的版权归作者所有，未经授权，禁止以任何形式（包括但不限于转载、摘编、复制、镜像等）发布至任何平台。
2. 论文总结类文章中涉及的图表、数据等素材，版权归原出版商及论文作者所有，仅为学术交流目的引用；若相关权利人认为存在侵权，请联系本网站删除，联系方式：i@smallbamboo.cn。
3. 违反上述声明者，将依法追究其相关法律责任。

THE END

人工智能

无归一化的Transformer

遥感自适应矩形卷积

CNN+ViT的作物病虫害分类（PlantAIM）

总结

请登录后发表评论