【人工智能】无归一化的Transformer&遥感自适应矩形卷积&CNN+ViT的作物病虫害分类&ShiftingNet对比实验-2025年4月19日人工智能组会总结

图片[1] - AI科研 编程 读书笔记 - 【人工智能】无归一化的Transformer&遥感自适应矩形卷积&CNN+ViT的作物病虫害分类&ShiftingNet对比实验-2025年4月19日人工智能组会总结 - AI科研 编程 读书笔记 - 小竹の笔记本
完整PPT不公开,谢谢理解

此次组会的汇报内容(按顺序)如下:

无归一化的Transformer

作者使用DyT(DyT(x) = γ * tanh(αx) + β)实现了替换LN。动机来源于作者观测LN层输入x和输出y(仿射变换前)所构成的y-x图像时,发现随着LN层变多,图象越来越像tanh函数的形状。式子中x是输入特征,α控制缩放程度,影响函数斜率,tanh(·)是双曲正切函数,γ和β是仿射变换的参数,每个通道独立学习,用于对结果进行放缩和平移,增加泛化能力。

遥感自适应矩形卷积

作者使用ARConv模块生成自适应矩形卷积。具体流程是这样的:

①动态学习卷积核的高度和宽度

输入特征图:假设输入是一张遥感图像的特征图(例如尺寸为H×W)。
双通道预测:使用两个独立的子网络(类似于小型神经网络)分别预测每个像素位置的卷积核高度h宽度w
输出归一化:子网络的输出通过Sigmoid函数压缩到(0,1)范围,再通过线性变换调整到特定区间(奇数)(如高度范围[1,4],宽度范围[1,6])。
意义:每个位置的卷积核不再是固定方形,而是根据物体尺寸自动调整的矩形。例如,小汽车可能对应较小的核(如3×1),而大型建筑对应较大的核(如4×5)。

②自适应选择采样点数量

动态采样点数:根据预测的平均高度和宽度,计算垂直和水平方向的采样点数:k_h = 奇数(平均高度 × 缩放系数),k_w = 奇数(平均宽度 × 缩放系数)。
强制奇数采样点:确保卷积核有中心点,避免偏移问题(例如5×3的矩形核)。
意义:大核用更多采样点捕捉整体结构,小核用较少采样点聚焦细节。

③生成非均匀采样网格

标准网格变形:在标准方形网格基础上,根据预测的高度和宽度进行缩放:
缩放矩阵Z:每个位置的h和w生成一个缩放因子,将方形网格拉伸为矩形。
偏移矩阵R:缩放后的网格与标准网格逐元素相乘,得到动态采样位置。
双线性插值:对非整数位置像素值进行插值,确保采样位置连续可调。

④仿射变换增强灵活性

空间自适应调整:通过两个子网络预测仿射变换参数(旋转、平移、缩放),对卷积后的特征图进一步调整。
意义:增强卷积核对不同形状物体的适应性(如倾斜建筑物)。

⑤实现高效卷积

动态扩展技术:将每个像素对应的动态采样窗口拼接成新特征图,用标准卷积操作处理。
计算优化:仅需学习高度、宽度和仿射参数,避免了传统可变形卷积的大量偏移参数。

通俗来说,这个过程是这样的:从前有个小孩,他拿了两个小工具(两个子网络)测量了画布上每个位置的物体的长和宽。接着,根据测量结果调整尺子的长和宽,并决定使用多少个刻度(采样点)。他用这把尺子沿着物体的边缘绘制了采样点,确保这些点贴合物体。最后他用一把可以旋转的尺子(仿射变换)来精细地调整位置。

CNN+ViT的作物病虫害分类(PlantAIM)

PlantAIM模型虽然在Plant Village上Test Acc较高,其实也没比我的ShiftingNet高多少,而参数量是暴增的。所以这个模型我用来当对比模型。

图片[2] - AI科研 编程 读书笔记 - 【人工智能】无归一化的Transformer&遥感自适应矩形卷积&CNN+ViT的作物病虫害分类&ShiftingNet对比实验-2025年4月19日人工智能组会总结 - AI科研 编程 读书笔记 - 小竹の笔记本

总结

之后的组会没必要汇报PlantAIM这样的对比模型,这种模型有源码的话跑3~4次实验即可,时间有限不必详细探究论文内容。

接下来尽快完成ShiftingNet对比实验,开始写论文。

© 版权声明
THE END
点赞11 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片快捷回复

    暂无评论内容