专利 一种基于transformer的光学遥感目标检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210458590.7 (22)申请日 2022.04.24 (71)申请人中国人民解放军空军工程大学地址 710038 陕西省西安市灞桥区霸陵路1 号 (72)发明人何林远　刘旭伦　马时平　周理　刘达　王晨　史鹤欢　王力超　马国勇　张立朝　 (74)专利代理机构北京圣州专利代理事务所 (普通合伙) 11818 专利代理师黄青青 (51)Int.Cl. G06V 20/13(2022.01) G06V 20/17(2022.01) G06V 10/82(2022.01)G06V 10/80(2022.01) G06V 10/764(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称一种基于tran sformer的光学遥感目标检测方法 (57)摘要本发明公开了一种基于tran sformer的光学遥感目标检测方法，提出了适应遥感图像检测的骨干网络，主要利用本网络在保持了细节信息的同时又提取丰富的上下文信息进行目标检测，对检测效果提升非常有效； 2)本发明提出新的特征融合网络，相比常用的特征金字塔网络，有更好信息表达能力，适应多种类，多尺度目标的检测； 3)本发明利用不确定权重的损失函数训练网络，取得更好的检测效果。权利要求书3页说明书12页附图3页 CN 114821357 A 2022.07.29 CN 114821357 A 1.一种基于t ransformer的光学遥感目标检测方法，其特征在于，包括如下步骤： A1、读入光学遥感图像数据集，将数据集划分为训练集、测试集和验证集，同时进行数据的预处理； A2、建立包括TransConNet骨干网络、自适应特征融合网络和多任务检测头网络的网络模型；在所述网络模型中， TransConvNet骨干网络包含四个阶段，将TransConvNet骨干网络中第二、三、四阶段提取的不同深度特征图，送入自适应特征融合网络，得到不同分辨率的五层特征图；所述五层特征图送入多任务检测头网络分别进行目标分类、中心点偏移度、角度和距离偏移的预测，不同分辨率的特征图预测不同尺寸范围的目标； A3、在训练集上进行步骤A2所建立的网络模型进行训练，并在验证集上计算网络模型的检测精度，不断更新网络模型的参数，直到检测精度饱和； A4、利用训练好的网络模型对相应的测试集进行测试并记录光学遥感图像旋转目标检测性能结果。 2.根据权利要求1所述的方法，其特征在于，步骤A1中，数据的预处理包括数据增强以及尺寸裁剪。 3.根据权利要求1所述的方法，其特征在于，步骤A2中， TransConvNet骨干网络的结构包括patc hify stem、 Transformer Block和Conv Block； 1)patchify stem用于将2D的RGB图像转化为1D的序列数据：采用两个卷积核大小为3 ×3、步长为2的卷积操作，实现局部特征的聚合，再连接一个1 ×1卷积，将维度调整为C，实现跨信道信息的整合，得到H/4 ×W/4×C大小的特征，通过Reshape操作，转化为(H/4*W/4) ×C的序列数据， H和W分别表示图片的宽和高； 2)在TransConvNet骨干网络的每个阶段均包含两种模块，分别是Transformer Block 和Conv Block； Transformer Block中，先将输入的数据通过1 ×1卷积降低维度，然后采用基于窗口的注意力模型，通过排列窗口，以不重叠的方式均匀地将图像分割大小为M ×M的窗口，在每个窗口内部进行注意力计算，在输出时连接1 ×1卷积提升维度； Transformer Block中的操作过程可表示为：式中zl‑1、 zl为第l个Transformer Block的输入和输出， W ‑MSA为基于窗口的自注意力计算；在Transfor mer Block后连接Conv Block，实现数据的融合以及窗口之间数据的交互，对全局关系的建模；残差连接的Conv Block分为两种情况： a)输入和输出尺度相同，则直接连接； b)除第一阶段外，每个阶段最后一个Conv Block中3 ×3卷积核的步长为2，实现本阶段尺度减半，因此残差连接也会使用3 ×3卷积降采样，保持尺度一致；情况a)和情况b)的过程可分别表示为： a): 权　利　要　求　书 1/3 页 2 CN 114821357 A 2b): 式中zl、 zl+1为第l个Co nv Block的输入和输出。 4.根据权利要求1所述的方法，其特征在于，步骤A2中，自适应特征融合网络分为两个阶段，第一阶段为FPN结构，自顶向下，将高层的语义信息传递至低层特征图，第二阶段为 PAN结构，为弥补骨干网络由于下采样丢失的细节信息，构造自底向上的特征融合，使细节位置信息传递至深层次特征图；另外，在两者融合方式中分别引入通道注意力和空间注意力；最终输出不同尺度的特征图。 5.根据权利要求 4所述的方法，其特征在于，所述自适应特征融合网络的过程如下：记TransConvNet骨干网络第二、三、四阶段所提取得深度特征图为S2、 S3、 S4，送入自适应特征融合网络；在第一阶段的FPN结构中， S2、 S3、 S4进行自顶向下的特征融合，首先，各层深度特征图S2、 S3、 S4分别通过1×1卷积使通道数保持一致，由S4直接卷积得到Q4；然后将 S4进行双线性插值上采样，提高特征图分辨率，经过通道注意力模块，重新加权不同通道中的特征图，强调重要的特征，压缩不重要的特征，将重新标定的特征和S3相加融合，得到Q3； Q3以相同的操作，经双线性插值上采样和通道注意力模块后和S2相加融合得到Q2；然后进入第二阶段，在PAN结构中， Q2、 Q3、 Q4进行自底向上的特征融合； P2由Q2经3 ×3 卷积直接得到；将P2下采样，降低特征图分辨率，经过空间注意力模块，聚焦特征图中有效信息的位置，和Q3相加融合，经过3 ×3卷积得到P3； P3采用同样的操作，经下采样和空间注意力模块，和Q4相加融合后，经过3 ×3卷积得到P4，对P4进行两倍的下采样分别得到P5和 P6。 6.根据权利要求1所述的方法，其特征在于，在多任务检测头网络中，采用FCOS的逐像素预测回归的方式生成包围框，定向包围框表示为(x,y,Qi, θ,(i＝1,2,3,4))， (x,y)表示图中某一个点坐标，以该点为原点建立直角坐标系， Qi(i＝1,2,3,4)表示该点到包围框的距离偏移量，且位于第i象限， θ 为X轴逆时针与Q1之间的夹角；将自适应特征融合网络输出的特征图分别送入多尺度检测头网络，首先通过一个堆叠四次的3×3卷积层，得到特征图，然后分为四个分支，经过归一化、激活函数以及1 ×1的卷积，得到特征图最后用这四个特征图分别进行目标分类置信度预测、中心置信度预测、角度回归、距离偏移量回归，实现多任务预测和回归。 7.根据权利要求1所述的方法，其特征在于，所述网络模型训练中，多任务学习损失函数分别由分类损失函数、中心点偏移损失函数、定位框回归损失函数组成；分类损失函数采用焦点损失函数,计算方式如下：权　利　要　求　书 2/3 页 3 CN 114821357 A 3

专利 一种基于transformer的光学遥感目标检测方法

专利一种基于transformer的光学遥感目标检测方法