(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210458590.7
(22)申请日 2022.04.24
(71)申请人 中国人民解 放军空军工程大 学
地址 710038 陕西省西安市灞桥区霸陵路1
号
(72)发明人 何林远 刘旭伦 马时平 周理
刘达 王晨 史鹤欢 王力超
马国勇 张立朝
(74)专利代理 机构 北京圣州专利代理事务所
(普通合伙) 11818
专利代理师 黄青青
(51)Int.Cl.
G06V 20/13(2022.01)
G06V 20/17(2022.01)
G06V 10/82(2022.01)G06V 10/80(2022.01)
G06V 10/764(2022.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
(54)发明名称
一种基于tran sformer的光学遥感目标检测
方法
(57)摘要
本发明公开了一种基于tran sformer的光学
遥感目标检测方法, 提出了适应遥感图像检测的
骨干网络, 主要利用本网络在保持了细节信息的
同时又提取丰富的上下文信息进行目标检测, 对
检测效果提升非常有效; 2)本发明提出新的特征
融合网络, 相比常用的特征金字塔网络, 有更好
信息表达能力, 适应多种类, 多尺度目标的检测;
3)本发明利用不确定权重的损失函数训练网络,
取得更好的检测效果。
权利要求书3页 说明书12页 附图3页
CN 114821357 A
2022.07.29
CN 114821357 A
1.一种基于t ransformer的光学遥感目标检测方法, 其特 征在于, 包括如下步骤:
A1、 读入光学遥感图像数据集, 将数据集划分为训练集、 测试集和验证集, 同时进行数
据的预处 理;
A2、 建立包括TransConNet骨干网络、 自适应特征融合网络和多任务检测头 网络的网络
模型;
在所述网络模型中, TransConvNet骨干网络包含四个阶段, 将TransConvNet骨干网络
中第二、 三、 四阶段提取的不同深度特征图, 送入自适应特征融合网络, 得到不同分辨率的
五层特征图; 所述 五层特征图送入多任务检测头网络 分别进行目标分类、 中心 点偏移度、 角
度和距离偏移的预测, 不同分辨 率的特征图预测不同尺寸范围的目标;
A3、 在训练集上进行步骤A2所建立的网络模型进行训练, 并在验证集上计算网络模型
的检测精度, 不断更新网络模型的参数, 直到检测精度饱和;
A4、 利用训练好的网络模型对相应的测试集进行测试并记录光学遥感图像旋转目标检
测性能结果。
2.根据权利要求1所述的方法, 其特征在于, 步骤A1中, 数据的预处理包括数据增强以
及尺寸裁 剪。
3.根据权利要求1所述的方法, 其特征在于, 步骤A2中, TransConvNet骨干网络的结构
包括patc hify stem、 Transformer Block和Conv Block;
1)patchify stem用于将2D的RGB图像转化为1D的序列数据: 采用两个卷积核大小为3
×3、 步长为2的卷积操作, 实现局 部特征的聚合, 再连接一个1 ×1卷积, 将维度调整为C, 实
现跨信道信息的整合, 得到H/4 ×W/4×C大小的特征, 通过Reshape操作, 转化为(H/4*W/4)
×C的序列数据, H和W分别表示图片的宽和高;
2)在TransConvNet骨干网络的每个阶段均包含两种模块, 分别是Transformer Block
和Conv Block;
Transformer Block中, 先将输入的数据通过1 ×1卷积降低维度, 然后 采用基于窗口的
注意力模型, 通过排列窗口, 以不重叠的方式均匀地将图像分割大小为M ×M的窗口, 在每个
窗口内部进行注意力计算, 在输出时连接1 ×1卷积提升维度; Transformer Block中的操作
过程可表示 为:
式中zl‑1、 zl为第l个Transformer Block的输入和输出, W ‑MSA为基于窗口的自注意力计
算;
在Transfor mer Block后连接Conv Block, 实现数据的融合以及窗口之间数据的交互,
对全局关系的建模; 残差连接的Conv Block分为两种情况: a)输入和输出尺度相同, 则直接
连接; b)除第一阶段外, 每个阶段最后一个Conv Block中3 ×3卷积核的步长为2, 实现本阶
段尺度减半, 因此残差连接也会使用3 ×3卷积降采样, 保持尺度一致; 情况a)和情况b)的过
程可分别表示 为:
a):
权 利 要 求 书 1/3 页
2
CN 114821357 A
2b):
式中zl、 zl+1为第l个Co nv Block的输入和输出。
4.根据权利要求1所述的方法, 其特征在于, 步骤A2中, 自适应特征融合网络分为两个
阶段, 第一阶段为FPN结构, 自顶向下, 将高层 的语义信息传递至低层特征图, 第二阶段为
PAN结构, 为弥补骨干网络由于下采样丢失的细节信息, 构造自底向上的特征融合, 使细节
位置信息传递至深层次特征图; 另外, 在两者融合方式中分别引入通道注意力和空间注意
力; 最终输出不同尺度的特 征图。
5.根据权利要求 4所述的方法, 其特 征在于, 所述自适应特 征融合网络的过程如下:
记TransConvNet骨干网络第二、 三、 四阶段所提取得深度特征图为S2、 S3、 S4, 送入自适
应特征融合网络; 在第一阶段的FPN结构中, S2、 S3、 S4进行自顶向下的特征融合, 首先, 各层
深度特征图S2、 S3、 S4分别 通过1×1卷积使通道数保持一致, 由S4直接卷积得到Q4; 然后将
S4进行双线性插值上采样, 提高特征图分辨率, 经过通道注意力模块, 重新加权不同通道中
的特征图, 强调重要的特征, 压缩不重要的特征, 将 重新标定的特征和S3相加融合, 得到Q3;
Q3以相同的操作, 经双线性插值上采样和通道 注意力模块后和S2相加融合得到Q2;
然后进入第二阶段, 在PAN结构中, Q2、 Q3、 Q4进行自底向上的特征融合; P2由Q2经3 ×3
卷积直接得到; 将P2下采样, 降低特征图分辨率, 经过空间注意力模块, 聚焦特征图中有效
信息的位置, 和Q3相加融合, 经过3 ×3卷积得到P3; P3采用同样的操作, 经下采样和空间注
意力模块, 和Q4相加融合后, 经过3 ×3卷积得到P4, 对P4进行两倍的下采样分别得到P5和
P6。
6.根据权利要求1所述的方法, 其特征在于, 在多任务检测头网络中, 采用FCOS的逐像
素预测回归的方式生成包围框, 定向包围框表示为(x,y,Qi, θ,(i=1,2,3,4)), (x,y)表示
图中某一个点坐标, 以该点为原点建立直角坐标系, Qi(i=1,2,3,4)表示该点到包 围框的
距离偏移量, 且位于第i象限, θ 为X轴逆时针与Q1之间的夹角;
将自适应特征融合网络输出的特征图分别送入多尺度检测头网络, 首先通过一个堆叠
四次的3×3卷积层, 得到特征图, 然后 分为四个分支, 经过归一化、 激活函数以及1 ×1的卷
积, 得到特征图
最后
用这四个特征图分别进 行目标分类置信度预测、 中心置信度预测、 角度回归、 距离偏移 量回
归, 实现多任务预测 和回归。
7.根据权利要求1所述的方法, 其特征在于, 所述网络模型训练中, 多任务学习损 失函
数分别由分类损失函数、 中心点偏移损失函数、 定位框回归损失函数组成;
分类损失函数采用焦点损失函数,计算方式如下:权 利 要 求 书 2/3 页
3
CN 114821357 A
3
专利 一种基于transformer的光学遥感目标检测方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:32:18上传分享