说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210458590.7 (22)申请日 2022.04.24 (71)申请人 中国人民解 放军空军工程大 学 地址 710038 陕西省西安市灞桥区霸陵路1 号 (72)发明人 何林远 刘旭伦 马时平 周理  刘达 王晨 史鹤欢 王力超  马国勇 张立朝  (74)专利代理 机构 北京圣州专利代理事务所 (普通合伙) 11818 专利代理师 黄青青 (51)Int.Cl. G06V 20/13(2022.01) G06V 20/17(2022.01) G06V 10/82(2022.01)G06V 10/80(2022.01) G06V 10/764(2022.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称 一种基于tran sformer的光学遥感目标检测 方法 (57)摘要 本发明公开了一种基于tran sformer的光学 遥感目标检测方法, 提出了适应遥感图像检测的 骨干网络, 主要利用本网络在保持了细节信息的 同时又提取丰富的上下文信息进行目标检测, 对 检测效果提升非常有效; 2)本发明提出新的特征 融合网络, 相比常用的特征金字塔网络, 有更好 信息表达能力, 适应多种类, 多尺度目标的检测; 3)本发明利用不确定权重的损失函数训练网络, 取得更好的检测效果。 权利要求书3页 说明书12页 附图3页 CN 114821357 A 2022.07.29 CN 114821357 A 1.一种基于t ransformer的光学遥感目标检测方法, 其特 征在于, 包括如下步骤: A1、 读入光学遥感图像数据集, 将数据集划分为训练集、 测试集和验证集, 同时进行数 据的预处 理; A2、 建立包括TransConNet骨干网络、 自适应特征融合网络和多任务检测头 网络的网络 模型; 在所述网络模型中, TransConvNet骨干网络包含四个阶段, 将TransConvNet骨干网络 中第二、 三、 四阶段提取的不同深度特征图, 送入自适应特征融合网络, 得到不同分辨率的 五层特征图; 所述 五层特征图送入多任务检测头网络 分别进行目标分类、 中心 点偏移度、 角 度和距离偏移的预测, 不同分辨 率的特征图预测不同尺寸范围的目标; A3、 在训练集上进行步骤A2所建立的网络模型进行训练, 并在验证集上计算网络模型 的检测精度, 不断更新网络模型的参数, 直到检测精度饱和; A4、 利用训练好的网络模型对相应的测试集进行测试并记录光学遥感图像旋转目标检 测性能结果。 2.根据权利要求1所述的方法, 其特征在于, 步骤A1中, 数据的预处理包括数据增强以 及尺寸裁 剪。 3.根据权利要求1所述的方法, 其特征在于, 步骤A2中, TransConvNet骨干网络的结构 包括patc hify stem、 Transformer  Block和Conv Block; 1)patchify stem用于将2D的RGB图像转化为1D的序列数据: 采用两个卷积核大小为3 ×3、 步长为2的卷积操作, 实现局 部特征的聚合, 再连接一个1 ×1卷积, 将维度调整为C, 实 现跨信道信息的整合, 得到H/4 ×W/4×C大小的特征, 通过Reshape操作, 转化为(H/4*W/4) ×C的序列数据, H和W分别表示图片的宽和高; 2)在TransConvNet骨干网络的每个阶段均包含两种模块, 分别是Transformer  Block 和Conv Block; Transformer  Block中, 先将输入的数据通过1 ×1卷积降低维度, 然后 采用基于窗口的 注意力模型, 通过排列窗口, 以不重叠的方式均匀地将图像分割大小为M ×M的窗口, 在每个 窗口内部进行注意力计算, 在输出时连接1 ×1卷积提升维度; Transformer  Block中的操作 过程可表示 为: 式中zl‑1、 zl为第l个Transformer  Block的输入和输出, W ‑MSA为基于窗口的自注意力计 算; 在Transfor mer Block后连接Conv  Block, 实现数据的融合以及窗口之间数据的交互, 对全局关系的建模; 残差连接的Conv  Block分为两种情况: a)输入和输出尺度相同, 则直接 连接; b)除第一阶段外, 每个阶段最后一个Conv  Block中3 ×3卷积核的步长为2, 实现本阶 段尺度减半, 因此残差连接也会使用3 ×3卷积降采样, 保持尺度一致; 情况a)和情况b)的过 程可分别表示 为: a): 权 利 要 求 书 1/3 页 2 CN 114821357 A 2b): 式中zl、 zl+1为第l个Co nv Block的输入和输出。 4.根据权利要求1所述的方法, 其特征在于, 步骤A2中, 自适应特征融合网络分为两个 阶段, 第一阶段为FPN结构, 自顶向下, 将高层 的语义信息传递至低层特征图, 第二阶段为 PAN结构, 为弥补骨干网络由于下采样丢失的细节信息, 构造自底向上的特征融合, 使细节 位置信息传递至深层次特征图; 另外, 在两者融合方式中分别引入通道注意力和空间注意 力; 最终输出不同尺度的特 征图。 5.根据权利要求 4所述的方法, 其特 征在于, 所述自适应特 征融合网络的过程如下: 记TransConvNet骨干网络第二、 三、 四阶段所提取得深度特征图为S2、 S3、 S4, 送入自适 应特征融合网络; 在第一阶段的FPN结构中, S2、 S3、 S4进行自顶向下的特征融合, 首先, 各层 深度特征图S2、 S3、 S4分别 通过1×1卷积使通道数保持一致, 由S4直接卷积得到Q4; 然后将 S4进行双线性插值上采样, 提高特征图分辨率, 经过通道注意力模块, 重新加权不同通道中 的特征图, 强调重要的特征, 压缩不重要的特征, 将 重新标定的特征和S3相加融合, 得到Q3; Q3以相同的操作, 经双线性插值上采样和通道 注意力模块后和S2相加融合得到Q2; 然后进入第二阶段, 在PAN结构中, Q2、 Q3、 Q4进行自底向上的特征融合; P2由Q2经3 ×3 卷积直接得到; 将P2下采样, 降低特征图分辨率, 经过空间注意力模块, 聚焦特征图中有效 信息的位置, 和Q3相加融合, 经过3 ×3卷积得到P3; P3采用同样的操作, 经下采样和空间注 意力模块, 和Q4相加融合后, 经过3 ×3卷积得到P4, 对P4进行两倍的下采样分别得到P5和 P6。 6.根据权利要求1所述的方法, 其特征在于, 在多任务检测头网络中, 采用FCOS的逐像 素预测回归的方式生成包围框, 定向包围框表示为(x,y,Qi, θ,(i=1,2,3,4)), (x,y)表示 图中某一个点坐标, 以该点为原点建立直角坐标系, Qi(i=1,2,3,4)表示该点到包 围框的 距离偏移量, 且位于第i象限, θ 为X轴逆时针与Q1之间的夹角; 将自适应特征融合网络输出的特征图分别送入多尺度检测头网络, 首先通过一个堆叠 四次的3×3卷积层, 得到特征图, 然后 分为四个分支, 经过归一化、 激活函数以及1 ×1的卷 积, 得到特征图 最后 用这四个特征图分别进 行目标分类置信度预测、 中心置信度预测、 角度回归、 距离偏移 量回 归, 实现多任务预测 和回归。 7.根据权利要求1所述的方法, 其特征在于, 所述网络模型训练中, 多任务学习损 失函 数分别由分类损失函数、 中心点偏移损失函数、 定位框回归损失函数组成; 分类损失函数采用焦点损失函数,计算方式如下:权 利 要 求 书 2/3 页 3 CN 114821357 A 3

.PDF文档 专利 一种基于transformer的光学遥感目标检测方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于transformer的光学遥感目标检测方法 第 1 页 专利 一种基于transformer的光学遥感目标检测方法 第 2 页 专利 一种基于transformer的光学遥感目标检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:32:18上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。