(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211053660.7
(22)申请日 2022.08.31
(71)申请人 南京理工大 学
地址 210094 江苏省南京市玄武区孝陵卫
200号
(72)发明人 代龙泉 高迪 唐金辉
(74)专利代理 机构 南京理工大 学专利中心
32203
专利代理师 朱沉雁
(51)Int.Cl.
G06V 10/24(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
G06V 10/764(2022.01)
G06V 10/766(2022.01)G06V 10/80(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于注意力机制和对比学习损失函数
的目标检测方法
(57)摘要
本发明公开了一种基于注意力机制和对比
学习损失函数的目标检测方法, 步骤如下: 使用
四折旋转构建对比数据集; 使用空间注意力层、
通道注意力层、 上采样层、 下采样层等构建单阶
段目标检测网络, 使用三种编码器加速训练; 将
旋转图像输入同步网络, 并使用EMA更新网络参
数; 计算有监督类别对比损失、 无监督特征点对
比损失, 以及检测任务常规的分类损失和回归损
失; 使用先验Anchor加速训练, 使用NMS获得推理
结果。 旨在同时增强网络对目标的分类能力以及
对目标位置的回归能力, 解决单阶段目标检测算
法在图像特征的处理中无法同时保证特征的不
变性和等变性而导致目标检测精度无法进一步
提升的问题, 解决基于Transformer的目标检测
网络收敛速度较慢的问题。
权利要求书5页 说明书7页 附图6页
CN 115424004 A
2022.12.02
CN 115424004 A
1.一种基于注意力机制和对比学习损失函数的目标检测方法, 其特征在于, 该方法包
括以下步骤:
步骤1、 对数据集images中的原图像进行增广, 对原图像逐一分别 进行逆时针旋转0度、
90度、 180度、 270度的旋转操作, 对应生成四种 不同旋转角度的视图, 每四张同源图像为一
组, 其中, 旋转0度的图像构成原图像数据集, 其他旋转角度的图像构成旋转图片数据集
rotation images, 转入步骤2;
步骤2、 构建初始ECODT在线网络, 初始ECODT在线网络包括TEB、 TEN和TEH, TEB 提取图像
的不同尺度特征, TEN对图像特征进行对齐和融合, TEH对 预测网络进行解耦并进 行预测, 以
同样的方式构建初始E CODT目标网络, 转入步骤3;
步骤3、 定义初始ECODT在线网络的更新方式是总损失梯度反向传播, 通过这种方式得
到训练后ECODT在 线网络, 定义初始EC ODT目标网络的更新方式是EMA方式, 通过这种方式得
到训练后E CODT目标网络, 转入步骤4;
步骤4、 将原图像数据 集输入初始ECODT目标网络, 将旋转图像数据 集输入初始ECODT目
标网络, 两种网络最终都会输出四种高级语义特征, 分别是类别特征、 特征点坐标、 类别
Logits以及边界框, 对两种网络输出的类别特征、 特征点坐标分别进行对齐操作, 得到目标
对比组, 以便计算对比损失, 转入步骤5;
步骤5、 对类别特征采用有监督对比学习的方式进行约束, 使得同类目标的特征差异最
小化, 计算有监督类别对比损失; 对特征点坐标进 行对齐, 再使同一个目标在不同视图下的
位置满足旋转仿射变换关系, 进而计算出MSE损失; 计算类别Logits的Focal Loss; 计算边
界框的GIOU损失, 转入步骤6;
步骤6、 对有监督类别对比损失、 MSE损失、 Focal Loss和GIOU损失进行加权求和, 计算
总损失值 L, 转入步骤7;
步骤7、 在训练阶段, 对初始ECODT在线网络进行梯度反向传播, 更新初始ECODT在线网
络的网络参数, 得到训练后ECODT在线网络; 取在验证集上得分最高的在线网络作为最终
ECODT在线网络, 在检测阶段, 在最终ECODT在线网络中输入检测图像, 得到类别Logits和边
界框, 利用类别Logits对边界框进 行非极大值抑制, 简称NMS, 获取最终的预测结果, 完成检
测。
2.根据权利要求1所述的基于注意力机制和对比学习损失函数的目标检测方法, 其特
征在于: 步骤2中, 构建初始ECODT在线网络, 初始ECODT目标网络包括TEB、 TEN和TEH, TEB提
取图像的不同尺度特征, TEN对图像特征进行对齐和融合, TEH对预测网络进行解耦并进行
预测, 以同样的方式构建初始E CODT目标网络, 具体步骤如下:
步骤2.1、 初始E CODT在线网络的结构以及数据传输流 程如下:
将数据集images中的每一张原图像
输入TEB中, 其 中
表示实数空间,
H表示图像高度, W表示图像宽度, C表示图像通道数, 提取四种尺度的特征, 分别是
对应的尺度为
其中,
表示4倍下采样时的特征,
表示8倍下采样时的特征,
表示16倍下采样时的特征,
表示32倍下采样时的特征, C1权 利 要 求 书 1/5 页
2
CN 115424004 A
2表示4倍下采样时的通道数, C2表示8倍下采样时的通道数, C3表示16倍下采样时的通道数,
C4表示32倍下采样时的通道数, 将这四种尺度的特征输入TEN, 进行特征对齐和多尺度特征
融合, 得到特征ften, 将其输入TEH, 最终获得四类高级语义特征, 分别是类别特征、 类别
Logits、 特 征点坐标、 边界框;
步骤2.2、 TEB的结构以及数据传输流 程如下:
将原图像image先后输入线 性层和块编码层后, 得到 特征
再将
先后输出
块融合层、 空间注意力层、 通道注意力层以及上采样层后, 将得到的特征与原来的
相加,
再将结果传入通道注意力层, 得到第一个尺度的特征
再将
输入下采样
层, 得到特征
而把
按照与
相似的网络路径进行传输, 得到第二个尺度的
特征
以及用于继续行前向传播的特征
同样, 第三个尺度的特
征
和特征
也可以按照类似的方法得到, 最后由特征
得到第
四个尺度的特征
由TEB得到的第i个尺度的特征
i∈{1,
2,3,4}, 将被依次传入TEN;
步骤2.3, TEN的结构以及数据传输流 程如下:
将
输入下采样层后, 与
相加, 再先后输入通道注意力层和下采样层, 然后与
相加, 接着输入 通道注意力层和下采样层, 再与
相加, 最后输入 一个通道注意力层, 最终
得到特征ften, 每一个下采样操作都在对齐两个将要相加的特征
i∈{1,2,3,4}; 每一个
通道注意力层对融合后的特征图中关键信息赋予更高的权重, 最终的融合特征图ften将被
传入TEH; 该过程被描述 为:
其中NCA表示通道注意力层, NDS表示下采样层;
步骤2.4, TE H的结构以及数据传输流 程如下:
由步骤2.3得到的融合特征图ften传入若干个分组通道注意力层, 使得目标的类别与 边
界框在特征域上对齐, 并且将这个聚合特征分别传入三个分支, 第一个分支直接输出类别
特征, 记为Pre_cls_feat, 第二个分支经过一个卷积层, 输出类别Logits, 记为Pre_cls, 第
三个分支先经过若干个通道注 意力层后, 又被分为两个子 分支, 其中一个直接输出, 得到特
征点坐标, 记为Pre_b ox_feat, 另一个经过一个卷积层, 输出边界框, 记为Pre_b ox; 这个过
程被描述 为:
Pre_cls= NC(Pre_cls_feat),
Pres_box= NC(Pre_box_feat)权 利 要 求 书 2/5 页
3
CN 115424004 A
3
专利 一种基于注意力机制和对比学习损失函数的目标检测方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:11:00上传分享