说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211053660.7 (22)申请日 2022.08.31 (71)申请人 南京理工大 学 地址 210094 江苏省南京市玄武区孝陵卫 200号 (72)发明人 代龙泉 高迪 唐金辉  (74)专利代理 机构 南京理工大 学专利中心 32203 专利代理师 朱沉雁 (51)Int.Cl. G06V 10/24(2022.01) G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01) G06V 10/766(2022.01)G06V 10/80(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于注意力机制和对比学习损失函数 的目标检测方法 (57)摘要 本发明公开了一种基于注意力机制和对比 学习损失函数的目标检测方法, 步骤如下: 使用 四折旋转构建对比数据集; 使用空间注意力层、 通道注意力层、 上采样层、 下采样层等构建单阶 段目标检测网络, 使用三种编码器加速训练; 将 旋转图像输入同步网络, 并使用EMA更新网络参 数; 计算有监督类别对比损失、 无监督特征点对 比损失, 以及检测任务常规的分类损失和回归损 失; 使用先验Anchor加速训练, 使用NMS获得推理 结果。 旨在同时增强网络对目标的分类能力以及 对目标位置的回归能力, 解决单阶段目标检测算 法在图像特征的处理中无法同时保证特征的不 变性和等变性而导致目标检测精度无法进一步 提升的问题, 解决基于Transformer的目标检测 网络收敛速度较慢的问题。 权利要求书5页 说明书7页 附图6页 CN 115424004 A 2022.12.02 CN 115424004 A 1.一种基于注意力机制和对比学习损失函数的目标检测方法, 其特征在于, 该方法包 括以下步骤: 步骤1、 对数据集images中的原图像进行增广, 对原图像逐一分别 进行逆时针旋转0度、 90度、 180度、 270度的旋转操作, 对应生成四种 不同旋转角度的视图, 每四张同源图像为一 组, 其中, 旋转0度的图像构成原图像数据集, 其他旋转角度的图像构成旋转图片数据集 rotation images, 转入步骤2; 步骤2、 构建初始ECODT在线网络, 初始ECODT在线网络包括TEB、 TEN和TEH, TEB 提取图像 的不同尺度特征, TEN对图像特征进行对齐和融合, TEH对 预测网络进行解耦并进 行预测, 以 同样的方式构建初始E CODT目标网络, 转入步骤3; 步骤3、 定义初始ECODT在线网络的更新方式是总损失梯度反向传播, 通过这种方式得 到训练后ECODT在 线网络, 定义初始EC ODT目标网络的更新方式是EMA方式, 通过这种方式得 到训练后E CODT目标网络, 转入步骤4; 步骤4、 将原图像数据 集输入初始ECODT目标网络, 将旋转图像数据 集输入初始ECODT目 标网络, 两种网络最终都会输出四种高级语义特征, 分别是类别特征、 特征点坐标、 类别 Logits以及边界框, 对两种网络输出的类别特征、 特征点坐标分别进行对齐操作, 得到目标 对比组, 以便计算对比损失, 转入步骤5; 步骤5、 对类别特征采用有监督对比学习的方式进行约束, 使得同类目标的特征差异最 小化, 计算有监督类别对比损失; 对特征点坐标进 行对齐, 再使同一个目标在不同视图下的 位置满足旋转仿射变换关系, 进而计算出MSE损失; 计算类别Logits的Focal  Loss; 计算边 界框的GIOU损失, 转入步骤6; 步骤6、 对有监督类别对比损失、 MSE损失、 Focal  Loss和GIOU损失进行加权求和, 计算 总损失值 L, 转入步骤7; 步骤7、 在训练阶段, 对初始ECODT在线网络进行梯度反向传播, 更新初始ECODT在线网 络的网络参数, 得到训练后ECODT在线网络; 取在验证集上得分最高的在线网络作为最终 ECODT在线网络, 在检测阶段, 在最终ECODT在线网络中输入检测图像, 得到类别Logits和边 界框, 利用类别Logits对边界框进 行非极大值抑制, 简称NMS, 获取最终的预测结果, 完成检 测。 2.根据权利要求1所述的基于注意力机制和对比学习损失函数的目标检测方法, 其特 征在于: 步骤2中, 构建初始ECODT在线网络, 初始ECODT目标网络包括TEB、 TEN和TEH, TEB提 取图像的不同尺度特征, TEN对图像特征进行对齐和融合, TEH对预测网络进行解耦并进行 预测, 以同样的方式构建初始E CODT目标网络, 具体步骤如下: 步骤2.1、 初始E CODT在线网络的结构以及数据传输流 程如下: 将数据集images中的每一张原图像 输入TEB中, 其 中 表示实数空间, H表示图像高度, W表示图像宽度, C表示图像通道数, 提取四种尺度的特征, 分别是 对应的尺度为 其中, 表示4倍下采样时的特征, 表示8倍下采样时的特征, 表示16倍下采样时的特征, 表示32倍下采样时的特征, C1权 利 要 求 书 1/5 页 2 CN 115424004 A 2表示4倍下采样时的通道数, C2表示8倍下采样时的通道数, C3表示16倍下采样时的通道数, C4表示32倍下采样时的通道数, 将这四种尺度的特征输入TEN, 进行特征对齐和多尺度特征 融合, 得到特征ften, 将其输入TEH, 最终获得四类高级语义特征, 分别是类别特征、 类别 Logits、 特 征点坐标、 边界框; 步骤2.2、 TEB的结构以及数据传输流 程如下: 将原图像image先后输入线 性层和块编码层后, 得到 特征 再将 先后输出 块融合层、 空间注意力层、 通道注意力层以及上采样层后, 将得到的特征与原来的 相加, 再将结果传入通道注意力层, 得到第一个尺度的特征 再将 输入下采样 层, 得到特征 而把 按照与 相似的网络路径进行传输, 得到第二个尺度的 特征 以及用于继续行前向传播的特征 同样, 第三个尺度的特 征 和特征 也可以按照类似的方法得到, 最后由特征 得到第 四个尺度的特征 由TEB得到的第i个尺度的特征 i∈{1, 2,3,4}, 将被依次传入TEN; 步骤2.3, TEN的结构以及数据传输流 程如下: 将 输入下采样层后, 与 相加, 再先后输入通道注意力层和下采样层, 然后与 相加, 接着输入 通道注意力层和下采样层, 再与 相加, 最后输入 一个通道注意力层, 最终 得到特征ften, 每一个下采样操作都在对齐两个将要相加的特征 i∈{1,2,3,4}; 每一个 通道注意力层对融合后的特征图中关键信息赋予更高的权重, 最终的融合特征图ften将被 传入TEH; 该过程被描述 为: 其中NCA表示通道注意力层, NDS表示下采样层; 步骤2.4, TE H的结构以及数据传输流 程如下: 由步骤2.3得到的融合特征图ften传入若干个分组通道注意力层, 使得目标的类别与 边 界框在特征域上对齐, 并且将这个聚合特征分别传入三个分支, 第一个分支直接输出类别 特征, 记为Pre_cls_feat, 第二个分支经过一个卷积层, 输出类别Logits, 记为Pre_cls, 第 三个分支先经过若干个通道注 意力层后, 又被分为两个子 分支, 其中一个直接输出, 得到特 征点坐标, 记为Pre_b ox_feat, 另一个经过一个卷积层, 输出边界框, 记为Pre_b ox; 这个过 程被描述 为: Pre_cls= NC(Pre_cls_feat), Pres_box= NC(Pre_box_feat)权 利 要 求 书 2/5 页 3 CN 115424004 A 3

.PDF文档 专利 一种基于注意力机制和对比学习损失函数的目标检测方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于注意力机制和对比学习损失函数的目标检测方法 第 1 页 专利 一种基于注意力机制和对比学习损失函数的目标检测方法 第 2 页 专利 一种基于注意力机制和对比学习损失函数的目标检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:11:00上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。