(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211087762.0
(22)申请日 2022.09.07
(71)申请人 深圳大学
地址 518000 广东省深圳市南 山区南海大
道3688号
(72)发明人 王嘉荣 李岩山 张坤华
(74)专利代理 机构 深圳尚业知识产权代理事务
所(普通合伙) 44503
专利代理师 杨勇
(51)Int.Cl.
G06V 10/80(2022.01)
G06V 10/40(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种图像目标检测方法、 系统、 电子装置和
存储介质
(57)摘要
本发明公开了一种图像目标检测方法、 系
统、 电子装置和存储介质, 方法包括: 对输入图像
进行特征提取, 得到三个特征图; 对所有的特征
图进行特征融合, 得到融合图像; 对融合图像进
行预测, 得到预测图像; 对预测的图像进行后处
理, 得到对输入图像的最终检测结果; 对输入的
图像进行特征提取, 得到三个特征图包括: 使用
预先构建的特征提取网络对输入图像进行五次
下采样, 得到五个不同尺寸的特征图, 并保留最
后三个特征图, 最后三个特征图分别为第一特征
图、 第二特征图、 第三特征图。 本发明在能够让网
络在训练的过程中, 让大尺寸特征图保留丰富的
位置信息, 让小尺寸特征图保留凝练的语义信
息, 使特征融合更有效, 网络的检测精度更高。
权利要求书3页 说明书18页 附图8页
CN 115471721 A
2022.12.13
CN 115471721 A
1.一种图像目标检测方法, 其特 征在于, 包括:
对输入图像进行 特征提取, 得到三个特 征图;
对所有的特 征图进行 特征融合, 得到融合图像;
对所述融合图像进行 预测, 得到预测图像;
对预测的图像进行后处 理, 得到对所述输入图像的最终检测结果;
对输入的图像进行 特征提取, 得到三个特 征图包括:
使用预先构建的特征提取网络对所述输入图像进行五次下采样, 得到五个不同尺寸的
特征图, 并保留最后三个特征图, 最后三个特征图分别为第一特征图、 第二特征图、 第三特
征图。
2.根据权利要求1所述的图像目标检测方法, 其特 征在于,
对所有的特 征图进行 特征融合, 得到融合图像包括:
对第三特征图调整维度, 得到第 一图像, 对第 一图像进行转置卷积后, 和第 二特征图进
行拼接, 再经过第一残差结构, 并调整维度后, 得到第二图像, 对第二图像进 行转置卷积, 并
和第一特 征图进行拼接, 再 经过第二残差结构, 得到第一融合图像;
对所述第 一融合图像进行下采样, 并和第二图像拼接, 经过第三残差结构, 得到第二融
合图像;
对所述第 二融合图像进行下采样, 并和第一图像进行拼接, 再经过第四残差结构, 得到
第三融合图像。
3.根据权利要求2所述的图像目标检测方法, 其特 征在于,
对所述融合图像进行 预测, 得到预测图像包括:
对第一融合图像、 第二融合图像、 第三融合图像在三个预测头内分别进行卷积和重排
矩阵的操作, 将各融合图像的特 征维度调整至统一数值, 得到三个预测图像;
对预测的图像进行后处 理, 得到对所述输入图像的最终检测结果包括:
设置置信度阈值, 去除三个预测图像内置信度小于所述阈值的先验框;
使用NMS算法, 设定I oU阈值, 分别比较三个预测图像内的先验框与真实框的交并比;
将交并比高于所述 IoU阈值的先验框中, 筛 选出数值最高的一个先验框;
汇总对3个预测头 筛选出的所有先验框, 得到 输入图像的最终检测结果。
4.根据权利要求2所述的图像目标检测方法, 其特 征在于,
所述第一残差结构、 第二残差结构、 第三残差结构、 第 四残差结构、 均使用相同的残差
结构, 所述残差结构包括第一 通道结构和第二 通道结构:
第一通道结构是一个1*1的Co nv结构;
第二通道结构包括: Ghost CBS结构, GhostNeck结构, Co ncat结构和1*1CBS结构;
GhostNeck结构包括: Ghost CBS结构, SENet 结构, Concat结构和Ghost CBS结构, Ghost
CBS结构的输入, 也是Co ncat结构的一个输入;
SENet结构包括: Flatten结构, 1*1Conv结构, 1*1Conv结构, Multiply结构, Flatten结
构的输入, 也是Multiply结构的一个输入;
Ghost CBS结构包括: 1*1CBS结构, 5*5DWCBS结构, Concat结构, 1*1CBS结构的输出是
Concat结构的一个输入;
第一通道结构和第二通道结构的Ghost CBS结构具有相同的输入, 第一通道结构的输权 利 要 求 书 1/3 页
2
CN 115471721 A
2出是一个第二 通道结构的Co ncat结构的输入;
其中, 1*1Conv结构用于对图像进行1*1卷积, Concat结构用于对图像进行拼接, Ghost
CBS结构用于对图像降低维度, 1*1CBS结构用于对图像恢复维度。
5.根据权利要求 4所述的图像目标检测方法, 其特 征在于,
在第一融合图像的生成过程中, 使用YOLO ‑M的网络架构, 调整维度均使用所述CBS结
构; 或者,
在第一融合图像的生成过程 中, 使用YOLO ‑L的网络架构, 调整维度均使用Ghost CBS结
构; 或者,
在第一融合 图像的生成过程中, 使用YOLO ‑S的网络架构, 所述转置卷积的操作替换为
最近邻插值的上采样 操作。
6.根据权利要求2所述的图像目标检测方法, 其特 征在于,
使用残差结构处 理图像的方法包括:
在第一通道里对输入的图像进行1*1卷积, 将图像的维度降低至原先维度的一半, 得到
第一图像;
在第二通道里对输入的图像降低维度、 维度加权, 和第一图像进行拼接, 并融合特征,
得到和输入的图像相比, 宽高、 维度没有变化的第二图像;
在第二通道里对输入的图像降低维度、 维度加权包括:
对输入的图像进行降低维度处 理, 得到低维图像;
对低维图像进行维度加权 。
7.根据权利要求6所述的图像目标检测方法, 其特 征在于,
对输入的图像进行降低维度处 理包括:
对输入的图像的维度降低为输入维度的一半, 得到降维图像;
对低维图像进行维度加权包括:
将低维图像展平;
将展平的低维图像进行1*1的卷积来降低维度;
使用SiLU函数激活低维图像;
使用1*1的卷积恢复低维图像;
使用Sigmo id激活, 获得维度权 重;
将输入图像与维度权 重相乘, 获得维度加权的输出图像。
8.一种图像目标检测系统, 其特 征在于, 包括:
特征提取模块, 用于对输入图像进行 特征提取, 得到三个特 征图;
特征融合模块, 用于对所有的特 征图进行 特征融合, 得到融合图像;
预测模块, 用于对所述融合图像进行 预测, 得到预测图像;
后处理模块, 用于对预测的图像进行后处 理, 得到对所述输入图像的最终检测结果;
特征提取模块包括: 下采样单元, 用于使用预先构建的特征提取网络对所述输入图像
进行五次下采样, 得到五个不同尺寸的特征图; 特征保留单元, 用于保留最后三个特征图,
最后三个特 征图分别为第一特 征图、 第二特 征图、 第三特 征图。
9.一种电子装置, 包括: 存储器、 处理器, 所述存储器上存储有可在所述处理器上运行
的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时, 实现权利要求 1至7中的任权 利 要 求 书 2/3 页
3
CN 115471721 A
3
专利 一种图像目标检测方法、系统、电子装置和存储介质
文档预览
中文文档
30 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共30页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:09:55上传分享