(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211061531.2
(22)申请日 2022.09.01
(71)申请人 厦门信息技 术应用创新研究院有限
公司
地址 361115 福建省厦门市厦门火炬高新
区软件园华讯楼C区4F- C
(72)发明人 郑群 杨义坤 孙桂刚 李超
朱宪
(74)专利代理 机构 济南信达专利事务所有限公
司 37100
专利代理师 姜丽洁
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/40(2022.01)
G06V 10/46(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种在线跨通道交互式并行蒸馏架构姿态
预估方法及装置
(57)摘要
本发明涉及人工智能计算机视觉技术领域,
具体提供了一种在线跨通道交互式并行蒸馏架
构姿态预估 方法, 首先视频采集装置获取外界视
频流, 将视频流切分成帧输入到特征提取网络中
进行特征提取; 将提取到的特征输送到YOLOV 5目
标检测模型中, 检测每一帧图像中的目标人体所
在位置并标记检测框, 得到目标人体的特征数
据; 将目标人体特征数据传递给姿态检测模型
Faster‑Pose,得到 人体关键点特征信息; 将得到
的人体关键点特征信息通过线性变换映射到特
征图中, 得到带有人体关键点标注的特征图。 与
现有技术相比, 本发明考虑到通道特征信息和空
间特征信息的关联性, 提升所需特征信息的表达
能力。
权利要求书2页 说明书6页 附图3页
CN 115359571 A
2022.11.18
CN 115359571 A
1.一种在线跨通道交互式并行蒸馏架构姿态预估方法, 其特征在于, 首先视频采集装
置获取外界视频流, 将视频流切分成帧输入到特 征提取网络中进行 特征提取;
将提取到的特征输送到YOLOV5目标检测模型中, 检测每一帧图像 中的目标人体所在位
置并标记检测框, 得到目标 人体的特 征数据;
将目标人体特征数据传递给姿态检测模型Faster ‑Pose,得到人体关键点特征信息; 将
得到的人体关键点特征信息通过线性变换映射到特征图中, 得到带有 人体关键点标注的特
征图。
2.根据权利要求1所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法, 其特征
在于, 所述特征提取网络设计成CSP结构, 并引入跨通道交互式注意力机制, 跨通道交互式
注意力机制联合通道注意力和空间注意力, 使用协方差矩阵计算通道注意力模型中特征图
每两个通道的相似性, 相似度高的通道进行融合;
空间注意力中使用二阶有限差分法计算特 征图像素值差和像素梯度方向。
3.根据权利要求2所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法, 其特征
在于, 两个所述通道的协方差计算值为负数则表 示负相关, 值为0则表示两个通道之 间相互
独立互不相关, 值 为正数则表示两个通道正相关进行 特征融合;
首先计算每 个通道的均值如公式(1)所示:
所有通道的均值特 征记为
计算每个通道的方差如公式(2)所示:
所有通道的方差记为:
计算通道C1,C2之间的协方差如公式(3)所示:
以此类推得到的所有通道相似性协方差值记为Covi, k,只在不同通道之间做协方差, 根
据协方差值将正相关性的通道进行 逐像素融合。
4.根据权利要求3所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法, 其特征
在于, 将提取到的特征输送到YOLOV5目标检测模型中, 检测每一 帧图像中的目标人体所在
位置并标记检测框, 得到目标 人体的特 征数据;
所述YOLOV5目标检测模型使用公开数据集MSCOCO 2017进行训练。 MSCOCO 2017数据集
按照预先设定的比例随机抽取, 对样本数据做数据增强预处 理操作。
5.根据权利要求4所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法, 其特征
在于, 所述数据增强的方式包括对图像进 行多角度旋转, 旋转角度划分 间隔为30度, 对图像
按照概率P对图像随机掩膜处理, 掩膜下的像素值置为0, 对图像进行上、 下、 左、 右翻转, 对
图像进行不同程度的扭曲变形处 理以及对图像进行颜色扰动。
6.根据权利要求5所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法, 其特征权 利 要 求 书 1/2 页
2
CN 115359571 A
2在于, 所述通道注 意力模型使用SoftMax函数得到通道特征概率矩阵, 空间注 意力模型使用
SoftMax函数 得到空间特 征概率矩阵;
概率矩阵与原特 征图分别使用乘积的方式进行融合, 为特 征图增加权重信息。
7.根据权利要求6所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法, 其特征
在于, 使用Depth ‑Wise方法对特征图的每个通道进行特征提取, 得到每个通道的特征值矩
阵, 进行跨 通道特征融合。
8.根据权利要求7所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法, 其特征
在于, 姿态检测模 型Faster ‑Pose中进行在 线并行知识蒸馏方法, 在 线并行知识蒸馏方法在
网络结构上 继续沿用基于教师 ‑学生(Teacher ‑Student)知识蒸馏框架, Teacher网络由8个
Hourglas s特征提取模块组成, Student网络由4个Hourglas s特征提取模块组成;
使用MSCOCO 2017数据集训练Teacher网络, 使用一部分带有标签的数据集训练
Student网络, 训练过程中使用KL散度计算Teacher网络特征图和Student网络特征图损失,
并将Teacher特征图信息与Student特征图信息按照通道相似度进行融合, 训练过程中
Teacher与Student网络并行训练;
推理过程中去掉Teacher网络直接推理Student网络, 在Faster ‑Pose姿态检测模型中
引入跨通道交互式注意力机制, 跨通道交互式注意力机制为Teacher网络中的特征图赋予
不同的权 重信息, Teac her网络特 征图和Student网络特 征图计算过程如公式(4)所示:
其中,
分别代表Teacher网络第二个Hour glass模块提取到的特征图和Student
网络第一个Hourglas s模块提取到的特 征图;
总的特征图损失如公式(5)所示:
Faster‑Pose姿态预估 模型的最终损失函数如公式(6)所示:
其中
为Student网络模型损失, α 和 λ为待学习的超参数。
9.根据权利要求8所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法, 其特征
在于, Faster ‑Pose姿态检测 模型输出的人体关键点Heat Map数据信息使用线性插值法映
射到原特 征图中, 映射过程中出现的像素点偏移使用三线性插值进行纠正。
10.一种在线跨通道交互式并行蒸馏架构姿态预估装置, 其特征在于, 包括: 至少一个
存储器和至少一个处 理器;
所述至少一个存 储器, 用于存 储机器可读程序;
所述至少一个处理器, 用于调用所述机器可读程序, 执行权利要求1至9中任一所述的
方法。权 利 要 求 书 2/2 页
3
CN 115359571 A
3
专利 一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:09:58上传分享