专利 一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211061531.2 (22)申请日 2022.09.01 (71)申请人厦门信息技术应用创新研究院有限公司地址 361115 福建省厦门市厦门火炬高新区软件园华讯楼C区4F- C (72)发明人郑群　杨义坤　孙桂刚　李超　朱宪　 (74)专利代理机构济南信达专利事务所有限公司 37100 专利代理师姜丽洁 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/40(2022.01) G06V 10/46(2022.01)G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置 (57)摘要本发明涉及人工智能计算机视觉技术领域，具体提供了一种在线跨通道交互式并行蒸馏架构姿态预估方法，首先视频采集装置获取外界视频流，将视频流切分成帧输入到特征提取网络中进行特征提取；将提取到的特征输送到YOLOV 5目标检测模型中，检测每一帧图像中的目标人体所在位置并标记检测框，得到目标人体的特征数据；将目标人体特征数据传递给姿态检测模型 Faster‑Pose,得到人体关键点特征信息；将得到的人体关键点特征信息通过线性变换映射到特征图中，得到带有人体关键点标注的特征图。与现有技术相比，本发明考虑到通道特征信息和空间特征信息的关联性，提升所需特征信息的表达能力。权利要求书2页说明书6页附图3页 CN 115359571 A 2022.11.18 CN 115359571 A 1.一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，首先视频采集装置获取外界视频流，将视频流切分成帧输入到特征提取网络中进行特征提取；将提取到的特征输送到YOLOV5目标检测模型中，检测每一帧图像中的目标人体所在位置并标记检测框，得到目标人体的特征数据；将目标人体特征数据传递给姿态检测模型Faster ‑Pose,得到人体关键点特征信息；将得到的人体关键点特征信息通过线性变换映射到特征图中，得到带有人体关键点标注的特征图。 2.根据权利要求1所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，所述特征提取网络设计成CSP结构，并引入跨通道交互式注意力机制，跨通道交互式注意力机制联合通道注意力和空间注意力，使用协方差矩阵计算通道注意力模型中特征图每两个通道的相似性，相似度高的通道进行融合；空间注意力中使用二阶有限差分法计算特征图像素值差和像素梯度方向。 3.根据权利要求2所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，两个所述通道的协方差计算值为负数则表示负相关，值为0则表示两个通道之间相互独立互不相关，值为正数则表示两个通道正相关进行特征融合；首先计算每个通道的均值如公式(1)所示：所有通道的均值特征记为计算每个通道的方差如公式(2)所示：所有通道的方差记为：计算通道C1,C2之间的协方差如公式(3)所示：以此类推得到的所有通道相似性协方差值记为Covi， k,只在不同通道之间做协方差，根据协方差值将正相关性的通道进行逐像素融合。 4.根据权利要求3所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，将提取到的特征输送到YOLOV5目标检测模型中，检测每一帧图像中的目标人体所在位置并标记检测框，得到目标人体的特征数据；所述YOLOV5目标检测模型使用公开数据集MSCOCO 2017进行训练。 MSCOCO 2017数据集按照预先设定的比例随机抽取，对样本数据做数据增强预处理操作。 5.根据权利要求4所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，所述数据增强的方式包括对图像进行多角度旋转，旋转角度划分间隔为30度，对图像按照概率P对图像随机掩膜处理，掩膜下的像素值置为0，对图像进行上、下、左、右翻转，对图像进行不同程度的扭曲变形处理以及对图像进行颜色扰动。 6.根据权利要求5所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征权　利　要　求　书 1/2 页 2 CN 115359571 A 2在于，所述通道注意力模型使用SoftMax函数得到通道特征概率矩阵，空间注意力模型使用 SoftMax函数得到空间特征概率矩阵；概率矩阵与原特征图分别使用乘积的方式进行融合，为特征图增加权重信息。 7.根据权利要求6所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，使用Depth ‑Wise方法对特征图的每个通道进行特征提取，得到每个通道的特征值矩阵，进行跨通道特征融合。 8.根据权利要求7所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于，姿态检测模型Faster ‑Pose中进行在线并行知识蒸馏方法，在线并行知识蒸馏方法在网络结构上继续沿用基于教师 ‑学生(Teacher ‑Student)知识蒸馏框架， Teacher网络由8个 Hourglas s特征提取模块组成， Student网络由4个Hourglas s特征提取模块组成；使用MSCOCO 2017数据集训练Teacher网络，使用一部分带有标签的数据集训练 Student网络，训练过程中使用KL散度计算Teacher网络特征图和Student网络特征图损失, 并将Teacher特征图信息与Student特征图信息按照通道相似度进行融合，训练过程中 Teacher与Student网络并行训练；推理过程中去掉Teacher网络直接推理Student网络，在Faster ‑Pose姿态检测模型中引入跨通道交互式注意力机制，跨通道交互式注意力机制为Teacher网络中的特征图赋予不同的权重信息， Teac her网络特征图和Student网络特征图计算过程如公式(4)所示：其中，分别代表Teacher网络第二个Hour glass模块提取到的特征图和Student 网络第一个Hourglas s模块提取到的特征图；总的特征图损失如公式(5)所示： Faster‑Pose姿态预估模型的最终损失函数如公式(6)所示：其中为Student网络模型损失， α 和 λ为待学习的超参数。 9.根据权利要求8所述的一种在线跨通道交互式并行蒸馏架构姿态预估方法，其特征在于， Faster ‑Pose姿态检测模型输出的人体关键点Heat Map数据信息使用线性插值法映射到原特征图中，映射过程中出现的像素点偏移使用三线性插值进行纠正。 10.一种在线跨通道交互式并行蒸馏架构姿态预估装置，其特征在于，包括：至少一个存储器和至少一个处理器；所述至少一个存储器，用于存储机器可读程序；所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至9中任一所述的方法。权　利　要　求　书 2/2 页 3 CN 115359571 A 3

专利 一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置

专利一种在线跨通道交互式并行蒸馏架构姿态预估方法及装置