专利 一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210938396.9 (22)申请日 2022.08.05 (71)申请人山东大学地址 250199 山东省济南市历城区山大南路27号 (72)发明人李玉军　权振振　刘治　 (74)专利代理机构济南金迪知识产权代理有限公司 37219 专利代理师杨树云 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/02(2006.01) (54)发明名称一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统 (57)摘要本发明涉及一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统，包括：获取可穿戴传感器数据并进行处理：将可穿戴传感器数据的一维时间序列信号转换为二维图像表示；搭建多模态注意力空洞卷积核残差网络；训练教师网络；搭建学生网络；构建小波蒸馏损失，通过最小化小波蒸馏损失、交叉熵损失来训练学生网络；通过训练好的学生网络对可穿戴传感器 ‑视频行为进行识别，得到识别结果。本发明通过多模态交叉注意力进行不同模态信息的充分融合，利用小波知识蒸馏指导视频进行识别。本发明通过小波变换过滤噪声，鲁棒性强。权利要求书4页说明书11页附图3页 CN 115294498 A 2022.11.04 CN 115294498 A 1.一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法，其特征在于，包括步骤如下：获取可穿戴传感器数据并进行处理：将可穿戴传感器数据的一维时间序列信号转换为二维图像表示；搭建多模态注意力空洞卷积核残差网络即教师网络；训练教师网络；搭建学生网络；最小化小波蒸馏损失、交叉熵损失来训练学生网络；通过训练好的学生网络对可穿戴传感器 ‑视频行为进行识别，得到识别结果。 2.根据权利要求1所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法，其特征在于，可穿戴传感器数据处理，包括：首先，可穿戴传感器数据有三个轴向时间序列信号(x,y,z)，定义其中一个轴向信号为 X＝{x1,…,xn}，使用最小 ‑最大归一化方法将原始信号X归一化到区间[ ‑1,1]中，得到归一化信号如式(I)所示：然后，用变换函数 g将归一化信号变换到极坐标系统，它表示归一化振幅的余弦角和从时间t开始的半径，如式( Ⅱ)所示： ti是指时间戳， θi是指归一化振幅的余弦角；通过点和点之间的三角和获取时间间隔之间的相关系数，相关系数通过向量之间夹角的余弦计算，时间i和j之间的相关系数用cos(φi+φj)来计算， φi、 φj分别为时间i和j的归一化振幅的余弦角；格莱姆角场的矩阵定义为G，如式(I II)所示：假设每个长度为m的三轴传感器数据都转化为一个大小为m ×m的GAF矩阵，将三轴传感器数据的GAF矩阵G组装为大小为m ×m×3的三通道图像表示P＝{Gx,Gy,Gz}； m为三轴传感器数据的长度， Gx、 Gy、 Gz分别是三轴传感器数据x轴、 y轴和z轴的GAF矩阵。 3.根据权利要求1所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法，其特征在于，多模态注意力空洞卷积核残差网络包括 1个卷积层、 1个BN层、 1个激活函数层、 4个Max Pooling层、 5个SADRM模块、 1个DWT模块、 1个模态融合模块、 1个全连接层；模态融合模块包括多个CV A模块；通过卷积层、 BN层、激活函数层、 SADRM模块、 Max Pooling层、 DWT模块的搭建进行可穿戴传感器数据的特征提取， Max Pooling层进行下采样操作， DWT模块进行小波变换，多个权　利　要　求　书 1/4 页 2 CN 115294498 A 2CVA模块处理不同模态间的融合，从多个CVA模块获取的融合后的特征通过级联输入到全连接层。 4.根据权利要求3所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法，其特征在于， SADRM模块包括1*1卷积层、堆叠的一个1*1卷积层和一个3*3卷积层、一个LKA模块、堆叠的2个扩张率为2的3*3空洞卷积层和堆叠的2个扩张率为4的3*3空洞卷积层；教师网络的上一层特征图输入到SADRM模块中，分别经过上述各部分的计算处理，将得到的5个计算结果和输入特征图进行相加，形成快捷连接，最终得到SADRM模块的输出 Stage，如式( Ⅵ)所示：式(Ⅵ)中， x为上一个阶段的输入， Conv1×1表示1×1卷积操作， Conv3×3表示3×3卷积操作， LKA表示Large Kernel Attention操作， Di la3×3表示3×3空洞卷积操作；进一步优选的， SADRM模块中，对于堆叠的卷积层，假设第i层的感受野为RFi＝a1,i× a2,i， a1,i、 a2,i分别指感受野的长和宽，第i+1层的卷积核尺寸为ki+1×ki+1，第i+1层的空洞卷积扩张率为di+1，则第i+1层的感受野RFi+1如式(V)所示： RFi+1＝[a1,i+(ki+1‑1)di+1]×[a2,i+(ki+1‑1)di+1] (V) 式(V)中， RF0＝1×1代表输入层的感受野；进一步优选的， LKA模块如式(VI)、式(VI I)所示： Atten＝Conv1×1(DW‑D‑Conv(DW‑Conv(X))) (VI) 式(VI)、式(VII)中，是输入特征， DW ‑Conv是深度卷积， DW ‑D‑Conv是深度膨胀卷积， Conv1×1代表一维通道卷积，是注意力映射，代表每个特征的重要性，代表元素积， Y是指大内核注意力模块的输出；进一步优选的， DWT模块将数据按照不同的频率间隔分解成不同的分量，用于信号处理中的抗混叠，给定输入图像P，使用Haar小波沿着行和列分别进行小波变换，分解成式(Ⅷ)、式(Ⅸ)、式(Ⅹ)、式(Ⅺ)： Pll＝LPLT (Ⅷ) Plh＝HPLT (Ⅸ) Phl＝LPHT (Ⅹ) Phh＝HPHT (Ⅺ) 式(Ⅷ)、式(Ⅸ)、式(Ⅹ)、式(Ⅺ)中， L为低通滤波矩阵， H为高通滤波矩阵， P是指给定输入图像， Pll、 Plh、 Phl和Phh分别是图像分解后的低频分量、水平高频分量、垂直高频分量和对角高频分量；选取低频分量Pll的作为DWT模块的输出；在教师网络的最后一个阶段用小波变换代替步长为2的最大池化层，如式( Ⅻ)所示： MaxPools＝2→DWTll (Ⅻ) 式(Ⅻ)中， MaxPools＝2代表步长为2的最大池化层， DWTll代表特征映射到低频分量的变换映射；权　利　要　求　书 2/4 页 3 CN 115294498 A 3

专利 一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统

专利一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统