(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210938396.9
(22)申请日 2022.08.05
(71)申请人 山东大学
地址 250199 山东省济南市历城区山大南
路27号
(72)发明人 李玉军 权振振 刘治
(74)专利代理 机构 济南金迪知识产权代理有限
公司 37219
专利代理师 杨树云
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 40/20(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06N 5/02(2006.01)
(54)发明名称
一种基于交叉注意力的多模态融合小波知
识蒸馏的视频行为识别方法及系统
(57)摘要
本发明涉及一种基于交叉注意力的多模态
融合小波知识蒸馏的视频行为识别方法及系统,
包括: 获取可穿戴传感器数据并进行处理: 将可
穿戴传感器数据的一维时间序列信号转换为二
维图像表 示; 搭建多模态注意力空洞卷积核残差
网络; 训练教师网络; 搭建学生网络; 构建小波蒸
馏损失, 通过最小化小波蒸馏损失、 交叉熵损失
来训练学生网络; 通过训练好的学生网络对可穿
戴传感器 ‑视频行为进行识别, 得到识别结果。 本
发明通过多模态交叉注意力进行不同模态信息
的充分融合, 利用小波知识蒸馏指导视频进行识
别。 本发明通过小 波变换过滤噪声, 鲁棒 性强。
权利要求书4页 说明书11页 附图3页
CN 115294498 A
2022.11.04
CN 115294498 A
1.一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法, 其特征在
于, 包括步骤如下:
获取可穿戴传感器数据并进行处理: 将可穿戴传感器数据的一维时间序列信号转换为
二维图像表示;
搭建多模态 注意力空洞卷积核残差网络即教师网络;
训练教师网络;
搭建学生网络;
最小化小 波蒸馏损失、 交叉熵损失来训练学生网络;
通过训练好的学生网络对可穿戴传感器 ‑视频行为进行识别, 得到识别结果。
2.根据权利要求1所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为
识别方法, 其特 征在于, 可穿戴传感器数据处 理, 包括:
首先, 可穿戴传感器数据有三个轴向时间序列信号(x,y,z), 定义其中一个轴向信号为
X={x1,…,xn}, 使用最小 ‑最大归一化方法将原始信号X归一化到区间[ ‑1,1]中, 得到归一
化信号
如式(I)所示:
然后, 用变换函数 g将归一化信号
变换到极坐标系统, 它表示归一化振幅的余弦角和
从时间t开始的半径, 如式( Ⅱ)所示:
ti是指时间戳, θi是指归一 化振幅的余弦角;
通过点和点之间的三角和获取时间间隔之间的相关系数, 相关系数通过向量之间夹角
的余弦计算, 时间i和j之间的相关系 数用cos(φi+φj)来计算, φi、 φj分别为时间i和j的
归一化振幅的余弦角;
格莱姆角场的矩阵定义 为G, 如式(I II)所示:
假设每个长度为m的三轴传感器数据都转化为一个大小为m ×m的GAF矩阵, 将三轴传感
器数据的GAF矩阵G组装为大小为m ×m×3的三通道图像表示P={Gx,Gy,Gz}; m为三轴传感器
数据的长度, Gx、 Gy、 Gz分别是三轴传感器数据x轴 、 y轴和z轴的GAF矩阵。
3.根据权利要求1所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为
识别方法, 其特征在于, 多模态注 意力空洞卷积核残差网络包括 1个卷积层、 1个BN层、 1个激
活函数层、 4个Max Pooling层、 5个SADRM模块、 1个DWT模块、 1个模态融合模块、 1个全连接
层; 模态融合模块包括多个CV A模块;
通过卷积层、 BN层、 激活函数层、 SADRM模块、 Max Pooling层、 DWT模块的搭建进行可穿
戴传感器数据的特征提取, Max Pooling层进行下采样操作, DWT模块进行小波变换, 多个权 利 要 求 书 1/4 页
2
CN 115294498 A
2CVA模块处理不同模态间的融合, 从多个CVA模块 获取的融合后的特征通过级 联输入到全连
接层。
4.根据权利要求3所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为
识别方法, 其特征在于, SADRM模块包括1*1卷积层、 堆叠的一个1*1卷积层和一个3*3卷积
层、 一个LKA模块、 堆叠的2个扩张率为2的3*3空洞卷积层和堆叠的2个扩张率为4的3*3空洞
卷积层;
教师网络的上一层特征图输入到SADRM模块中, 分别经过上述各部分的计算处理, 将得
到的5个计算结果和输入特征图进行相加, 形成快捷连接, 最终得到SADRM模块的输出
Stage, 如式( Ⅵ)所示:
式(Ⅵ)中, x为上一个阶段的输入, Conv1×1表示1×1卷积操作, Conv3×3表示3×3卷积操
作, LKA表示Large Kernel Attention操作, Di la3×3表示3×3空洞卷积 操作;
进一步优选的, SADRM模块中, 对于堆叠的卷积层, 假设第i层的感受野为RFi=a1,i×
a2,i, a1,i、 a2,i分别指感受野的长和宽, 第i+1层的卷积核尺寸为ki+1×ki+1, 第i+1层的空洞卷
积扩张率 为di+1, 则第i+1层的感受野RFi+1如式(V)所示:
RFi+1=[a1,i+(ki+1‑1)di+1]×[a2,i+(ki+1‑1)di+1] (V)
式(V)中, RF0=1×1代表输入层的感受野;
进一步优选的, LKA模块如式(VI)、 式(VI I)所示:
Atten=Conv1×1(DW‑D‑Conv(DW‑Conv(X))) (VI)
式(VI)、 式(VII)中,
是输入特征, DW ‑Conv是深度卷积, DW ‑D‑Conv是深度膨
胀卷积, Conv1×1代表一维通道 卷积,
是注意力映射, 代表每个特征的重要性,
代表元素积, Y是指大内核注意力模块的输出;
进一步优选的, DWT模块将数据按照不同的频率间隔分解成不同的分量, 用于信号处理
中的抗混叠, 给定输入图像P, 使用Haar小波沿着行和列分别进 行小波变换, 分解 成式(Ⅷ)、
式(Ⅸ)、 式(Ⅹ)、 式(Ⅺ):
Pll=LPLT (Ⅷ)
Plh=HPLT (Ⅸ)
Phl=LPHT (Ⅹ)
Phh=HPHT (Ⅺ)
式(Ⅷ)、 式(Ⅸ)、 式(Ⅹ)、 式(Ⅺ)中, L为低通滤波矩阵, H为高通滤波矩阵, P是指给定输
入图像, Pll、 Plh、 Phl和Phh分别是图像分解后的低频分量、 水平高频分量、 垂直 高频分量和对
角高频分量; 选取低频分量Pll的作为DWT模块的输出; 在教师网络的最后一个阶段用小波变
换代替步长为2的最大池化层, 如式( Ⅻ)所示:
MaxPools=2→DWTll (Ⅻ)
式(Ⅻ)中, MaxPools=2代表步长为2的最大池化层, DWTll代表特征映射到低频分量的变
换映射;权 利 要 求 书 2/4 页
3
CN 115294498 A
3
专利 一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:10:17上传分享