说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210938396.9 (22)申请日 2022.08.05 (71)申请人 山东大学 地址 250199 山东省济南市历城区山大南 路27号 (72)发明人 李玉军 权振振 刘治  (74)专利代理 机构 济南金迪知识产权代理有限 公司 37219 专利代理师 杨树云 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 5/02(2006.01) (54)发明名称 一种基于交叉注意力的多模态融合小波知 识蒸馏的视频行为识别方法及系统 (57)摘要 本发明涉及一种基于交叉注意力的多模态 融合小波知识蒸馏的视频行为识别方法及系统, 包括: 获取可穿戴传感器数据并进行处理: 将可 穿戴传感器数据的一维时间序列信号转换为二 维图像表 示; 搭建多模态注意力空洞卷积核残差 网络; 训练教师网络; 搭建学生网络; 构建小波蒸 馏损失, 通过最小化小波蒸馏损失、 交叉熵损失 来训练学生网络; 通过训练好的学生网络对可穿 戴传感器 ‑视频行为进行识别, 得到识别结果。 本 发明通过多模态交叉注意力进行不同模态信息 的充分融合, 利用小波知识蒸馏指导视频进行识 别。 本发明通过小 波变换过滤噪声, 鲁棒 性强。 权利要求书4页 说明书11页 附图3页 CN 115294498 A 2022.11.04 CN 115294498 A 1.一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法, 其特征在 于, 包括步骤如下: 获取可穿戴传感器数据并进行处理: 将可穿戴传感器数据的一维时间序列信号转换为 二维图像表示; 搭建多模态 注意力空洞卷积核残差网络即教师网络; 训练教师网络; 搭建学生网络; 最小化小 波蒸馏损失、 交叉熵损失来训练学生网络; 通过训练好的学生网络对可穿戴传感器 ‑视频行为进行识别, 得到识别结果。 2.根据权利要求1所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为 识别方法, 其特 征在于, 可穿戴传感器数据处 理, 包括: 首先, 可穿戴传感器数据有三个轴向时间序列信号(x,y,z), 定义其中一个轴向信号为 X={x1,…,xn}, 使用最小 ‑最大归一化方法将原始信号X归一化到区间[ ‑1,1]中, 得到归一 化信号 如式(I)所示: 然后, 用变换函数 g将归一化信号 变换到极坐标系统, 它表示归一化振幅的余弦角和 从时间t开始的半径, 如式( Ⅱ)所示: ti是指时间戳, θi是指归一 化振幅的余弦角; 通过点和点之间的三角和获取时间间隔之间的相关系数, 相关系数通过向量之间夹角 的余弦计算, 时间i和j之间的相关系 数用cos(φi+φj)来计算, φi、 φj分别为时间i和j的 归一化振幅的余弦角; 格莱姆角场的矩阵定义 为G, 如式(I II)所示: 假设每个长度为m的三轴传感器数据都转化为一个大小为m ×m的GAF矩阵, 将三轴传感 器数据的GAF矩阵G组装为大小为m ×m×3的三通道图像表示P={Gx,Gy,Gz}; m为三轴传感器 数据的长度, Gx、 Gy、 Gz分别是三轴传感器数据x轴 、 y轴和z轴的GAF矩阵。 3.根据权利要求1所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为 识别方法, 其特征在于, 多模态注 意力空洞卷积核残差网络包括 1个卷积层、 1个BN层、 1个激 活函数层、 4个Max  Pooling层、 5个SADRM模块、 1个DWT模块、 1个模态融合模块、 1个全连接 层; 模态融合模块包括多个CV A模块; 通过卷积层、 BN层、 激活函数层、 SADRM模块、 Max  Pooling层、 DWT模块的搭建进行可穿 戴传感器数据的特征提取, Max  Pooling层进行下采样操作, DWT模块进行小波变换, 多个权 利 要 求 书 1/4 页 2 CN 115294498 A 2CVA模块处理不同模态间的融合, 从多个CVA模块 获取的融合后的特征通过级 联输入到全连 接层。 4.根据权利要求3所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为 识别方法, 其特征在于, SADRM模块包括1*1卷积层、 堆叠的一个1*1卷积层和一个3*3卷积 层、 一个LKA模块、 堆叠的2个扩张率为2的3*3空洞卷积层和堆叠的2个扩张率为4的3*3空洞 卷积层; 教师网络的上一层特征图输入到SADRM模块中, 分别经过上述各部分的计算处理, 将得 到的5个计算结果和输入特征图进行相加, 形成快捷连接, 最终得到SADRM模块的输出 Stage, 如式( Ⅵ)所示: 式(Ⅵ)中, x为上一个阶段的输入, Conv1×1表示1×1卷积操作, Conv3×3表示3×3卷积操 作, LKA表示Large Kernel Attention操作, Di la3×3表示3×3空洞卷积 操作; 进一步优选的, SADRM模块中, 对于堆叠的卷积层, 假设第i层的感受野为RFi=a1,i× a2,i, a1,i、 a2,i分别指感受野的长和宽, 第i+1层的卷积核尺寸为ki+1×ki+1, 第i+1层的空洞卷 积扩张率 为di+1, 则第i+1层的感受野RFi+1如式(V)所示: RFi+1=[a1,i+(ki+1‑1)di+1]×[a2,i+(ki+1‑1)di+1]  (V) 式(V)中, RF0=1×1代表输入层的感受野; 进一步优选的, LKA模块如式(VI)、 式(VI I)所示: Atten=Conv1×1(DW‑D‑Conv(DW‑Conv(X)))  (VI) 式(VI)、 式(VII)中, 是输入特征, DW ‑Conv是深度卷积, DW ‑D‑Conv是深度膨 胀卷积, Conv1×1代表一维通道 卷积, 是注意力映射, 代表每个特征的重要性, 代表元素积, Y是指大内核注意力模块的输出; 进一步优选的, DWT模块将数据按照不同的频率间隔分解成不同的分量, 用于信号处理 中的抗混叠, 给定输入图像P, 使用Haar小波沿着行和列分别进 行小波变换, 分解 成式(Ⅷ)、 式(Ⅸ)、 式(Ⅹ)、 式(Ⅺ): Pll=LPLT  (Ⅷ) Plh=HPLT  (Ⅸ) Phl=LPHT  (Ⅹ) Phh=HPHT  (Ⅺ) 式(Ⅷ)、 式(Ⅸ)、 式(Ⅹ)、 式(Ⅺ)中, L为低通滤波矩阵, H为高通滤波矩阵, P是指给定输 入图像, Pll、 Plh、 Phl和Phh分别是图像分解后的低频分量、 水平高频分量、 垂直 高频分量和对 角高频分量; 选取低频分量Pll的作为DWT模块的输出; 在教师网络的最后一个阶段用小波变 换代替步长为2的最大池化层, 如式( Ⅻ)所示: MaxPools=2→DWTll  (Ⅻ) 式(Ⅻ)中, MaxPools=2代表步长为2的最大池化层, DWTll代表特征映射到低频分量的变 换映射;权 利 要 求 书 2/4 页 3 CN 115294498 A 3

.PDF文档 专利 一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统 第 1 页 专利 一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统 第 2 页 专利 一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:10:17上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。