专利 一种光照不足下的视频动作识别网络结构及方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211031412.2 (22)申请日 2022.08.26 (71)申请人浙江工商大学地址 310018 浙江省杭州市钱塘区白杨街道学正街18号 (72)发明人王世阔　徐光伟　 (74)专利代理机构杭州浙科专利事务所(普通合伙) 33213 专利代理师陈洁 (51)Int.Cl. G06V 20/40(2022.01) G06V 40/20(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06N 3/04(2006.01) (54)发明名称一种光照不足下的视频动作识别网络结构及方法 (57)摘要本发明属于计算机视觉中的视频动作识别领域，公开了一种光照不足下的视频动作识别网络结构及方法，包括数据预处理模块、多流特征提取模块、特征交互模块、分数融合模块；本发明的数据预处理模块引入了GIC修正技术，从而增加了光照不足的视频帧的清晰度。使用经过GIC 技术修正过的视频帧可以更好的表现空间和光流等特征信息，从而提高光照不足的视频的动作识别的准确率。本发明将Spatial Stream和 Temporal Stream两条流中的特征信息分别送入 GIC Stream中进行乘法交互，改进了传统双流网络只在最后才进行双流的交互融合的特点，从而增加了网络整体的交互能力，提升了最终识别的准确率。权利要求书2页说明书4页附图3页 CN 115410124 A 2022.11.29 CN 115410124 A 1.一种光照不足下的视频动作识别网络结构，其特征在于，包括数据预处理模块、多流特征提取模块、特征交互模块、分数融合模块；所述数据预处理模块用于在输入的光照不足的视频中提取并采样经过伽马图像校正技术修正的GIC帧，同时对GIC修正的视频帧提取并采样光流帧，对原始输入视频提取并采样RGB帧；所述多流特征提取模块包括GIC Stream、 Temporal Stream和Spatial Stream，所述 GIC Stream用于提取采样的GIC帧的特征信息；所述Temporal Stream用于提取采样的光流帧的特征信息；所述Spatial Stream用于提取采样的RGB帧的特征信息；所述特征交互模块用于将Spatial Stream和Temporal Stream的特征信息分别送入 GIC Stream中进行乘法交互；所述分数融合模块用于对Spatial Stream、 Temporal Stream和GIC Stream提取的特征分数进行融合，以得到输入视频的最终动作识别结果。 2.一种利用如权利要求1所述的光照不足下的视频动作识别网络结构进行视频动作识别方法，其特征在于，包括如下步骤：步骤1、将待识别的光照不足的原始视频送入数据预处理模块；步骤2、通过伽马图像校正技术对原始视频进行Gam ma修正，并对其采样K帧GIC帧；步骤3、对于原始输入视频采样K帧RGB帧；步骤4、对经过GIC修正的原始视频帧提取L帧水平光流帧和L帧竖直光流帧；步骤5、将步骤2中得到的K帧GIC帧送入GIC Stream中以提取特征；将步骤3中得到的K 帧RGB帧送入Spatial Stream中以提取特征；将步骤4中得到的2L帧光流帧送入Temporal Stream中以提取特征； Spati al Stream、 Temporal Stream和GIC Stream都采用ResNets作为特征提取网络；步骤6、将Spatial Stream中的特征和Temporal Stream中的特征分别送入GIC Stream 中进行乘法交互；步骤7、将上述步骤中得到的三个网络的预测得分进行平均，以得到输入视频的最终预测类别。 3.根据权利要求2所述的视频动作识别方法，其特征在于，所述步骤2的GIC修正的计算公式如下：其中p是像素的值，其范围是[0,255]， pmax是输入像素的最大值， γ表示亮度增加的程度，当γ>1时，随着γ的增大，图像的灰度值也会增大。 4.根据权利要求2所述的视频动作识别方法，其特征在于，所述步骤4的L取10，光流提取方法使用的是TV ‑L1。 5.根据权利要求2所述的视频动作识别方法，其特征在于，所述步骤5将步骤2、 3和4得到的采样帧，分别进行数据增强并重新调整大小；将K帧数据增强处理后的GIC帧送入GIC Stream中以提取特征；将K帧数据增强处理后的RGB帧送入Spatial Stream中以提取特征；将2L帧数据增强处理后的光流帧送入Temporal Stream中以提取特征。权　利　要　求　书 1/2 页 2 CN 115410124 A 26.根据权利要求5所述的视频动作识别方法，其特征在于，所述数据增强的方法包括：在左上、右下、右上、左下和中心进行随机裁剪；随机水平翻转，最后所有帧的高和宽都重新调整为224*224大小。 7.根据权利要求5所述的视频动作识别方法，其特征在于，所述步骤5的2L帧光流帧的叠加方式为一帧水平光流帧叠加一帧竖直光流帧。 8.根据权利要求5所述的视频动作识别方法，其特征在于，所述步骤5的Spatial Stream、 Temporal Stream和GIC Stream都采用ResNet34作为特征提取网络。 9.根据权利要求8所述的视频动作识别方法，其特征在于，所述步骤5最终输入 ResNet34的数据为B*C*D*H*W，其中B为batch size大小， C为通道数量， D为采样帧数， H和W 分别代表采样帧的高和宽； Temporal Stream的ResNet34的co nv1层的通道数为2。 10.根据权利要求2所述的视频动作识别方法，其特征在于，所述步骤6包括如下具体步骤：交互的位置为ResNet34每个Stage的第二个残差单元之间；假设给定Spatial Stream的第l层的输入给定Temporal Stream的第l层的输入给定GIC Stream的第l层的输入得到GIC Stream第l层网络的输出：其中⊙表示元素级的相乘，表示GIC Stream第l层的输出，表示非线性的映射函数， f(·)表示非线性的激活函数，为GIC stream中第l层残差单元中的卷积核。权　利　要　求　书 2/2 页 3 CN 115410124 A 3

专利 一种光照不足下的视频动作识别网络结构及方法

专利一种光照不足下的视频动作识别网络结构及方法