专利 一种双支路混合残差连接的表情识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210452919.9 (22)申请日 2022.04.27 (71)申请人西南科技大学地址 621010 四川省绵阳市青龙大道中段 59号 (72)发明人张红英　卢琇雯　韩雪　张奇　 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种双支路混合残差连接的表情识别方法 (57)摘要本发明给出一种双支路混合残差连接的表情识别方法。具体包括：以ResNet18为主干特征提取网络，在此基础上设计双支路的多残差连接方式，完善特征提取；其次，综合分析网络深度以及宽度两方面问题，融合深度可分离卷积，构建轻量级的表情识别网络；最后，根据人脸表情信息特点，为了获取更加精准、完善的特征信息，添加自适应特征融合模块ASFF，并对融合后的信息进行分析验证，选取表现最为优越的层级输出，进行最终的表情分类预测。本发明结合完善的特征提取机制与自适应特征融合方式，并将普通卷积替换为深度可分离卷积，可以解决表情识别在非受控条件下的识别精度、以及模型的轻量化问题。权利要求书2页说明书5页附图2页 CN 114863522 A 2022.08.05 CN 114863522 A 1.一种双支路混合残差连接的表情识别方法，其特征在于，引入一种双支路的特征提取网络，采用混合残差连接方式完善特征提取机制，并添加自适应特征融合模块ASFF联合所提取的特征信息，最后进行模型轻量化；包括基础图像数据增强、双支路混合特征提取、自适应特征融合ASF F、模型轻量化以及实验测试五个部分：第一部分包括两个步骤：步骤1，对图片进行随机缩放裁剪，其次对图片数据进行水平翻转，以增加图片数据库；步骤2，使用mixup图片融合以及label_smoothing标签平滑方式对图片数据进一步增强，使得训练所得模型具有更好的泛化能力；第二部分包括两个步骤：步骤3，主支路是对ResNet 18结构进行了修改：首先输入图片数据对应为通道数 ×图片高度×图片宽度，对应大小为1 ×40×40，由于图片尺寸较小，输入数据首先进行基础3 ×3 卷积，然后输入各layer层进行特征提取，之后再经过全局平均池化后传入全连接层进行表情的7分类预测；步骤4，次支路首先对原始 ResNet18网络的连接方式进行了简单修改：主支路残差连接块不变；从多尺度方面出发，选择使用1 ×1卷积核进行次支路部分的特征提取，能够最大限度保留来自原始输入图片的信息，并对最后的分类结果产生积极影响。具体实施如下：（1）将输入图片数据使用1 ×1卷积核大小从另一支路依次进行下采样，在融合对应残差连接块的特征信息后，作为下一次1 ×1卷积的输入，直至与最后一层残差连接块进行融合；（2）进行混合残差操作后的特征信息不送入主支路网络进行特征提取，而是单独作为尺度1特征输出，在最后连接主干残差块的残差信息；最后将主支路网络以及尺度1支路所得各尺度信息进行特征融合，经由全连接层融合全局特征用于表情分类；第三部分包括两个步骤：步骤5，添加自适应特征融合模块ASFF将特征提取部分获取的大量多尺度表情信息，通过学习权重参数的方式将不同层的特征融合到一起，保证特征信息完善，并在一定程度去除产生的特征冗余；步骤6，对ASF F各层级结果分别输出，并进行最终的表情分类预测；具体实施如下：（1）首先从特征提取主干网络中提取出三个不同尺寸的层级，选定其中一个层级后，对其他两个层级进行上采样或下采样，使三个层级尺寸相合，然后选择第一层级作为输出，也就是对应的输出，选择融合的三个层级分别为 Level0对应尺寸为512 ×5×5，Level1 对应尺寸为256×10×10，Level2对应尺寸为128×20×20；（2）三个层级经由ASFF模块进行自适应特征融合，对三个层级特征图生成自适应特征权重，并通过softmax将数值范围控制在[0,1]，最后的结果经由全局平局池化后进行最后的表情预测；第四部分包括一个步骤：步骤7，将普通卷积替换为深度可分离卷积，减少由于网络加深带来的巨大参数量，具体实施如下：由于整体在经过多次下采样后，通道数已经达到了512，因此将ResNet18的layer4层中的最后一层卷积替换为深度可分离卷积以减少参数；权　利　要　求　书 1/2 页 2 CN 114863522 A 2第五部分包括两个步骤：步骤8，调试从步骤2到步骤7的网络结构超参数，设置网络模型参数，其中，主要超参数学习率设定为0. 1， Epochs设置为300， Bach size设置为64，采用SGD 优化器，并得到最终的训练模型；步骤9，下载非受控表情识别数据集FER2013，按照步骤8所设定训练好的模型进行训练以及测试。 2.根据权利要求1所述的一种双支路混合残差连接的表情识别方法，其特征在于，步骤 4使用双支路混合残差连接网络进行特征提取。 3.根据权利要求1所述的一种双支路混合残差连接的表情识别方法，其特征在于，步骤 6使用自适应特征融合模块ASFF，融合特征提取网络的不同尺度信息，生成自适应权重，并在一定程度上丢弃冗余以及无效信息，以得到性能的提升。 4.根据权利要求1所述的一种双支路混合残差连接的表情识别方法，其特征在于，步骤 7中将ResNet18的layer4层中的最后一层卷积替换为深度可分离卷积以减少参数，使模型轻量化。权　利　要　求　书 2/2 页 3 CN 114863522 A 3

专利 一种双支路混合残差连接的表情识别方法

专利一种双支路混合残差连接的表情识别方法