专利 一种基于区域自注意力卷积神经网络的人脸表情识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210492125.5 (22)申请日 2022.05.07 (71)申请人重庆邮电大学地址 400065 重庆市南岸区南山街道崇文路2号 (72)发明人周丽芳　王懿　江志程　丁相　栗思秦　邓广　 (74)专利代理机构重庆市恒信知识产权代理有限公司 5 0102 专利代理师刘小红 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/762(2022.01)G06V 10/54(2022.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称一种基于区域自注意力卷积神经网络的人脸表情识别方法 (57)摘要本发明请求保护一种基于区域自注意力卷积神经网络的人脸表情识别方法，属于模式识别与计算机视觉技术领域包括以下步骤：首先，利用VGG16网络提取输入图像的深度全局特征，在提取特征的同时保留面部表情的全局信息。其次，通过设计的区域局部多值模式与改进的K ‑ means算法对像素进行动态聚类，保证表情变化区域特征的鲁棒性，并将二值模式扩展到多个模式，整合区域内像素间的灰度差信息，增强纹理描述。此外，通过自注意机制形成区域权值，并使用秩正则化损失约束不同区域的权值。最后，将加权特征与深度网络提取的特征相结合，增强特征的表征能力。本发明旨在建立一个鲁棒的人脸表情识别网络来准确地估计真实环境中面部表情的类别。权利要求书3页说明书7页附图1页 CN 114842534 A 2022.08.02 CN 114842534 A 1.一种基于区域自注意力卷积神经网络的人脸表情识别方法，其特征在于，包括以下步骤：步骤1：将原始表情图像输入到以VGG16为基础的特征提取网络，提取输入表情图像的深度全局特征；步骤2：设计区域局部多值模式，将原始表情图像输入到区域局部多值模式对区域纹理进行增强；其中，所述的区域局部多值模式利用改进的K ‑means算法对像素进行动态聚类。在改进的K ‑means算法中，首先计算每个数据点到原点的距离。然后，根据排序后的距离对原始数据点进行排序，将排序后的数据点划分为k个相等的集合，每组中以中间点为初始质心。这些初始质心可以获得更好的独特聚类结果。通过改进的K ‑means算法能够保证表情变化区域特征的鲁棒性，并将二值模式扩展到k个模式，整合区域内像素间的灰度差信息，增强区域纹理特征；步骤3：将增强过的区域纹理特征输入到区域自注意模块，区域自注意模块主要包含区域自注意机制和秩正则化损失，区域自注意机制增强表情显著变化区域特征的权重，量化不同区域对表情识别的贡献，得到增强后的区域纹理注意特征。而秩正则化损失被用来约束不同区域的权重，使不同区域的权重值更有区分度。步骤4：将步骤3提取到的区域加权特征与VGG网络提取的深度全局特征进行融合。 2.根据权利要求1所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法，其特征在于，所述步骤1将原始表情图像输入到以VGG16为基础的特征提取网络，提取输入表情图像的深度全局特征，具体包括： A1：将人脸表情图像，通过人脸检测对齐网络MTCNN检测出人脸关键点，并将人脸图像对齐，裁剪为224×224尺寸大小的输入图像I； A2：将图像I输入到VG G16网络中提取特征，用Fg表示，则Fg可以定义为： Fg＝γ(I； θ ) (1) 其中γ(； )为骨干网络， θ 为骨干网络中的参数， Fg是通过骨干网络提取到的深度全局特征。 3.根据权利要求2所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法，其特征在于，所述步骤2，设计区域局部多值模式，将原始表情图像输入到区域局部多值模式对区域纹理进行增强，具体包含以下步骤： B1：对于输入的人脸表情图像，将其均匀裁剪为3×3人脸表情图像区域； B2：对于每个区域，定义其灰度值与局部邻域像素均值的差值mi，然后利用该差值作为新的像素图Menhance，定义如下：其中Pc表示像素图的中心像素值， Pi表示与Pc相邻的像素值；表示局部邻域像素均值， P表示周围采样像素的集合， i表示周围采样像素集和的索引。 B3：将增强后的特征图Menhance的增强像素存储在数组a中，并将其分成k等份，得到a1,权　利　要　求　书 1/3 页 2 CN 114842534 A 2a2,…,ak，定义每个类的中心值作为校准点，计算每个像素到校准点的距离；将最接近的像素组成一个类，计算类中像素的均值，并将均值作为新的定标点，最后通过迭代得到最后k 个定标点； B4：将每层的像素值进行二值化，得到k个模式，并将这些模式进行级联，得到每个区域鲁棒的特征表示Fr。 4.根据权利要求3所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法，其特征在于，所述步骤3，将增强过的区域纹理特征输入到区域自注意模块，区域自注意模块主要包含区域自注意机制和秩正则化损失，区域自注意机制增强表情显著变化区域特征的权重，量化不同区域对表情识别的贡献，得到增强后的区域纹理注意特征。而秩正则化损失被用来约束不同区域的权重，使不同区域的权重值更有区分度。具体包含以下步骤： C1：将在B4步骤中得到的鲁棒的特征表示Fr输入到降维卷积神经网络，得到每个区域的深度特征图，定义输入的区域纹理图像为 I1,I2,…,I9，降维卷积神经网络的定义如下： X＝[F1,F2,…,F9]＝[V(I1； θ ),V(I2； θ ),…,V(I9； θ )] (4) 其中V(·； θ )为降维卷积神经网络， θ为降维卷积神经网络中的参数， X是通过降维卷积神经网络提取到的区域特征集合； C2：为了得到每个区域在人脸表情识别任务中的贡献，利用自我注意机制获取每个区域的权重，通过FC和Sigmo id函数计算特征的粗略权值，定义如下： W＝[a1,a2,…,ak]＝[f(F1Tq),f(F2Tq),…,f(F9Tq)] (5) 其中ai表示第i个区域的权值， f表示Sigmoi d函数， q表示全连接层的参数，将所有具有注意权重的局部特征归纳为一个整体表示Fm，其定义如下：这里， s表示特征块之间的级联操作； C3：引用秩正则化损失RRLoss来约束不同区域的权值；首先对不同区域的权重进行排序，然后按照一定的比例将其分为高权重组和低权重组；其次，计算高、低权重组的平均权重，分别用ahigh和alow表示。在RRLoss中添加差值M以限制这些组的平均权重，其定义如下所示： LRR＝max{0,M ‑(ahigh‑alow)} (9) Ghigh和Glow分别表示高权重组和低权重组的权重均值， λ表示高权重组所占的比例， N表示区域的个数。 M是一个差值，它可以是一个固定的可学习参数或超参数， LRR用于增强区域关注的权重，鼓励网络在训练过程中优先关注表情变化区域。 5.根据权利要求4所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法，其特征在于，所述步骤4，将步骤3提取到的区域加权特征与 VGG网络提取的深度全局特征进行融合。具体包含以下步骤：权　利　要　求　书 2/3 页 3 CN 114842534 A 3

专利 一种基于区域自注意力卷积神经网络的人脸表情识别方法

专利一种基于区域自注意力卷积神经网络的人脸表情识别方法