(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210492125.5
(22)申请日 2022.05.07
(71)申请人 重庆邮电大 学
地址 400065 重庆市南岸区南 山街道崇文
路2号
(72)发明人 周丽芳 王懿 江志程 丁相
栗思秦 邓广
(74)专利代理 机构 重庆市恒信知识产权代理有
限公司 5 0102
专利代理师 刘小红
(51)Int.Cl.
G06V 40/16(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06V 10/762(2022.01)G06V 10/54(2022.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于区域自注意力卷积神经网络的人
脸表情识别方法
(57)摘要
本发明请求保护一种基于区域自注意力卷
积神经网络的人脸表情识别方法, 属于模式识别
与计算机视觉技术领域包括以下步骤: 首先, 利
用VGG16网络提取输入图像的深度全局特征, 在
提取特征的同时保留面部表情的全局信息。 其
次, 通过设计的区域局部多值模式与改进的K ‑
means算法对像素进行动态聚类, 保证表情变化
区域特征的鲁棒性, 并将二值模式扩展到多个模
式, 整合区域内像素间的灰度差信息, 增强纹理
描述。 此外, 通过自注意机制形成区域权值, 并使
用秩正则化损失约束不同区域的权值。 最后, 将
加权特征与深度网络提取的特征相结合, 增强特
征的表征能力。 本发明旨在建立一个鲁棒的人脸
表情识别网络来准确地估计真实环境中面部表
情的类别。
权利要求书3页 说明书7页 附图1页
CN 114842534 A
2022.08.02
CN 114842534 A
1.一种基于区域自注意力卷积神经网络的人脸表情识别方法, 其特征在于, 包括以下
步骤:
步骤1: 将原始表情图像输入到以VGG16为基础的特征提取网络, 提取输入表情图像的
深度全局特 征;
步骤2: 设计区域局部多值模式, 将原始表情图像输入到区域局部多值模式对区域纹理
进行增强; 其中, 所述的区域局 部多值模式利用改进的K ‑means算法对像素进行动态聚类。
在改进的K ‑means算法中, 首先计算每个数据点到原点的距离。 然后, 根据排序后的距离对
原始数据点进 行排序, 将排序后的数据点划分为k个相等的集合, 每组中以中间点为初始质
心。 这些初始质心可以获得更好的独特聚类结果。 通过改进的K ‑means算法能够保证表情变
化区域特征的鲁棒性, 并将二值模式扩展到k个模式, 整合区域内像素间的灰度差信息, 增
强区域纹 理特征;
步骤3: 将增强过的区域纹理特征输入到区域自注意模块, 区域自注意模块主要包含区
域自注意机制和秩正则化损失, 区域自注意机制增强表情显著变化区域特征 的权重, 量化
不同区域对表情识别的贡献, 得到增强后的区域纹理注意特征。 而秩正则化损失被用来约
束不同区域的权 重, 使不同区域的权 重值更有区分度。
步骤4: 将步骤3提取到的区域加权特 征与VGG网络提取的深度全局特 征进行融合。
2.根据权利要求1所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法,
其特征在于, 所述步骤1将原始表情图像输入到以VGG16为基础的特征提取网络, 提取输入
表情图像的深度全局特 征, 具体包括:
A1: 将人脸表情图像, 通过人脸检测对齐网络MTCNN检测出人脸关键点, 并将人脸图像
对齐, 裁剪为224×224尺寸大小的输入图像I;
A2: 将图像I输入到VG G16网络中提取 特征, 用Fg表示, 则Fg可以定义 为:
Fg=γ(I; θ ) (1)
其中γ(; )为骨干网络, θ 为骨干网络中的参数, Fg是通过骨干网络提取到的深度全局特
征。
3.根据权利要求2所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法,
其特征在于, 所述步骤2, 设计区域局部多值模式, 将原始表情图像输入到区域局部多值模
式对区域纹 理进行增强, 具体包 含以下步骤:
B1: 对于输入的人脸表情图像, 将其均匀裁 剪为3×3人脸表情图像区域;
B2: 对于每个区域, 定义其灰度值与局部邻域像素均值的差值mi, 然后利用该差值作为
新的像素图Menhance, 定义如下:
其中Pc表示像素图的中心像素值, Pi表示与Pc相邻的像素值;
表示局部邻域像素均值,
P表示周围采样像素的集 合, i表示周围采样像素集和的索引。
B3: 将增强后的特征图Menhance的增强像素存储在数组a中, 并将其分成k等份, 得到a1,权 利 要 求 书 1/3 页
2
CN 114842534 A
2a2,…,ak, 定义每个类的中心值作为校准点, 计算每个像素到校准点的距离; 将最接近的像
素组成一个类, 计算类中像素 的均值, 并将均值作为新的定标点, 最后通过迭代得到最后k
个定标点;
B4: 将每层的像素值进行二值化, 得到k个模式, 并将这些模式进行级联, 得到每个区域
鲁棒的特 征表示Fr。
4.根据权利要求3所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法,
其特征在于, 所述步骤3, 将增强过的区域纹理特征输入到区域自注意模块, 区域自注意模
块主要包含区域自注 意机制和秩正则化损失, 区域自注意机制增强表情显著变化区域特征
的权重, 量化不同区域对表情识别的贡献, 得到增强后的区域纹理注意特征。 而秩正则化损
失被用来约束不同区域的权 重, 使不同区域的权 重值更有区分度。 具体包 含以下步骤:
C1: 将在B4步骤中得到的鲁棒的特征表示Fr输入到降维卷积神经网络, 得到每个区域的
深度特征图, 定义输入的区域纹 理图像为 I1,I2,…,I9, 降维卷积神经网络的定义如下:
X=[F1,F2,…,F9]=[V(I1; θ ),V(I2; θ ),…,V(I9; θ )] (4)
其中V(·; θ )为降维卷积神经网络, θ为降维卷积神经网络中的参数, X是通过降维卷积
神经网络提取到的区域特 征集合;
C2: 为了得到每个区域在人脸表情识别任务中的贡献, 利用自我注意机制获取每个区
域的权重, 通过FC和Sigmo id函数计算特 征的粗略权值, 定义如下:
W=[a1,a2,…,ak]=[f(F1Tq),f(F2Tq),…,f(F9Tq)] (5)
其中ai表示第i个区域的权值, f表示Sigmoi d函数, q表示全连接层的参数, 将所有具有
注意权重的局部特 征归纳为 一个整体表示Fm, 其定义如下:
这里, s表示特 征块之间的级联操作;
C3: 引用秩正则化损失RRLoss来约束不同区域的权值; 首先对不同区域的权重进行排
序, 然后按照一定的比例将其分为高权重组和低权重组; 其次, 计算高、 低权重组的平均权
重, 分别用ahigh和alow表示。
在RRLoss中添加差值M以限制这些组的平均权 重, 其定义如下 所示:
LRR=max{0,M ‑(ahigh‑alow)} (9)
Ghigh和Glow分别表示高权重组和低权重组的权重均值, λ表示高权重组所占的比例, N表
示区域的个数。 M是一个差值, 它可以是一个固定的可学习参数或超参数, LRR用于增强区域
关注的权 重, 鼓励网络在训练过程中优先关注 表情变化区域。
5.根据权利要求4所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法,
其特征在于, 所述步骤4, 将步骤3提取到的区域加权特征与 VGG网络提取的深度全局特征进
行融合。 具体包 含以下步骤:权 利 要 求 书 2/3 页
3
CN 114842534 A
3
专利 一种基于区域自注意力卷积神经网络的人脸表情识别方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 07:32:37上传分享