说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210492125.5 (22)申请日 2022.05.07 (71)申请人 重庆邮电大 学 地址 400065 重庆市南岸区南 山街道崇文 路2号 (72)发明人 周丽芳 王懿 江志程 丁相  栗思秦 邓广  (74)专利代理 机构 重庆市恒信知识产权代理有 限公司 5 0102 专利代理师 刘小红 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/762(2022.01)G06V 10/54(2022.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称 一种基于区域自注意力卷积神经网络的人 脸表情识别方法 (57)摘要 本发明请求保护一种基于区域自注意力卷 积神经网络的人脸表情识别方法, 属于模式识别 与计算机视觉技术领域包括以下步骤: 首先, 利 用VGG16网络提取输入图像的深度全局特征, 在 提取特征的同时保留面部表情的全局信息。 其 次, 通过设计的区域局部多值模式与改进的K ‑ means算法对像素进行动态聚类, 保证表情变化 区域特征的鲁棒性, 并将二值模式扩展到多个模 式, 整合区域内像素间的灰度差信息, 增强纹理 描述。 此外, 通过自注意机制形成区域权值, 并使 用秩正则化损失约束不同区域的权值。 最后, 将 加权特征与深度网络提取的特征相结合, 增强特 征的表征能力。 本发明旨在建立一个鲁棒的人脸 表情识别网络来准确地估计真实环境中面部表 情的类别。 权利要求书3页 说明书7页 附图1页 CN 114842534 A 2022.08.02 CN 114842534 A 1.一种基于区域自注意力卷积神经网络的人脸表情识别方法, 其特征在于, 包括以下 步骤: 步骤1: 将原始表情图像输入到以VGG16为基础的特征提取网络, 提取输入表情图像的 深度全局特 征; 步骤2: 设计区域局部多值模式, 将原始表情图像输入到区域局部多值模式对区域纹理 进行增强; 其中, 所述的区域局 部多值模式利用改进的K ‑means算法对像素进行动态聚类。 在改进的K ‑means算法中, 首先计算每个数据点到原点的距离。 然后, 根据排序后的距离对 原始数据点进 行排序, 将排序后的数据点划分为k个相等的集合, 每组中以中间点为初始质 心。 这些初始质心可以获得更好的独特聚类结果。 通过改进的K ‑means算法能够保证表情变 化区域特征的鲁棒性, 并将二值模式扩展到k个模式, 整合区域内像素间的灰度差信息, 增 强区域纹 理特征; 步骤3: 将增强过的区域纹理特征输入到区域自注意模块, 区域自注意模块主要包含区 域自注意机制和秩正则化损失, 区域自注意机制增强表情显著变化区域特征 的权重, 量化 不同区域对表情识别的贡献, 得到增强后的区域纹理注意特征。 而秩正则化损失被用来约 束不同区域的权 重, 使不同区域的权 重值更有区分度。 步骤4: 将步骤3提取到的区域加权特 征与VGG网络提取的深度全局特 征进行融合。 2.根据权利要求1所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法, 其特征在于, 所述步骤1将原始表情图像输入到以VGG16为基础的特征提取网络, 提取输入 表情图像的深度全局特 征, 具体包括: A1: 将人脸表情图像, 通过人脸检测对齐网络MTCNN检测出人脸关键点, 并将人脸图像 对齐, 裁剪为224×224尺寸大小的输入图像I; A2: 将图像I输入到VG G16网络中提取 特征, 用Fg表示, 则Fg可以定义 为: Fg=γ(I; θ )                               (1) 其中γ(; )为骨干网络, θ 为骨干网络中的参数, Fg是通过骨干网络提取到的深度全局特 征。 3.根据权利要求2所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法, 其特征在于, 所述步骤2, 设计区域局部多值模式, 将原始表情图像输入到区域局部多值模 式对区域纹 理进行增强, 具体包 含以下步骤: B1: 对于输入的人脸表情图像, 将其均匀裁 剪为3×3人脸表情图像区域; B2: 对于每个区域, 定义其灰度值与局部邻域像素均值的差值mi, 然后利用该差值作为 新的像素图Menhance, 定义如下: 其中Pc表示像素图的中心像素值, Pi表示与Pc相邻的像素值; 表示局部邻域像素均值, P表示周围采样像素的集 合, i表示周围采样像素集和的索引。 B3: 将增强后的特征图Menhance的增强像素存储在数组a中, 并将其分成k等份, 得到a1,权 利 要 求 书 1/3 页 2 CN 114842534 A 2a2,…,ak, 定义每个类的中心值作为校准点, 计算每个像素到校准点的距离; 将最接近的像 素组成一个类, 计算类中像素 的均值, 并将均值作为新的定标点, 最后通过迭代得到最后k 个定标点; B4: 将每层的像素值进行二值化, 得到k个模式, 并将这些模式进行级联, 得到每个区域 鲁棒的特 征表示Fr。 4.根据权利要求3所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法, 其特征在于, 所述步骤3, 将增强过的区域纹理特征输入到区域自注意模块, 区域自注意模 块主要包含区域自注 意机制和秩正则化损失, 区域自注意机制增强表情显著变化区域特征 的权重, 量化不同区域对表情识别的贡献, 得到增强后的区域纹理注意特征。 而秩正则化损 失被用来约束不同区域的权 重, 使不同区域的权 重值更有区分度。 具体包 含以下步骤: C1: 将在B4步骤中得到的鲁棒的特征表示Fr输入到降维卷积神经网络, 得到每个区域的 深度特征图, 定义输入的区域纹 理图像为 I1,I2,…,I9, 降维卷积神经网络的定义如下: X=[F1,F2,…,F9]=[V(I1; θ ),V(I2; θ ),…,V(I9; θ )]            (4) 其中V(·; θ )为降维卷积神经网络, θ为降维卷积神经网络中的参数, X是通过降维卷积 神经网络提取到的区域特 征集合; C2: 为了得到每个区域在人脸表情识别任务中的贡献, 利用自我注意机制获取每个区 域的权重, 通过FC和Sigmo id函数计算特 征的粗略权值, 定义如下: W=[a1,a2,…,ak]=[f(F1Tq),f(F2Tq),…,f(F9Tq)]            (5) 其中ai表示第i个区域的权值, f表示Sigmoi d函数, q表示全连接层的参数, 将所有具有 注意权重的局部特 征归纳为 一个整体表示Fm, 其定义如下: 这里, s表示特 征块之间的级联操作; C3: 引用秩正则化损失RRLoss来约束不同区域的权值; 首先对不同区域的权重进行排 序, 然后按照一定的比例将其分为高权重组和低权重组; 其次, 计算高、 低权重组的平均权 重, 分别用ahigh和alow表示。 在RRLoss中添加差值M以限制这些组的平均权 重, 其定义如下 所示: LRR=max{0,M ‑(ahigh‑alow)}                  (9) Ghigh和Glow分别表示高权重组和低权重组的权重均值, λ表示高权重组所占的比例, N表 示区域的个数。 M是一个差值, 它可以是一个固定的可学习参数或超参数, LRR用于增强区域 关注的权 重, 鼓励网络在训练过程中优先关注 表情变化区域。 5.根据权利要求4所述的一种基于区域自注意力卷积神经网络的人脸表情识别方法, 其特征在于, 所述步骤4, 将步骤3提取到的区域加权特征与 VGG网络提取的深度全局特征进 行融合。 具体包 含以下步骤:权 利 要 求 书 2/3 页 3 CN 114842534 A 3

.PDF文档 专利 一种基于区域自注意力卷积神经网络的人脸表情识别方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于区域自注意力卷积神经网络的人脸表情识别方法 第 1 页 专利 一种基于区域自注意力卷积神经网络的人脸表情识别方法 第 2 页 专利 一种基于区域自注意力卷积神经网络的人脸表情识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:32:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。