基于注意力图像的人脸表情识别方法

文档序号：32389452发布日期：2022-11-30 07:38阅读：来源：国知局

技术特征：
1.一种基于注意力图像的人脸表情识别方法，其特征在于，利用卷积神经网络生成每张人脸表情图像对应的注意力图像，利用人脸表情图像及其注意力图像训练卷积神经网络；该方法的具体步骤包括如下：步骤1，生成训练集：步骤1.1，采集至少10000张人脸表情图像组成样本集，样本集中至少包括3种不同的人脸表情的情绪类别，每种情绪类别至少采集280张图像；步骤1.2，采用224
×
224的采样分辨率，对样本集中的每张图像进行双线性采样，对采样后的图像进行归一化处理，将归一化后的所有人脸表情图像及其对应的标签组成训练集；步骤2，搭建一个卷积神经网络并设置卷积神经网络的参数；步骤3，利用卷积神经网络为训练集中的每张人脸表情图像生成对应的注意力图像：步骤3.1，将从训练集中随机选取的一张人脸表情图像输入到卷积神经网络中，输出所选图像属于真实标签的概率值以及所选图像的特征图；步骤3.2，按照下式，计算所选图像的特征图中每个通道的权重：其中，a
k
表示所选图像的特征图中第k个通道a
k
的权重，m和n分别表示通道a
k
在垂直高度和水平宽度方向上的元素总数，i和j分别表示通道a
k
在垂直高度和水平宽度方向上的元素序号，h表示将所选图像输入到卷积神经网络后输出的属于真实标签的概率值；步骤3.3，对特征图中的所有通道加权求和，得到所选图像的加权特征图；步骤3.4，计算加权特征图中所有元素的均值，将加权特征图中小于或等于均值的元素置为0，得到所选图像的重要性矩阵；步骤3.5，对重要性矩阵进行归一化处理，将归一化后的重要性矩阵缩放至与所选图像相同尺寸，得到所选图像的注意力矩阵；步骤3.6，将所选图像与其注意力矩阵点乘，得到所选图像的注意力图像，并将所选图像的标签作为注意力图像的标签；步骤3.7，判断是否选完训练集中所有的人脸表情图像，若是，则执行步骤4，否则，执行步骤3.1；步骤4，训练卷积神经网络：按照批次将训练集中的图像及其对应的标签、图像的注意力图像及其对应的标签依次输入到卷积神经网络中，使用adam优化器优化训练过程，通过梯度下降算法，迭代更新卷积神经网络中各层的参数，直至卷积神经网络的交叉熵损失函数收敛为止，得到训练好的卷积神经网络；步骤5，识别人脸图像中的表情类别：采用224
×
224的采样分辨率，对每张待识别人脸图像进行双线性采样，对采样后的图像进行归一化处理，将归一化后的图像输入到训练好的卷积神经网络中，输出该张人脸图像的表情类别。2.根据权利要求1所述的基于注意力图像的人脸表情识别方法，其特征在于，步骤2中
所述卷积神经网络的结构依次为：输入层，第一卷积层，第二卷积层，第一池化层，第三卷积层，第四卷积层，第二池化层，第五卷积层，第六卷积层，第七卷积层，第三池化层，第八卷积层，第九卷积层，第十卷积层，第四池化层，第十一卷积层，第十二卷积层，第十三卷积层，第五池化层，展平层，第一全连接层，随机失活层，第二全连接层，输出层。3.根据权利要求1所述的基于注意力图像的人脸表情识别方法，其特征在于，步骤2中所述设置卷积神经网络的参数如下：将输入层的维度大小设置为b
×
224
×
224
×
3，其中，b表示卷积神经网络一次输入所选取的样本数，b≥32；将第一至第十三卷积层的卷积核个数依次设置为64，64，128，128，256，256，256，512，512，512，512，512，512，卷积核尺寸均设置为3
×
3，步长均设置为1，激活函数均采用线性整流函数；将第一至第五池化层的池化窗口均设置为2
×
2，步长均设置为2；展平层采用flatten函数将输入的矩阵拉伸成一个向量；将第一全连接层的节点数量设置为512，激活函数采用带泄露的线性整流函数；将第二全连接层的节点数量设置为n，n≥3且与训练集中的标签类别数相等；随机失活层采用dropout函数将每个神经元以概率p置为0，0≤p<1。4.根据权利要求1所述的基于注意力图像的人脸表情识别方法，其特征在于，步骤3.3中所述的对特征图中的所有通道加权求和是由下述公式得到的：其中，map表示所选图像的加权特征图，d表示特征图的通道总数，k表示特征图的通道序号，a
k
表示特征图中第k个通道a
k
的权重。5.根据权利要求1所述的基于注意力图像的人脸表情识别方法，其特征在于，步骤4中所述的交叉熵损失函数l如下：其中，log表示以10为底的对数操作，h
i
表示训练集中第i张图像经过卷积神经网络输出的属于真实标签的概率值，表示训练集中第i张图像对应的注意力图像经过卷积神经网络输出的属于真实标签的概率值。

技术总结
本发明公开了一种基于注意力图像的人脸表情识别方法，主要解决现有技术在挖掘人脸关键区域时挖掘的人脸关键区域不准确和挖掘的人脸关键区域较为粗糙的问题。本发明为每张人脸表情图像生成与其分辨率相同且标签也相同的注意力图像，用于挖掘人脸的关键区域。本发明利用人脸表情图像及其对应的标签、注意力图像及其对应的标签共同训练卷积神经网络。本发明训练好的网络更加关注人脸表情图像中的关键区域像素，可以实现在像素级别上对人脸关键区域的自动定位，提高了人脸表情图像的识别准确率。确率。确率。

技术研发人员：毛莎莎闫丹丹石光辉缑水平焦李成
受保护的技术使用者：西安电子科技大学
技术研发日：2022.08.31
技术公布日：2022/11/29

完整全部详细技术资料下载

当前第2页1 2