本发明涉及图像识别,具体地说是一种基于四元超复网络的微表情识别方法。
背景技术:
1、情绪是人类生活中固有的一部分,在面对面交流中,情绪会通过面部表情自觉或不自觉地表现出来,这在人类情感分析中具有重要作用。面部表情分为宏观表情和微观表情两类,其主要区别在于持续时间和强度。宏观表情是自愿的,持续时间较长,而微观表情是无意识的、快速的、局部的表情,持续时间很短。微表情无法被控制,能够揭示试图隐藏的真实情感。这使得微表情研究在多个领域得到广泛关注,包括心理学、人类行为研究以及安全领域。由于微表情的特性,肉眼难以识别,只有经过广泛训练的专家才能区分。然而,即使经过训练,人类平均只能识别约47%的微表情。所以开发基于计算机视觉和模式分析技术的微表情分析自动化系统是十分必要的。
2、随着计算技术的发展,计算机视觉也在微表情领域快速应用。一般来说,常用的方法大致分为两种:传统的基于机器学习的算法和基于深度学习的算法。对于机器学习的算法来说,特征提取是识别率高的关键,广泛采用的特征提取算法之一是局部二值模式(lbp),它通过基于当前像素的值对邻近像素进行阈值化来有效地描述纹理。另一方面,针对mer(英文全称为micro expression recognition,中文翻译为微表情识别)任务,使用不同的工作原理设计了许多新颖的深度学习方法,根据所使用的数据,它们可以分为两种类型:基于序列和基于顶点,基于序列的方法使用整个视频序列来训练深度学习模块,基于顶点的方法基于从起始帧(中性面部)和顶点帧(包含最高表情强度的帧)中提取的信息。
3、如何基于深度学习方法实现微表情识别,是需要解决的技术问题。
技术实现思路
1、本发明的技术任务是针对以上不足,提供一种基于四元超复网络的微表情识别方法,来解决如何基于深度学习方法实现微表情识别的技术问题。
2、本发明一种基于四元超复网络的微表情识别方法,包括如下步骤:
3、数据预处理:获取数据集中微表情视频的起始帧和顶点帧,计算起始帧和顶点帧之间的水平分量、垂直分量和光学应变,并基于光流估计网络flownet2提取微表情图像的光流特征,将水平分量、垂直分量和光学应变以及光流特征形成的四维张量作为微表情视频的图像特征;
4、模型构建:基于卷积神经网络构建包括超复卷积网络和注意力模块的微表情识别模型,所述微表情识别模型用于以所述四维张量为输入、预测输出表情类别;
5、模型训练:基于样本图像以及微表情图像序列真实的类别标签构建数据集,基于数据集对微表情识别模型进行模型训练,得到最终微表情识别模型;
6、微表情识别:对于待识别的微表情视频,获取微表情视频对应的四维张量,以四维张量作为输入,通过最终微表情识别模型输出预测的表情类别。
7、作为优选,基于光流法of计算起始帧和顶点帧之间的水平分量、垂直分量和光学应变;
8、对应的,对于待识别的微表情视频,获取微表情视频对应的微表情图像序列,并获取微表情图像序列的起始帧和顶点帧,基于光流法of计算起始帧和顶点帧之间的水平分量、垂直分量和光学应变,并基于光流估计网络flownet2提取微表情图像的光流特征。
9、作为优选,所述微表情识别模型用于执行如下操作:
10、将四维张量作为微表情识别模型的四通道输入图像;
11、对于每个通道的输入图像,将所述输入图像划分为多个图像块,对于每个图像块,通过超复卷积网络对所述图像块进行超复卷积操作、并对超复卷积网络的输出进行最大池化操作,输出每个图像块的特征张量;
12、对于每个通道的输入图像,对所述输入图像下所有图像块对应的特征张量进行拼接,得到所述输入图像对应的拼接后特征张量;
13、以每个通道输入图像对应的拼接后特征张量为输入,通过注意力模块输出四通道具有相对位置权重的特征张量,所述相对位置权重用于表示不同图像块之间的相关性;
14、对所述四通道特征张量进行拼接,得到特征集;
15、对特征集进行降维处理,得到一维特征向量;
16、以所述一维特征向量为输入、通过两个全连接层进行分类决策,输出预测的表情类别。
17、作为优选,对于每个通道的输入图像,将所述输入图像划分为x×y个图像块,其中,x=w/s,y=h/s,s是每个图像块的边长,输入图像表示为:
18、
19、其中,表示输入图像ik的第i行第j列图像块,大小为s×s×c。
20、作为优选,对于图像块通过超复卷积网络对所述图像块进行超复卷积操作、并对超复卷积网络的输出进行最大池化操作时,通过八个3×3的卷积进行超复卷积操作,输出并通过3×3的卷积对进行最大池化操作,输出
21、
22、
23、其中,h0(.)表示超复卷积运算,hmp(.)表示最大池化操作,的大小记为s′×s′×c′;
24、对所述输入图像下所有图像块对应的特征张量进行拼接时后,得到拼接后特征张量f_k表示为:
25、f_k=concat(f^{1,1}_k,f^{1,2}_k,…,f^{x,y}_k),k∈{1,2,3,4}
26、其中,fk∈rs′×s′×(c′×x×y)。
27、作为优选,以每个通道输入图像对应的拼接后特征张量作为注意力模块的输入,通过注意力模块执行如下操作:通过分组卷积将通道数整合为图像块数,并通过两层全连接层提取图像块的相对位置权重,基于相对位置权重对输入的拼接后特征张量进行筛选;
28、对应的,计算公式如下:
29、
30、其中,hr表示分组卷积,fr∈r1×1×x×y;
31、
32、其中,表示relu函数,表示注意力模块中第一层全连接层的参数;
33、
34、
35、其中,表示sigmod函数,表示注意力模块中第二层全连接层的参数,fed将特征通道数从x×y扩展为x×y×c′。
36、作为优选,特征集表示为:
37、f′=concat(f′1,f′2,,f′3,f′4)
38、其中,f′∈rs×s×(c′×x×y×4)。
39、作为优选,对特征集进行降维处理时,对特征集进行1×1卷积操作,得到特征集f″,表示如下:
40、f″=h1(f′)
41、其中,h1(.)表示行1×1卷积操作,c1表示降维后的通道数;
42、将特征集f″降维为长度为l1的一维特征向量v1,其中,l1=s″×s″×c1。
43、作为优选,以所述一维特征向量为输入、通过两个全连接层进行分类决策时,进行如下计算:
44、v2=σ(w1·v1)
45、a=σ(w2·v2)
46、其中,σ表示relu函数,w1表示第一个全连接层的权重,w2表示第二个全连接层的权重,第一个全连接层的输出是长度为l2的向量v2,第二个全连接层的输出是长度为l的向量a。
47、本发明的一种基于四元超复网络的微表情识别方法具有以下优点:
48、1、将水平分量、垂直分量和光学应变以及光流特征形成的四维张量作为微表情视频的图像特征,基于该图像特征、通过微表情识别模型进行表情识别,便于检测微表情的细节;
49、2、该微表情识别模型使用包括超复卷积网络和注意力模块,将四维张量作为四通道输入图像输入该模型,将每个通道的输入图像划分为多个图像块,通过超复卷积网络对每个图像块进行特提取,从块中提取的特征为模型提供了进一步探索表达式存在的确切区域的机会,提高了表情识别的准确度;
50、3、传统的卷积网络在处理小样本数据集问题时,容易出现过拟合的现象,超复卷积网络中引入超复数、并利用汉密尔顿乘积规则构建权重张量替换传统的卷积张量,在使用四元数时,使其自由度计算从o(sdk2)变为为o(sdk2/4),一定程度上减小了样本依赖;
51、4、传统的神经网络在一个完整的图中寻找学习面部区域的局部信息或者整个面部的全局信息没有考虑到因为位置间相互的影响,将输入图像划分为多个图像块的基础上,引入通道注意力,寻找不同位置间的关系。