基于视频放大和深度学习的人脸微表情识别方法与流程

文档序号:16311059发布日期:2018-12-19 05:17阅读:817来源:国知局
基于视频放大和深度学习的人脸微表情识别方法与流程

本发明属于图像处理与模式识别技术领域,具体地说,涉及一种基于视频放大和深度学习的人脸微表情识别方法。

背景技术

微表情是一种极为短暂的动作幅度微小的面部表情,通常持续时间不会超过0.5秒,微表情能更加精准的表示人类的心理活动,内心的流露和掩饰能够通过微表情表达出来。由于微表情所具有的这些特点,使它在测谎、临床诊断、教育和犯罪调查领域有着广泛的应用前景。

目前基于计算机自动识别微表情的方法主要分为以下几类:基于局部二值模式(localbinarypattern,lbp)及其改进方法的识别,基于光流场特征的检测和识别,以及基于张量分析的识别等。各类识别与检测方法依旧局限于利用传统技术和方法对微表情进行任务实现,工作计算量大、耗时长且普适性差,更为重要的是,由于微表情持续时间短且动作幅度小的特点,传统技术和方法很难在识别精度上有进一步的提升空间,这已经成为了目前微表情识别技术发展的最大瓶颈。



技术实现要素:

本发明所要解决的技术问题是提供一种基于视频放大和深度学习的人脸微表情识别方法,用以提高人脸微表情识别的准确率和识别处理速度。

本发明公开了一种基于视频放大和深度学习的人脸微表情识别方法,包括以下步骤:

s1、利用基于干扰消除的视频放大技术放大微表情视频数据的动作幅度;

s2、将进行放大处理后的视频数据分割为视频帧图像,并根据数据集中所给微表情标签提取出所有属于微表情的图像序列,组成新数据集;

s3、对处理后的视频进行脸部裁剪预处理操作,同时将所有视频图像序列统一裁剪为110*110大小的灰度图像;

s4、将预处理后的新数据放入卷积神经网络模型并进行训练,提取微表情特征数据,实现微表情的识别任务。

如上所述的方法,其中,s1步骤的实现过程具体包括

s11、在视频数据集中对人脸进行关键点定位,找出每个视频中眼部坐标的位置;

s12、利用基于相位的视频放大技术对数据视频进行放大处理;

s13、将未经过放大处理的原始视频中的眼睛部位进行裁剪并替换放大后的眼部视频。

本发明提供的基于视频放大和深度学习的人脸微表情识别方法,通过对完整数据集进行消除干扰的视频放大操作,加大了表情动作幅度,同时引入神经网络模型进行训练,有效提升了在情绪标签全分类基础下微表情识别的准确率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1为视频放大前后眼部的差别对比图;

图2为本发明基于视频放大和深度学习的人脸微表情识别方法的流程图;

图3为本发明实施例的基于眼部干扰消除的视频放大方法流程图;

图4为本发明实施例的消除眼部干扰前后的效果对比图;

图5为各模型下的人脸微表情识别准确率结果对比图。

具体实施方式

以下将配合实施例及附图来详细说明本发明的实施方式,藉此对本发明如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

基于相位的视频放大运动,是一种基于复值可操作金字塔的运动分析方法。随着时间的推移,其复值可操作金字塔系数的相位变化与运动相对应,因此可以通过对其进行时域滤波和放大处理,以达到放大微弱运动的目的。基于相位的视频放大技术不涉及精密的光流计算,通过计算局部的相位变化对运动进行测定并放大,很好地降低了视频放大过程中同时放大噪声的可能,拥有更好的鲁棒性,同时也支持更大的动作放大倍数。

然而,由于微表情的动作幅度过于微小且平均持续时间仅保持在不到1s的时间内,其动作幅度和持续时间甚至均小于人在眨眼时的幅度,而标准的基于相位的视频运动处理技术的局限性,导致很难同时保证眨眼动作的清晰程度和人脸微表情动作的放大幅度。也就是说,当目标视频中脸部微表情被放大到可见程度时,眨眼动作会导致人眼部位清晰度下降,甚至完全模糊;而当人眼在眨眼过程中仍能保持清晰时,脸部的微表情则不会被放大或放大效果不明显。图1给出了视频放大前后眼部的差别对比图。

在图1中,给出了视频数据中第5帧图像的对比图,该帧图像为微表情发生前的基准脸(中性脸)图像,但由于产生了眨眼动作,被放大后的视频明显发生了眼部模糊现象。

卷积神经网络(convolutionalneuralnetwork,cnn)是一种前馈神经网络,它是近年发展起来,并引起广泛重视的一种高效识别方法,在众多科学领域,尤其是在语音识别、人脸识别、通用物体识别、运动分析等领域均有重要突破。而由于人脸微表情“动作幅度小”、“持续时间短”等特点,利用计算机实现自动识别微表情的工作很难顺利地展开。本发明将利用cnn实现微表情识别任务。

图2为本发明提供的基于视频放大和深度学习的人脸微表情识别方法的流程图。如图2所示,本发明的基于视频放大和深度学习的人脸微表情识别方法可以包括以下步骤(s1~s4):

s1、利用基于干扰消除的视频放大技术放大微表情视频数据的动作幅度。

在实际应用中,利用基于干扰消除的视频放大技术放大微表情视频数据的动作幅度,具体可以包括(s11~s13):

s11、在视频数据集中对人脸进行关键点定位,找出每个视频中眼部坐标的位置;

s12、利用基于相位的视频放大技术对数据视频进行放大处理;

s13、将未经过放大处理的原始视频中的眼睛部位进行裁剪并替换放大后的眼部视频。

s2、将进行放大处理后的视频数据分割为视频帧图像,并根据数据集中所给微表情标签提取出所有属于微表情的图像序列,组成新数据集。

s3、对处理后的视频进行脸部裁剪预处理操作,同时将所有视频图像序列统一裁剪为110*110大小的灰度图像。

s4、将预处理后的新数据放入卷积神经网络模型并进行训练,提取微表情特征数据,实现微表情的识别任务。

本发明提供的技术方案,以中国科学院的微表情数据集casme、casmeii为数据基础,通过基于相位的视频放大技术对微表情视频进行放大处理以放大表情动作幅度,随后,通过裁剪等一系列预处理操作对视频图像序列进行处理,并将数据送入cnn中进行特征提取,并最终实现微表情的识别任务。

下面给出的是本发明基于视频放大和深度学习的人脸微表情识别方法的一个应用实施例。

第一部分:实施方法。

步骤1:在数据集视频中对人脸进行关键点定位以找出每个视频中眼部坐标的位置。

步骤2:利用基于相位的视频放大技术对数据视频进行基本处理。

步骤3:将未经过放大处理的原始视频中的眼睛部位进行裁剪并替换放大后的眼部视频,以消除眨眼的影响,实现流程图见图3。

步骤4:将进行放大处理后的视频数据分割为视频帧图像,并根据数据集中所给微表情标签提取出所有属于微表情的图像序列,组成新数据集。

步骤5:对处理后的视频进行了脸部裁剪等预处理操作,同时将所有视频图像序列统一裁剪为110*110大小的灰度图像,以便后期使用。

步骤6:将预处理后的新数据放入cnn模型并进行训练。模型架构设置如下表1所示:

表1模型架构设置表

参考表1所示,模型采用五层卷积层的架构,为了达到降维的目的,在每层卷积层后加入了2*2,步长为2的最大池化层,同时加入batchnormalization标准化以加快收敛速度、提升模型性能;加入dropout丢包层以防止模型出现过拟合,提升模型泛化能力,丢包层1-5的丢包率分别设置为0.6、0.6、0.5、0.4、0.5。

outputshape项表示经过每层处理后输出的图片大小,kernel项则标出了各卷积核的大小,同时也标出了各maxpooling层的核大小及步长。

第二部分:实施方法的原理。

首先,针对基于眼部干扰消除的视频放大方法。本发明提供的技术方案在已有的基于相位的视频动作处理技术的基础上进行进一步细化,根据原技术在人脸微表情视频处理上的局限性进行调整,提出了消除眼部干扰的改进方法,有效解决了原技术在放大操作后眼部视频的模糊甚至变形的情况,为下一步的识别任务打下基础。消除眼部干扰前后对比图例如图4所示。

其次,针对在微表情识别任务中引入卷积神经网络的方法。由于人脸微表情“动作幅度小”、“持续时间短”等特点,普通人脸表情识别及其他图像识别任务中所使用的传统技术在微表情的识别准确率上很难达到一个更高的水平。而随着近年来神经网络技术在图像识别领域取得的巨大成功,让我们注意到利用cnn实现人脸微表情识别任务的可能性。

实验结果表明,在对完整数据集进行了消除干扰的视频放大操作,加大表情动作幅度后,再利用cnn对放大后的数据进行训练,可以在保证对微表情情绪类别实现全分类的前提下获得较好的识别率。

第三部分:实施方法的准确率。

本申请采用对数据集进行整体准确率判定的方式来评价模型的最终性能,在准确率判定的过程中,所有对微表情进行正确识别的图像序列都将被计算其中。具体计算公式如下所示:

本申请方法在casme、csameii数据集进行了整体准确率计算,并分别给出了上文中提到的三类微表情识别技术中代表方法的对比结果,如表2所示。

表2几种微表情识别方法的准确率对比表

此外,为了验证cnn模型参数设置对训练结果的影响,本申请以casmeii数据集为例,针对是否加入l1、l2正则化,调整dropout层丢包率等参数调优策略下的训练结果的优劣进行了对比,在该次实验中,将dropout层初始参数统一设置为0.3,以方便对比。对比结果如表3所示。

表3几种参数调优策略下的准确率对比表

其中,策略1为不添加l2正则化并使用初始dropout层参数效果;策略2为添加l2正则化并使用初始dropout层参数效果;策略3为添加l2正则化并调优各dropout层参数后效果;策略4为添加l2正则化并调优各dropout层参数,同时修改初始化函数后效果。

通过实验结果可以看出,在初始dropout参数下,训练后结果产生严重过拟合,而通过增加l2正则化项可以较好的解决该问题;在各dropout层参数调优过程中,各层参数间形成一个较大的参数差的情况下更容易找到最优参数。

最后,为了验证经过视频放大处理的数据集对于人脸微表情识别效果的积极作用,本申请以casme数据集为例,分别利用原始数据集和放大数据集(mag_casme)在同一网络模型下进行训练,并对比二者的微表情识别准确率,两数据集在各模型下的准确率结果如表4所示。

表4两个数据集在各模型下的准确率表

其中,模型1为未进行参数调优策略时的效果;模型2为完成参数调优步骤,同时使用默认优化器后的效果;模型3为进行参数调优,同时修改优化器至最佳准确率后的效果。为了更直观地感受两数据集在人脸微表情识别任务上的效果,本申请将各模型下的准确率结果对比如图5所示。

在该对比实验中,本申请以mag_casme数据集下的训练结果高低为依据,依次选取了由低到高三组不同结果的参数模型,再以原始数据集代替经过视频放大处理的数据集进行重新训练,并对二者的最终准确率进行对比。

由图5对比结果可知,在相同的训练模型下,经过视频放大处理的数据集(mag_casme)准确率普遍高于原始数据集(casme),能够进一步提升人脸微表情识别的准确率。

综上所述,本发明的有益效果是:

由于casme、casmeii数据集中各表情样本数量不均衡的缘故,目前大多数微表情识别方法采用将样本数量较少的表情进行合并或不计入测试范围,或者直接将表情数据划分为积极、消极、中性及其他等类别以进行测试。但这样的做法往往容易忽略很多潜在的面部微表情,不利于提高微表情识别技术的真实应用效果。

本申请在测试过程中分别将数据集casme、casmeii按照情绪标签分为8类和7类,实现了对于微表情各个情绪类别的全分类,且由于对完整数据集进行了消除干扰的视频放大操作,加大了表情动作幅度,同时引入神经网络模型进行训练,有效提升了微表情识别的准确率。

上述说明示出并描述了本发明的若干优选实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改,并能够在本发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1