基于环形模型的复杂情绪检测方法和系统

文档序号:31126239发布日期:2022-08-13 03:32阅读:364来源:国知局
基于环形模型的复杂情绪检测方法和系统

1.本发明涉及情绪检测技术领域,具体涉及一种基于环形模型的复杂情绪检测方法、系统、存储介质和电子设备。


背景技术:

2.人脸表情是人类表达内心想法和情感状态的最直接、最有力的信号,因此人脸表情识别在许多领域有着非常重要的作用,如驾驶、医疗、教育等。
3.随着深度学习的发展,各种网络结构层出不穷,基于深度学习的人脸表情识别准确率也越来越高。但是受制于数据集标签的影响,目前人脸表情识别算法一般只能预测八种常见基本情绪:平静、高兴、悲伤、惊讶、害怕、生气、轻蔑、厌恶。
4.在上世纪八十年代,罗素提出了情绪分类的环形模式。其认为情感维度不是独立的,而是以高度系统化的方式相互关联的。情绪可划分为两个维度:唤醒度(arousal)和效价(valence),由此可以组合成情绪的其他类型。
5.因此,以此理论为基础,有必要提出一种新的网络结构,用带有唤醒度和效价标签的人脸图片去训练模型,使其能够预测唤醒度和效价,进而弥补现有技术只能预测常见基本情绪的缺陷。


技术实现要素:

6.(一)解决的技术问题
7.针对现有技术的不足,本发明提供了一种基于环形模型的复杂情绪检测方法、系统、存储介质和电子设备,解决了现有技术只能预测常见基本情绪的技术问题。
8.(二)技术方案
9.为实现以上目的,本发明通过以下技术方案予以实现:
10.一种基于环形模型的复杂情绪检测方法,该方法预先构建深度学习模型,所述深度学习模型包括基础提取模块,人脸特征矫正模块和特征融合模块;
11.所述复杂情绪检测方法包括:
12.s1、收集并预处理待测人员的人脸图片;
13.s2、将预处理后的人脸图片输入所述基础提取模块,获取第一特征图;
14.s3、将所述第一特征图输入所述人脸特征矫正模块,获取关注人脸关键点区域的第二特征图;
15.s4、将所述第二特征图输入所述特征融合模块,再通过全连接层获取该人脸图片对应的唤醒度和效价的预测值;
16.s5、根据所述唤醒度和效价的预测值,结合预设的向量映射坐标图,映射所述待测人员的情绪状态。
17.优选的,所述s2中,所述获取第一特征图包括:
18.对预处理后的三通道的人脸图片进行2d卷积;
19.采用归一化函数和激活函数进一步处理,特征图尺寸保持不变;
20.采用最大池化操作;
21.最后采用多个3*3的2d卷积层对特征图进行处理,只改变通道数而保持特征图尺寸不变,层与层之间使用残差连接,获取所述第一特征图。
22.优选的,所述人脸特征矫正模块包括两个级联的四阶hourglass网络。
23.优选的,所述s3中,所述获取关注人脸关键点区域的第二特征图包括:
24.将所述第一特征图输入第一个hourglass网络,获取第三特征图;
25.将所述第三特征图输入第二个hourglass网络,获取人脸关键点热图;
26.将所述第一特征图和第三特征图分别与所述人脸关键点热图相乘后相加,获取所述第二特征图。
27.优选的,所述s4包括:将所述第二特征图依次进行2d卷积、平均池化、最大池化、降维,再通过全连接层输出所述唤醒度和效价的预测值。
28.优选的,所述s5包括:
29.设当前预测值落在所述向量映射坐标图的点p(v,a),其中v、a分别表示效价、唤醒度的预测值;任一情绪u的方向单位向量用表示;在上的投影向量则:
[0030][0031]
点p在情绪u的强度计算方法为方向与u相同结果为方向相反为范围在-1到1之间;
[0032]
以此类推可以得到每一种情绪方向的投影向量,以及对应的归一化分值,由此判断所述待测者的情绪状态。
[0033]
一种基于环形模型的复杂情绪检测系统,该系统预先构建深度学习模型,所述深度学习模型包括基础提取模块,人脸特征矫正模块和特征融合模块;
[0034]
所述复杂情绪检测系统包括:
[0035]
预处理模块,用于收集并预处理待测人员的人脸图片;
[0036]
提取模块,用于将预处理后的人脸图片输入所述基础提取模块,获取第一特征图;
[0037]
矫正模块,用于将所述第一特征图输入所述人脸特征矫正模块,获取关注人脸关键点区域的第二特征图;
[0038]
预测模块,用于将所述第二特征图输入所述特征融合模块,再通过全连接层获取该人脸图片对应的唤醒度和效价的预测值;
[0039]
映射模块,用于根据所述唤醒度和效价的预测值,结合预设的向量映射坐标图,映射所述待测人员的情绪状态。
[0040]
一种存储介质,其存储有用于基于环形模型的复杂情绪检测的计算机程序,其中,所述计算机程序使得计算机执行如上所述的复杂情绪检测方法。
[0041]
一种电子设备,包括:
[0042]
一个或多个处理器;
[0043]
存储器;以及
[0044]
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置
成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的复杂情绪检测方法。
[0045]
(三)有益效果
[0046]
本发明提供了一种基于环形模型的复杂情绪检测方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:
[0047]
本发明预先构建深度学习模型,所述深度学习模型包括基础提取模块,人脸特征矫正模块和特征融合模块;收集并预处理待测人员的人脸图片;将预处理后的人脸图片输入所述基础提取模块,获取第一特征图;将所述第一特征图输入所述人脸特征矫正模块,获取关注人脸关键点区域的第二特征图;将所述第二特征图输入所述特征融合模块,再通过全连接层获取该人脸图片对应的唤醒度和效价的预测值;根据所述唤醒度和效价的预测值,结合预设的向量映射坐标图,映射所述待测人员的情绪状态。弥补了由于数据集标签限制,导致一些情绪如焦虑、抑郁等,无法检测的技术空白。
附图说明
[0048]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0049]
图1为本发明实施例提供的一种基于环形模型的复杂情绪检测方法的流程示意图;
[0050]
图2为本发明实施例提供的一种环形模型结构的示意图;
[0051]
图3为本发明实施例提供的一种向量映射坐标图的示意图。
具体实施方式
[0052]
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0053]
本技术实施例通过提供一种基于环形模型的复杂情绪检测方法、系统、存储介质和电子设备,解决了现有技术只能预测常见基本情绪的技术问题。
[0054]
本技术实施例中的技术方案为解决上述技术问题,总体思路如下:
[0055]
本发明实施例预先构建深度学习模型,所述深度学习模型包括基础提取模块,人脸特征矫正模块和特征融合模块;收集并预处理待测人员的人脸图片;将预处理后的人脸图片输入所述基础提取模块,获取第一特征图;将所述第一特征图输入所述人脸特征矫正模块,获取关注人脸关键点区域的第二特征图;将所述第二特征图输入所述特征融合模块,再通过全连接层获取该人脸图片对应的唤醒度和效价的预测值;根据所述唤醒度和效价的预测值,结合预设的向量映射坐标图,映射所述待测人员的情绪状态。弥补了由于数据集标签限制,导致一些情绪如焦虑、抑郁等,无法检测的技术空白。
[0056]
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
[0057]
实施例:
[0058]
第一方面,如图1所示,本发明实施例提供了一种基于环形模型的复杂情绪检测方法,如图2所示,该方法预先构建深度学习模型,所述深度学习模型包括基础提取模块,人脸特征矫正模块和特征融合模块;
[0059]
所述复杂情绪检测方法包括:
[0060]
s1、收集并预处理待测人员的人脸图片;
[0061]
s2、将预处理后的人脸图片输入所述基础提取模块,获取第一特征图;
[0062]
s3、将所述第一特征图输入所述人脸特征矫正模块,获取关注人脸关键点区域的第二特征图;
[0063]
s4、将所述第二特征图输入所述特征融合模块,再通过全连接层获取该人脸图片对应的唤醒度和效价的预测值;
[0064]
s5、根据所述唤醒度和效价的预测值,结合预设的向量映射坐标图,映射所述待测人员的情绪状态。
[0065]
本发明实施例弥补了由于数据集标签限制,导致一些情绪如焦虑、抑郁等,无法检测的技术空白。
[0066]
下面将结合具体内容详细介绍上述技术方案的各个步骤:
[0067]
首先需要说明的是,本发明实施例提供的环形模型,采用了两个数据集进行训练:第一个数据集是affectnet:开源的大规模图像数据集并且注释了唤醒度和效价。包含了42万张被情感专家注释的图片。但该数据集主要包含了欧美人的人脸图片,所以只用该数据集训练无法在亚洲人脸上取得较高的准确率。第二个数据集,由采用爬虫爬取的来自互联网的图片组成。包含约1万张亚洲人的人脸图片,并进行手工标注。
[0068]
将affectnet数据集送入网络中进行训练,直到loss不再降低。将最后两层开放,将其余层冻结,使其在反向传播过程中不再更新权重。将第二个数据集送入到网络中进行训练,模型对亚洲人脸表情识别的准确率明显提升(即迁移学习)。
[0069]
在回归问题中,需要关注的是预测值和真实值的绝对误差,以及预测值和真实值的相关系数。本发明实施例希望绝对误差越小,相关系数越大。因此,提出了一种新的loss函数能够同时考虑两个方面
[0070][0071]
其中,α,β在0到1之间随机取值,α,β不同时为0。
[0072]
表示平均绝对误差loss:
[0073][0074][0075]
其中,yi、分别表示第i张人脸图片对应的唤醒度/效价的预测值和标签值。
[0076]
表示皮尔逊相关系数loss:
[0077][0078][0079]
其中,μy、分别表示对应的期望值;σy、分别表示对应的标准差。
[0080]
s1、收集并预处理待测人员的人脸图片。
[0081]
本步骤中,可以在用户允许的情况下,电脑摄像头抓取到待测人员的图片,或者采用其他方式获取所述待测人员的图片。
[0082]
将获取的图片经过人脸识别剪裁的、尺寸为256*256的人脸图片。
[0083]
s2、将预处理后的人脸图片输入所述基础提取模块,获取第一特征图;包括:
[0084]
对预处理后的三通道的人脸图片进行2d卷积,卷积核大小为7*7,数量为64,步长为1,padding为3,输出特征图尺寸不变为256*256,通道为64;
[0085]
采用归一化函数instancenorm和激活函数relu进一步处理,特征图尺寸保持不变;
[0086]
采用最大池化max_pooling操作,使特征图尺寸降低为128*128*64;
[0087]
最后采用多个3*3的2d卷积层对特征图进行处理,只改变通道数而保持特征图尺寸不变,层与层之间使用残差连接,获取尺寸为128*128*256的第一特征图。
[0088]
s3、将所述第一特征图输入所述人脸特征矫正模块,获取关注人脸关键点区域的第二特征图。
[0089]
所述人脸特征矫正模块包括两个级联的四阶hourglass网络,该网络为经过人脸68关键点预训练的网络,可以输出人脸关键点热图(heatmaps)。
[0090]
hourglass网络通过下采样、上采样和残差模块,能够将多个尺度的特征的信息融合在一起,这契合了面部表情识别需要考虑局部微小特征的特点,因此使用hourglass网络对准确率提升有很大帮助。
[0091]
所述获取关注人脸关键点区域的第二特征图包括:
[0092]
将所述第一特征图输入第一个hourglass网络,获取第三特征图;
[0093]
将所述第三特征图输入第二个hourglass网络,获取人脸关键点热图;
[0094]
如图2中虚线部分所示,将所述第一特征图和第三特征图分别与所述人脸关键点热图相乘后相加,获取所述第二特征图。
[0095]
s4、将所述第二特征图输入所述特征融合模块,再通过全连接层获取该人脸图片对应的唤醒度和效价的预测值;
[0096]
具体包括:将所述第二特征图依次进行2d卷积、平均池化avg_pooling、最大池化max_pooling、降维,输出1*4096的特征向量,再通过全连接层输出所述唤醒度arousal和效价valence的预测值。
[0097]
s5、根据所述唤醒度和效价的预测值,结合预设的向量映射坐标图,判断所述待测人员的情绪状态。
[0098]
如图3所示,设当前预测值落在所述向量映射坐标图的点p(v,a),其中v、a分别表示效价、唤醒度的预测值;任一情绪u的方向单位向量用表示;在上的投影向量则:
[0099][0100]
点p在情绪u的强度计算方法为方向与u相同结果为方向相反为范围在-1到1之间。
[0101]
其中坐标计算方法:假设为x正方向单位向量、为有y正方向单位向量,则则在上的投影向量点p在情绪u方向的强度计算公式进一步转化为
[0102]
以此类推可以得到每一种情绪方向的投影向量,以及对应的归一化分值,由此判断所述待测者的情绪状态。
[0103]
需要解释的是,所述向量映射坐标图至少包括涵盖了8对复杂情绪:心烦意乱——满足,悲伤——高兴,抑郁——兴高采烈,无精打采——兴奋,疲惫——警觉,神经紧绷——心情平和,紧张——放松,有压力——宁静;图3中8个单位向量则表示8对复杂情绪所在方向的单位向量。
[0104]
第二方面,本发明实施例例提供了一种基于环形模型的复杂情绪检测系统,该系统预先构建深度学习模型,所述深度学习模型包括基础提取模块,人脸特征矫正模块和特征融合模块;
[0105]
所述复杂情绪检测系统包括:
[0106]
预处理模块,用于收集并预处理待测人员的人脸图片;
[0107]
提取模块,用于将预处理后的人脸图片输入所述基础提取模块,获取第一特征图;
[0108]
矫正模块,用于将所述第一特征图输入所述人脸特征矫正模块,获取关注人脸关键点区域的第二特征图;
[0109]
预测模块,用于将所述第二特征图输入所述特征融合模块,再通过全连接层获取该人脸图片对应的唤醒度和效价的预测值;
[0110]
映射模块,用于根据所述唤醒度和效价的预测值,结合预设的向量映射坐标图,映射所述待测人员的情绪状态。
[0111]
第三方面,本发明实施例提供了一种存储介质,其存储有用于基于环形模型的复杂情绪检测的计算机程序,其中,所述计算机程序使得计算机执行如上所述的复杂情绪检测方法。
[0112]
第四方面,本发明实施例提供了一种电子设备,包括:
[0113]
一个或多个处理器;
[0114]
存储器;以及
[0115]
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的复杂情绪检测方法。
[0116]
综上所述,与现有技术相比,具备以下有益效果:
[0117]
本发明实施例预先构建深度学习模型,所述深度学习模型包括基础提取模块,人脸特征矫正模块和特征融合模块;收集并预处理待测人员的人脸图片;将预处理后的人脸图片输入所述基础提取模块,获取第一特征图;将所述第一特征图输入所述人脸特征矫正模块,获取关注人脸关键点区域的第二特征图;将所述第二特征图输入所述特征融合模块,
再通过全连接层获取该人脸图片对应的唤醒度和效价的预测值;根据所述唤醒度和效价的预测值,结合预设的向量映射坐标图,映射所述待测人员的情绪状态。弥补了由于数据集标签限制,导致一些情绪如焦虑、抑郁等,无法检测的技术空白。
[0118]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0119]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1