表情识别模型训练方法、电子设备、存储介质与流程

文档序号：30696120发布日期：2022-07-09 17:17阅读：108来源：国知局

1.本发明涉及面部识别技术领域，尤其是涉及一种表情识别模型训练方法、电子设备、存储介质。

背景技术：

2.近年来，随着人脸数据在工业界的大规模采集，基于基础人脸的各种应用场景层出不穷。在这些应用中，人脸表情识别成为重要的一环，广泛应用于社交机器人、视频直播、驾驶员疲劳监测等人机交互系统中。
3.目前学术界和工业界已存在一些人脸表情识别的相关研究，其中，基于动作单元(action units，aus)的表情识别模型训练方法致力于学习不同表情，以根据不同面部位置的变化组合表征从细粒度表征层面优化人脸表情识别模型。然而，由于人脸表情的丰富性以及各种表情的类间差异细微，相关技术中表情识别模型训练方法的表情识别准确率依然处于较低水平。因此，如何进一步提升人脸表情识别模型的表情识别准确率，仍然是业内亟待解决的问题。

技术实现要素：

4.本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种表情识别模型训练方法、电子设备、存储介质，能够提升对人脸表情识别的表情识别准确率。
5.根据本发明的第一方面实施例的表情识别模型训练方法，包括：
6.根据初始识别模型，获取基础特征提取网络与模型初始数据，所述基础特征提取网络用于在所述初始识别模型中提取面部特征；
7.根据所述模型初始数据，获取第一训练图集和第二训练图集，所述第一训练图集为所述初始识别模型表情识别错误的训练图集，所述第二训练图集为所述初始识别模型表情识别正确的训练图集；
8.基于所述基础特征提取网络获取所述第一训练图集中的表情特征权重与所述第二训练图集中的表情特征权重，所述表情特征权重为表情识别的过程中各类面部动作单元的识别判定权重；
9.将所述第一训练图集中所述表情特征权重高于第一预设阈值的所述面部动作单元进行筛选，得到第一类动作单元；
10.将所述第二训练图集中所述表情特征权重低于第二预设阈值的所述面部动作单元进行筛选，得到第二类动作单元；
11.以所述第一类动作单元作为正样本数据、以所述第二类动作单元作为负样本数据，将所述正样本数据与所述负样本数据混合形成输入样本集；
12.以所述输入样本集对所述初始识别模型进行优化训练，得到优化识别模型。
13.可选的，根据本发明的一些实施例，所述基于所述基础特征提取网络获取所述第一训练图集中的表情特征权重与所述第二训练图集中的表情特征权重，包括：
14.对所述第一训练图集中的面部区域、所述第二训练图集中的面部区域分别进行特征提取；
15.基于所述基础特征提取网络获取所述第一训练图集中用于描述面部区域的第一特征提取向量，以及所述第二训练图集中用于描述面部区域的第二特征提取向量；
16.根据所述第一特征提取向量求得所述第一训练图集的所述表情特征权重；
17.根据所述第二特征提取向量求得所述第二训练图集的所述表情特征权重。
18.可选的，根据本发明的一些实施例，所述以所述第一类动作单元作为正样本数据、以所述第二类动作单元作为负样本数据，将所述正样本数据与所述负样本数据混合形成输入样本集，包括；
19.将所述正样本数据、所述负样本数据进行混合，得到混合数据；
20.调整所述正样本数据和所述负样本数据在所述混合数据中的占比；
21.当所述正样本数据在所述混合数据中的占比小于所述负样本数据在所述混合数据中的占比，将调整后的所述混合数据作为所述输入样本集。
22.可选的，根据本发明的一些实施例，所述以所述输入样本集对所述初始识别模型进行优化训练，得到优化识别模型，包括：
23.将所述输入样本集载入所述初始识别模型的所述基础特征提取网络；
24.基于所述基础特征提取网络将所述输入样本集向量化，生成输入特征提取向量；
25.将所述输入特征提取向量导入所述初始识别模型的分类层。
26.可选的，根据本发明的一些实施例，所述以所述输入样本集对所述初始识别模型进行优化训练，得到优化识别模型，还包括：
27.获取所述分类层的识别分类分数，并根据所述识别分类分数获取本轮分类预测的表情识别准确率；
28.所述获取所述本轮分类预测的所述表情识别准确率后，调整所述第一类动作单元的所述表情特征权重，以及调整所述第二类动作单元的所述表情特征权重；
29.所述调整所述第一类动作单元的所述表情特征权重，以及所述第二类动作单元的所述表情特征权重之后，基于所述输入样本集对所述初始识别模型进行迭代训练；
30.每一轮所述迭代训练后，统计所述表情识别准确率的变化情况；
31.当所述表情识别准确率收敛于第一定值，停止所述迭代训练并得到所述优化识别模型。
32.可选的，根据本发明的一些实施例，所述获取所述本轮分类预测的所述表情识别准确率后，调整所述第一类动作单元的所述表情特征权重，以及调整所述第二类动作单元的所述表情特征权重，包括：
33.当所述表情识别准确率逐渐升高，降低所述初始识别模型对所述第一类动作单元的所述表情特征权重；
34.根据所述第一类动作单元在所述初始识别模型中所述表情特征权重的降低趋势，提升所述初始识别模型中所述第二类动作单元的所述表情特征权重。
35.可选的，根据本发明的一些实施例，所述方法还包括：
36.统计每一轮所述迭代训练中的损失函数输出值变化情况；
37.当所述表情识别准确率收敛于第一定值或者所述损失函数输出值收敛于第二定
值，停止所述迭代训练并得到所述优化识别模型。
38.可选的，根据本发明的一些实施例，所述方法还包括：
39.根据对所述表情识别准确率变化情况的统计，接收所述表情识别准确率的梯度回传；
40.当统计反映出的所述表情识别准确率逐渐降低，对所述输入样本集进行校正。
41.第二方面，本发明实施例提供了一种电子设备，包括：存储器、处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如本发明第一方面实施例中任意一项所述的表情识别模型训练方法。
42.第三方面，本发明实施例提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如本发明第一方面实施例中任意一项所述的表情识别模型训练方法。
43.根据本发明实施例的表情识别模型训练方法、电子设备、存储介质，至少具有如下有益效果：
44.本发明的表情识别模型训练方法中，根据初始识别模型获取基础特征提取网络与模型初始数据，然后根据模型初始数据，获取第一训练图集和第二训练图集。进一步，基础特征提取网络获取第一训练图集中的表情特征权重与第二训练图集中的表情特征权重，再将第一训练图集中表情特征权重高于第一预设阈值的面部动作单元进行筛选，得到第一类动作单元，以及，将第二训练图集中表情特征权重低于第二预设阈值的面部动作单元进行筛选，得到第二类动作单元。进而，以第一类动作单元作为正样本数据、以第二类动作单元作为负样本数据，将正样本数据与负样本数据混合形成输入样本集。最终，以输入样本集对初始识别模型进行优化训练，并得到优化识别模型。由于上述方法中，第一训练图集为初始识别模型表情识别错误的训练图集，第二训练图集为初始识别模型表情识别正确的训练图集，因此，第一类动作单元不应当以较大的表情特征权重来影响表情识别的表情识别准确率，而第二类动作单元则应当以较大的表情特征权重来影响表情识别的表情识别准确率，故而，通过以第一类动作单元作为正样本数据、以第二类动作单元作为负样本数据，将正样本数据与负样本数据混合形成输入样本集，再以输入样本集进行优化训练，得到优化识别模型，其中优化识别模型能够合理调整第一类动作单元与第二类动作单元的表情特征权重，从而提升表情识别过程中的准确性。
45.本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。
附图说明
46.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：
47.图1为本发明实施例中表情识别模型训练方法的流程示意图；
48.图2为本发明实施例中表情识别模型训练方法的另一流程示意图；
49.图3为本发明实施例中表情识别模型训练方法的另一流程示意图；
50.图4为本发明实施例中表情识别模型训练方法的另一流程示意图；
51.图5为本发明实施例中表情识别模型训练方法的另一流程示意图；
52.图6为本发明实施例中表情识别模型训练方法的另一流程示意图；
53.图7为本发明实施例中表情识别模型训练方法的另一流程示意图；
54.图8为本发明实施例中表情识别模型训练方法的另一流程示意图；
55.图9为本发明实施例提供的一个实现本发明表情识别模型训练方法的电子设备示意图。
具体实施方式
56.下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。
57.在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
58.在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、左、右、前、后等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。
59.在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
60.本发明的描述中，需要说明的是，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。另外，下文中对于具体步骤的标识并不代表对于步骤顺序与执行逻辑的限定，步骤之间的执行顺序与执行逻辑应参照对应的说明性表述进行理解与推定。
61.近年来，随着人脸数据在工业界的大规模采集，基于基础人脸的各种应用场景层出不穷。在这些应用中，人脸表情识别成为重要的一环，广泛应用于社交机器人、视频直播、驾驶员疲劳监测等人机交互系统中。
62.目前学术界和工业界已存在一些人脸表情识别的相关研究，其中，基于动作单元(action units，aus)的表情识别模型训练方法致力于学习不同表情，以根据不同面部位置的变化组合表征从细粒度表征层面优化人脸表情识别模型。目前大部分基于深度学习的人脸表情识别通过卷积神经网络学习面部表情特征，取得了不错的效果。但由于人脸表情的丰富性以及各种表情的类间差异细微，以及人脸表情受年龄段不同、性别不同、生活背景等不同因素影响，每个人对同一种表情的诠释方式不一样，从而导致一些表情的类内差异较大、另一些表情的类间差异细微，不利于表情识别。现有的大多数卷积神经网络无法提取具有判别性的特征，不利于人脸表情识别算法准确率的提高。另外，更复杂的神经网络结构来提高表情识别的表情识别准确率，通常意味着更多的数据标注，更复杂的训练过程和更大
coding system，facs)指定的描述符，其中描述符包括有多个指定的原子面部肌肉动作，名为“面部的动作单元(action units，aus)”。由于任何面部表情都是由一组或多组面部肌肉的激活产生的，因此每一种可能的面部表情可以完全被面部动作单元的组合描述。然而，一些面部动作单元在表情识别的过程中能够展现出很高的区分性，例如：在识别“开心”这一表情的过程中，嘴角和眼角相关的面部动作单元的细微变化会很大程度覆盖其他面部动作单元的影响。
72.本发明一些实施例中，面部动作单元在表情识别的过程中展现的影响，可以通过表情特征权重加以量化，所谓表情特征权重指的是表情识别的过程中各类面部动作单元的识别判定权重，举例而言，当在识别“开心”这一表情的过程中，嘴角和眼角相关的面部动作单元的细微变化会很大程度覆盖其他面部动作单元的影响，因此在本例中嘴角和眼角相关面部动作单元所对应的表情特征权重较高，而其他面部动作单元所对应的表情特征权重较低。
73.需要指出，相同面部区域对应的面部动作单元，可能在对多种表情进行识别的过程中均具备较高的表情特征权重。例如：在识别“开心”这一表情的过程中，嘴角和眼角相关面部动作单元所对应的表情特征权重较高，而其他面部动作单元所对应的表情特征权重较低；而在识别“愤怒”这一表情的过程中，表情特征权重较高的面部动作单元仍然是嘴角和眼角相关面部动作单元，故而，在识别“开心”与“愤怒”这两种表情的过程中，就会因为表情特征权重的不合理预设，而导致识别的表情识别准确率低下。因此，欲提高初始识别模型的表情识别准确率，则需要在初始识别模型中，对不同面部动作单元的表情特征权重分布作出合理的调整，以实现对初始识别模型的优化。需要说明的是，不同面部动作单元的表情特征权重分布，指的是不同面部动作单元的表情特征权重的分布状况，例如初始识别模型在识别“开心”这种表情时，表情特征权重分布为：嘴角相关面部动作单元的表情特征权重占31％、眼角相关面部动作单元的表情特征权重占42％、其他面部动作单元的表情特征权重占27％；又例如初始识别模型在识别“愤怒”这种表情时，表情特征权重分布为：嘴角相关面部动作单元的表情特征权重占27％、眼角相关面部动作单元的表情特征权重占33％、其他面部动作单元的表情特征权重占40％。应理解，上述举例用于辅助说明表情特征权重分布的含义，不应理解为对技术方案的限定，初始识别模型中可能出现的表情特征权重分布也不限于上述举出的实施例。
74.根据本发明提供的一些实施例，合理调整不同面部动作单元的表情特征权重分布，需要在通过本发明实施例的表情识别模型训练方法对初始识别模型进行训练前，确定初始识别模型基于不同面部动作单元的表情特征权重分布。本发明一些实施例中，基于基础特征提取网络获取第一训练图集中的表情特征权重与第二训练图集中的表情特征权重，包括：从初始识别模型中基础特征提取网络的中间层，获取第一训练图集中面部区域的第一特征提取向量、第二训练图集中面部区域的第二特征提取向量，进一步，基于第一特征提取向量、第二特征提取向量分别求得基于基础特征提取网络获取第一训练图集中的表情特征权重与第二训练图集中的表情特征权重。
75.步骤s104，将第一训练图集中表情特征权重高于第一预设阈值的面部动作单元进行筛选，得到第一类动作单元；
76.需要说明的是，由于面部动作单元在表情识别的过程中展现的影响，是通过表情
特征权重加以量化的，因此当面部动作单元的表情特征权重越高，在表情识别的过程中对识别结果判定的影响就越大。又由于第一训练图集是初始识别模型在常规的表情识别训练过程中识别错误的训练图集，因此第一训练图集中表情特征权重较高的面部动作单元则可以被归为不可靠的面部动作单元。其中，面部动作单元在表情识别的过程中难以提供正确的参照，则被认为是不可靠的。例如，当初始识别模型识别“开心”这种表情，从识别错误的训练图集中获取表情特征权重分布为：嘴角相关面部动作单元的表情特征权重占21％、眼角相关面部动作单元的表情特征权重占52％、其他面部动作单元的表情特征权重占27％，则眼角相关面部动作单元则可以被判定为是不可靠的面部动作单元。
77.在本发明一些实施例中，通过步骤s104将第一训练图集中表情特征权重高于第一预设阈值的面部动作单元进行筛选，得到第一类动作单元，以便进一步为后续优化训练初始识别模型提供取样基础。应理解，第一预设阈值为预先设定的表情特征权重，用于从第一训练图集中筛选出表情特征权重较高的面部动作单元，即第一类动作单元，其中第一预设阈值的取值可以根据实际情况灵活设定。需要明确，第一类动作单元指的是表情特征权重过高时，不可靠、不能够帮助区别表情类别的面部动作单元。
78.步骤s105，将第二训练图集中表情特征权重低于第二预设阈值的面部动作单元进行筛选，得到第二类动作单元；
79.需要说明的是，由于面部动作单元在表情识别的过程中展现的影响，是通过表情特征权重加以量化的，因此当面部动作单元的表情特征权重越低，在表情识别的过程中对识别结果判定的影响就越小。又由于第二训练图集是初始识别模型在常规的表情识别训练过程中识别正确的训练图集，因此第二训练图集中表情特征权重较低的面部动作单元则可以被归为可靠的面部动作单元。其中，面部动作单元在表情识别的过程中能够提供正确的参照，则被认为是可靠的。例如，当初始识别模型识别“愤怒”这种表情，从识别正确的训练图集中获取表情特征权重分布为：嘴角相关面部动作单元的表情特征权重占45％、眉间相关面部动作单元的表情特征权重占30％、其他面部动作单元的表情特征权重占25％，则眉间相关面部动作单元则可以被判定为是可靠的面部动作单元。
80.在本发明一些实施例中，通过步骤s105将第二训练图集中表情特征权重低于第二预设阈值的面部动作单元进行筛选，得到第二类动作单元，以便进一步为后续优化训练初始识别模型提供取样基础。应理解，第二预设阈值为预先设定的表情特征权重，用于从第二训练图集中筛选出表情特征权重较低的面部动作单元，即第二类动作单元，其中第二预设阈值的取值可以根据实际情况灵活设定。需要明确，第二类动作单元指的是虽然表情特征权重低，但是可靠、能够帮助区别表情类别的面部动作单元。
81.需要强调，具体步骤的标号并不代表对于步骤顺序与执行逻辑的限定，步骤之间的执行顺序与执行逻辑应参照对应的说明性表述进行理解与推定。上述步骤s104、步骤s105是并列关系，步骤s104可以先于步骤s105执行，步骤s104也可以后于步骤s105执行，步骤s104还可以与步骤s105同时执行。
82.步骤s106，以第一类动作单元作为正样本数据、以第二类动作单元作为负样本数据，将正样本数据与负样本数据混合形成输入样本集；
83.需要说明的是，对初始识别模型进行优化训练前，需要先得到一个用于优化训练的输入样本集。由于第一类动作单元指的是表情特征权重过高时，不可靠、不能够帮助区别
表情类别的面部动作单元；并且第二类动作单元指的是虽然表情特征权重低，但是可靠、能够帮助区别表情类别的面部动作单元。因此在本发明一些实施例中，通过步骤s106以第一类动作单元作为正样本数据、以第二类动作单元作为负样本数据，将正样本数据与负样本数据混合形成输入样本集，然后将步骤s106得到的输入样本集用于优化训练。
84.需要说明的是，输入样本集本质上是一个图像样本集，因此输入样本集的中第一类动作单元、第二类动作单元既能够以图像块的形式存在，也能够以整张图像的形式存在。当第一类动作单元或者第二类动作单元以图像块的形式存在时，对应图像块将具备自带标签，自带标签来源于对应图像块被切块之前的整张图像自带标签。当第一类动作单元、第二类动作单元以整张图像的形式存在时，输入样本集则包括有第一训练图集中的图像、第二训练图集中的图像，当初始识别模型的基础特征提取网络对输入样本集中第一训练图集中的图像进行处理，即可获取第一类动作单元，当初始识别模型的基础特征提取网络对输入样本集中第二训练图集中的图像进行处理，即可获取第二类动作单元。
85.步骤s107，以输入样本集对初始识别模型进行优化训练，得到优化识别模型。
86.需要说明的是，由于输入样本集包含有第一类动作单元、第二类动作单元，因此以输入样本集进行优化训练，能够优化初始识别模型对于第二类动作单元的识别能力，以及抑制第一类动作单元对于表情识别的影响，从而令初始识别模型在表情识别的过程中能够参照更多可靠的面部动作单元，进而提升对人脸表情识别的表情识别准确率，得到优化训练后的优化识别模型。
87.本发明的表情识别模型训练方法中，根据初始识别模型获取基础特征提取网络与模型初始数据，然后根据模型初始数据，获取第一训练图集和第二训练图集。进一步，获取第一训练图集中的表情特征权重与第二训练图集中的表情特征权重，再将第一训练图集中表情特征权重高于第一预设阈值的面部动作单元进行筛选，得到第一类动作单元，以及，将第二训练图集中表情特征权重低于第二预设阈值的面部动作单元进行筛选，得到第二类动作单元。进而，以第一类动作单元作为正样本数据、以第二类动作单元作为负样本数据，将正样本数据与负样本数据混合形成输入样本集。最终，以输入样本集对初始识别模型进行优化训练，并得到优化识别模型。由于上述方法中，第一训练图集为初始识别模型表情识别错误的训练图集，第二训练图集为初始识别模型表情识别正确的训练图集，因此，第一类动作单元不应当以较大的表情特征权重来影响表情识别的表情识别准确率，而第二类动作单元则应当以较大的表情特征权重来影响表情识别的表情识别准确率，故而，通过以第一类动作单元作为正样本数据、以第二类动作单元作为负样本数据，将正样本数据与负样本数据混合形成输入样本集，再以输入样本集进行优化训练，得到优化识别模型，其中优化识别模型能够合理调整第一类动作单元与第二类动作单元的表情特征权重，从而提升表情识别过程中的准确性。
88.参照图2，根据本发明的一些实施例，基于基础特征提取网络获取第一训练图集中的表情特征权重与第二训练图集中的表情特征权重，包括：
89.步骤s201，分别对第一训练图集中的面部区域、第二训练图集中的面部区域进行特征提取；
90.根据本发明提供的一些实施例，初始识别模型中基础特征提取网络的中间层，用于获取输入图像中面部区域的特征提取向量，而其中面部区域的特征提取向量具体反映到
人脸表情输入上，即对应为不同面部区域的面部动作单元。需要说明的是，初始识别模型中基础特征提取网络的中间层包括有轻量级子网络，轻量级子网络可以是包括卷积层、池化层的卷积神经网络(convolutional neural networks,cnn)。
91.步骤s202，基于基础特征提取网络获取第一训练图集中用于描述面部区域的第一特征提取向量，以及第二训练图集中用于描述面部区域的第二特征提取向量；
92.根据本发明提供的一些实施例，本发明中的初始识别模型可采用基于卷积神经网络的faster r-cnn为网络骨干结构，并结合r-cnn特征提取作为指导来增强网络模型对面部动作单元的采样能力，其中r-cnn采用selective search算法来提取可能的兴趣区域(regions of interest，roi),然后对每个roi进行裁剪，并使用卷积神经网络对roi进行边界框回归和支持向量机(support vector machines,svm)分类。其中fasterr-cnn的网络结构可以分为以下四个模块：其一，卷积层：faster r-cnn首先使用一组基础的conv、relu、pooling网络层得到特征图，并将其用于后续区域候选网络层和全连接层；其二，区域候选层(region proposal networks，rpn)：rpn网络用于生成区域候选框。该层通过softmax函数判断该候选区域是属于需要识别的区域还是背景；然后，再利用边界框回归对区域候选框进行修正得到精确的边界框；其三，感兴趣区域池化层：该层通过收集特征图和区域候选框的信息，对不同尺寸的候选框执行池化操作，从第一训练图集中面部区域获取第一特征提取向量、从第二训练图集中面部区域获取第二特征提取向量，并将其送入后续的全连接层进行人脸表情识别。其四，分类层：分类层中的各级全连接层通过表情分类函数对第一特征提取向量、第二特征提取向量进行识别处理，得到识别结果，其中表情分类函数通常是交叉熵损失、focalloss等常用图像分类函数或者各类图像分类函数的组合。
93.需要说明的是，步骤s202基于基础特征提取网络获取第一训练图集中用于描述面部区域的第一特征提取向量，以及第二训练图集中用于描述面部区域的第二特征提取向量，还可以通过深度信念网络(deep belief nets，dbn)、递归神经网络(recursive neural network，rnn)、深度自动编码器(deep auto-encoder，dae)、生成对抗网络(generative adversarial network,gan)等模型架构来实现，不限于上述举出的实施例。
94.步骤s203，根据第一特征提取向量求得第一训练图集的表情特征权重；
95.根据本发明提供的一些实施例，初始识别模型包括基础特征提取网络与分类层，其中基础特征提取网络的包括卷积层结构与池化层结构，用于提取第一特征提取向量与第二特征提取向量，而分类层则是在获取第一特征提取向量与第二特征提取向量后，通过表情分类函数对第一特征提取向量、第二特征提取向量进行识别处理，得到识别结果。需要说明的是，基础特征提取网络提取到的第一特征提取向量具体反映到人脸表情输入上，即对应为第一训练图集中不同面部区域的面部动作单元，而步骤s203根据第一特征提取向量求得第一训练图集的表情特征权重，则是基于第一训练图集中不同面部区域的面部动作单元得到的表情特征权重。应理解，第一训练图集的表情特征权重可以反映初始识别模型在对第一训练图集进行识别的过程中，各类面部动作单元对于判定识别结果的影响程度。
96.步骤s204，根据第二特征提取向量求得第二训练图集的表情特征权重。
97.需要说明的是，基础特征提取网络提取到的第二特征提取向量具体反映到人脸表情输入上，即对应为第二训练图集中不同面部区域的面部动作单元，而步骤s204根据第二特征提取向量求得第二训练图集的表情特征权重，则是基于第二训练图集中不同面部区域
的面部动作单元得到的表情特征权重。应理解，第二训练图集的表情特征权重可以反映初始识别模型在对第二训练图集进行识别的过程中，各类面部动作单元对于判定识别结果的影响程度。
98.通过步骤s201至步骤s204，即可获取第一训练图集的表情特征权重以及第二训练图集的表情特征权重，便于在后续执行步骤中，以第一训练图集的表情特征权重与第二训练图集的表情特征权重为基准进行表情特征权重的合理调整，从而进一步提升表情识别过程中的准确性。
99.参照图3，根据本发明的一些实施例，以第一类动作单元作为正样本数据、以第二类动作单元作为负样本数据，将正样本数据与负样本数据混合形成输入样本集，包括；
100.步骤s301，将正样本数据、负样本数据进行混合，得到混合数据；
101.需要说明的是，由于第一类动作单元指的是表情特征权重过高时，不可靠、不能够帮助区别表情类别的面部动作单元；并且第二类动作单元指的是虽然表情特征权重低，但是可靠、能够帮助区别表情类别的面部动作单元。因此输入样本集中的正样本数据从第一类动作单元中取样，输入样本集中的负样本数据则从第二类动作单元中取样，使用上述方式混合形成的输入样本集进行优化训练，可以基于初始识别模型表情识别准确率的变化情况，判断初始识别模型的训练进度，当初始识别模型的表情识别准确率升高收敛于第一定值，即可判断优化训练结束，得到优化训练完成后优化识别模型。
102.步骤s302，调整正样本数据和负样本数据在混合数据中的占比；
103.根据本发明提供的一些实施例，若混合数据中的正样本数据占比过大，则初始识别模型对负样本数据中第二类动作单元的识别处理将从较低的水平开始，不利于提升初始识别模型的优化训练。由于正样本数据在混合数据中的占比不宜过大，本发明一些实施例中，根据混合数据生成输入样本集之前，需要先降低正样本数据在混合数据中的占比，并提高负样本数据在混合数据中的占比。需要明确，正样本数据在混合数据中的占比指的是正样本数据在混合数据总量中的比值、负样本数据在混合数据中的占比指的是正样本数据在混合数据总量中的比值，而表情特征权重指的是在表情识别模型对人脸表情进行识别的过程中各类面部动作单元的识别判定权重，二者不能混为一谈。
104.步骤s303，当正样本数据在混合数据中的占比小于负样本数据在混合数据中的占比，将调整后的混合数据作为输入样本集。
105.需要说明的是，当正样本数据在混合数据中的占比小于负样本数据在混合数据中的占比，说明负样本数据中的第二类动作单元在混合数据中占主要部分，利用此种情形得到的输入样本集进行优化训练，将便于获取变化明显的表情识别准确率曲线，从而有利于对优化训练的过程作出把控与分析判断。
106.参照图4，根据本发明的一些实施例，以输入样本集对初始识别模型进行优化训练，得到优化识别模型，包括：
107.步骤s401，将输入样本集载入初始识别模型的基础特征提取网络；
108.步骤s402，基于基础特征提取网络将输入样本集向量化，生成输入特征提取向量；
109.需要说明的是，将输入样本集载入初始识别模型的基础特征提取网络，是为了将输入样本集向量化。应理解，本发明一些实施例中，初始识别模型基于编码器-解码器结构建立，当待识别图像输入初始识别模型，先经由作为基础特征提取网络的编码器模块对待
识别图像进行切块、特征提取等图像处理操作，再将经过图像处理操作后的图像进行向量化，生成输入特征提取向量，再经由编码器模块将输入特征提取向量递送至初始识别模型的分类层，进一步由分类层中的各级全连接层通过表情分类函数对输入特征提取向量进行识别处理，之后对待识别图像打上识别结果标签，并将识别结果标签与待识别图像自带的标签进行比对，以判断初始识别模型对待识别图像的表情识别是否正确。
110.步骤s403，将输入特征提取向量导入初始识别模型的分类层。
111.根据本发明一些实施例，初始识别模型的分类层，用于通过表情分类函数对输入特征提取向量进行识别处理，得到识别结果，其中表情分类函数通常是交叉熵损失、focal loss等常用图像分类函数或者各类图像分类函数的组合。当初始识别模型对输入样本集中的若干待识别图像进行如上操作，即可获取初始识别模型对输入样本集的表情识别准确率。其中，待识别图像既可以为图像块也可以为整张图像。
112.参照图5，根据本发明的一些实施例，以输入样本集对初始识别模型进行优化训练，得到优化识别模型，还包括：
113.步骤s501，获取分类层的识别分类分数，并根据识别分类分数获取本轮分类预测的表情识别准确率；
114.需要说明的是，分类层中的各级全连接层通过表情分类函数对输入特征提取向量进行识别处理，具体而言，每一级全连接层通过表情分类函数基于输入特征提取向量对待识别图像进行表情类别的判断，分别得出各类表情的概率，通过表情分类函数根据各类标签的概率分布情况得到识别分类分数，然后依据分类层中的最后一级的识别分类分数确定待识别图像的识别结果标签，并将识别结果标签与待识别图像自带的标签进行比对，以判断初始识别模型对待识别图像的表情识别是否正确。其中，识别分类分数由表情分类函数得到，用于以分数(如80分、75分)反映各类表情标签的概率分布情况，应理解，能够得到识别分类分数的表情分类函数通常是交叉熵损失、focal loss等常用图像分类函数或者各类图像分类函数的组合。当初始识别模型对输入样本集进行如上操作，即可获取初始识别模型对输入样本集本轮分类预测的表情识别准确率。
115.步骤s502，获取本轮分类预测的表情识别准确率后，调整第一类动作单元的表情特征权重，以及调整第二类动作单元的表情特征权重；
116.需要说明的是，由于对初始识别模型进行优化训练的目的是为了提升初始识别模型的表识别准确率，因此在获取本轮分类预测的表情识别准确率后，需要对第一类动作单元在初始识别模型中的表情特征权重、第二类动作单元在初始识别模型中的表情特征权重作出调整，以进一步提升表情识别准确率。具体而言，由于第一类动作单元指的是表情特征权重过高时，不可靠、不能够帮助区别表情类别的面部动作单元，并且第二类动作单元指的是虽然表情特征权重低，但是可靠、能够帮助区别表情类别的面部动作单元。因此，通过步骤s502进一步在初始识别模型中，将第一类动作单元的表情特征权重降低、将第二类动作单元的表情特征权重升高，以使得初始识别模型可以更多受可靠、能够帮助区别表情类别的第二类动作单元所影响，从而令表情识别准确率进一步提升。需要说明的是，第一类动作单元在权重过高时不可靠、不能够帮助区别表情类别，但是本发明一些实施例中，当第一类动作单元过低时，同样会使得表情识别准确率降低。因此，根据本发明一些实施例，将第一类动作单元的表情特征权重降低、将第二类动作单元的表情特征权重升高后，表情识别准
确率先由低转高，再由高转低，则进一步回调第一类动作单元的表情特征权重与第二类动作单元的表情特征权重，使得表情识别准确率维持在较高的水平。
117.步骤s503，调整第一类动作单元的表情特征权重，以及第二类动作单元的表情特征权重之后，基于输入样本集对初始识别模型进行迭代训练；
118.需要说明的是，迭代训练的目的，是为了经过的数轮分类预测训练，逐渐提升表情识别准确率。因此，根据本发明提供的一些实施例，在获取本轮分类预测的表情识别准确率后，先调整初始识别模型中第一类动作单元的表情特征权重以及第二类动作单元的表情特征权重，再基于输入样本集对初始识别模型进行迭代训练。应理解，每一轮迭代训练的步骤包括但不限于：基于上一轮调整后的表情特征权重分布进行本轮分类预测，获取本轮分类预测的表情识别准确率，再进一步调整第一类动作单元的表情特征权重以及第二类动作单元的表情特征权重。需要说明的是，初始识别模型中第一类动作单元的表情特征权重以及第二类动作单元的表情特征权重可以参照表情识别准确率的变化情况进行调整。
119.步骤s504，每一轮迭代训练后，统计表情识别准确率的变化情况；
120.根据本发明一些实施例，每一轮迭代训练后，将获取到的本轮表情识别准确率进行记录，并对表情识别准确率进行统计，其中统计的方式包括但不限于将表情识别率的变化情况反映到折线图、直方图等统计工具上。
121.步骤s505，当表情识别准确率收敛于第一定值，停止迭代训练并得到优化识别模型。
122.需要说明的是，第一定值指的是：在对第一类动作单元的表情特征权重以及第二类动作单元的表情特征权重进行数轮调整后，初始识别模型的表情识别准确率收敛值。本发明提供的一些实施例中，初始识别模型的表情识别准确率将会稳定在某一定值的误差区间内，这一定值则为第一定值，例如表情识别准确率在84％到86％区间内波动，则可以认为第一定值为85％。应理解，第一定值不是一个确切不变的值，而是一个随训练情况而发生变化的值。当表情识别准确率收敛于第一定值，判定优化训练已达较佳效果，即可停止迭代训练，其中，停止迭代训练后得到的表情识别模型即优化识别模型。
123.在本发明一些实施例中，本发明提出的表情识别模型训练方法有助于抑制第一类动作单元在初始识别模型中引起的负面效果，例如，当某个第一类动作单元引起了样本被初始识别模型错误预测，那么这个第一类动作单元会被惩罚函数所抑制，其中惩罚函数包括但不限于：交叉熵损失，focal loss等常用图像分类函数或者各类图像分类函数的组合。当预测错误的样本数量越多，最终惩罚函数的值越高，因此将会使得初始识别模型向提高表情识别准确率的方向进行迭代。
124.需要说明的是，对初始识别模型进行优化训练的目的是为了提升初始识别模型的表识别准确率。根据本发明提供的一些实施例，优化训练的对象是初始识别模型，而优化训练的过程则是以输入样本集作为训练数据集对初始识别模型进行表情识别训练。应理解，输入样本集的正样本数据包括第一类动作单元，其中第一类动作单元指的是表情特征权重过高时，不可靠、不能够帮助区别表情类别的面部动作单元；输入样本集的负样本数据包括第二类动作单元，其中第二类动作单元指的是虽然表情特征权重低，但是可靠、能够帮助区别表情类别的面部动作单元。因此，在优化训练的过程中，初始识别模型需要根据对输入样本集的表情识别准确率，来调整初始识别模型关于第一类动作单元、第二类动作单元的表
情权重分布，以至于令初始识别模型随着优化训练的进行，逐渐提升表情识别准确率直至收敛于第一定值。
125.参照图6，根据本发明的一些实施例，表情识别模型训练方法还包括：
126.步骤s601，当表情识别准确率逐渐升高，降低初始识别模型对第一类动作单元的表情特征权重；
127.需要说明的是，由于对初始识别模型进行优化训练的目的是为了提升初始识别模型的表识别准确率，因此在获取本轮分类预测的表情识别准确率后，需要对第一类动作单元在初始识别模型中的表情特征权重、第二类动作单元在初始识别模型中的表情特征权重作出调整，以进一步提升表情识别准确率。具体而言，由于第一类动作单元指的是表情特征权重过高时，不可靠、不能够帮助区别表情类别的面部动作单元，并且第二类动作单元指的是虽然表情特征权重低，但是可靠、能够帮助区别表情类别的面部动作单元。因此本发明一些实施例中，通过步骤s601当表情识别准确率逐渐升高时，继续降低初始识别模型对第一类动作单元的表情特征权重，以使得初始识别模型更多受可靠、能够帮助区别表情类别的第二类动作单元所影响，从而令表情识别准确率进一步提升。
128.步骤s602，根据第一类动作单元在初始识别模型中表情特征权重的降低趋势，提升初始识别模型中第二类动作单元的表情特征权重。
129.根据本发明一些实施例，由于步骤s601中初始识别模型降低了对第一类动作单元的表情特征权重，因此为了令可靠、能够帮助区别表情类别的第二类动作单元可以更多影响初始识别模型的表情识别过程，经由步骤s602根据第一类动作单元在初始识别模型中表情特征权重的降低趋势，提升初始识别模型中第二类动作单元的表情特征权重，进而使得初始识别模型的表情识别准确率提升。
130.参照图7，根据本发明的一些实施例，表情识别模型训练方法还包括：
131.步骤s701，统计每一轮迭代训练中的损失函数输出值变化情况；
132.步骤s702，当表情识别准确率收敛于第一定值或者损失函数输出值收敛于第二定值，停止迭代训练并得到优化识别模型。
133.根据本发明一些实施例，判定优化训练已达较佳效果，除了能够以表情识别准确率作为参照基准以外，还能够以损失函数输出值作为参照基准。具体而言，当损失函数输出值收敛于第二定值，则初始识别模型的鲁棒性提升至较高水平，从而判定优化训练已达较佳效果，即可停止迭代训练，其中，停止迭代训练后得到的表情识别模型即优化识别模型。应理解，判定优化训练已达较佳效果的参照基准可以选用表情识别准确率收敛于第一定值，也可以选用损失函数输出值收敛于第二定值，还可以选用复合标准，即表情识别准确率收敛于第一定值的同时损失函数输出值收敛于第二定值。应理解，第二定值也不是一个确切不变的值，而同样是一个随训练情况而发生变化的值。需要强调，本发明实施例中判定优化训练已达较佳效果的参照基准包括但不限于上述举例。
134.根据本发明的一些实施例，表情识别模型训练方法还包括：
135.步骤s801，根据对表情识别准确率变化情况的统计，接收表情识别准确率的梯度回传；
136.步骤s802，当统计反映出的表情识别准确率逐渐降低，对输入样本集进行校正。
137.需要说明的是，优化训练的过程可能伴随着优化方向的错误，根据本发明提高的
一些实施例，当随着初始识别模型降低对第一类动作单元的表情特征权重且升高对第二类动作单元的表情特征权重，表情识别准确率反而呈现降低趋势，则可能是输入样本集存在未校正的问题，随即需要进一步对输入样本集进行校正。应理解，接收表情识别准确率的梯度回传能够通过建立反馈模型的方式来反映优化训练的发展趋势，从而及时地确定训练方向的正确性，进而排除优化训练过程中产生的程序错误。
138.图9示出了本发明实施例提供的电子设备900。电子设备900包括：处理器901、存储器902及存储在存储器902上并可在处理器901上运行的计算机程序，计算机程序运行时用于执行上述的表情识别模型训练方法。
139.处理器901和存储器902可以通过总线或者其他方式连接。
140.存储器902作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如本发明实施例描述的表情识别模型训练方法。处理器901通过运行存储在存储器902中的非暂态软件程序以及指令，从而实现上述的表情识别模型训练方法。
141.存储器902可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序。存储数据区可存储执行上述的表情识别模型训练方法。此外，存储器902可以包括高速随机存取存储器902，还可以包括非暂态存储器902，例如至少一个储存设备存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中，存储器902可选包括相对于处理器901远程设置的存储器902，这些远程存储器902可以通过网络连接至该电子设备900。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
142.实现上述的表情识别模型训练方法所需的非暂态软件程序以及指令存储在存储器902中，当被一个或者多个处理器901执行时，执行上述的表情识别模型训练方法，例如，执行图1中的方法步骤s101至步骤s107、图2中的方法步骤s201至步骤s204、图3中的方法步骤s301至步骤s303、图4中的方法步骤s401至步骤s402、图5中的方法步骤s501至步骤s505、图6中的方法步骤s601至步骤s602、图7中的方法步骤s701至步骤s702、图8中的方法步骤s801至步骤s802。
143.本发明实施例还提供了计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行上述的表情识别模型训练方法。
144.在一实施例中，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，执行图1中的方法步骤s101至步骤s107、图2中的方法步骤s201至步骤s204、图3中的方法步骤s301至步骤s303、图4中的方法步骤s401至步骤s402、图5中的方法步骤s501至步骤s505、图6中的方法步骤s601至步骤s602、图7中的方法步骤s701至步骤s702、图8中的方法步骤s801至步骤s802。
145.以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
146.本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或
者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、储存设备存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。还应了解，本发明实施例提供的各种实施方式可以任意进行组合，以实现不同的技术效果。
147.以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换，这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘钊
技术所有人：中国平安人寿保险股份有限公司
我是此专利的发明人

上一篇：一种基于约束粒子流的高斯聚合滤波协同定位追踪方法
上一篇：一种基于读者智能推送的书籍借阅装置

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。