一种情感识别方法及相关装置、电子设备和存储介质与流程

文档序号：32744845发布日期：2022-12-30 21:33阅读：28来源：国知局

1.本技术涉及情感识别技术领域，特别是涉及一种情感识别方法及相关装置、电子设备和存储介质。

背景技术：

2.情感是认知和意识过程中产生的心理和生理状态，对人类的行为和心理健康有着重要的影响。情感识别作为人机交互的热门领域，其技术被应用于医疗、教育、智能驾驶等领域。情感主要由表情、语音、肢体动作等进行表达，不同情感表达时面部表情、语气、语调等特征也不相同。因此，使用单一模态特征来进行情感判断具有鲁棒性不足、准确性偏低等缺点，结合表情、语音、肢体等多模态信息来识别和预测情感可以提高情感识别的准确性。

技术实现要素：

3.本技术主要解决的技术问题是提供一种情感识别方法及相关装置、电子设备和存储介质，能够结合多模态信息之间的相互关系进行情感识别，从而提升情感识别的准确性。
4.为解决上述技术问题，本技术采用的一个技术方案是：提供一种情感识别方法，包括：基于目标对象的视频数据，得到音频数据和与所述音频数据同步的图像数据；提取所述音频数据的第一音频特征，并提取所述图像数据的第一图像特征；其中，所述第一音频特征包含所述音频数据在频域、时域中至少一者的特征信息；基于所述第一音频特征和所述第一图像特征，得到第一互补特征和第二互补特征；其中，所述第一互补特征包含所述第一图像特征中互补于音频模态的特征信息，所述第二互补特征包含所述第一音频特征中互补于图像模态的特征信息；基于第一音频特征和第一互补特征得到目标音频特征，并基于第一图像特征和第二互补特征得到目标图像特征；基于所述目标音频特征和所述目标图像特征，得到所述视频数据中所述目标对象的情感类别。
5.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种情感识别装置，包括：分离采样模块，用于基于目标对象的视频数据，得到音频数据和与所述音频数据同步的图像数据；特征提取模块，用于提取所述音频数据的第一音频特征，并提取所述图像数据的第一图像特征；其中，所述第一音频特征包含所述音频数据在频域、时域中至少一者的特征信息；特征互补模块，用于基于所述第一音频特征和所述第一图像特征，得到第一互补特征和第二互补特征；其中，所述第一互补特征包含所述第一图像特征中互补于音频模态的特征信息，所述第二互补特征包含所述第一音频特征中互补于图像模态的特征信息；目标特征获取模块，用于基于第一音频特征和第一互补特征得到目标音频特征，并基于第一图像特征和第二互补特征得到目标图像特征；类别预测模块，用于基于所述目标音频特征和所述目标图像特征，得到所述视频数据中所述目标对象的情感类别。
6.为解决上述技术问题，本技术采用的又一个技术方案是：提供一种电子设备，包括耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现上述技术方案中所述的情感识别方法。
7.为解决上述技术问题，本技术采用的又一个技术方案是：提供一种计算机可读存储介质，存储有能够被处理器运行的程序指令，所述程序指令用于实现上述技术方案中所述的情感识别方法。
8.区别于现有技术的情况，本技术提出的情感识别方法通过目标对象的视频数据得到音频数据和与音频数据同步的图像数据，并提取音频数据的第一音频特征以及提取图像数据的第一图像特征。将第一音频特征和第一图像特征进行互补，得到目标音频特征和目标图像特征，从而基于目标音频特征和目标图像特征识别得到目标对象的情感类别。本技术提出的方法通过结合多模态信息以及多模态信息之间的相互关系进行情感识别，从而更加精确地进行情感识别。
附图说明
9.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：
10.图1是本技术情感识别模型训练方法一实施方式的流程示意图；
11.图2是本技术情感识别方法一实施方式的流程示意图；
12.图3是步骤s103对应一实施方式的流程示意图；
13.图4是步骤s105对应一实施方式的流程示意图；
14.图5是步骤s103中获取第一互补特征和第二互补特征一具体实施方式的流程示意图；
15.图6是步骤s301中获取若干种情感类别的参考特征集一实施方式的流程示意图；
16.图7是本技术提出的情感识别方法一实施方式的流程示意图；
17.图8是本技术提出的情感识别装置一实施方式的结构示意图；
18.图9是本技术电子设备一实施方式的结构示意图；
19.图10是本技术计算机可读存储介质一实施方式的结构示意图。
具体实施方式
20.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
21.为了提高情感识别的准确性，一种可能的实施方式是通过从原始视频中分别提取语音和图像两种模态的特征，并进行特征融合，形成融合特征，并将降维后的融合特征通过情感分类网络进行情感分类。然而，该方法仅将语音和图像两种模态的特征进行融合，并没有考虑不同模态信息之间的相互关系，并且对融合特征进行降维处理容易导致部分有效信息丢失，从而影响情感识别的准确性。
22.另一种可能的实施方式是通过分别提取语音模态和图像模态的特征，并分别输入两个分类网络，采用分类损失函数进行训练，得到两个基于单模态信息特征的情感识别模
型，并采用加权平均法进行情感类别得分计算，得到基于多个单特征模型的融合情感识别模型。然而，该方法同样无法结合多模态信息之间的相互关系进行情感识别，并且当多种模态信息不同步时，情感识别的准确性较低。
23.本技术提出一种情感识别模型的训练方法，使得训练获得的情感识别模型可以准确识别出视频数据中目标对象的情感类别。该方法包括：获取训练视频集，该训练视频集中包含多个训练视频，每个训练视频标注有训练视频中样本对象的情感类别。将训练视频集中至少部分训练视频输入神经网络模型，神经网络模型首先对训练视频进行预处理。具体地，对训练视频进行分离采样以得到音频数据和与音频数据同步的图像数据，并提取音频数据的第一音频特征，提取图像数据的第一图像特征。进一步地，基于第一音频特征和第一图像特征进行特征互补，得到目标音频特征和目标图像特征，并将目标音频特征和目标图像特征进行融合，得到第二融合特征。进一步地，将第二融合特征输入一个全连接层，之后通过softmax函数获得训练视频在每个情感类别下的得分。结合训练视频在每个情感类别下的得分以及训练视频中标注的样本对象的情感类别，对神经网络中的参数进行调节以获得训练情感识别模型。
24.在一具体实施方式中，请参阅图1，图1为本技术情感识别模型训练方法一实施方式的流程示意图。具体地，将训练视频集中的至少部分训练视频输入神经网络模型中，神经网络模型对训练视频进行预处理以提取训练视频对应的音频数据和图像数据。在提取获得音频数据后，对图像数据提取第一图像特征，以及对音频数据进行处理以提取音频数据对应的时域音频特征和频域音频特征。具体地，可以通过wave2vec2.0模型、hubert模型、wave2vec模型等自监督语音预训练模型对音频数据进行处理以得到对应的时域音频特征；以及获取音频数据对应的梅尔倒谱系数(mel-frequency cepstral coefficients，mfcc)，并将其作为音频数据对应的频域音频特征。将时域音频特征或频域音频特征作为第一音频特征；或者，将时域音频特征和频域音频特征进行第一融合以得到第一音频特征。进一步地，将第一音频特征输入第一特征提取网络，以及将第一图像特征输入第二特征提取网络，并在第一特征提取网络和第二特征提取网络之间结合注意力机制，对第一音频特征和第一图像特征进行特征互补，得到第一互补特征和第二互补特征；并基于第一音频特征和第一互补特征得到目标音频特征，基于第一图像特征和第二互补特征得到目标图像特征。进一步地，将目标音频特征和目标图像特征进行第二融合，得到第二融合特征，将第二融合特征输入线性层，再通过softmax函数获得训练视频在每个情感类别下的得分。结合训练视频中的标注的情感类别，调节神经网络模型中的参数以获得训练情感识别模型。
25.请参阅图2，图2是本技术情感识别方法一实施方式的流程示意图。其中，情感识别模型是基于上述训练方法获得的。具体地，该情感识别方法，包括：
26.s101：基于目标对象的视频数据，得到音频数据和与音频数据同步的图像数据。
27.具体地，获取一原始视频段，并从上述原始视频段中截取预设时长的视频数据。其中，该视频数据中包含目标对象的面部表情、肢体动作以及语音信息等。进一步地，从上述视频数据中提取出音频数据和与音频数据同步的图像数据。其中，可以通过分离采样或其他常用的视频处理方法获得上述音频数据和图像数据。例如，从原始视频段中截取20ms的视频数据，并将视频数据分离为时长为20ms的音频数据以及与该音频数据同步的图像数据。其中，图像数据可以为视频数据中间时刻对应的视频帧，即视频数据中第10ms对应的视
频帧。
28.可选地，在其他实施方式中，也可以结合视频数据中的多个视频帧，将包含更多情感信息的视频帧作为图像数据，例如优先选取包含目标对象完整表情的视频帧作为图像数据。另外，在本实施方式中，从原始视频数据中截取的视频数据的预设时长也可以为其他时长，例如10ms、30ms等。
29.s102：提取音频数据的第一音频特征，并提取图像数据的第一图像特征。其中，第一音频特征包含音频数据在频域、时域中至少一者的特征信息。
30.在本实施方式中，提取图像数据的第一图像特征的过程包括：对获取的图像数据进行预处理以去除图像数据中的干扰因素，然后进行特征提取以获得第一图像特征。进一步地，将第一图像特征中信息量较小的特征排除，以减少后续计算量。其中，对图像进行特征提取可以通过多种开源算法实现，在此不进行详细阐述。
31.在本实施方式中，提取音频数据的第一音频特征的过程包括：分别提取音频数据的时域音频特征和频域音频特征。具体地，将音频数据输入至自监督语音预训练模型。其中，自监督语音预训练模型可以针对输入的音频数据进行卷积处理，以输出音频数据对应的特征，并基于输出的特征进行自监督学习。本实施方式将自监督语音预训练模型输出的特征作为音频数据对应的时域音频特征。其中，自监督语音预训练模型可以为wave2vec2.0模型、hubert模型、wave2vec模型等。另外，获取音频数据对应的梅尔倒谱系数(mel-frequency cepstral coefficients，mfcc)，并将其作为频域音频特征，详细过程在此不进行详细阐述。
32.进一步地，基于时域音频特征和频域音频特征进行第三融合，得到第一音频特征，以使得特征融合后的第一音频特征既包含音频数据在频域中的特征信息，也包含音频数据在时域中的特征信息，更有助于对目标对象的情感类别的识别。
33.当然，在其他实施方式中，也可以仅将音频数据对应的时域音频特征或频域音频特征作为第一音频特征。
34.s103：基于第一音频特征和第一图像特征，得到第一互补特征和第二互补特征。其中，第一互补特征包含第一图像特征中互补于音频模态的特征信息，第二互补特征包含第一音频特征中互补于图像模态的特征信息。
35.在本实施方式中，对第一音频特征和第一图像特征进行处理，以从第一图像特征中得到部分与第一音频特征相关的特征，并将上述部分与第一音频特征相关的特征作为第一互补特征；以及从第一音频特征中得到部分与第一图像特征相关的特征，并将上述部分与第一图像特征相关的特征作为第二互补特征。
36.在一具体实施方式中，当视频数据中目标对象受到惊吓时，肢体突然发出“跳起”的动作，并同时发出“尖叫声”时，则认为“跳起”的动作是与“尖叫声”相关联。因此，将“跳起”动作对应的图像特征作为互补于音频模态的特征信息，即第一互补特征；以及将“尖叫声”对应的音频特征作为互补于图像模态的特征信息，即第二互补特征。在又一具体实施方式中，当视频数据中目标对象的情感类别为“伤心”时，目标对象沉默少语，此时从视频数据中获得的音频模态的信息较少，则将第一图像特征中目标对象“皱眉”、“嘴角下垂”等动作对应的信息特征第一图像特征中互补于音频模态的信息，即作为第一互补特征。
37.请参照图3，图3为步骤s103对应一实施方式的流程示意图。该过程具体包括：
38.s201：基于第一特征提取网络对第一音频特征进行特征提取，得到第二音频特征，并基于第二特征提取网络对第一图像特征进行特征提取，得到第二图像特征。
39.本实施方式中，情感识别模型中包含第一特征提取网络和第二特征提取网络，且第一特征提取网络和第二特征提取网络可以对输入的特征进行特征提取。其中，第一特征提取网络和第二特征提取网络可以为常用的神经网络。具体地，将第一音频特征输入至第一特征提取网络中，第一特征提取网络对第一音频特征进行深层特征提取，以获得第二音频特征。其中，与第一音频特征相比，第二音频特征更为抽象，具有更高的维度，且包含更多高级特征。
40.同样的，将第一图像特征输入至第二特征提取网络中，第二特征提取网络对第一图像特征进行深层特征提取，以获得第二图像特征。其中，与第一图像特征相比，第二图像特征具有更高的维度，且包含更多高级特征。在一具体实施方式中，第一图像特征包含更多像素点的信息，例如图像数据的颜色、纹理、棱角信息等，而第二图像特征包含图像的语义信息。
41.在一实施方式中，第一特征提取网络和第二特征提取网络中分别包含多个相同数量的第一神经网络块，每个第一神经网络块可以对输入的特征进行特征提取。并且，针对第一特征提取网络或第二特征提取网络，当前第一神经网络块相比于前一个第一神经网络块可以进行更深层的特征提取，即当前第一神经网络块相比于前一个第一神经网络块提取的特征的维度更高，包含更丰富的高级特征。将第一音频特征输入至当前第一神经网络块以获得第二音频特征，以及将第一图像特征输入至当前第一神经网络块以获得第二图像特征。可选的，本实施方式中多个第一神经网络块组成的第一特征提取网络或第二特征提取网络可以为densenet，resnet等网络结构，并且第一神经网络块的个数可以根据实际需求进行设定。
42.s202：基于第二音频特征和第二图像特征，得到图像模态对音频模态的第一互补权重和音频模态对图像模态的第二互补权重。
43.具体地，在通过第一神经网络块获得第二音频特征和第二图像特征后，将第二音频特征和第二图像特征进行第一融合，得到第一融合特征。其中，上述第一融合可以为特征拼接。该方法将视频数据中的语音模态信息与图像模态信息进行结合，使得第一融合特征包含视频数据中语音模态和图像模态的信息，以避免丢失视频数据中语音模态与图像模态相关联的部分信息内容，从而有助于获取与音频特征相关的图像特征和/或与图像特征相关的音频特征。其中，响应于第二音频特征和第二图像特征的维度均为m，则第一融合特征的维度为m*2。另外，将多个特征进行融合为较为常用的特征处理手段，具体过程在此不进行详细阐述。
44.进一步地，基于注意力机制处理第一融合特征，得到第一互补权重和第二互补权重。具体地，通过构建注意力模块，将第一融合特征输入至注意力模块进行卷积处理以得到输出特征，将输出特征输入至线性层以进行线性变化，再通过softmax函数获得图像模态对音频模态的第一互补权重和音频模态对图像模态的第二互补权重。其中，线性层使用的激活函数可以为relu激活函数。第一互补权重用于筛选出第一融合特征中重要的图像模态的信息或与音频模态相关联的图像模态的信息，第二互补权重用于筛选出第一融合特征中重要的音频模态的信息或与图像模态相关联的音频模态的信息。具体地，第一互补权重和第
二互补权重的计算公式如下：
45.θ1＝softmax(s’w[*,0])
[0046]
θ2＝softmax(s’w[*,1])
[0047]
其中，θ1表示第一互补权重，θ2表示第二互补权重，s’表示输出特征，w表示权重矩阵，[*,0]表示第一融合特征在第一维度上的内容，[*,1]表示第一融合特征在第二维度上的内容。
[0048]
s203：基于第一互补权重和第二图像特征，加权得到第一互补特征，并基于第二互补权重和第二音频特征，加权得到第二互补特征。
[0049]
具体地，将第一互补权重与第二图像特征相乘以得到第一互补特征，以及将第二互补权重与第二音频特征相乘以得到第二互补特征。
[0050]
s104：基于第一音频特征和第一互补特征得到目标音频特征，并基于第一图像特征和第二互补特征得到目标图像特征。
[0051]
具体地，在获取第一互补特征和第二互补特征之后，包括：将基于第一音频特征获得的第二音频特征和第一互补特征进行特征融合以获得目标音频特征，将基于第一图像特征获得的第二图像特征和第二互补特征进行特征融合以获得目标图像特征。其中，利用第一互补特征获得目标音频特征，使得目标音频特征中既包含视频数据中音频模态的特征信息，也包含视频数据中部分与音频模态的特征相关的图像模态的特征信息；利用第二互补特征获得目标图像特征，使得目标图像特征中既包含视频数据中图像模态的特征信息，也包含视频数据中部分与图像模态的特征相关的音频模态的特征信息。通过获得目标音频特征和目标图像特征有助于结合多模态信息以及多模态信息之间的关系进行情感识别，从而提高情感识别的准确性。
[0052]
s105：基于目标音频特征和目标图像特征，得到音频数据中目标对象的情感类别。
[0053]
请参阅图4，图4为步骤s105对应一实施方式的流程示意图。具体地，步骤s105的实施过程包括：
[0054]
s301：基于目标音频特征和目标图像特征进行第二融合，得到第二融合特征，并获取若干种情感类别的参考特征集。其中，参考特征集中包含若干参考特征。
[0055]
在本实施方式中，情感识别模型中的第一特征提取网络和第二特征提取网络中还分别包括第二神经网络块，在获得目标音频特征和目标图像特征后，第一特征提取网络中的第二神经网络块对目标音频特提取深层特征，得到第三音频特征，以及第二特征提取网络中的第二神经网络块对目标图像特征提取深层特征，得到第三图像特征。其中，第三音频特征相比于目标音频特征具有更高维度且包含更丰富的高级特征，第三图像特征相比于目标图像特征具有更高维度且包含更丰富的高级特征。进一步地，将第三音频特征和第三图像特征进行拼接，得到第二融合特征，以助于利用该第二融合特征获取目标对象的情感类别。即情感识别模块通过上述实施方式中所提到的方法对视频数据进行处理以提取获得第二融合特征。
[0056]
进一步地，获取若干种情感类别的参考特征集。其中，参考特征集中包含若干参考特征。其中，获取若干情感类别的参考特征集的具体过程在后续实施方式中进行阐述。
[0057]
s302：针对各种情感类别，获取第二融合特征与上述情感类别下参考特征集中各个参考特征的特征距离，并基于情感类别下参考特征集中各个参考特征分别对应的特征距
离得到目标对象在情感类别下的预测得分。
[0058]
具体地，计算第二融合特征与每个情感类别下参考特征集中各个参考特征的余弦距离，并将该余弦距离作为第二融合特征与对应参考特征的特征距离。其中，若第二融合特征与参考特征的余弦距离越小，则第二融合特征与参考特征的相似度越高；若第二融合特征与参考特征的余弦距离越大，则第二融合特征与参考特征的相似度越低。
[0059]
可选地，在其他实施方式中，也可以获取第二融合特征与每个情感类别下参考特征集中各个参考特征的欧式距离、马氏距离等中的一种，并将其作为第二融合特征与对应参考特征的特征距离。
[0060]
进一步地，对于所有情感类别中的任一情感类别，对该情感类别下参考特征集中各个参考特征对应的特征距离按照距离的远近进行排序，并依次选取距离最近的预设数量的特征距离，将选取的预设数量的特征距离的平均值作为目标对象在该情感类别下的预测得分。其中，选取的特征距离的预设数量可以为5、10、15等。
[0061]
s303：基于目标对象分别在若干种情感类别下的预测得分，从若干种情感类别中选择至少一种作为目标对象的情感类别。
[0062]
具体地，本实施方式将预测得分最高的情感类别作为视频数据中目标对象的情感类别。
[0063]
在一实施方式中，若存在其他情感类别对应的预测得分与最高预测得分的差值小于预设阈值内，则将该情感类别作为视频数据中目标对象的备选情感类别。其中，上述预设阈值可以是经过多次实验反推获得的，也可以是相关技术人员进行预估获得的。
[0064]
本技术提出的情感识别方法通过目标对象的视频数据得到音频数据和与音频数据同步的图像数据，并提取音频数据的第一音频特征以及提取图像数据的第一图像特征。将第一音频特征和目标图像特征进行互补，得到目标音频特征和目标图像特征，从而基于目标音频特征和目标图像特征识别得到目标对象的情感类别。本技术提出的方法结合多模态信息以及多模态信息之间的相互关系进行情感识别，从而更加精确地进行情感识别。
[0065]
在一实施方式中，图1中步骤s103的实施过程还可以包括：设置相应的第三互补权重和第四互补权重，并将第三互补权重与第一图像特征进行相乘以获得第三互补特征，将第四互补权重与第一音频特征相乘以获得第四互补特征。将第三互补特征与第一音频特征进行融合并提取深层特征以获得目标音频特征，以及将第四互补特征与第一图像特征进行融合并提取深层特征以获得目标图像特征。其中，第三互补权重和第四互补权重可以是经过多次实验进行反推获得的，也可以是通过预估获得的。
[0066]
请参阅图5，图5为步骤s103中获取第一互补特征和第二互补特征一具体实施方式的流程示意图。其中，本实施方式中，情感识别模型中的第一特征提取网络resnet1和第二特征提取网络resnet2为残差神经网络。具体地，将第一音频特征和第一图像特征输入至对应的神经网络中，第一特征提取网络resnet1下的第一个第一神经网络块block1对第一音频特征进行深层特征提取以得到第二音频特征y1；第二特征提取网络resnet2下的第一个第一神经网络块block1对第一图像特征进行深层特征提取以得到第二图像特征y2。将第二音频特征y1和第二图像特征y2进行拼接融合以得到第一融合特征s。进一步地，将第一融合特征s输入至注意力模块，以获得图像模态对音频模态的第一互补权重和音频模态对图像模态的第二互补权重，具体过程可参照步骤s202。
[0067]
进一步地，基于第一互补权重和第二图像特征y2，加权得到第一互补特征y
’2，并基于第二互补权重和第二音频特征y1，加权得到第二互补特征y
’1。将第一互补特征y
’2和第二音频特征y1进行拼接融合以获得目标音频特征z1，将第二互补特征和第二图像特征y2进行拼接融合以获得目标图像特征z2。
[0068]
另外，响应于第一特征提取网络resnet1和第二特征提取网络resnet2中分别包含多个第一神经网络块，将基于第一个第一神经网络块block1获得的目标音频特征z1更新第一音频特征，即将目标音频特征z1作为第一音频特征；并基于第一个第一神经网络块block1获得目标图像特征z2更新第一图像特征，即将目标图像特征z2作为第一图像特征。将更新后的第一音频特征输入至第一特征提取网络resnet1中的第二第一神经网络块block2中，以及将第一图像特征输入至第二特征提取网络resnet2中的第二个第一神经网络块block2中，以重新执行基于第一音频特征和第一图像特征，得到第一互补特征和第二互补特征，以及基于第一音频特征和第一互补特征得到目标音频特征，并基于第一图像特征和第二互补特征得到目标图像特征的步骤。
[0069]
请参阅图6，图6为步骤s301中获取若干种情感类别的参考特征集一实施方式的流程示意图。该实施方式具体包括：
[0070]
s401：获取训练视频集。其中，训练视频集中包含多个训练视频，每个训练视频标注有训练视频中样本对象的情感类别，且情感识别模型基于训练视频训练得到。
[0071]
本实施方式中，训练视频集中的训练视频可以是由摄像机对样本对象进行拍摄获得的，并由人工针对训练视频中样本对象的情感类别进行标注。并且，本技术提出的情感识别模型是基于该训练视频集训练得到的。
[0072]
s402：将至少部分训练视频输入情感识别模型中，得到训练视频标注的情感类别所对应的样本融合特征，将样本融合特征作为情感类别的参考特征。
[0073]
具体地，将训练视频集中的至少部分训练视频输入至情感识别模型中，以获得输入至情感识别模型中每个训练视频对应的目标音频特征和目标图像特征，具体过程可参照步骤s101至s103。进一步地，针对每个输入至情感识别模型中的训练视频，基于目标音频特征和目标图像特征获得样本融合特征，并将样本融合特征作为对应的参考特征。其中，获取样本融合特征的具体过程可参照步骤s301。另外，本实施方式中输入至情感识别模型的训练视频的数量可以根据实际需求而定。
[0074]
在一实施方式中，也可以获取训练视频集以外的训练视频，即重新获取一定数量的训练视频，并标注出训练视频中目标对象的情感类型。然后，将该部分训练视频输入至情感训练模型中，以获取与每个训练视频对应的参考特征。
[0075]
s403：基于各种情感类别的参考特征进行分类，得到若干种情感类别的参考特征集。
[0076]
具体地，基于步骤s402中输入情感识别模型中的训练视频标注的样本对象的情感类别，将训练视频对应的参考特征按照情感类别进行分类。例如，多个训练视频中样本对象的情感类别为“高兴”，则将该多个训练视频经过情感识别模块获得的参考特征作为“高兴”类别下的参考特征集。
[0077]
在一实施方式中，响应于步骤s201中提到的情感识别模型中第一特征提取网络和第二特征提取网络分别包含多个第一神经网络块，步骤s103之后还包括：检测基于对第一
音频特征和第一图像特征进行处理得到目标音频特征和目标图像特征的执行次数是否满足预设条件。具体地，检测基于第一音频特征和第一图像特征，得到第一互补特征和第二互补特征；以及基于第一音频特征和第一互补特征得到目标音频特征，并基于第一图像特征和第二互补特征得到目标图像特征的执行次数是否满足预设次数。其中，上述预设次数为第一特征提取网络或第二特征提取网络中第一神经网络块的数量。
[0078]
响应于上述执行次数不满足预设条件，基于最新目标音频特征更新第一音频特征，并基于最新目标图像特征更新第一图像特征，即将最新目标音频特征作为第一音频特征，将最新目标图像特征作为第一图像特征；以及重新执行基于对第一音频特征和第一图像特征进行处理，得到目标音频特征和目标图像特征的步骤。若响应于执行次数满足预设条件，则基于最新的目标音频特征和最新的目标图像特征，得到视频数据中目标对象的情感类别，具体过程可参照图1中步骤s105。
[0079]
在一具体实施方式中，当情感识别模型中的第一特征提取网络和第二特征提取网络分别包含三个第一网络块时，若执行基于第一音频特征和第一图像特征进行特征互补得到目标音频特征和目标图像特征步骤的次数未达到三次，则执行基于最新目标音频特征更新第一音频特征，并基于最新目标图像特征更新第一图像特征，以及重新执行基于对第一音频特征和第一图像特征进行处理，得到目标音频特征和目标图像特征的步骤。若执行特征互补的次数达到三次，则基于最新的目标音频特征和最新的目标图像特征，得到视频数据中目标对象的情感类别。
[0080]
请参阅图7，图7为本技术提出的情感识别方法一实施方式的流程示意图。本实施方式中，情感识别模型中包含三个第一神经网络块。具体地，该情感识别方法包括：
[0081]
s501：获取训练视频集，并基于训练视频集训练获得情感识别模型。
[0082]
具体地，获取多个训练视频组成的训练视频集。其中，训练视频集中的每个训练视频都标注有训练视频中样本对象的情感类别。通过构建一个深度神经网络，并利用训练视频集对该深度神经网络进行训练以获得情感识别模型。
[0083]
s502：获取待识别的目标对象的视频数据，并基于视频数据获得音频数据和与音频数据同步的图像数据。
[0084]
具体地，将目标对象的视频数据输入至情感识别模型中，情感识别模型对视频数据进行分离采样以得到音频数据和与音频数据同步的图像数据，具体过程可参照步骤s101。
[0085]
s503：情感识别模型提取音频数据的第一音频特征，并提取图像数据的第一图像特征。
[0086]
具体地，根据步骤s502获得的音频数据和图像数据，对音频数据进行特征提取以获得第一音频数据，对图像数据进行特征提取以获得第一图像数据。其中，具体过程可参照图1中步骤s102。
[0087]
s504：基于对第一音频特征和第一图像特征进行处理，得到目标音频特征和目标图像特征。
[0088]
具体地，将步骤s503获得的第一音频特征输入至情感识别模型中的第一特征提取网络中，第一特征提取网络中的第一个第一神经网络块对第一音频特征提取深层特征，得到第二音频特征；以及将第一图像特征输入至情感识别模型中的第二特征提取网络中，第
二特征提取网络中的第一个第一神经网络块对第一图像特征提取深层特征，得到第二图像特征。进一步地，将第二音频特征和第二图像特征进行第一融合，得到第一融合特征，并利用注意力机制对第一融合特征进行处理以得到第一互补权重和第二互补权重。基于第一互补权重和第二图像特征，加权得到第一互补特征，并基于第二互补权重和第二音频特征，加权得到第二互补特征。将第二音频特征和第一互补特征进行融合以得到目标音频特征，以及将第二图像特征和第二互补特征进行融合以得到目标图像特征。其中，具体过程可参照步骤s103。
[0089]
进一步地，在经过第一个第一神经网络块得到目标音频特征和目标图像特征后，基于最新获得的目标音频特征更新第一音频特征，并基于最新获得的目标图像特征更新第一图像特征，以及重新执行步骤s504。
[0090]
s505：判断特征互补的执行次数是否满足预设条件。
[0091]
具体地，响应于本实施方式中情感识别模型中包含三个第一神经网络块，步骤s505包括：判断执行基于对第一音频特征和第一图像特征进行处理，得到目标音频特征和目标图像特征的次数是否满足三次。若执行次数不满足三次，则基于最新获得的目标音频特征更新第一音频特征，并基于最新获得的目标图像特征更新第一图像特征，以及重新执行步骤s504。若执行次数达到三次，则执行步骤s506。
[0092]
s506：情感识别模型基于目标音频特征和目标图像特征，得到视频数据中目标对象的情感类别。
[0093]
具体地，由情感识别模型中第一特征提取网络的第二神经网络块对最新的目标音频特征提取深层特征，得到第三音频特征；以及由情感识别模块中第二特征提取网络的第二神经网络块对最新的目标图像特征提取深层特征，得到第三图像特征。将第三音频特征和第三图像特征进行拼接，得到第二融合特征。
[0094]
进一步地，获取第二融合特征与各个情感类别下参考特征集中各个参考特征的特征距离，并基于各种情感类别下参考特征集中各个参考特征分别对应的特征距离得到目标对象在情感类别下的预测得分，并基于目标对象分别在若干中情感类别下的预测得分，从若干种情感类别中选择至少一种作为目标对象的情感类别。其中，具体过程可参照步骤s301至步骤s303，各种情感类别下参考特征集的获取过程请参照图6对应的实施方式。
[0095]
请参阅图8，图8是本技术提出的情感识别装置一实施方式的结构示意图。该情感识别装置包括：分离采样模块10、特征提取模块20、特征互补模块30、目标特征获取模块40和类别预测模块50。
[0096]
具体而言，分离采样模块10，用于基于目标对象的视频数据，得到音频数据和与音频数据同步的图像数据。
[0097]
特征提取模块20，用于提取音频数据的第一音频特征，并提取图像数据的第一图像特征。其中，第一音频特征包含音频数据在频域、时域中至少一者的特征信息。具体地，分别提取音频数据的时域音频特征和频域音频特征。基于时域音频特征和频域音频特征进行第三融合，得到第一音频特征。
[0098]
特征互补模块30，用于基于第一音频特征和第一图像特征，得到第一互补特征和第二互补特征。其中，第一互补特征包含第一图像特征互补于音频模态的特征信息，第二互补特征包含第一音频特征中互补于图像模态的特征信息。
[0099]
其中，特征互补模块30基于第一音频特征和第一图像特征进行特征互补，得到第一互补特征和第二互补特征的步骤包括：基于第一特征提取网络对第一音频特征进行特征提取，得到第二音频特征，并基于第二特征提取网络对第一图像特征进行特征提取，得到第二图像特征。基于第二音频特征和第二图像特征，得到图像模态对音频模态的第一互补权重和音频模态对图像模态的第二互补权重。基于第一互补权重和第二图像特征，加权得到第一互补特征，并基于第二互补权重和第二音频特征，加权得到第二互补特征。
[0100]
其中，特征互补模块30基于第二音频特征和第二图像特征，得到图像模态对音频模态的第一互补权重和音频模态对图像模态的第二互补权重，包括：基于第二音频特征和第二图像特征进行第一融合，得到第一融合特征；基于注意力机制处理第一融合特征，得到第一互补权重和第二互补权重。
[0101]
目标特征获取模块40，用于基于第一音频特征和第一互补特征得到目标音频特征，并基于第一图像特征和第二互补特征得到目标图像特征。其中，目标音频特征基于第二音频特征和第一互补特征融合得到，且目标图像特征基于第二图像特征和第二互补特征融合得到。
[0102]
类别预测模块50，用于基于目标音频特征和目标图像特征，得到视频数据中目标对象的情感类别。具体地，基于目标音频特征和目标图像特征进行第二融合，得到第二融合特征，并获取若干种情感类别的参考特征集。其中，参考特征集中包含若干参考特征。针对各种情感类别，获取第二融合特征与情感类别下参考特征集中各个参考特征的特征距离，并基于情感类别下参考特征集中各个参考特征分别对应的特征距离得到目标对象在情感类别下的预测得分。基于目标对象分别在若干种情感类别下的预测得分，从若干种情感类别中选择至少一种作为目标对象的情感类别。
[0103]
其中，类别预测模块50基于目标音频特征和目标图像特征进行第二融合，得到第二融合特征的步骤，包括：基于第一特征提取网络对目标音频特征进行特征提取，得到第三音频特征，并基于第二特征提取网络对目标图像特征进行特征提取，得到第三图像特征。将第三音频特征和第三图像特征进行拼接，得到第二融合特征。
[0104]
另外，类别预测模块50获取若干种情感类别的参考特征集的步骤，包括：获取训练视频集。其中，训练视频集中包含多个训练视频，每个训练视频标注有训练视频中样本对象的情感类别，且分离采样模块10、特征提取模块20以及特征互补模块30是基于训练视频集训练得到。将至少部分训练视频输入情感识别模型中，得到训练视频标注的情感类别所对应的样本融合特征，将样本融合特征作为情感类别的参考特征。基于各种情感类别的参考特征进行分类，得到若干种情感类别的参考特征集。
[0105]
本技术提出的情感识别模型中还包括检测模块45，其与目标特征获取模块40以及类别预测模块50相互耦接。检测模块45用于检测基于第一音频特征和第一互补特征得到目标音频特征，并基于第一图像特征和第二互补特征得到目标图像特征的执行次数是否满足预设条件。响应于执行次数不满足所述预设条件，基于最新目标音频特征更新第一音频特征，并基于最新目标图像特征更新第一图像特征，以及重新执行基于第一音频特征和第一图像特征进行特征互补，得到目标音频特征和目标图像特征的步骤。
[0106]
请参阅图9，图9为本技术电子设备一实施方式的结构示意图，该电子设备包括相互耦接的存储器60和处理器65，存储器60中存储有程序指令，处理器65用于执行程序指令
以实现上述实施方式中的情感识别方法的步骤。具体地，电子设备包括但不限于：台式电脑、笔记本电脑、平板电脑、服务器等，在此不做限定。此外，处理器65还可以称为cpu(center processing unit，中央处理单元)。处理器65可能是一种集成电路芯片，具有信号处理能力。处理器65还可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array，fpga)，或者其他可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器65可以由集成电路芯片共同实现。
[0107]
请参阅图10，图10为本技术提出的计算机可读存储介质一实施方式的结构示意图，该计算机可读存储介质70存储有能够被处理器运行的程序指令80，程序指令80用于实现上述任一实施方式中的情感识别方法。
[0108]
以上所述仅为本技术的实施方式，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：殷兵褚繁李晋高天方昕
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：衬底干燥装置的制作方法
上一篇：层叠体、转印膜、图案形成方法、电路板的制造方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。