本技术涉及计算机,特别涉及一种情感识别方法、装置、设备和存储介质。
背景技术:
1、如今,人工智能技术飞速发展,人工智能产品也层出不穷。在一些情况下,人工智能产品可以替代人工做一些操作,比如:与人类进行交互(例如:对话)等。为了提升用户对人工智能产品的体验,可以增加一些情感(喜、怒、哀、乐等)识别等功能,以使人工智能产品能够根据人类的情感做出相应的回应。
2、相关技术中,获取用户的语音数据,将用户的语音数据进行文字转换,得到对应的文本数据,之后可以对文本数据进行分析来实现对用户的情感的识别。
3、然而,由于一些复杂或特殊的场景下情感识别的难度较大,这种情况下上述情感识别方式难以准确识别用户的情感,所以抗干扰性和鲁棒性较差,如此会降低对用户情感识别的准确率。
技术实现思路
1、本技术提供了一种情感识别方法、装置、设备和存储介质,可以在仅获取用户的语音数据的情况下提高情感识别的准确率,从而提升用户体验。所述技术方案如下:
2、第一方面,提供了一种情感识别方法,所述方法包括:
3、获取目标对象的语音数据;
4、对所述语音数据进行处理,得到所述语音数据对应的语谱图和文本;
5、对所述语音数据进行特征提取,得到所述语音数据的语音特征;对所述语谱图进行特征提取,得到所述语谱图的图像特征;对所述文本进行特征提取得到所述文本的文本特征;
6、基于所述语音特征、所述图像特征以及所述文本特征,确定所述目标对象的情感。
7、在本技术中,获取目标对象的语音数据,对语音数据进行处理,得到语音数据对应的语谱图和文本,之后通过对语音数据、语谱图和文本进行特征提取,得到语音数据的语音特征、图像特征和文本特征。如此仅通过对目标对象的语音数据进行处理即可得到图像、语音、文本三种模态的特征,这三种模态的特征可以更加全面的表征目标对象的情感特征。之后基于语音特征、图像特征以及文本特征,确定目标对象的情感,如此综合这三种模态的特征确定目标对象的情感,可以提高对目标对象的情感识别的准确率。
8、可选地,所述对所述语音数据进行处理,得到所述语音数据对应的语谱图和文本,包括:
9、将所述语音数据分为多个语音片段;
10、对所述多个语音片段进行时频变换,得到所述语音数据对应的语谱图;
11、对所述多个语音片段进行文本识别,得到所述语音数据对应的文本。
12、可选地,所述对所述多个语音片段进行时频变换,得到所述语音数据对应的语谱图,包括:
13、对于所述多个语音片段中任意的一个语音片段,对所述语音片段进行傅里叶变换或小波变换,得到目标频谱;基于所述目标频谱,生成所述语音片段对应的语谱图;
14、将所述多个语音片段的语谱图进行拼接,得到所述语音数据对应的语谱图。
15、可选地,所述对所述语音数据进行特征提取,得到所述语音数据的语音特征,包括:
16、将所述语音数据分为多个语音片段;
17、对于所述多个语音片段中任意的一个语音片段,对所述语音片段的频谱进行滤波,得到滤波信息;基于所述滤波信息,确定所述语音片段的语音片段特征;
18、将所述多个语音片段的语音片段特征进行拼接,得到所述语音数据的语音特征。
19、可选地,所述基于所述语音特征、所述图像特征以及所述文本特征,确定所述目标对象的情感,包括:
20、对所述语音特征、所述图像特征以及所述文本特征进行特征拼接,得到所述语音数据的多模态特征;
21、基于所述语音数据的多模态特征,确定所述目标对象的情感。
22、可选地,所述基于所述语音数据的多模态特征,确定所述目标对象的情感,包括:
23、基于注意力机制对所述语音数据的多模态特征进行编码,得到所述语音数据的注意力特征;
24、基于所述语音数据的注意力特征,确定所述目标对象的情感。
25、可选地,所述基于所述语音数据的注意力特征,确定所述目标对象的情感,包括:
26、对所述语音数据的注意力特征进行序列编码,得到所述语音数据的序列编码特征;对所述序列编码特征进行归一化,得到所述目标对象对应于多个候选情感的概率;将所述多个候选情感中概率最高的候选情感确定为所述目标对象的情感。
27、第二方面,提供了一种情感识别装置,所述装置包括:
28、获取模块,用于获取目标对象的语音数据;
29、处理模块,用于对所述语音数据进行处理,得到所述语音数据对应的语谱图和文本;
30、特征提取模块,用于对所述语音数据进行特征提取,得到所述语音数据的语音特征;对所述语谱图进行特征提取,得到所述语谱图的图像特征;对所述文本进行特征提取得到所述文本的文本特征;
31、确定模块,用于基于所述语音特征、所述图像特征以及所述文本特征,确定所述目标对象的情感。
32、可选地,所述处理模块用于:
33、将所述语音数据分为多个语音片段;
34、对所述多个语音片段进行时频变换,得到所述语音数据对应的语谱图;
35、对所述多个语音片段进行文本识别,得到所述语音数据对应的文本。
36、可选地,所述处理模块用于:
37、对于所述多个语音片段中任意的一个语音片段,对所述语音片段进行傅里叶变换或小波变换,得到目标频谱;基于所述目标频谱,生成所述语音片段对应的语谱图;
38、将所述多个语音片段的语谱图进行拼接,得到所述语音数据对应的语谱图。
39、可选地,所述特征提取模块用于:
40、将所述语音数据分为多个语音片段;
41、对于所述多个语音片段中任意的一个语音片段,对所述语音片段的频谱进行滤波,得到滤波信息;基于所述滤波信息,确定所述语音片段的语音片段特征;
42、将所述多个语音片段的语音片段特征进行拼接,得到所述语音数据的语音特征。
43、可选地,所述确定模块包括:
44、特征拼接单元,用于对所述语音特征、所述图像特征以及所述文本特征进行特征拼接,得到所述语音数据的多模态特征;
45、确定单元,用于基于所述语音数据的多模态特征,确定所述目标对象的情感。
46、可选地,所述确定单元用于:
47、基于注意力机制对所述语音数据的多模态特征进行编码,得到所述语音数据的注意力特征;
48、基于所述语音数据的注意力特征,确定所述目标对象的情感。
49、可选地,所述确定单元用于:
50、对所述语音数据的注意力特征进行序列编码,得到所述语音数据的序列编码特征;对所述序列编码特征进行归一化,得到所述目标对象对应于多个候选情感的概率;将所述多个候选情感中概率最高的候选情感确定为所述目标对象的情感。
51、第三方面,提供了一种计算机设备,所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的情感识别方法。
52、第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的情感识别方法。
53、第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述的情感识别方法的步骤。
54、可以理解的是,上述第二方面、第三方面、第四方面、第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。