情绪识别方法、装置、计算机可读存储介质及电子设备

文档序号：34600108发布日期：2023-06-28 23:11阅读：116来源：国知局

本发明涉及人工智能领域，具体而言，涉及一种情绪识别方法、装置、计算机可读存储介质及电子设备。

背景技术：

1、通常，人类的语言中包含着说话者的情绪信息，在人机交互中，对于人的语音情绪信息的识别是十分重要的环节。计算机在识别出语音内容的同时，识别出语音所携带的情绪信息，可以使得人机交互更加的自然流利，提高人机交互的用户体验质量。现有的语音情绪识别技术包括使用机器学习、深度神经网络学习等方法进行语音情绪识别。但是，之前的情感分析算法往往建立在单一模态或仅包括语音、文本模态信息的训练集结合机器学习或深度学习的方法，较为单一，不能全面、准确识别用户情绪。例如，相关技术中仅基于语音、文本模态信息识别用户情绪，未考虑对患者用户画像、过往通话情绪时序特征的利用，导致分析全部集中关注在即时通讯状态下用户的情绪，而忽略用户本人性格特点对情绪的影响，从而具有对情绪的识别准确度低的问题，进而容易影响人机交互时用户的交互体验。针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本发明实施例提供了一种情绪识别方法、装置、计算机可读存储介质及电子设备，以至少解决相关技术中对用户通话过程中情绪的识别准确度低的技术问题。

2、根据本发明实施例的一个方面，提供了一种情绪识别方法，包括：获取处于通话状态的目标对象的目标数据，其中，目标数据至少包括用户画像信息以及目标对象在当前通话过程中的语音信号和对话文本，用户画像信息包括目标对象的对象信息和历史通话情绪信息；将目标数据输入至目标识别模型中，通过目标识别模型得到概率分布结果，其中，概率分布结果表征目标对象的通话情绪类型在多个情绪类型中的概率分布；根据概率分布结果识别目标对象的通话情绪类型。

3、进一步地，目标识别模型至少由声学特征提取模型、声学编码器、文本编码器以及画像特征提取层构成，其中，通过目标识别模型得到概率分布结果，包括：通过声学特征提取模型对语音信号进行特征提取处理，得到声学特征，并通过声学编码器对声学特征进行向量化处理，得到声学特征向量；通过文本编码器对对话文本进行特征提取处理，得到文本特征向量；通过画像特征提取层对对象信息和历史通话情绪信息进行特征提取处理，得到用户画像特征向量；根据声学特征向量、文本特征向量以及用户画像特征向量确定概率分布结果。

4、进一步地，目标识别模型包括第一全连接层和第二全连接层，其中，根据声学特征向量、文本特征向量以及用户画像特征向量确定概率分布结果，包括：对声学特征向量和文本特征向量进行相似度计算，得到相似度分数；对相似度分数与用户画像特征向量进行点乘计算，得到注意力加权向量；通过第一全连接层对声学特征向量进行特征整合处理，得到处理后的声学特征向量；拼接处理后的声学特征向量和注意力加权向量，得到拼接向量；通过第二全连接层对拼接向量进行特征整合处理，得到目标对象的情绪在多个情绪类型中的概率分布结果，其中，第一全连接层与第二全连接层的参数不同。

5、进一步地，通过声学特征提取模型对语音信号进行特征提取处理，得到声学特征，包括：对语音信号进行特征提取，得到第一特征图；提取语音信号中的梅尔声谱，得到目标梅尔声谱，并对目标梅尔声谱进行特征图转换处理，得到第二特征图；拼接第一特征图和第二特征图，得到声学特征。

6、进一步地，文本编码器的训练数据通过以下方法生成：获取多个样本文本，并识别多个样本文本中的目标词语，其中，目标词语为能够表达情绪的词语；对样本文本中的目标词语进行掩盖，得到掩盖后的多个样本文本，并根据掩盖后的多个样本文本构建第一训练样本集；将第一训练样本集确定为文本编码器的训练数据。

7、根据本发明实施例的另一方面，还提供了一种情绪识别装置，包括：获取模块，用于获取处于通话状态的目标对象的目标数据，其中，目标数据至少包括用户画像信息以及目标对象在当前通话过程中的语音信号和对话文本，用户画像信息包括目标对象的对象信息和历史通话情绪信息；处理模块，用于将目标数据输入至目标识别模型中，通过目标识别模型得到概率分布结果，其中，概率分布结果表征目标对象的通话情绪类型在多个情绪类型中的概率分布；识别模块，用于根据概率分布结果识别目标对象的通话情绪类型。

8、进一步地，目标识别模型至少由声学特征提取模型、声学编码器、文本编码器以及画像特征提取层构成，其中，处理模块还包括：第一特征提取子模块，用于通过声学特征提取模型对语音信号进行特征提取处理，得到声学特征，并通过声学编码器对声学特征进行向量化处理，得到声学特征向量；第二特征提取子模块，用于通过文本编码器对对话文本进行特征提取处理，得到文本特征向量；第三特征提取子模块，用于通过画像特征提取层对对象信息和历史通话情绪信息进行特征提取处理，得到用户画像特征向量；确定子模块，用于根据声学特征向量、文本特征向量以及用户画像特征向量确定概率分布结果。

9、进一步地，目标识别模型包括第一全连接层和第二全连接层，其中，确定子模块还包括：第一计算单元，用于对声学特征向量和文本特征向量进行相似度计算，得到相似度分数；第二计算单元，用于对相似度分数与用户画像特征向量进行点乘计算，得到注意力加权向量；第一特征整合单元，用于通过第一全连接层对声学特征向量进行特征整合处理，得到处理后的声学特征向量；第一拼接单元，用于拼接处理后的声学特征向量和注意力加权向量，得到拼接向量；第二特征整合单元，用于通过第二全连接层对拼接向量进行特征整合处理，得到目标对象的情绪在多个情绪类型中的概率分布结果，其中，第一全连接层与第二全连接层的参数不同。

10、根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质中存储有计算机程序，其中，计算机程序被设置为运行时执行上述的情绪识别方法。

11、根据本发明实施例的另一方面，还提供了一种电子设备，电子设备包括一个或多个处理器；存储器，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现用于运行程序，其中，程序被设置为运行时执行上述的情绪识别方法。

12、在本发明实施例中，通过获取处于通话状态的目标对象的目标数据，然后将目标数据输入至目标识别模型中，通过目标识别模型得到概率分布结果，从而根据概率分布结果识别目标对象的通话情绪类型。其中，目标数据至少包括用户画像信息以及目标对象在当前通话过程中的语音信号和对话文本，用户画像信息包括目标对象的对象信息和历史通话情绪信息，概率分布结果表征目标对象的通话情绪类型在多个情绪类型中的概率分布。

13、在上述过程中，通过在目标对象在当前通话过程中的语音信号和对话文本的基础上，结合目标对象的用户画像信息对目标对象的通话情绪类型进行识别，实现了在即时通话信息的基础上，建模用户的个人性格特点、历史情感走向和情感表达方式对目标对象的通话情绪类型进行识别，从而提高了得到的概率分布结果的准确性。进一步地，通过根据概率分布结果识别目标对象的通话情绪类型，实现了对通话情绪类型的有效确定，从而提高了对目标对象在通话过程中情绪的识别准确度。

14、由此可见，本技术所提供的方案达到了根据目标对象的即时通话信息和用户画像信息识别目标对象的通话情绪类型的目的，从而实现了提高对目标对象在通话过程中情绪的识别准确度的技术效果，进而解决了相关技术中对用户通话过程中情绪的识别准确度低的技术问题。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵韡袁靖张海波王玉鑫周自横曹旭任立新廉晓丹
技术所有人：中国医学科学院阜外医院
我是此专利的发明人