情绪识别模型训练、语音交互方法、装置、设备及介质与流程

文档序号：29089102发布日期：2022-03-02 02:15阅读：133来源：国知局

1.本发明涉及预测模型技术领域，尤其涉及一种情绪识别模型训练、语音交互方法、装置、设备及介质。

背景技术：

2.随着人工智能技术的发展，情绪识别成为了自然语言处理中一个非常有趣热门的研究问题。例如，在人机交互的场景中，往往需要根据人当下的情绪调整机器的互动方式，比如回复的语言，动作等。
3.现有技术中，针对情绪识别往往是通过机器学习和深度学习的方法对文本进行情绪挖掘，但是情绪识别往往具有主观性，也即对机器学习模型或者深度学习模型进行训练的数据不同，会影响情绪识别的结果，进而导致最终情绪识别结果的准确率较低。

技术实现要素：

4.本发明实施例提供一种情绪识别模型训练、语音交互方法、装置、设备及介质，以解决现有技术中情绪识别准确率较低的问题。
5.一种情绪识别模型训练方法，包括：
6.获取待识别文本集；所述待识别文本集中包含至少一个待识别文本；其中，一个所述待识别文本关联一个样本情绪标签以及样本情绪等级标签；
7.将所述待识别文本输入至包含初始参数的预设识别模型中，以通过所述预设识别模型确定与所述待识别文本对应的样本输出向量；
8.通过所述预设识别模型根据所述样本输出向量，确定与所述待识别文本对应的分类输出向量以及预测情绪标签；
9.通过所述预设识别模型根据所述样本输出向量以及分类输出向量，确定与所述待识别文本对应的预测情绪等级标签；
10.根据所述样本情绪标签、预测情绪标签、样本情绪等级标签以及预测情绪等级标签，确定所述预设识别模型的预测损失值；
11.在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设识别模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设识别模型记录为情绪识别模型。
12.一种语音交互方法，包括：
13.获取目标用户的目标语音数据，并对所述目标语音数据进行语音识别，得到与所述目标语音数据对应的目标文本；
14.将所述目标文本输入至情绪识别模型中，以通过所述情绪识别模型对所述目标文本进行情绪识别，得到与所述目标文本对应的情绪识别结果以及情绪等级结果；所述情绪识别模型是根据上述情绪识别模型训练方法得到的；
15.根据所述目标文本、情绪识别结果以及情绪等级结果，生成回复语音数据，并将所
述回复语音数据发送至所述目标用户。
16.一种情绪识别模型训练装置，包括：
17.待识别文本获取模块，用于获取待识别文本集；所述待识别文本集中包含至少一个待识别文本；其中，一个所述待识别文本关联一个样本情绪标签以及样本情绪等级标签；
18.文本处理模块，用于将所述待识别文本输入至包含初始参数的预设识别模型中，以通过所述预设识别模型确定与所述待识别文本对应的样本输出向量；
19.情绪预测模块，用于通过所述预设识别模型根据所述样本输出向量，确定与所述待识别文本对应的分类输出向量以及预测情绪标签；
20.情绪等级预测模块，用于通过所述预设识别模型根据所述样本输出向量以及分类输出向量，确定与所述待识别文本对应的预测情绪等级标签；
21.损失确定模块，用于根据所述样本情绪标签、预测情绪标签、样本情绪等级标签以及预测情绪等级标签，确定所述预设识别模型的预测损失值；
22.模型训练模块，用于在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设识别模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设识别模型记录为情绪识别模型。
23.一种语音交互装置，包括：
24.语音数据获取模块，用于获取目标用户的目标语音数据，并对所述目标语音数据进行语音识别，得到与所述目标语音数据对应的目标文本；
25.情绪识别模块，用于将所述目标文本输入至情绪识别模型中，以通过所述情绪识别模型对所述目标文本进行情绪识别，得到与所述目标文本对应的情绪识别结果以及情绪等级结果；所述情绪识别模型是根据上述情绪识别模型训练方法得到的；
26.语音数据生成模块，用于根据所述目标文本、情绪识别结果以及情绪等级结果，生成回复语音数据，并将所述回复语音数据发送至所述目标用户。
27.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述情绪识别模型训练方法，或所述处理器执行所述计算机程序时实现上述语音交互方法。
28.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述情绪识别模型训练方法，或所述计算机程序被处理器执行时实现上述语音交互方法。
29.上述情绪识别模型训练、语音交互方法、装置、设备及介质，该情绪识别模型训练方法通过将对待识别文本进行情绪分类时得到的分类输出向量，以及文本处理模块对待识别文本进行向量转换得到的样本输出向量，对待识别的情绪等级进行评定，如此情绪等级可以学习到情绪类别的特征，进而提高了对待识别文本进行情绪等级预测的准确率，从而使得情绪识别模型的训练效率更高，准确率更高。
附图说明
30.为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图
获得其他的附图。
31.图1是本发明一实施例中情绪识别模型训练方法的一应用环境示意图；
32.图2是本发明一实施例中情绪识别模型训练方法的一流程图；
33.图3是本发明一实施例中情绪识别模型训练方法中步骤s30的一流程图；
34.图4是本发明一实施例中情绪识别模型训练方法中步骤s302的一流程图；
35.图5是本发明一实施例中情绪识别模型训练装置的一原理框图；
36.图6是本发明一实施例中计算机设备的一示意图。
具体实施方式
37.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
38.本发明实施例提供的情绪识别模型训练方法，该情绪识别模型训练方法可应用如图1所示的应用环境中。具体地，该情绪识别模型训练方法应用在情绪识别模型训练系统中，该情绪识别模型训练系统包括如图1所示的客户端和服务器，客户端与服务器通过网络进行通信，用于解决现有技术中情绪识别准确率较低的问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
39.在一实施例中，如图x所示，提供一种监控数据配置方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：
40.s10：获取待识别文本集；所述待识别文本集中包含至少一个待识别文本；其中，一个所述待识别文本关联一个样本情绪标签以及样本情绪等级标签。
41.可以理解地，待识别文本可以通过采集如智能机器人中的语音交互文本，亦或者爬取不同平台中的文本数据得到，在本实施例中，待识别文本优选为英文文本。样本情绪标签为通过人工标注得到的，例如，假设待识别文本为语音交互文本，则与该待识别文本对应的样本情绪标签即为说话方(如用户)当下的情绪。样本情绪等级标签是指该待识别文本对应的样本情绪标签对应的情绪的级别，例如，假设样本情绪等级标签指示为2级，样本情绪标签为幽默，则可以表征该待识别文本中表征的情绪为幽默情绪，且幽默情绪的级别为2级。进一步地，该样本情绪等级标签可以以设定等级次序进行确认，例如1级幽默代表该待识别文本中的幽默情绪较弱，5级幽默代表该待识别文本中的幽默情绪较强，如此可以更好的反应该待识别文本当下的情绪，以及情绪程度。
42.s20：将所述待识别文本输入至包含初始参数的预设识别模型中，以通过所述预设识别模型确定与所述待识别文本对应的样本输出向量。
43.可以理解地，本实施例中提出的预设识别模型用于对待识别文本进行情绪类别预测以及情绪等级判定。其中，预设识别模型包括文本处理模块，情绪预测模块以及情绪等级
评定模块。文本处理模块用于对待识别文本进行向量转换，使得情绪预测模块或者情绪等级评定模块可以识别待识别文本中的情绪特征。情绪预测模块用于对待识别文本进行情绪分类，也即确定待识别文本中的情绪特征具体属于哪一类型的情绪(例如，幽默，生气等)。情绪等级评定模块用于判定待识别文本中的情绪程度，例如在待识别文本为幽默情绪类型时，情绪等级评定模块可以确定待识别文本的幽默程度。
44.可以理解地，预设识别模型中的文本处理模块是基于bert模型进行构建的，但是与bert模型不同之处在于，本实施例的文本处理模块添加了扰动嵌入层，也即通过对待识别文本增加微小的扰动，使得预设识别模型的损失提高，进而通过损失对预设识别模型的初始参数进行优化，最终训练完成的预设识别模型可以更加准确的将不同的情绪类型区分，也可以将同一类型的情绪区分为不同的情绪级别。
45.进一步地，文本处理模块用于将待识别文本转换为样本输出向量。具体地，在获取待识别文本以及预设识别模型之后，将待识别文本输入至预设识别模型，进而通过预设识别模型中的文本处理模块对待识别文本进行文本向量转换，进而生成与待识别文本对应且预设识别模型中的情绪预测模块或者情绪等级评定模块可以识别的样本输出向量。
46.s30：通过所述预设识别模型根据所述样本输出向量，确定与所述待识别文本对应的分类输出向量以及预测情绪标签。
47.可以理解地，预设识别模型中的情绪预测模块具有双向神经网络以及分类网络，双向神经网路可以学习到样本输出向量中与待识别文本的各字词对应的上下文信息，如此可以提高情绪预测的准确率；分类网络用于根据双向神经网络输出的向量对待识别文本的情绪类别进行分类，进而得到预测情绪标签。其中，预测情绪标签即为情绪预测模块预测出待识别文本的情绪，例如幽默情绪、生气情绪，该预测情绪标签与样本情绪标签可能相同也可能不同。
48.具体地，在通过预设识别模型的文本处理模块对待识别文本进行文本向量转换并得到样本输出向量之后，将样本输出向量输入至情绪预测模块中，进而通过情绪预测模块中的双向神经网络以及分类网络确定与待识别文本对应的预测情绪标签，以及分类输出向量。其中，分类输出向量是情绪预测模块对样本输出向量进行向量处理得到。
49.s40：通过所述预设识别模型根据所述样本输出向量以及分类输出向量，确定与所述待识别文本对应的预测情绪等级标签。
50.可以理解地，在情绪预测模块根据样本输出向量进行情绪预测的过程中会生成用于情绪分类的分类输出向量，进而在确定待识别文本中的预测情绪等级标签时可以运用该分类输出向量以及样本输出向量进行预测，如此可以提高情绪等级预测的准确率。
51.具体地，在通过所述情绪预测模块根据所述样本输出向量，确定与所述待识别文本对应的预测情绪标签以及分类输出向量之后，获取情绪预测模块基于样本输出向量得到的分类输出向量，进而通过情绪等级评定模块根据样本输出向量以及分类输出向量，确定与待识别文本对应的预测情绪等级标签。
52.s50：根据所述样本情绪标签、预测情绪标签、样本情绪等级标签以及预测情绪等级标签，确定所述预设识别模型的预测损失值。
53.具体地，在确定与待识别文本对应的预测情绪标签以及预测情绪等级标签之后，根据样本情绪标签以及预测情绪标签可以确定情绪标签预测损失，根据样本情绪等级标签
以及预测情绪等级标签确定情绪等级标签预测损失，进而将情绪标签预测损失以及情绪等级标签预测损失线性叠加，得到预设识别模型的预测损失值。
54.s60：在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设识别模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的所述预设识别模型记录为情绪识别模型。
55.可以理解地，该收敛条件可以为预测损失值小于设定阈值的条件，也即在预测损失值小于设定阈值时，停止训练；收敛条件还可以为预测损失值经过了10000次计算后值为很小且不会再下降的条件，也即预测损失值经过10000次计算后值很小且不会下降时，停止训练，将收敛之后的所述预设识别模型记录为情绪识别模型。
56.进一步地，根据所述样本情绪标签、预测情绪标签、样本情绪等级标签以及预测情绪等级标签，确定所述预设识别模型的预测损失值之后，在预测损失值未达到预设的收敛条件时，根据该预测损失值调整预设识别模型的初始参数，并将该待识别文本重新输入至调整初始参数后的预设识别模型中，以在该待识别文本的预测损失值达到预设的收敛条件时，选取待识别文本集中另一个待识别文本，并执行上述步骤s30至s60并得到与该待识别文本对应的预测损失值，并在该预测损失值未达到预设的收敛条件时，根据该预测损失值再次调整预设识别模型的初始参数，使得该待识别文本的预测损失值达到预设的收敛条件。
57.如此，在通过待识别文本集中所有待识别文本对预设识别模型进行训练之后，使得预设识别模型输出的结果可以不断向准确地结果靠拢，让识别准确率越来越高，直至所有待识别文本的预测损失值均达到预设的收敛条件时，将收敛之后的所述预设识别模型记录为情绪识别模型。
58.在本实施例中，通过将对待识别文本进行情绪分类时得到的分类输出向量，以及文本处理模块对待识别文本进行向量转换得到的样本输出向量，对待识别的情绪等级进行评定，如此情绪等级可以学习到情绪类别的特征，进而提高了对待识别文本进行情绪等级预测的准确率，从而使得情绪识别模型的训练效率更高，准确率更高。
59.在一实施例中，所述获取待识别文本集，包括：
60.获取待训练文本集；所述训练文本集中包含至少一个待训练文本。
61.可以理解地，待训练文本集中的待训练文本可以通过采集如智能机器人中的语音交互文本，亦或者爬取不同平台中的文本数据得到。
62.获取预设文本词典；所述预设文本词典中包括至少一个基础文本字词以及与所述基础文本字词对应的字词关联表。
63.可以理解地，预设文本词典可以是如python的nltk模块中的wordnet词典。在该预设文本词典中包括至少一个基础文本字词以及与基础文本字词对应的字词关联表。示例性地，假设待训练文本为英文文本，基础文本字词可以为如be，与其对应的字词关联表中包括am，is，are等字词。也即，基础文本字词是最基础的形态的字词，与其关联的字词关联表中的字词是该基础文本字词通过变换得到的复杂字词，例如英文字词中的形容词修饰变换，副词修饰变换等等。
64.对所述待训练文本进行分词处理，得到与所述待训练文本对应的至少一个待训练文本字词。
65.可以理解地，分词处理可以采用如结巴分词，通过常用词典分词，或其它基于神经网络构建的分词模型等。针对于一个待训练文本，其包含多个字词，因此在对待训练文本进行分词处理之后，得到的每一个字词即为待训练文本字词。
66.自所述预设文本词典中查询所述待训练文本字词，并将与所述待训练文本字词所属字词关联表对应的基础文本字词记录为待替换字词。
67.具体地，在对所述待训练文本进行分词处理，得到与所述待训练文本对应的至少一个待训练文本字词之后，从预设文本词典中查询待训练文本字词，假设该待训练文本字词与任意一个基础文本字词相匹配，则直接将该相匹配的基础文本字词记录为待替换字词，亦或者不用对该待训练文本字词进行替换(由于该待训练文本字词与基础文本字词匹配表征了该待训练文本字词的字词形态已经是最基础的形态)；
68.进一步地，若该待训练文本字词与所有基础文本字词均不匹配，则从与各基础文本字词关联的字词关联表中进行查询，进而将在具有与待训练文本字词相匹配的字词的字词关联表对应的基础文本字词记录为待替换字词；
69.进一步地，若待训练文本字词与预设文本词典中的所有字词(包括所有的基础文本字词，以及所有字词关联表中的字词)均不匹配，则提示异常，进而对该待训练文本字词进行字词校验，确定该待训练文本字词是否为对待训练文本进行分词处理过程中发生错误产生的结果，从而对待训练文本字词进行修正。
70.将所述待训练文本字词替换为所述待替换字词，并将替换后的待训练文本记录为所述待识别文本，将所有所述待识别文本记录为所述待识别文本集。
71.具体地，在自所述预设文本词典中查询所述待训练文本字词，并将与所述待训练文本字词所属字词关联表对应的基础文本字词记录为待替换字词之后，将待训练文本字词替换为待替换字词，此时待训练文本中的所有字词均为基础文本字词，进而将替换后的待训练文本记录为待识别文本，将所有待识别文本记录为待识别文本集。
72.在本实施例中，通过预设文本词典对各待训练文本字词进行词干还原，使得各待训练文本字词具有最基础的意义，进而在后续对待识别文本进行情绪识别时，减少复杂字词对情绪识别的影响，从而提高了情绪识别的准确率。
73.在一实施例中，如图3所示，所述预设识别模型中包括文本处理模块；步骤s30中，也即所述将所述待识别文本输入至包含初始参数的预设识别模型中，以通过所述预设识别模型确定与所述待识别文本对应的样本输出向量，包括：
74.s301：对所述待识别文本进行分词处理，得到与所述待识别文本对应的至少一个待识别文本字词。
75.可以理解地，分词处理可以采用如结巴分词，通过常用词典分词，或其它基于神经网络构建的分词模型等。针对一个待识别文本其包含多个字词，因此在对待识别文本进行分词处理之后，得到的每一个字词即为待识别文本字词。
76.s302：通过所述文本处理模块中的向量嵌入单元对所述待识别文本字词进行词向量嵌入，得到与各所述待识别文本字词对应的样本词向量。
77.可以理解地，词向量嵌入即为将待识别文本字词转换为词向量的方式，在本实施例中，对每一个待识别文本字词均进行四个不同方式的词向量嵌入，从而为每一个待识别文本增加了对抗扰动，该对抗扰动对于人工识别而言是几乎一样的，而对于预设识别模型
而言其可以识别出增加对抗扰动后的待识别文本的特征与未添加对抗扰动的待识别文本的特征的区别，提高了预设识别模型的预测损失，从而使得预设识别模型可以更加准确区分每一个不同的情绪的特征之间的微小差别，提高了预设识别模型的识别准确率。
78.在一实施例中，如图4所示，步骤s302中，也即所述通过所述文本处理模块中的向量嵌入单元对所述待识别文本字词进行词向量嵌入，得到与各所述待识别文本字词对应的样本词向量，包括：
79.s3021：对所述待识别文本字词进行标记嵌入，得到与所述待识别文本字词对应的标记嵌入向量。
80.可以理解地，标记嵌入即为将每一个待识别文本字词转换为固定维度的词向量的方法。示例性地，固定维度为768维。具体地，在对所述待识别文本进行分词处理，得到与所述待识别文本对应的至少一个待识别文本字词之后，对待识别文本字词进行标记嵌入，进而得到与各待识别文本字词对应的固定维度的标记嵌入向量。
81.s3022：对所述待识别文本字词进行分段嵌入，得到与所述待识别文本字词对应的分段嵌入向量。
82.可以理解地，在待识别文本中可能包含一个句子，两个句子或者三个句子等，因此在对待识别文本进行向量转换时，需要对每一个句子进行区分，因此分段嵌入即为用于区分待识别文本中的不同句子的嵌入方法。具体地，在对所述待识别文本进行分词处理，得到与所述待识别文本对应的至少一个待识别文本字词之后，通过如[cls]和[sep]区分待识别文本中的句子，例如：[cls]句子1的各待识别文本字词[sep]句子2的各待识别文本字词，并对各待识别文本字词进行分段嵌入，最终得到与各待识别文本字词对应的分段嵌入向量。
[0083]
s3023：对所述待识别文本字词进行位置嵌入，得到与所述待识别文本字词对应的位置嵌入向量。
[0084]
可以理解地，在待识别文本中可能包含相同的字词，但是不同的字词在不同的位置上会存在不同的意义，进而导致不同位置的待识别文本字词对应的特征也不相同，因此通过位置嵌入的方式，可以使得每个待识别文本字词具有在其位置上的特征，也即将前后的待识别文本字词的特征可以关联学习。具体地，在对所述待识别文本进行分词处理，得到与所述待识别文本对应的至少一个待识别文本字词之后，对各待识别文本字词进行位置嵌入，从而令与待识别文本字词对应的位置嵌入向量中具有与其对应的文本位置上的特征。
[0085]
s3024：对所述待识别文本字词进行扰动嵌入，得到与所述待识别文本字词对应的扰动嵌入向量。
[0086]
可以理解地，在本实施例中提出扰动嵌入，也即在将待识别文本字词转换为向量过程中添加扰动特征，在人为方式进行情绪识别时无法准确识别该扰动特征，而对于预设识别模型在经过训练后可以自动识别出是否添加扰动特征，进而提升了预设识别模型的情绪特征识别能力，从而提高了情绪识别的准确率。
[0087]
s3025：根据与同一所述待识别文本字词对应的所述标记嵌入向量、分段嵌入向量、位置嵌入向量以及扰动嵌入向量，确定与该待识别文本字词对应的样本词向量。
[0088]
具体地，在确定与各待识别文本字词对应的标记嵌入向量、分段嵌入向量、位置嵌入向量以及扰动嵌入向量之后，将属于同一待识别文本字词的标记嵌入向量、分段嵌入向量、位置嵌入向量以及扰动嵌入向量进行线性叠加，进而得到与各待识别文本字词对应的
样本词向量。
[0089]
s303：通过所述文本处理模块中的向量处理单元对所述样本词向量进行词向量处理，得到与所述待识别文本对应的样本输出向量。
[0090]
可以理解地，本实施例中的向量处理单元可以采用如bert模型，或者albert模型等语言表征模型，在通过所述文本处理模块中的向量嵌入单元对所述待识别文本字词进行词向量嵌入，得到与各所述待识别文本字词对应的样本词向量之后，通过文本处理模块中的向量处理单元对样本词向量进行词向量处理，也即融合样本词向量中的上下文信息的语言表征，使得最终生成的样本输出向量在输入至情绪预测模块进行情绪识别时，可以学习到待识别文本中的上下文语义特征，提高情绪预测的准确率。
[0091]
在一实施例中，所述预设识别模型中包括情绪预测模块；步骤s40中，也即所述通过所述预设识别模型根据所述样本输出向量，确定与所述待识别文本对应的分类输出向量以及预测情绪标签，包括：
[0092]
通过所述情绪预测模块中的双向神经网络对所述样本输出向量进行向量信息处理，得到与所述样本输出向量对应的隐藏层向量。
[0093]
可以理解地，双向神经网络即为前向lstm(long short-term memory，长短期记忆网络)网络以及后向lstm网络。前向lstm网络用于学习样本输出向量中各词向量之间的正向上下文序列关系；后向lstm网络用于学习样本输出向量中各词向量之间的反向上下文序列关系，如此可以提高情绪识别的准确率。
[0094]
具体地，在将所述待识别文本输入至预设识别模型中，以通过所述文本处理模块确定与所述待识别文本对应的样本输出向量之后，通过情绪预测模块中的双向神经网络对样本输出向量进行向量信息处理，得到与样本输出向量中各字词向量一一对应的正向隐藏层向量以及反向隐藏层向量，进而根据与各字词向量一一对应的正向隐藏层向量以及反向隐藏层向量，生成隐藏层向量。
[0095]
通过所述情绪预测模块中分类网络根据所述隐藏层向量，得到与所述隐藏层向量对应的分类输出向量。
[0096]
根据所述分类输出向量确定所述预测情绪标签。
[0097]
具体地，在通过所述情绪预测模块中的双向神经网络对所述样本输出向量进行向量信息处理，得到与所述样本输出向量对应的隐藏层向量，通过情绪预测模块中的分类网络确定与样本输出向量对应的情绪类别概率，也即分类输出向量。此时的分类输出向量即表征了待识别属于每一种情绪类型的概率，进而将概率最高的情绪类型确定为预测情绪标签，例如假设待识别文本属于幽默类型的概率最高，进而预测情绪标签即为幽默情绪标签。
[0098]
在一实施例中，提出一种语音交互方法，以该方法应用在图1中的服务器为例进行说明，该方法包括如下步骤：
[0099]
获取目标用户的目标语音数据，并对所述目标语音数据进行语音识别，得到与所述目标语音数据对应的目标文本。
[0100]
可以理解地，目标语音数据可以为目标用户在使用智能语音系统时的语音数据，例如目标用户在与智能机器人对话时，即可采集目标用户的语音数据，进而对目标语音数据进行语音识别，例如通过隐马尔可夫法，神经网络模型等对目标语音数据进行语音识别，进而将目标语音数据转换为文本数据，从而得到目标文本。
[0101]
将所述目标文本输入至情绪识别模型中，以通过所述情绪识别模型对所述目标文本进行情绪识别，得到与所述目标文本对应的情绪识别结果以及情绪等级结果；所述情绪识别模型是根据上述情绪识别模型训练方法得到的。
[0102]
具体地，在获取目标用户的目标语音数据，并对所述目标语音数据进行语音识别，得到与所述目标语音数据对应的目标文本之后，将目标文本输入至情绪识别模型中，以通过情绪识别模型中的文本处理模块确定与目标文本对应的文本输出向量，通过情绪识别模型中的情绪预测模块根据文本输出向量确定与目标文本对应的情绪识别结果，通过情绪识别模型中的情绪等级评定模块根据文本输出向量以及情绪识别结果确定情绪等级结果。
[0103]
根据所述目标文本、情绪识别结果以及情绪等级结果，生成回复语音数据，并将所述回复语音数据发送至所述目标用户。
[0104]
具体地，在将所述目标文本输入至情绪识别模型中，以通过所述情绪识别模型对所述目标文本进行情绪识别，得到与所述目标文本对应的情绪识别结果以及情绪等级结果之后，先确定与目标文本对应的回答文本，进而根据情绪识别结果以及情绪等级结果对回答文本进行调整，进而根据调整后的回答文本生成回复语音数据，并将回复语音数据发送至目标用户。
[0105]
在本实施例中，通过情绪识别模型根据目标用户的目标语音数据对应的目标文本进行情绪识别，以确定目标用户当前的情绪状态，进而根据情绪识别结果和情绪等级结果，调整回复文本，进而通过调整的回复文本生成回复语音数据可以更符合目标用户当前的情绪状态，提高语音交互的准确性。
[0106]
应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。
[0107]
在一实施例中，提供一种情绪识别模型训练装置，该情绪识别模型训练装置与上述实施例中情绪识别模型训练方法一一对应。如图5所示，该情绪识别模型训练装置包括待识别文本获取模块10、文本处理模块20、情绪预测模块30、情绪等级预测模块40、损失确定模块50和模型训练模块60。各功能模块详细说明如下：
[0108]
待识别文本获取模块10，用于获取待识别文本集；所述待识别文本集中包含至少一个待识别文本；其中，一个所述待识别文本关联一个样本情绪标签以及样本情绪等级标签；
[0109]
文本处理模块20，用于将所述待识别文本输入至包含初始参数的预设识别模型中，以通过所述预设识别模型确定与所述待识别文本对应的样本输出向量；
[0110]
情绪预测模块30，用于通过所述预设识别模型根据所述样本输出向量，确定与所述待识别文本对应的分类输出向量以及预测情绪标签；
[0111]
情绪等级预测模块40，用于通过所述预设识别模型根据所述样本输出向量以及分类输出向量，确定与所述待识别文本对应的预测情绪等级标签；
[0112]
损失确定模块50，用于根据所述样本情绪标签、预测情绪标签、样本情绪等级标签以及预测情绪等级标签，确定所述预设识别模型的预测损失值；
[0113]
模型训练模块60，用于在所述预测损失值未达到预设的收敛条件时，迭代更新所述预设识别模型中的初始参数，直至所述预测损失值达到所述收敛条件时，将收敛之后的
所述预设识别模型记录为情绪识别模型。
[0114]
关于情绪识别模型训练装置的具体限定可以参见上文中对于情绪识别模型训练方法的限定，在此不再赘述。上述情绪识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0115]
在一实施例中，提供一种语音交互装置，包括：
[0116]
语音数据获取模块，用于获取目标用户的目标语音数据，并对所述目标语音数据进行语音识别，得到与所述目标语音数据对应的目标文本；
[0117]
情绪识别模块，用于将所述目标文本输入至情绪识别模型中，以通过所述情绪识别模型对所述目标文本进行情绪识别，得到与所述目标文本对应的情绪识别结果以及情绪等级结果；所述情绪识别模型是根据上述情绪识别模型训练方法得到的；
[0118]
语音数据生成模块，用于根据所述目标文本、情绪识别结果以及情绪等级结果，生成回复语音数据，并将所述回复语音数据发送至所述目标用户。
[0119]
关于语音交互装置的具体限定可以参见上文中对于语音交互方法的限定，在此不再赘述。上述语音交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。
[0120]
在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中情绪识别模型训练方法或语音交互方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种情绪识别模型训练方法，或该计算机程序被处理器执行时以实现一种语音交互方法。
[0121]
在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的情绪识别模型训练方法，或处理器执行计算机程序时实现上述实施例中的语音交互方法。
[0122]
在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的情绪识别模型训练方法，或计算机程序被处理器执行时实现上述实施例中的语音交互方法。
[0123]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括
随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0124]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。
[0125]
以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马建
技术所有人：中国平安人寿保险股份有限公司
我是此专利的发明人

上一篇：一种冷却液温度传感器装配线的制作方法
上一篇：MAGEA4T细胞受体的制作方法