一种基于情绪识别的语音提示方法及系统与流程

文档序号：30783915发布日期：2022-07-16 07:09阅读：221来源：国知局

1.本技术涉及情绪识别技术领域，尤其是涉及一种基于情绪识别的语音提示方法及系统。

背景技术：

2.绘本通常指的是图画书，即画出来的书，指一类以绘画为主，并附有少量文章的书籍。绘本机器人是一种用于阅读绘本的人工智能产品，绘本机器人通过图像识别技术和语音识别技术，对检测到的绘本内容进行识别并进行阅读。
3.针对上述相关技术，发明人发现：用户在阅读过程中，常常会出现注意力无法集中的情况，但相关技术中的绘本机器人通常只是识别出绘本内容并进行阅读，并未考虑到用户的阅读状态，进而难以根据用户的阅读状态与用户进行互动，从而不便于帮助用户更有效地投入到阅读中。

技术实现要素：

4.为了便于帮助用户更有效地投入阅读中，本技术提供一种基于情绪识别的语音提示方法及系统。
5.第一方面，本技术提供一种基于情绪识别的语音提示方法，采用如下的技术方案：一种基于情绪识别的语音提示方法，所述语音提示方法包括：采集用户的当前面部图像，根据所述当前面部图像得到用户的当前面部情绪状态；采集用户的当前语音数据，根据所述当前语音数据、上一次用户的阅读情绪状态和语义信息，得到用户的当前语音情绪状态和当前语音含义；将所述当前面部情绪状态、所述当前语音情绪状态和所述当前语音含义输入到深度学习模型，得到用户的当前阅读情绪状态和当前语义信息；以及，根据所述当前阅读情绪状态，生成相应的语音提示信息。
6.通过采用上述技术方案，在用户阅读过程中，采集用户的当前面部图像，然后根据用户的当前面部图像得到用户的当前面部情绪状态；同时，采集用户的当前语音数据，然后根据用户的当前语音数据以及上一次用户的阅读情绪状态和语义信息，得到用户的当前语音情绪状态和当前语音含义；然后将用户的当前面部情绪状态、当前语音情绪状态和当前语音含义输入到深度学习模型，得到用户的当前阅读情绪状态和当前语义信息；然后根据用户的阅读情绪状态，生成相应的语音提示信息，从而提醒用户专心阅读，帮助用户更有效地投入到阅读当中。
7.可选的，所述根据所述当前面部图像得到用户的当前面部情绪状态，包括：根据所述当前面部图像，得到用户的当前面部特征数据；以及，基于预设表情数据库，根据所述当前面部特征数据得到对应的当前面部情绪状态；其中，所述预设表情数据库包括多组面部特征数据与面部情绪状态的对应关系。
8.通过采用上述技术方案，在摄像头拍摄到用户的当前面部图像后，识别用户的当前面部特征，得到用户的当前面部特征数据；然后基于预设表情数据库，匹配和识别用户的当前面部表情，得到与当前面部特征数据相对应的当前面部情绪状态，从而便于根据用户面部表情，判断用户的当前面部情绪状态。
9.可选的，所述根据所述当前语音数据、上一次用户的阅读情绪状态和语义信息，得到用户的当前语音情绪状态和当前语音含义包括：对所述当前语音数据进行语音信号处理并提取语音特征，基于预设的声学模型、语言模型以及词典对所述语音特征进行处理，得到语音文本；根据预设词库对所述语音文本进行解析并提取文本特征，基于预设的文本语义库和文本情绪库，得到文本情绪和初始语音含义；根据预设权重规则，基于所述文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息，计算得到用户的当前语音情绪状态和当前语音含义。
10.通过采用上述技术方案，在采集到用户的当前语音数据后，对当前语音数据进行语音信号处理及语音特征提取，得到语音特征，再基于预设的声学模型、语言模型以及词典对语音特征进行处理，得到当前语音数据对应的语音文本；再根据预设词库对语音文本进行解析并提取文本特征，然后基于预设的文本语义库和文本情绪库，将文本特征与文本情绪库中的数据进行比对，得到文本情绪，并将文本情绪与文本语义库中的数据进行比对，得到初始语音含义；然后根据预设权重规则，基于文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息，计算得到用户的当前语音情绪状态和当前语音含义；通过结合用户的历史阅读情绪状态和语义信息，提高了数据结果的准确性和全面性。
11.可选的，所述语音提示方法还包括：预先训练所述深度学习模型；所述训练所述深度学习模型，具体包括：获取用户情绪集，按照预设比例将用户情绪集配置为训练情绪集和测试情绪集；其中，所述用户情绪集包括用户的历史语音情绪状态和历史面部情绪状态；对所述用户情绪集进行特征提取，得到特征结果；选择预设的深度学习模型，根据所述特征结果对所述预设的深度学习模型进行参数调整；基于所述训练情绪集对所述预设的深度学习模型进行训练，得到训练后的深度学习模型；根据所述测试情绪集对所述训练后的深度学习模型进行测试，得到深度学习模型。
12.通过采用上述技术方案，获取用户历史语音情绪和用户历史面部情绪，组成用户情绪集，并按照预设比例将用户情绪集配置为训练情绪集和测试情绪集；然后对用户情绪集进行特征提取，得到特征结果；提取后选择预设的深度学习模型，并依据提取的特征结果，基于训练情绪集对选择预设的深度学习模型进行训练，从而得到训练后的深度学习模型；然后根据测试情绪集对训练后的深度学习模型进行测试，从而生成深度学习模型；通过训练情绪集对深度学习模型进行训练以及测试情绪集对训练得到的深度学习模型进行测试，减小了模型的泛化误差，提高了生成的深度学习模型的适用性。
13.可选的，所述预设的深度学习模型包括深度神经网络模型、循环神经网络模型以
及卷积神经网络模型中的一种或几种。
14.通过采用上述技术方案，在使用用户情绪集对选择的深度学习模型进行训练时，可以根据训练结果在预设的深度学习模型中重新选择预设的深度学习模型。
15.可选的，所述根据所述当前阅读情绪状态，生成相应的语音提示信息包括：根据所述当前阅读情绪状态，将所述当前阅读情绪状态与预设情绪反馈库进行比对，得到所述语音提示信息；其中，所述预设情绪反馈库包括多组阅读情绪状态与语音反馈提示的对应关系。
16.通过采用上述技术方案，将用户的阅读情绪状态与预设情绪反馈库进行比对，得到对应的语音反馈提示，从而能够根据不同的阅读情绪状态给予用户不同的语音反馈提示，提高了语音反馈提示的多样性和适应性。
17.可选的，在所述得到用户的当前阅读情绪状态后还包括：获取预设时间段内的阅读情绪状态，统计各个阅读情绪状态对应的累计次数和累计持续时长，并生成阅读状态信息；以及，将所述阅读状态信息发送至移动终端。
18.通过采用上述技术方案，获得预设时间段内的用户所有的阅读情绪状态，然后统计各个阅读情绪状态对应的累积次数和累积持续时长，并根据各个阅读情绪状态以及各个阅读情绪状态对应的累积次数和累积持续时长生成阅读状态信息，然后将阅读状态信息发送至移动终端，从而便于监护人通过移动终端随时监督和了解正在阅读的用户的阅读状态。
19.第二方面，本技术还提供了一种基于情绪识别的语音提示系统，采用如下的技术方案：一种基于情绪识别的语音提示系统，所述语音提示系统包括：面部情绪状态生成模块，用于采集用户的当前面部图像，并根据所述当前面部图像得到用户的当前面部情绪状态；语音情绪状态生成模块，用于采集用户的当前语音数据，并根据所述当前语音数据、上一次用户的阅读情绪状态和语义信息，得到用户的当前语音情绪状态和当前语音含义；阅读情绪状态生成模块，用于将所述当前面部情绪状态、所述当前语音情绪状态和所述当前语音含义输入到深度学习模型，得到用户的当前阅读情绪状态和当前语义信息；以及，语音提示信息生成模块，用于根据所述当前阅读情绪状态，生成相应的语音提示信息。
20.第三方面，本技术提供一种计算机设备，采用如下的技术方案：一种计算机设备，包括：存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面中所述的方法。
21.第四方面，一种计算机可读存储介质，采用如下的技术方案：一种计算机可读存储介质，存储有能够被处理器加载并执行如第一方面中所述方法的计算机程序。
22.综上所述，本技术至少包括以下有益技术效果：在用户阅读过程中，通过用户的当
前面部图像得到用户的当前面部情绪状态，通过用户在阅读时的当前语音图像，并综合上一次用户的阅读情绪状态和语义信息，计算出用户的当前阅读情绪状态，然后根据当前阅读情绪状态对用户进行提醒，从而便于帮助用户更有效地投入阅读中；同时，通过四个参数，即用户的当前面部图像、当前语音状态以及上一次用户的阅读情绪状态和语义信息，得到用户的当前阅读情绪状态，相对于只通过用户的当前面部图像或当前语音数据得到用户的当前阅读情绪状态，提高了得到的当前阅读情绪状态的准确性，从而能够更有效地对用户进行提醒。
附图说明
23.图1是本技术其中一个实施例的语音提示方法的流程示意图。
24.图2是本技术又一个实施例的语音提示方法的流程示意图。
25.图3是本技术其中一个实施例的训练深度学习模型的流程示意图。
26.图4是本技术实施例的语音提示系统的结构框图。
27.图5是本技术其中一个实施例的计算机设备的结构框图。
具体实施方式
28.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图1-5及实施例，对本技术进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本技术，并不用于限定本技术。
29.本技术实施例公开了一种基于情绪识别的语音提示方法。
30.参照图1，一种基于情绪识别的语音提示方法，包括如下步骤：步骤s101，采集用户的当前面部图像，根据当前面部图像得到用户的当前面部情绪状态。
31.具体地，用户的当前面部图像可以通过摄像头的方式进行采集；在摄像头拍摄到用户的当前面部图像后，根据用户的当前面部图像识别用户的当前面部特征，进而得到用户的当前面部特征数据，其中，用户的当前面部特征包括用户当前面部的肌肉动作特征；然后基于预设表情数据库，预设表情数据库包括多组面部特征数据与面部情绪状态的对应关系，将用户当前面部特征数据与面部特征数据库中的数据进行比对，得到与当前面部特征数据相对应的当前面部情绪状态，面部情绪状态的类别可以根据实际情绪设置，例如喜悦、不开心、平静、愤怒、心不在焉、疲惫等等。
32.步骤s102，采集用户的当前语音数据，根据当前语音数据、上一次用户的阅读情绪状态和语义信息，得到用户的当前语音情绪状态和当前语音含义。
33.其中，用户的当前语音数据可以通过麦克风的方式进行采集；语音情绪状态的类别可以根据实际需求设置，例如喜悦、不开心、平静、愤怒、心不在焉、疲惫等等；阅读情绪状态的类别也可以根据实际需求设置，例如喜悦、不开心、平静、愤怒、心不在焉、疲惫等等，语音情绪状态的类别与阅读情绪状态的类别应当一致。上一次用户的阅读情绪状态和语义信息，指用户说上一句话时得到的阅读情绪状态和语义信息。例如，在用户在使用名字为luka的绘本机器人时，用户的上一句话为“luka好可爱啊”，能够得到上一次用户的阅读情绪状态为“喜悦”，上一次用户的语义信息为“luka太可爱了，很喜欢luka”。
34.需要说明的是，若为首次采集用户的当前语音数据，根据用户的当前语音数据，即可得到用户的当前语音情绪状态和当前语音含义。
35.需要进一步说明的是，步骤s101与步骤s102没有固定的先后关系。
36.步骤s103，将当前面部情绪状态、当前语音情绪状态和当前语音含义输入到深度学习模型，得到用户的当前阅读情绪状态和当前语义信息。
37.具体地，在采集到用户的当前语音数据后，对当前语音数据进行语音信号处理及语音特征提取，得到语音特征，再基于预设的声学模型、语言模型以及词典对语音特征进行处理，得到当前语音数据对应的语音文本；再根据将语音文本与词库中的数据进行比对，得到语音文本对应的文本特征；然后基于预设的文本语义库和文本情绪库，得到文本情绪和初始语音含义；然后根据预设权重规则，基于文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息，即文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息的权重关系，计算得到用户的当前语音情绪状态和当前语音含义。
38.步骤s104，根据当前阅读情绪状态，生成相应的语音提示信息。
39.具体地，基于预设情绪反馈库，将用户的当前阅读情绪状态与预设情绪反馈库中的数据进行比对，得到与当前阅读情绪状态对应的语音反馈提示，从而能够根据不同的阅读情绪状态给予用户不同的语音反馈提示，提高了语音反馈提示的多样性和适应性。例如，当孩子的当前阅读情绪状态为“疲惫”时，可以语音提醒孩子，“小朋友，我们要专心阅读哦”或“小朋友一起来把书放到下一页”；当孩子的当前阅读情绪状态为“疲惫”时，可以语音提醒孩子，“小朋友，让我们休息一会吧”。
40.上述实施方式，在用户阅读过程中，通过用户的当前面部图像和当前语音数据分别得到用户的当前面部情绪状态和当前语音情绪状态，并综合上一次用户的阅读情绪状态和语义信息，得到当前阅读情绪状态，然后根据用户的当前阅读情绪状态对用户进行语音提醒，从而便于帮助用户更有效地投入阅读中；进一步地，通过四个参数，即用户的当前面部图像、当前语音状态以及上一次用户的阅读情绪状态和语义信息，得到用户的当前阅读情绪状态，相对于只通过用户的当前面部图像或当前语音数据得到用户的当前阅读情绪状态，提高了得到的当前阅读情绪状态的准确性，从而能够更有效地对用户进行提醒。
41.参照图2，作为步骤s102的一种实施方式，根据当前语音数据、上一次用户的阅读情绪状态和语义信息，得到用户的当前语音情绪状态和当前语音含义，包括如下步骤：步骤s201，对当前语音数据进行语音信号处理并提取语音特征，基于预设的声学模型、语言模型以及词典对语音特征进行处理，得到语音文本。
42.步骤s202，根据预设词库对语音文本进行解析并提取文本特征，基于预设的文本语义库和文本情绪库，得到文本情绪和初始语音含义。
43.需要说明的是，若为首次采集用户的当前语音数据，通过步骤s201得到语音文本后，则根据预设词库对语音文本进行解析并提取文本特征，然后基于预设的文本语义库和文本情绪库，得到用户的当前语音情绪状态和当前语音含义。
44.步骤s203，根据预设权重规则，基于文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息，计算得到用户的当前语音情绪状态和当前语音含义。
45.例如，在孩子在使用名字为luka的绘本机器人时，孩子的上一句话为“luka好可爱啊”，上一次孩子的阅读情绪状态和语义信息分别为“喜悦”和“luka太可爱了，很喜欢
luka”；孩子的当前说的一句话为“我想读书”，计算得到的文本情绪为“平淡（33%）、喜悦（33%）、郁闷（33%）”，计算得到的初步语音含义为“让luka给他读书”；根据预设的权重规则，并基于当前的文本情绪“平淡（33%）、喜悦（33%）、郁闷（33%）”、初步语音含义“让luka给他读书”、上一次孩子的阅读情绪状态“喜悦”和语义信息“luka太可爱了，很喜欢luka”，从而综合计算出孩子的当前语音情绪和当前语义含义分别为“喜悦”和“想让luka给他读书”。
46.上述实施方式，在得到文本特征后，基于预设的文本语义库和文本情绪库，将文本特征与文本情绪库中的数据进行比对，得到文本情绪，并将文本情绪与文本语义库中的数据进行比对，得到初始语音含义；然后根据预设权重规则，基于文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息，即文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息的权重关系，计算得到用户的当前语音情绪状态和当前语音含义；通过结合用户的历史阅读情绪状态和语义信息，提高了数据结果的准确性和全面性。
47.参照图3，一种基于情绪识别的语音提示方法还包括：预先训练深度学习模型，训练深度学习模型具体包括如下步骤：步骤s301，获取用户情绪集，按照预设比例将用户情绪集配置为训练情绪集和测试情绪集；其中，用户情绪集包括用户的历史语音情绪状态和历史面部情绪状态。
48.其中，预设比例可以根据实际情况设置，例如，将预设比例设置为1:1。
49.步骤s302，对用户情绪集进行特征提取，得到特征结果。
50.步骤s303，选择预设的深度学习模型，根据特征结果对预设的深度学习模型进行参数调整。
51.其中，预设的深度学习模型包括深度神经网络模型、循环神经网络模型以及卷积神经网络模型中的一种或几种。在使用用户情绪集对选择的深度学习模型进行训练时，可以根据训练结果在预设的深度学习模型中重新选择预设的深度学习模型。
52.步骤s304，基于训练情绪集对预设的深度学习模型进行训练，得到训练后的深度学习模型。
53.具体的，基于训练情绪集对预设的深度学习模型进行训练，训练过程中可以调节预设的深度学习模型的参数或重新选择预设的深度学习模型，直到预设的深度学习模型输出正确的结果。
54.步骤s305，根据测试情绪集对训练后的深度学习模型进行测试，生成深度学习模型。
55.上述实施方式，获取用户历史语音情绪和用户历史面部情绪，组成用户情绪集，并按照预设比例将用户情绪集配置为训练情绪集和测试情绪集；然后对用户情绪集进行特征提取，得到特征结果；提取后选择预设的深度学习模型，并依据提取的特征结果，基于训练情绪集和测试情绪集对预设的深度学习模型分别进行训练和测试，生成深度学习模型；通过训练情绪集对深度学习模型进行训练以及测试情绪集对训练得到的深度学习模型进行测试，减小了模型的泛化误差，提高了生成的深度学习模型的适用性。
56.作为语音提示方法的进一步实施方式，在得到用户的当前阅读情绪状态后，还包括如下步骤：获取预设时间段内的阅读情绪状态，统计各个阅读情绪状态对应的累计次数和累计持续时长，并生成阅读状态信息；将阅读状态信息发送至移动终端。
57.例如，在孩子阅读绘本的过程中，绘本机器人获取孩子在10分钟的阅读时间内的所有阅读情绪状态，孩子在10分钟阅读时间内的阅读情绪状态有“不开心”、“心不在焉”、“平静”，统计出孩子“不开心”、“心不在焉”、“平静”分别为5分钟、3分钟、2分钟，基于这三种阅读情绪状态及其累计次数和累计持续时长生成阅读状态信息，然后将阅读状态信息发送给移动终端，家长看到移动终端上的阅读状态信息则能够了解孩子阅读时的情况，从而促进家长对孩子阅读绘本进行引导。
58.上述实施方式，获得预设时间段内的用户所有的阅读情绪状态，然后统计各个阅读情绪状态对应的累积次数和累积持续时长，并根据各个阅读情绪状态以及各个阅读情绪状态对应的累积次数和累积持续时长生成阅读状态信息，然后将阅读状态信息发送至移动终端，便于监护人通过移动终端随时监督和了解正在阅读的用户的阅读状态，从而便于监护人对正在阅读的用户进行引导。
59.本技术实施例还公开了一种基于情绪识别的语音提示系统。
60.参照图4，一种基于情绪识别的语音提示系统包括：面部情绪状态生成模块，用于采集用户的当前面部图像，并根据当前面部图像得到用户的当前面部情绪状态；语音情绪状态生成模块，用于采集用户的当前语音数据，并根据当前语音数据、上一次用户的阅读情绪状态和语义信息，得到用户的当前语音情绪状态和当前语音含义；阅读情绪状态生成模块，用于将当前面部情绪状态、当前语音情绪状态和当前语音含义输入到深度学习模型，得到用户的当前阅读情绪状态和当前语义信息；语音提示信息生成模块，用于根据当前阅读情绪状态，生成相应的语音提示信息。
61.作为语音提示系统的进一步实施方式，面部情绪状态生成模块包括：面部特征数据生成模块，用于根据当前面部图像，得到用户的当前面部特征数据；面部情绪状态得出模块，用于基于预设表情数据库，根据当前面部特征数据得到对应的当前面部情绪状态；其中，预设表情数据库包括多组面部特征数据与面部情绪状态的对应关系。
62.作为语音提示系统的进一步实施方式，语音情绪状态生成模块包括：语音文本生成模块，用于对当前语音数据进行语音信号处理并提取语音特征，基于预设的声学模型、语言模型以及词典对语音特征进行处理，得到语音文本；文本情绪生成模块，用于根据预设词库对语音文本进行解析并提取文本特征，基于预设的文本语义库和文本情绪库，得到文本情绪和初始语音含义；语音情绪状态计算模块，用于根据预设权重规则，基于文本情绪、初始语音含义、上一次用户的阅读情绪状态和语义信息，计算得到用户的当前语音情绪状态和当前语音含义。
63.作为语音提示系统的进一步实施方式，语音提示系统还包括：阅读状态信息反馈模块，用于根据当前阅读情绪状态，将当前阅读情绪状态与预设情绪反馈库进行比对，得到语音提示信息；其中，预设情绪反馈库包括多组阅读情绪状态与语音反馈提示的对应关系。
64.本发明的基于情绪识别的语音提示系统能够实现上述基于情绪识别的语音提示方法的任一种方法，且基于情绪识别的语音提示系统的具体工作过程可参考上述方法实施
例中的对应过程。
65.本技术实施例还公开了一种计算机设备。
66.参考图5，一种计算机设备，包括：存储器和处理器。存储器上存储有可在处理器上运行的计算机程序，处理器执行程序时实现上述的基于情绪识别的语音提示方法。
67.本技术实施例还公开了一种计算机可读存储介质。
68.一种计算机可读存储介质，存储有能够被处理器加载并执行上述的基于情绪识别的语音提示方法的计算机程序。
69.其中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用；计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、rf等等，或者上述的任意合适的组合。
70.以上均为本技术的较佳实施例，并非依此限制本技术的保护范围，本说明书（包括摘要和附图）中公开的任一特征，除非特别叙述，均可被其它等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：尚跃进李来林宋伟
技术所有人：北京物灵科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。