本发明属于语音处理领域,尤其涉及一种语音唤醒方法、装置、电子设备及存储介质。
背景技术:
1、随着科学技术的不断发展,语音控制被应用到越来越多的场景中,在通过语音控制设备或应用时,通常需要用户说出唤醒词来唤醒被控对象。相关技术中,当用户发音不准、或用户带有口音时,会导致唤醒效果大幅下降,使得被控对象唤醒难,甚至唤不醒,影响用户体验。
技术实现思路
1、鉴于相关技术存在上述技术问题,本发明实施例提供了一种语音唤醒方法、装置、电子设备及存储介质,以提升唤醒效果,优化唤醒体验。
2、第一方面,本发明实施例提供了一种语音唤醒方法,所述方法包括:
3、若检测到目标唤醒音频信息,对所述目标唤醒音频信息进行口音类型识别,得到所述目标唤醒音频信息对应的目标口音类型;
4、基于口音类型与口音唤醒模型之间的对应关系,确定与所述目标口音类型对应的目标口音唤醒模型;
5、基于所述目标口音唤醒模型对所述目标唤醒音频信息进行处理,以执行唤醒操作。
6、在一些实施方式下,在所述若检测到目标唤醒音频信息,对所述目标唤醒音频信息进行口音类型识别之前,所述方法还包括:
7、接收第一音频信息;
8、将所述第一音频信息与参考唤醒音频信息进行匹配,若匹配成功,则确定检测到所述目标唤醒音频信息,所述参考唤醒音频信息为与唤醒词对应的音频信息。
9、在一些实施方式下,所述对所述目标唤醒音频信息进行口音类型识别,得到所述目标唤醒音频信息对应的目标口音类型,包括:
10、基于预设口音分类模型,对所述目标唤醒音频进行识别,得到所述目标唤醒音频对应的所述目标口音类型,其中,所述目标口音类型为标准口音类型、方言口音类型或发音偏离型口音类型。
11、在一些实施方式下,所述对应关系中的每种口音唤醒模型,通过以下步骤获得:
12、针对每种口音唤醒模型,构建初始唤醒模型以及获取训练样本集合,其中,所述训练样本集合中的每个样本为对应口音类型下的音频信息;
13、基于每种口音类型下的训练样本集合,对对应的初始唤醒模型进行训练,得到训练好的口音唤醒模型。
14、在一些实施方式下,所述获取训练样本集合,包括:
15、获取第二音频信息;
16、将所述第二音频信息与预设口音库中的每条音频信息进行匹配,其中,所述预设口音库中包括多条带有口音标签的预设音频信息,每种口音标签对应一种口音类型;
17、若匹配结果表明所述第二音频信息与所述预设口音库中的n条预设音频信息的相似度大于或等于阈值,则将最大相似度对应的预设音频信息的口音标签作为所述第二音频信息的口音标签,n为正整数;
18、基于所述第二音频信息的口音标签,将所述第二音频信息划分到对应口音类型下的训练样本集合中。
19、在一些实施方式下,所述将所述第二音频信息与预设口音库中的每条音频信息进行匹配之后,所述方法还包括:
20、若所述匹配结果表明所述第二音频信息与所述预设口音库中的每条预设音频信息的相似度均小于所述阈值,输出针对所述预设口音库的更新确认信息,其中,所述更新确认信息用于确定所述第二音频信息的口音标签是否为新增口音标签;
21、接收响应于所述更新确认信息的反馈信息;
22、若所述反馈信息为确认所述第二音频信息的口音标签为新增口音标签,获取所述第二音频信息对应的口音标签,并将所述第二音频信息以及对应的口音标签添加至所述预设口音库。
23、在一些实施方式下,在所述对所述目标唤醒音频信息进行口音类型识别,得到所述目标唤醒音频信息对应的目标口音类型之后,所述方法还包括:
24、确定与所述目标口音类型对应的目标语音识别模型,以通过所述目标语音识别模型对接收到的语音指令进行处理。
25、第二方面,本发明实施例提供了一种语音唤醒装置,包括:
26、口音识别模块,用于若检测到目标唤醒音频信息,对所述目标唤醒音频信息进行口音类型识别,得到所述目标唤醒音频信息对应的目标口音类型;
27、模型确定模块,用于基于口音类型与口音唤醒模型之间的对应关系,确定与所述目标口音类型对应的目标口音唤醒模型;
28、处理模块,用于基于所述目标口音唤醒模型对所述目标唤醒音频信息进行处理,以执行唤醒操作。
29、第三方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行程序时实现第一方面任一实施方式所述的方法。
30、第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面任一实施方式所述方法的步骤。
31、本发明实施例提供的一种或者多种技术方案,至少实现了如下技术效果或者优点:
32、本说明书实施例提供的语音唤醒方法,在检测到目标唤醒音频信息时,对目标唤醒音频信息进行口音类型识别,得到目标唤醒音频信息对应的目标口音类型;基于口音类型与口音唤醒模型之间的对应关系,确定与目标口音类型对应的目标口音唤醒模型;基于目标口音唤醒模型对目标唤醒音频信息进行处理,以执行唤醒操作。上述方案中,通过识别目标唤醒音频信息的口音类型,并针对不同的口音类型采用不同的唤醒模型来对目标唤醒音频信息进行处理,能够有效解决由于口音不标准所导致的难唤醒问题,有效提升了唤醒效果,优化了唤醒体验。
1.一种语音唤醒方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,在所述若检测到目标唤醒音频信息,对所述目标唤醒音频信息进行口音类型识别之前,所述方法还包括:
3.如权利要求1所述的方法,其特征在于,所述对所述目标唤醒音频信息进行口音类型识别,得到所述目标唤醒音频信息对应的目标口音类型,包括:
4.如权利要求1所述的方法,其特征在于,所述对应关系中的每种口音唤醒模型,通过以下步骤获得:
5.如权利要求4所述的方法,其特征在于,所述获取训练样本集合,包括:
6.如权利要求5所述的方法,其特征在于,所述将所述第二音频信息与预设口音库中的每条音频信息进行匹配之后,所述方法还包括:
7.如权利要求1所述的方法,其特征在于,在所述对所述目标唤醒音频信息进行口音类型识别,得到所述目标唤醒音频信息对应的目标口音类型之后,所述方法还包括:
8.一种语音唤醒装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行程序时实现如权利要求1-7中任一所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。