语音识别模型的调整方法、装置与电子设备与流程

文档序号：35423161发布日期：2023-09-13 11:52阅读：58来源：国知局

本申请涉及语音识别领域，具体而言，涉及一种语音识别模型的调整方法、装置、计算机可读存储介质、处理器与电子设备。

背景技术：

1、命令词识别是语音识别的一个细分方向，命令词识别一般是离线的，计算量要求尽量小的，一般用于终端设备的控制(包括唤醒)。在较为复杂的情况下，命令词识别极易受到麦克风性能、外界环境噪声等客观音素的影响，从而产生不可靠的识别结果，其中最重要的就是误识别现象，在多命令词识别模型中尤为常见。

2、因此，现有技术中的命令词识别模型误识别率较高的问题亟待解决。

3、在背景技术部分中公开的以上信息只是用来加强对本文所描述技术的背景技术的理解，因此，背景技术中可能包含某些信息，这些信息对于本领域技术人员来说并未形成在本国已知的现有技术。

技术实现思路

1、本申请的主要目的在于提供一种语音识别模型的调整方法、装置、计算机可读存储介质、处理器与电子设备，以解决现有技术中的命令词识别模型误识别率较高的问题。

2、根据本发明实施例的一个方面，提供了一种语音识别模型的调整方法，包括：获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据，所述第一初始音频数据不包括命令词，所述第二初始音频数据包括所述命令词；对所述第一初始音频数据进行处理，得到音频处理数据，所述音频处理数据与所述第一初始音频数据不同；采用初始语音识别模型对所述音频处理数据进行命令词识别，得到目标识别结果，所述目标识别结果用于表征对应的所述音频处理数据包括所述命令词，所述目标识别结果对应的所述音频处理数据构成负样本数据；根据至少部分所述第二初始音频数据和所述负样本数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型。

3、可选地，所述初始语音识别模型包括初始生成部分和初始输出层，根据至少部分所述第二初始音频数据和所述负样本数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型，包括：根据所述初始生成部分，得到初始重构部分，所述初始重构部分和所述初始生成部分构成初始自编码器；采用至少部分所述第二初始音频数据对所述初始重构部分进行训练，得到第一目标重构部分；根据至少部分所述第二初始音频数据和所述负样本数据对所述初始生成部分、所述第一目标重构部分和所述初始输出层进行训练，得到目标语音识别模型。

4、可选地，根据至少部分所述第二初始音频数据和所述负样本数据对所述初始生成部分、所述第一目标重构部分和所述初始输出层进行训练，得到目标语音识别模型，包括：根据至少部分所述第二初始音频数据和所述负样本数据对所述初始生成部分、所述第一目标重构部分和所述初始输出层进行训练，得到目标生成部分、目标输出层和第二目标重构部分；删除所述第二目标重构部分，得到所述目标语音识别模型，所述目标语音识别模型包括所述目标生成部分和所述目标输出层。

5、可选地，根据至少部分所述第二初始音频数据和所述负样本数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型，包括：将所述负样本数据中的所述音频处理数据识别成文本，得到文本数据，所述音频处理数据和所述文本数据构成训练数据；采用至少部分所述第二初始音频数据和所述负样本训练数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型。

6、可选地，对所述第一初始音频数据进行处理，得到音频处理数据，包括：对所述第一初始音频数据添加场景特征，得到所述音频处理数据，所述场景特征包括以下至少之一：环境噪声、速率扰动、混响。

7、可选地，对所述第一初始音频数据添加场景特征，得到所述音频处理数据，包括：截取所述第一初始音频数据的部分，得到第一初始子音频；对所述第一初始子音频添加所述场景特征，得到所述音频处理数据。

8、可选地，所述第一初始音频数据有多条，对所述第一初始音频数据进行处理，得到音频处理数据，包括：分别截取至少两条所述第一初始音频数据的部分，得到多个第二初始子音频数据；将多个所述第二初始子音频数据进行叠加，得到所述音频处理数据。

9、可选地，在获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据之后，采用初始语音识别模型对所述音频处理数据进行命令词识别之前，所述方法还包括：根据所述第二初始音频数据，构建所述初始语音识别模型。

10、根据本发明实施例的另一方面，还提供了一种语音识别模型的调整装置，包括：获取单元，用于获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据，所述第一初始音频数据不包括命令词，所述第二初始音频数据包括所述命令词；处理单元，用于对所述第一初始音频数据进行处理，得到音频处理数据，所述音频处理数据与所述第一初始音频数据不同；识别单元，用于采用初始语音识别模型对所述音频处理数据进行命令词识别，得到目标识别结果，所述目标识别结果用于表征对应的所述音频处理数据包括所述命令词，所述目标识别结果对应的所述音频处理数据构成负样本数据；训练单元，用于根据至少部分所述第二初始音频数据和所述负样本数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型。

11、根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行任意一种所述的方法。

12、根据本发明实施例的再一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行任意一种所述的方法。

13、根据本发明实施例的另一方面，还提供了一种电子设备，包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行任意一种所述的方法。

14、在本发明实施例中，首先，获取语音数据库中的音频数据，得到不包括命令词的第一初始音频数据和包括命令词的第二初始音频数据，然后，对第一初始音频数据进行处理，得到与第一初始音频数据不同的音频处理数据，之后，采用初始语音识别模型对音频处理数据进行命令词识别，得到用于表征对应的音频处理数据包括命令词的目标识别结果，目标识别结果和音频处理数据构成负样本数据，最后，根据至少部分第二初始音频数据和负样本数据，至少对初始语音识别模型进行训练，得到目标语音识别模型。该方法中，对不包括命令词的第一初始音频数据进行处理，得到音频处理数据，然后对音频处理数据进行命令词识别，挑选出发生误识别的音频处理数据，从而构成负样本数据，之后，利用负样本和第二初始音频数据对初始语音识别模型进行训练，使得模型训练的易造成误识别的样本数据量增大，从而使得目标语音识别模型更加准确，进而解决了现有技术中的命令词识别模型误识别率较高的问题。

技术特征：

1.一种语音识别模型的调整方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述初始语音识别模型包括初始生成部分和初始输出层，根据至少部分所述第二初始音频数据和所述负样本数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型，包括：

3.根据权利要求2所述的方法，其特征在于，根据至少部分所述第二初始音频数据和所述负样本数据对所述初始生成部分、所述第一目标重构部分和所述初始输出层进行训练，得到目标语音识别模型，包括：

4.根据权利要求1所述的方法，其特征在于，根据至少部分所述第二初始音频数据和所述负样本数据，至少对所述初始语音识别模型进行训练，得到目标语音识别模型，包括：

5.根据权利要求1所述的方法，其特征在于，对所述第一初始音频数据进行处理，得到音频处理数据，包括：

6.根据权利要求5所述的方法，其特征在于，对所述第一初始音频数据添加场景特征，得到所述音频处理数据，包括：

7.根据权利要求1所述的方法，其特征在于，所述第一初始音频数据有多条，对所述第一初始音频数据进行处理，得到音频处理数据，包括：

8.根据权利要求1至7中任意一项所述的方法，其特征在于，在获取语音数据库中的音频数据，得到第一初始音频数据和第二初始音频数据之后，采用初始语音识别模型对所述音频处理数据进行命令词识别之前，所述方法还包括：

9.一种语音识别模型的调整装置，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1至8中任意一项所述的方法。

11.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至8中任意一项所述的方法。

12.一种电子设备，其特征在于，包括：一个或多个处理器，存储器以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于执行权利要求1至8中任意一项所述的方法。

技术总结
本申请提供了一种语音识别模型的调整方法、装置与电子设备。该方法包括：获取语音数据库中的音频数据，得到不包括命令词的第一初始音频数据和包括命令词的第二初始音频数据；对第一初始音频数据进行处理，得到与第一初始音频数据不同的音频处理数据；采用初始语音识别模型对音频处理数据进行命令词识别，得到用于表征对应音频处理数据的识别结果，包括命令词的音频处理数据构成负样本数据；根据至少部分第二初始音频数据和负样本数据，至少对初始语音识别模型进行训练，得到目标语音识别模型。该方法中，挑选出发生误识别的音频处理数据，从而构成负样本数据，使得模型训练的样本数据量增大，从而使得目标语音识别模型更加准确。

技术研发人员：雷延强,叶珑
受保护的技术使用者：广州视源电子科技股份有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：雷延强叶珑
技术所有人：广州视源人工智能创新研究院有限公司
我是此专利的发明人

上一篇：电刺激生发装置的制作方法
上一篇：一种燕麦制品、包含燕麦制品的奶味制品及其制备方法与流程