本技术涉及语音识别的,并且更具体地涉及用于构建语音识别模型的方法、计算机设备、计算机可读存储介质以及语音识别的方法、计算机设备、计算机可读存储介质。
背景技术:
1、自动语音识别技术(automatic speech recognition,asr)是将语音数据转换为相应的文字或符号的一种技术。自动语音识别技术已经广泛应用于日常生活中,例如,不同语言的语音之间的翻译、电子设备与用户的语音交互、即时语音输入到文本信息的转换等。
2、随着全球化发展,越来越多的场景中使用混合语言进行交流。因此,混合语言识别模型逐渐发展为自动语音识别技术的一个重要的研究方向。目前,混合语言识别模型可以通过深度神经网络、卷积神经网络、时间递归神经网络等各种神经网络结构来构建。
3、然而,在神经网络结构中同时对多种语言进行建模并非易事,因为不同的语言(例如,中文、英文等)在建模单元、发音方式等方面都存在显著差异。此外,即使在耗费大量人力物力的情况下也难以收集到足够的混合语言的训练数据来对神经网络模型进行训练。因此,目前的混合语言识别模型的识别准确性较低。
技术实现思路
1、为了解决或至少缓解以上问题中的一个或多个,提供了以下技术方案。
2、按照本技术的第一方面,提供一种用于构建语音识别模型的方法,所述方法包括下列步骤:获取音频训练数据和文本训练数据,所述音频训练数据包括增强的音频数据的提取特征和对应于所述音频数据的语音识别标签,所述文本训练数据包括增强的文本数据;利用所述音频训练数据对声学模型进行训练以得到训练的声学模型,利用所述文本训练数据对语言模型进行训练以得到训练的语言模型;以及基于训练的声学模型与训练的语言模型的一个或多个组合的融合来构建所述语音识别模型。
3、根据本技术一实施例所述的用于构建语音识别模型的方法,其中所述音频训练数据和所述文本训练数据各自至少包括第一语种的训练数据、第二语种的训练数据、第一语种与第二语种的混合训练数据。
4、根据本技术一实施例或以上任一实施例的所述的用于构建语音识别模型的方法,其中所述音频训练数据中的增强的音频数据通过以下方式中的一种或多种来生成:调整原始音频数据的音频速度以基于具有不同于原始音频数据的音频速度的一个或多个音频数据生成所述增强的音频数据;调整原始音频数据的音量以基于具有不同于原始音频数据的音量的一个或多个音频数据生成所述增强的音频数据;对原始音频数据进行频谱增强处理以生成所述增强的音频数据;以及利用文本转语音模型处理所述文本训练数据以生成所述增强的音频数据。
5、根据本技术一实施例或以上任一实施例的所述的用于构建语音识别模型的方法,其中所述增强的音频数据的提取特征包括以下中的一个或多个:fbank特征、mfcc特征、pncc特征。
6、根据本技术一实施例或以上任一实施例的所述的用于构建语音识别模型的方法,其中所述文本训练数据中的增强的文本数据通过以下方式来生成:将同一对话中按照时间顺序排列的多个句子随机成对组合以获取所述增强的文本数据。
7、根据本技术一实施例或以上任一实施例的所述的用于构建语音识别模型的方法,其中所述声学模型为感知语言编码模型或混合专家模型,所述语言模型为内置语言模型或长上下文语言模型。
8、根据本技术一实施例或以上任一实施例的所述的用于构建语音识别模型的方法,其中所述声学模型包括多个混合专家子模型或多个感知语言编码子模型,所述多个混合专家子模型或多个感知语言编码子模型中的每个包括:多头自注意力模块,其用于获取所述音频训练数据的注意力输出特征以基于所述注意力输出特征提取所述音频训练数据的全局上下文信息;以及卷积模块,其用于至少基于所述音频训练数据的注意力输出特征获取所述音频训练数据的音频卷积特征以基于所述音频卷积特征提取所述音频训练数据的局部特征信息。
9、根据本技术一实施例或以上任一实施例的所述的用于构建语音识别模型的方法,其中所述多个混合专家子模型或多个感知语言编码子模型中的每个包括:第一前向反馈模块,其用于对正则网络层输出的音频正则化特征进行线性变换和非线性映射以得到所述音频训练数据的第一变换特征;第二前向反馈模块,其用于对所述音频卷积特征的融合特征进行线性变换和非线性映射以得到所述音频训练数据的第二变换特征。
10、根据本技术一实施例或以上任一实施例的所述的用于构建语音识别模型的方法,其中所述多个混合专家子模型中的每个包括:第一语种前向神经网络,其用于处理与第一语种相关联的所述音频训练数据的第二变换特征的融合特征以生成第一语种向量;第二语种前向神经网络,其用于处理与第二语种相关联的所述音频训练数据的第二变换特征的融合特征以生成第二语种向量。
11、根据本技术一实施例或以上任一实施例的所述的用于构建语音识别模型的方法,其中所述多个感知语言编码子模型中的每个包括:共享编码器,其用于编码所述音频训练数据的第二变换特征的融合特征以生成共享编码信息;第一语种编码器,其用于编码所述共享编码信息以生成第一语种编码信息;第二语种编码器,其用于编码所述共享编码信息以生成第二语种编码信息;以及门控网络,其用于至少基于先前帧的输出编码信息选择性地将所述第一语种编码信息或所述第二语种编码信息作为当前帧的输出编码信息。
12、根据本技术一实施例或以上任一实施例的所述的用于构建语音识别模型的方法,其中基于训练的声学模型与训练的语言模型的一个或多个组合的融合来构建所述语音识别模型包括:组合训练的感知语言编码模型与内置语言模型以生成第一组合模型;组合训练的混合专家模型与长上下文语言模型以生成第二组合模型;以及融合所述第一组合模型与所述第二组合模型以构建所述语音识别模型。
13、按照本技术的第二方面,提供一种用于构建语音识别模型的计算机设备,所述计算机设备包括:存储器;与所述存储器耦合的处理器;以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述计算机程序的运行导致执行根据本技术的第一方面所述的用于构建语音识别模型的方法的步骤。
14、根据本技术的第三方面,提供一种计算机存储介质,其包括指令,所述指令在运行时执行根据本技术的第一方面所述的用于构建语音识别模型的方法的步骤。
15、根据本技术的第四方面,提供一种语音识别的方法,所述方法包括下列步骤:获取输入语音的特征数据,所述输入语音包括多个语种的语音数据;将所述特征数据输入至根据本技术的第一方面所述的用于构建语音识别模型的方法构建的语音识别模型,以得到语音识别结果。
16、根据本技术一实施例所述的语音识别的方法,其中将所述特征数据输入至所述语音识别模型以得到语音识别结果包括:将所述特征数据输入至所述语音识别模型的第一组合模型以得到第一识别结果;将所述特征数据输入至所述语音识别模型的第二组合模型以得到第二识别结果;以及基于所述第一识别结果与所述第二识别结果的融合来得到所述语音识别结果。
17、根据本技术一实施例或以上任一实施例的所述的语音识别的方法,其中于所述第一识别结果与所述第二识别结果的融合来得到所述语音识别结果包括:利用第一权重和第二权重分别对第一语种的语音识别结果和第二语种的语音识别结果进行加权求和;以及基于加权求和结果来得到所述语音识别结果。
18、根据本技术一实施例或以上任一实施例的所述的语音识别的方法,其中所述第一权重和所述第二权重通过利用测试数据集测试所述语音识别模型来确定。
19、按照本技术的第五方面,提供一种语言识别的计算机设备,所述计算机设备包括:存储器;与所述存储器耦合的处理器;以及存储在所述存储器上并在所述处理器上运行的计算机程序,所述计算机程序的运行导致执行根据本技术的第四方面所述的语音识别的方法的步骤。
20、根据本技术的第六方面,提供一种计算机存储介质,其包括指令,所述指令在运行时执行根据本技术的第四方面所述的语音识别的方法的步骤。
21、根据本技术的一个或多个实施例的用于构建语音识别模型的方案通过增强的音频数据和文本数据来分别训练声学模型和语言模型,并基于训练的声学模型与训练的语言模型的一个或多个组合的融合来构建语音识别模型,从而能够在有限的训练数据的情况下提高混合语音识别模型的识别准确性,并且降低了获取训练数据以及模型训练过程所耗费的人力与物力成本。