本发明涉及智能翻译,具体涉及一种多语种语音翻译模型构建方法及翻译方法。
背景技术:
1、车企开始走向世界,在此过程中,产生了更多语种的智能车控交互领域的需求;作为智能车控交互领域的第一关,提升识别和翻译的精度对于交互体验尤为重要。如何在支持更多语种的同时,使用更低的资源,具有更高翻译的精度,是目前亟待解决的问题。
2、通常的解决方案需要对每个源语种到目标语种的映射进行单独建模,这些方式不仅需要耗费大量资源,也会增加用户使用时的复杂度,同时对于低资源的语种,也会存在翻译精度不足的情况;学术界提出了自动语音翻译(automatic speech translation,ast)的研究领域,将多个的语音转译为单一的语音文字,但是学术界的方案很难就行工业层面的落地,主要表现为模型过大,训练花费的资源耗费多。
技术实现思路
1、有鉴于此,本发明提供了一种多语种语音翻译模型构建方法及翻译方法,以解决现有多语种翻译方法的模型大,训练资源耗费多的技术问题。
2、第一方面,本发明提供了一种多语种语音翻译模型构建方法,包括:使用目标语种文本数据对预设语音翻译模型进行预训练微调,得到目标语种的语言预训练模型,所述语言预训练模型包括第一编码器和第一解码器;将预设多语种语音识别模型作为教师模型进行知识蒸馏,得到蒸馏模型,所述蒸馏模型包括第二编码器和第二解码器;基于所述第二编码器和第一解码器构建目标语音翻译模型;使用预收集的音频数据对所述目标语音翻译模型进行训练,得到多语种语音翻译模型,所述音频数据包括预设语种音频及对应的原语种文本和目标语种文本。
3、本发明实施例的一种多语种语音翻译模型构建方法,通过对预设语音翻译模型进行预训练微调,对预设多语种语音识别模型作为教师模型进行知识蒸馏,并分别根据得到的第二编码器和第一解码器构建目标语音翻译模型,第二编码器和第一解码器为参数都已初步训练过的模型,且模型参数少,因此可以将目标语音翻译模型控制在合适的大小,由此减小训练后得到的多语种语音翻译模型的规模,使其适用于部署在资源受限的车载系统上,且对目标语音翻译模型进行训练时只需要较少的数据对齐进行训练即可使模型收敛,从而减少训练所需数据。
4、可选地,所述基于所述第二编码器和第一解码器构建目标语音翻译模型,包括:将所述第一解码器作为翻译解码器,并把所述翻译解码器和所述第二编码器的输出端连接;添加一层全连接层作为音频识别层,并将所述音频识别层和所述第二编码器的输出端连接,得到目标语音翻译模型。
5、基于第一解码器、第二编码器和全连接层构建目标语音翻译模型,使其能够同时进行自动语音翻译和自动语音识别。
6、可选地,所述使用预收集的音频数据对所述目标语音翻译模型进行训练,得到多语种语音翻译模型,包括:将预收集的音频数据输入到所述目标语音翻译模型;基于所述第二编码器和所述翻译解码器对输入的音频数据进行自动语音翻译,得到第一学习损失;基于所述第二编码器和所述音频识别层对输入的音频数据进行自动语音识别,得到第二学习损失;联合所述第一学习损失和第二学习损失对所述目标语音翻译模型进行参数调整,得到多语种语音翻译模型。
7、通过联合所述第一学习损失和第二学习损失对所述目标语音翻译模型进行参数调整,加快推理速度,翻译效果也更好,且更适用于车机领域。
8、可选地,所述预设多语种语音识别模型为whisper模型;对应的,所述将预设多语种语音识别模型作为教师模型进行知识蒸馏,得到蒸馏模型,包括:将whisper模型作为教师模型,以whisper模型的编码器初始化的前三层及后三层作为学生模型的编码器,学生模型和教师模型共用一个解码器进行知识蒸馏,得到蒸馏模型。
9、采用whisper模型进行知识蒸馏,蒸馏后的轻量级编码器可以在保持高识别精度的同时减少计算资源的消耗。
10、第二方面,本发明提供了一种多语种语音翻译方法,包括:将原始语音输入到如第一方面或其对应的任一实施方式的多语种语音翻译模型进行翻译,得到目标语种文本。
11、第三方面,本发明提供了一种多语种语音翻译模型构建装置,包括:预训练模块,用于使用目标语种文本数据对预设语音翻译模型进行预训练微调,得到目标语种的语言预训练模型,所述语言预训练模型包括第一编码器和第一解码器;蒸馏模块,用于将预设多语种语音识别模型作为教师模型进行知识蒸馏,得到蒸馏模型,所述蒸馏模型包括第二编码器和第二解码器;目标模型构建模块,用于基于所述第二编码器和第一解码器构建目标语音翻译模型;模型训练模块,用于使用预收集的音频数据对所述目标语音翻译模型进行训练,得到多语种语音翻译模型,所述音频数据包括预设语种音频及对应的原语种文本和目标语种文本。
12、第四方面,本发明提供了一种多语种语音翻译装置,包括:输入模块,用于将原始语音输入到如第一方面或其对应的任一实施方式的多语种语音翻译模型进行翻译,得到目标语种文本。
13、第五方面,本发明提供了一种计算机设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1至4中任一项所述的多语种语音翻译模型构建方法或如权利要求5所述的多语种语音翻译方法。
14、第六方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行如第一方面或其对应的任一实施方式的多语种语音翻译模型构建方法或如第二方面的多语种语音翻译方法。
15、第七方面,本发明提供了一种计算机程序产品,包括计算机指令,所述计算机指令用于使计算机执行如第一方面或其对应的任一实施方式的多语种语音翻译模型构建方法或如第二方面的多语种语音翻译方法。
1.一种多语种语音翻译模型构建方法,其特征在于,包括:
2.根据权利要求1所述的多语种语音翻译模型构建方法,其特征在于,所述基于所述第二编码器和第一解码器构建目标语音翻译模型,包括:
3.根据权利要求2所述的多语种语音翻译模型构建方法,其特征在于,所述使用预收集的音频数据对所述目标语音翻译模型进行训练,得到多语种语音翻译模型,包括:
4.根据权利要求1所述的多语种语音翻译模型构建方法,其特征在于,所述预设多语种语音识别模型为whisper模型;
5.一种多语种语音翻译方法,其特征在于,包括:
6.一种多语种语音翻译模型构建装置,其特征在于,包括:
7.一种多语种语音翻译装置,其特征在于,包括:
8.一种计算机设备,其特征在于,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1至4中任一项所述的多语种语音翻译模型构建方法或如权利要求5所述的多语种语音翻译方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行如权利要求1至4中任一项所述的多语种语音翻译模型构建方法或如权利要求5所述的多语种语音翻译方法。
10.一种计算机程序产品,其特征在于,包括计算机指令,所述计算机指令用于使计算机执行如权利要求1至4中任一项所述的多语种语音翻译模型构建方法或如权利要求5所述的多语种语音翻译方法。