一种多语种语音预训练方法及相关方法和设备与流程

文档序号：36169550发布日期：2023-11-24 01:53阅读：67来源：国知局

本发明涉及语音处理，尤其涉及一种多语种语音预训练方法及相关方法和设备。

背景技术：

1、在全球化环境下，人们会在不同的语言和文化背景下沟通和交流，人与人之间在采用语音进行交流时，由于所使用的语言不同，常常会出现理解障碍，为了高效地解决由语种差异所导致的一系列语音交流问题，研究多语种语音预训练变得愈发重要。

2、多语种语音预训练指的是，利用不同语种的训练语音对构建的语音预训练模型进行训练，让模型能够学习不同语种语音的语义表征。在预训练结束后，可将训练后的语音预训练模型应用于下游任务(比如语音同传、语音翻译、多语种语音识别等任务)，以提升下游任务的效果。

3、目前的多语种语音预训练方法大多为，基于语音预训练模型对一语种的训练语音进行分词，得到语音单元序列，对语音单元序列中的部分语音单元进行掩蔽处理，基于语音预训练模型对掩蔽后语音单元序列进行编码，得到语义特征，根据语义特征预测掩蔽处的语音单元，根据预测结果对语音训练模型进行参数更新，采用多语种训练语音集中的训练语音，按上述方式对语音预训练模型进行训练，直至满足训练结束条件。

4、然而，采用上述的多语种语音预训练方法对语音预训练模型进行训练时，语音预训练模型能够学习到的知识有限，这会导致最终训练得到的语音预训练模型的性能不佳，进一步的，将其应用于下游任务时，会导致对下游任务效果的提升不明显。

技术实现思路

1、有鉴于此，本发明提供了一种多语种语音预训练方法及相关方法和设备，用以解决采用现有的多语种语音预训练方法对语音预训练模型进行训练时，语音预训练模型能够学习到的知识有限，从而导致最终训练得到的语音预训练模型性能不佳，进而导致将其应用于下游任务时，对下游任务的效果提升不明显的问题，其技术方案如下：

2、第一方面，提供了一种多语种语音预训练方法，包括：

3、采用第一训练语音对，以能够获取不同语种的训练语音中共通的语义信息为目标，对构建的语音预训练模型进行训练，得到第一语音预训练模型，其中，所述第一训练语音对包括两条语种不同、内容语义不同的训练语音；

4、采用第二训练语音对，以能够将不同语种语音的语义对齐为目标，对第一语音预训练模型进行训练，得到第二语音预训练模型，作为目标语音预训练模型，其中，所述第二训练语音对包括两条语种不同、内容语义相同的训练语音。

5、可选的，所述采用第一训练语音对，以能够获取不同语种的训练语音中共通的语义信息为目标，对构建的语音预训练模型进行训练，包括：

6、基于语音预训练模型将所述第一训练语音对包含的每条训练语音处理为离散的语音单元，得到两个第一语音单元序列；

7、将每个第一语音单元序列中的部分语音单元用掩蔽单元掩蔽，得到两个掩蔽后第一语音单元序列，并将所述两个掩蔽后第一语音单元序列合并，得到第一目标序列；

8、基于语音预训练模型获取所述第一目标序列的语义特征；

9、根据所述第一目标序列的语义特征，对所述第一目标序列中掩蔽的语音单元进行预测，并根据获得的预测结果对语音预训练模型进行参数更新。

10、可选的，所述将每个第一语音单元序列中的部分语音单元用掩蔽单元掩蔽之前，还包括：

11、针对每个第一语音单元序列：基于语音预训练模型获取该第一语音单元序列对应的训练语音的语种信息，并将该第一语音单元序列中的每个语音单元与获取的语种信息融合，得到含语种信息的第一语音单元序列；

12、所述将每个第一语音单元序列中的部分语音单元用掩蔽单元掩蔽，包括：

13、将每个含语种信息的第一语音单元序列中的部分语音单元用掩蔽单元掩蔽。

14、可选的，所述采用第二训练语音对，以能够将不同语种语音的语义对齐为目标，对第一语音预训练模型进行训练，包括：

15、基于第一语音预训练模型将所述第二训练语音对包含的每条训练语音处理为离散的语音单元，得到两个第二语音单元序列；

16、将每个第二语音单元序列中的部分语音单元用掩蔽单元掩蔽，得到两个掩蔽后第二语音单元序列；

17、针对每个掩蔽后第二语音单元序列中的每个掩蔽单元：

18、获取该掩蔽单元对应的第二目标序列，所述第二目标序列包括该掩蔽单元以及另一个掩蔽后第二语音单元序列；

19、基于第一语音预训练模型获取该掩蔽单元对应的第二目标序列的语义特征；

20、根据该掩蔽单元对应的第二目标序列的语义特征，预测该掩蔽单元所掩蔽的语音单元，得到该掩蔽单元对应的预测结果；

21、根据所述两个掩蔽后第二语音单元序列中各掩蔽单元分别对应的预测结果，对第一语音预训练模型进行参数更新。

22、可选的，所述获取该掩蔽单元对应的第二目标序列，包括：

23、从该掩蔽单元所在的掩蔽后第二语音单元序列所对应的掩蔽前第二语音单元序列中获取一个或多个语音单元，其中，获取的语音单元不包括该掩蔽单元掩蔽的语音单元；

24、由该掩蔽单元、获取的语音单元以及另一个掩蔽后第二语音单元序列组成该掩蔽单元对应的第二目标序列。

25、可选的，所述将每个第二语音单元序列中的部分语音单元用掩蔽单元掩蔽之前，还包括：

26、针对每个第二语音单元序列：基于第一语音预训练模型获取该第二语音单元序列对应的训练语音的语种信息，并将该第二语音单元序列中的每个语音单元与获取的语种信息融合，得到含语种信息的第二语音单元序列；

27、所述将每个第二语音单元序列中的部分语音单元用掩蔽单元掩蔽，包括：

28、将每个含语种信息的第二语音单元序列中的部分语音单元用掩蔽单元掩蔽。

29、可选的，构建的语音预训练模型包括：语音分词器和语音语义编码器；

30、所述语音分词器以语音为输入，将输入的语音处理为离散的语音单元，输出语音单元序列；

31、所述语音语义编码器以语音单元序列为输入，对输入的语音单元序列进行编码，输出语义特征。

32、可选的，构建的语音预训练模型还包括：语种信息获取模块；

33、所述语种信息获取模块以语音为输入，获取输入的语音的语种信息并输出。

34、第二方面，提供了一种语音处理模型获取方法，包括：

35、基于目标预训练模型和针对指定语音处理任务的预测模块，构建语音处理模型，其中，所述目标语音预训练模型采用上述的多语种语音预训练方法训练得到；

36、采用所述指定语音处理任务上的有标注训练语音，对构建的语音处理模型进行微调，得到能够执行指定语音处理任务的语音处理模型。

37、第三方面，提供了一种语音处理方法，包括：

38、获取待处理的语音；

39、基于上述的语音处理模型获取方法获取的语音处理模型，对所述语音进行处理，得到所述语音的处理结果。

40、第四方面，提供了一种多语种语音预训练装置，包括：第一训练模块和第二训练模块；

41、所述第一训练模块，用于采用第一训练语音对，以能够获取不同语种的训练语音中共通的语义信息为目标，对构建的语音预训练模型进行训练，得到第一语音预训练模型，其中，所述第一训练语音对包括两条语种不同、内容语义不同的训练语音；

42、所述第二训练模块，用于采用第二训练语音对，以能够将不同语种语音的语义对齐为目标，对第一语音预训练模型进行训练，得到第二语音预训练模型，作为目标语音预训练模型，其中，所述第二训练语音对包括两条语种不同、内容语义相同的训练语音。

43、第五方面，提供了一种语音处理设备，包括：存储器和处理器；

44、所述存储器，用于存储程序；

45、所述处理器，用于执行所述程序，实现上述多语种语音预训练方法的各个步骤。

46、第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述多语种语音预训练方法的各个步骤。

47、本发明提供的多语种语音预训练方法，首先采用第一训练语音对，以能够获取不同语种的训练语音中共通的语义信息为目标，对构建的语音预训练模型进行训练，得到第一语音预训练模型，然后采用第二训练语音对，以能够将不同语种语音的语义对齐为目标，对第一语音预训练模型进行训练，得到目标语音预训练模型。本发明提供的多语种语音预训练方法采用语种不同、内容语义不同的训练语音对对构建的语音预训练模型进行训练，使语音预训练模型学习不同语种的语音间共通的语义信息，采用语种不同、内容语义相同的训练语音对，对第一语音预训练模型进行训练，使第一语音预训练模型能够学习不同语种的语音间的语义对齐信息，可见，采用本发明提供的多语种语音预训练方法除了能使语音预训练模型学习到每个语种的语音的语义信息外，还可学习到不同语种的语音间共通的语义信息以及不同语种的语音间的语义对齐信息，从而，最终训练得到的目标语音预训练模型对于多语种语音具有较好的语义表征能力，进而，将目标语音预训练模型应用于下游任务时，能够显著提升下游任务的效果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：章瀚逸张为泰刘俊华
技术所有人：科大讯飞（上海）科技有限公司
我是此专利的发明人