多模态特征对齐方法、模型训练方法及相关装置与流程

文档序号：35995950发布日期：2023-11-16 08:06阅读：88来源：国知局

本技术涉及自然语言处理，尤其涉及一种多模态特征对齐方法、模型训练方法及相关装置。

背景技术：

1、在进行语音翻译、语音识别、语音合成、语音同传等任务模型的训练时，需要应用到语音对应的语音特征，以及文本对应的文本特征，现有技术中，通常利用语音编码器对语音进行编码操作，得到对应的语音特征，利用文本编码器对文本进行编码操作，得到对应的文本特征。但是，语音和文本是两个相互关联但又差异显著的模态，语音信号是连续的，而文本信号是离散的，因此，通过编码器编码后的语音特征和文本特征无法实现在表征空间上的对齐，那么，在利用语音特征和文本特征对语音翻译、语音识别、语音合成、语音同传等任务模型训练时，无法实现在表征空间上对齐的语音特征和文本特征，会影响任务模型性能。

2、因此，如何实现不同模态的特征在表征空间上的对齐是本领域技术人员亟需解决的问题。

技术实现思路

1、基于上述现有技术的缺陷和不足，本技术提出一种多模态特征对齐方法、模型训练方法及相关装置，能够实现不同模态特征在表征空间上的对齐，从而提升下游任务模型的性能。

2、本技术提出的技术方案具体如下：

3、根据本技术实施例的第一方面，提供了一种多模态特征对齐方法，包括：

4、对模态数据进行编码操作，得到第一模态编码特征；其中，所述模态数据包括：语音数据和/或文本数据；

5、利用预先确定的多模态特征对齐参数，对所述第一模态编码特征在表征空间上进行多模态特征对齐，得到所述模态数据对应的模态对齐特征；

6、所述多模态特征对齐参数，是通过特征类型判别训练而确定的，其中，所述特征类型判别训练，以使得按照所述多模态特征对齐参数，对样本语音特征和样本文本特征进行特征对齐后，无法准确判别得到模态对齐特征的特征类型，为目标。

7、可选的，所述样本语音特征是将样本语音编码特征中的至少一个特征元素替换为样本文本编码特征中的特征元素得到的，所述样本文本特征是将所述样本文本编码特征中的至少一个特征元素替换为所述样本语音编码特征中的特征元素得到的。

8、可选的，所述多模态特征对齐参数包括：所述模态数据对应的模态编码参数，以及共享编码参数；

9、利用预先确定的多模态特征对齐参数，对所述第一模态编码特征在表征空间上进行多模态特征对齐，得到所述模态数据对应的模态对齐特征，包括：

10、利用所述模态编码参数，对所述第一模态编码特征进行处理，得到所述模态数据对应的初始模态对齐特征；

11、利用所述共享编码参数，对所述初始模态对齐特征在表征空间上进行多模态特征对齐，得到所述模态数据对应的模态对齐特征。

12、可选的，利用预先确定的多模态特征对齐参数，对所述第一模态编码特征在表征空间上进行多模态特征对齐，得到所述模态数据对应的模态对齐特征，包括：

13、利用预先训练的多模态特征对齐模型，对所述第一模态编码特征在表征空间上进行多模态特征对齐，得到所述模态数据对应的模态对齐特征；

14、所述多模态特征对齐模型用于按照所述多模态特征对齐参数对输入的特征在表征空间上进行多模态特征对齐。

15、可选的，所述多模态特征对齐模型的训练过程，包括：

16、将第一样本语音编码特征和第一样本文本编码特征均进行特征元素掩码操作，得到第一样本语音特征和第一样本文本特征；

17、将所述第一样本语音特征和所述第一样本文本特征输入到预先构建的多模态特征对齐模型中，得到所述第一样本语音特征对应的第一样本对齐特征和所述第一样本文本特征对应的第二样本对齐特征；

18、将所述第一样本对齐特征和所述第二样本对齐特征输入到预设的多模态分辨器中，得到第一识别结果和第二识别结果；所述第一识别结果表征所述第一样本对齐特征的特征类型，所述第二识别结果表征所述第二样本对齐特征的特征类型；

19、根据所述第一样本对齐特征、所述第二样本对齐特征、所述第一识别结果和所述第二识别结果，对所述多模态特征对齐模型进行第一训练，得到训练后的多模态特征对齐模型；所述第一训练以使得所述第一识别结果与所述第一样本对齐特征的真实特征类型之间的相似度以及所述第二识别结果与所述第二样本对齐特征的真实特征类型之间的相似度最小，并且通过所述第一识别结果和所述第二识别结果无法区分所述第一样本对齐特征和所述第二样本对齐特征为目标。

20、可选的，将第一样本语音编码特征和第一样本文本编码特征均进行特征元素掩码操作的同时，还包括：

21、将第一样本语音编码特征中的至少一个特征元素替换为第一样本文本编码特征中的特征元素，以及，将所述第一样本文本编码特征中的至少一个特征元素替换为所述第一样本语音编码特征中的特征元素。

22、可选的，所述多模态分辨器通过第二训练过程训练得到，所述第二训练过程包括：

23、将第二样本语音编码特征和第二样本文本编码特征均进行特征元素掩码操作，得到第二样本语音特征和第二样本文本特征；

24、将所述第二样本语音特征和所述第二样本文本特征输入到预先构建的多模态特征对齐模型中，得到所述第二样本语音特征对应的第三样本对齐特征和所述第二样本文本特征对应的第四样本对齐特征；

25、将所述第三样本对齐特征和所述第四样本对齐特征输入到预设的多模态分辨器中，得到第三识别结果和第四识别结果；所述第三识别结果表征所述第三样本对齐特征的特征类型，所述第四识别结果表征所述第四样本对齐特征的特征类型；

26、以所述第三识别结果与所述第三样本对齐特征的真实特征类型之间的相似度以及所述第四识别结果与所述第四样本对齐特征的真实特征类型之间的相似度最大为目标，对所述多模态分辨器的参数进行调整，得到训练后的多模态分辨器。

27、可选的，根据所述第一样本对齐特征、所述第二样本对齐特征、所述第一识别结果和所述第二识别结果，对所述多模态特征对齐模型进行第一训练，得到训练后的多模态特征对齐模型，包括：

28、利用所述第一样本对齐特征和所述第一样本语音编码特征，计算掩蔽损失；

29、利用所述第二样本对齐特征和所述第一样本文本编码特征对应的样本文本数据，计算文本损失；

30、利用所述第一识别结果和所述第二识别结果，计算生成对抗损失；

31、根据所述掩蔽损失、所述文本损失、所述生成对抗损失，以及预先确定的损失权重，计算多模态特征对齐损失，并基于所述多模态特征对齐损失，对所述多模态特征对齐模型进行参数调整，得到训练后的多模态特征对齐模型。

32、可选的，所述预先构建的多模态特征对齐模型，包括：语音模态对应的自适应层、文本模态对应的自适应层和多模态共享编码器；

33、将所述第一样本语音特征和所述第一样本文本特征输入到预先构建的多模态特征对齐模型中，得到所述第一样本语音特征对应的第一样本对齐特征和所述第一样本文本特征对应的第二样本对齐特征，包括：

34、将所述第一样本语音特征输入到语音模态对应的自适应层，得到第一样本初始对齐特征，将所述第一样本文本特征输入到文本模态对应的自适应层，得到第二样本初始对齐特征；

35、将所述第一样本初始对齐特征和所述第二样本初始对齐特征均输入到多模态共享编码器，得到所述第一样本对齐特征和所述第二样本对齐特征。

36、可选的，根据所述第一样本对齐特征、所述第二样本对齐特征、所述第一识别结果和所述第二识别结果，对所述多模态特征对齐模型进行第一训练，得到训练后的多模态特征对齐模型，包括：

37、利用所述第一样本初始对齐特征、所述第一样本语音编码特征、所述第二样本初始对齐特征和所述第一样本文本编码特征，计算语音掩蔽损失和文本掩蔽损失；

38、基于所述语音掩蔽损失，对语音模态对应的自适应层进行参数调整，基于所述文本掩蔽损失，对文本模态对应的自适应层进行参数调整；

39、利用所述第一样本对齐特征和所述第一样本语音编码特征，计算掩蔽损失，利用所述第二样本对齐特征和所述第一样本文本编码特征对应的样本文本数据，计算文本损失，利用所述第一识别结果和所述第二识别结果，计算生成对抗损失；

40、根据所述掩蔽损失、所述文本损失、所述生成对抗损失，以及预先确定的损失权重，计算多模态特征对齐损失，基于所述多模态特征对齐损失，对所述多模态共享编码器进行参数调整。

41、根据本技术实施例的第二方面，提供了一种多模态特征对齐装置，包括：

42、模态数据编码模块，用于对模态数据进行编码操作，得到第一模态编码特征；其中，所述模态数据包括：语音数据和/或文本数据；

43、模态特征对齐模块，用于利用预先确定的多模态特征对齐参数，对所述第一模态编码特征在表征空间上进行多模态特征对齐，得到所述模态数据对应的模态对齐特征；

44、所述多模态特征对齐参数，是通过特征类型判别训练而确定的，其中，所述特征类型判别训练，以使得按照所述多模态特征对齐参数，对样本语音特征和样本文本特征进行特征对齐后，无法准确判别得到模态对齐特征的特征类型，为目标。

45、根据本技术实施例的第三方面，提供了一种模型训练方法，包括：

46、获取模型训练数据对应的模态对齐特征；其中，所述模型训练数据对应的模态对齐特征是利用上述多模态特征对齐方法得到的；所述模型训练数据包括语音训练数据和文本训练数据；

47、将所述模态对齐特征输入到预先构建的任务模型中，对所述任务模型进行任务训练，得到训练后的任务模型；所述任务训练包括语音识别训练、语音翻译训练、语音合成训练和语音同传训练中的至少一项。

48、根据本技术实施例的第四方面，提供了一种模型训练装置，包括：

49、数据处理模块，用于获取模型训练数据对应的模态对齐特征；其中，所述模型训练数据对应的模态对齐特征是利用上述多模态特征对齐方法得到的；所述模型训练数据包括语音训练数据和文本训练数据；

50、模型训练模块，用于将所述模态对齐特征输入到预先构建的任务模型中，对所述任务模型进行任务训练，得到训练后的任务模型；所述任务训练包括语音识别训练、语音翻译训练、语音合成训练和语音同传训练中的至少一项。

51、根据本技术实施例的第五方面，提供了一种电子设备，包括：存储器和处理器；

52、其中，所述存储器与所述处理器连接，用于存储程序；

53、所述处理器，用于通过运行所述存储器中的程序，实现上述多模态特征对齐方法。

54、根据本技术实施例的第六方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述多模态特征对齐方法。

55、本技术提出的多模态特征对齐方法，包括：对模态数据进行编码操作，得到第一模态编码特征；其中，模态数据包括：语音数据和/或文本数据；利用预先确定的多模态特征对齐参数，对第一模态编码特征在表征空间上进行多模态特征对齐，得到模态数据对应的模态对齐特征；多模态特征对齐参数，是通过特征类型判别训练而确定的，其中，特征类型判别训练，以使得按照多模态特征对齐参数，对样本语音特征和样本文本特征进行特征对齐后，无法准确判别得到模态对齐特征的特征类型，为目标。采用本技术的技术方案，能够利用多模态特征对齐参数实现不同模态特征在表征空间上的对齐，从而提升下游任务模型的性能，并且，多模态特征对齐参数在确定过程中利用的生成对抗技术，能够提高多模态特征对齐的效果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：章瀚逸张为泰刘俊华
技术所有人：科大讯飞（上海）科技有限公司
我是此专利的发明人

上一篇：一种具有清理功能的散热器的制作方法
上一篇：一种治疗关节疼痛药的制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。