一种任务处理模型的训练方法、任务处理方法及相关设备与流程

文档序号：34383545发布日期：2023-06-08 04:44阅读：35来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及自然语言处理，尤其涉及一种任务处理模型训练方法、任务处理方法及相关设备。

背景技术：

1、目前，训练针对目标任务的任务处理模型(比如针对意图识别和关键信息抽取任务的意图识别及关键信息抽取模型)，需要一定量的训练数据，训练时，将针对目标任务的训练数据输入任务处理模型进行训练，训练数据越多，训练得到的任务处理模型的性能越好。

2、对于常见语种(比如，中文、英文等语种)，可获得数量较多的训练数据，而对于小语种(比如，阿拉伯语、葡萄牙语等)，只能获得较少的训练数据，针对面向小语种的任务，利用较少的小语种训练数据按目前的训练方式难以训练得到性能较佳的任务处理模型。

技术实现思路

1、有鉴于此，本发明提供了一种任务处理模型的训练方法、任务处理方法及相关设备，用以解决利用较少的小语种训练数据按目前的训练方式难以训练得到性能较佳的任务处理模型的问题，其技术方案如下：

2、一种任务处理模型的训练方法，包括：

3、从第一训练集中获取第一训练数据，其中，所述第一训练数据包括目标语种的训练文本，所述目标语种的训练文本具有在目标任务上的标注信息；

4、从所述目标语种的基础特征信息中，获取所述目标语种的训练文本中各文本单元分别对应的基础特征，其中，所述基础特征信息从第一语种到目标语种的翻译模型获得，所述基础特征信息包括所述目标语种的文本单元集中各文本单元分别对应的基础特征，所述第一语种属于第一类语种，所述目标语种属于第二类语种，所述第二类语种的数据获取难度高于所述第一类语种的数据获取难度；

5、利用所述目标语种的训练文本中各文本单元分别对应的基础特征以及所述目标语种的训练文本的标注信息，训练针对所述目标任务的任务处理模型。

6、可选的，所述利用所述目标语种的训练文本中各文本单元分别对应的基础特征以及所述目标语种的训练文本的标注信息，训练针对所述目标任务的任务处理模型，包括：

7、将所述目标语种的训练文本中各文本单元分别对应的基础特征输入任务处理模型进行处理，得到任务处理模型输出的所述目标语种的训练文本在所述目标任务上对应的任务处理结果；

8、基于所述目标语种的训练文本在所述目标任务上对应的任务处理结果以及所述目标语种的训练文本的标注信息，确定任务处理模型的预测损失；

9、基于任务处理模型的预测损失，对任务处理模型进行参数更新。

10、可选的，获得所述第一语种到目标语种的翻译模型的过程包括：

11、构建第一语种到目标语种的翻译模型；

12、在翻译任务上，对构建的第一语种到目标语种的翻译模型进行训练；

13、或者，在翻译任务的基础上联合所述目标任务，对构建的第一语种到目标语种的翻译模型进行训练。

14、可选的，所述构建第一语种到目标语种的翻译模型，包括：

15、获取第一语种到第二语种的翻译模型，以及第二语种到目标语种的翻译模型，其中，所述第一语种到第二语种的翻译模型包括第一编码器和第一解码器，所述第二语种到目标语种的翻译模型包括第二编码器和第二解码器，所述第二语种属于所述第一类语种，所述第二语种与所述第一语种不同；

16、构建包括所述第一编码器和所述第二解码器的翻译模型，作为第一语种到目标语种的翻译模型。

17、可选的，所述目标语种的基础特征信息的获取过程包括：

18、从所述第一语种到目标语种的翻译模型中的第二解码器，获取所述目标语种的基础特征信息。

19、可选的，所述在翻译任务的基础上联合所述目标任务，对构建的第一语种到目标语种的翻译模型进行训练，包括：

20、利用第二训练集中的第二训练数据，对构建的第一语种到目标语种的翻译模型进行微调，得到微调后翻译模型；利用第三训练集中的第三训练数据以及针对所述目标任务的下游任务模块，对所述微调后翻译模型进行训练；

21、或者，利用第三训练集中的第三训练数据以及针对所述目标任务的下游任务模块，对构建的第一语种到目标语种的翻译模型进行训练；

22、其中，所述第二训练数据包括第一语种训练文本，以及该第一语种训练文本的目标语种标准译文，所述第三训练数据包括具有在所述目标任务上的标注信息的第一语种训练文本，以及该第一语种训练文本的目标语种标准译文。

23、可选的，所述利用第三训练集中的第三训练数据以及针对所述目标任务的下游任务模块，对所述微调后翻译模型进行训练，包括：

24、基于所述微调后翻译模型中的第一编码器对所述第三训练数据中的第一语种训练文本进行编码，得到所述第三训练数据中的第一语种训练文本的编码结果；

25、基于所述微调后翻译模型中的第二解码器对所述第三训练数据中的第一语种训练文本的编码结果进行处理，以得到所述第三训练数据中的第一语种训练文本的翻译结果；

26、基于所述下游任务模块对所述第三训练数据中的第一语种训练文本的编码结果进行处理，以得到所述第三训练数据中的第一语种训练文本在所述目标任务上对应的任务处理结果；

27、基于所述第三训练数据中的第一语种训练文本的翻译结果、所述第三训练数据中的第一语种训练文本在所述目标任务上对应的任务处理结果、所述第三训练数据中的目标语种标准译文以及所述第三训练数据中的第一语种训练文本在所述目标任务上的标注信息，确定所述微调后翻译模型的预测损失；

28、根据所述微调后翻译模型的预测损失，对所述微调后翻译模型进行参数更新。

29、可选的，获取第一语种到第二语种的翻译模型，包括：

30、利用第四训练集中的第四训练数据，对初始的第一语种到第二语种的翻译模型进行训练，其中，所述第四训练数据包括第一语种训练文本和该第一语种训练文本的第二语种标准译文；

31、或者，

32、利用第五训练集中的第五训练数据，或者，利用第四训练集中的第四训练数据和第五训练集中的第五训练数据，在翻译任务的基础上联合所述目标任务，对初始的第一语种到第二语种的翻译模型进行训练，其中，所述第五训练数据包括具有在所述目标任务上的标注信息的第一语种训练文本，以及该第一语种训练文本的第二语种标准译文。

33、可选的，获取第二语种到目标语种的翻译模型，包括：

34、利用第六训练集中的第六训练数据，对初始的第二语种到目标语种的翻译模型进行训练，其中，所述第六训练数据包括第二语种训练文本和该第二语种训练文本的目标语种标准译文；

35、或者，

36、利用第七训练集中的第七训练数据，或者，利用第六训练集中的第六训练数据和第七训练集中的第七训练数据，在翻译任务的基础上联合所述目标任务，对初始的第二语种到目标语种的翻译模型进行训练，其中，所述第七训练数据包括具有在所述目标任务上的标注信息的第二语种训练文本，以及该第二语种训练文本的目标语种标准译文。

37、一种任务处理方法，包括：

38、获取目标语种的目标文本；

39、从所述目标语种的基础特征信息中，获取所述目标文本中各文本单元分别对应的基础特征；

40、将所述目标文本中各文本单元分别对应的基础特征输入预先训练得到的任务处理模型进行处理，以得到所述目标文本在目标任务上对应的任务处理结果，其中，所述任务处理模型采用上述任一项所述的任务处理模型训练方法训练得到。

41、一种任务处理模型的训练装置，包括：训练数据获取模块、第一特征获取模块、任务处理模型训练模块；

42、所述训练数据获取模块，用于从第一训练集中获取第一训练数据，其中，所述第一训练数据包括目标语种的训练文本，所述目标语种的训练文本具有在目标任务上的标注信息；

43、所述第一特征获取模块，用于从所述目标语种的基础特征信息中，获取所述目标语种的训练文本中各文本单元分别对应的基础特征，其中，所述基础特征信息从第一语种到目标语种的翻译模型获得，所述基础特征信息包括所述目标语种的文本单元集中各文本单元分别对应的基础特征，所述第一语种属于第一类语种，所述目标语种属于第二类语种，所述第二类语种的数据获取难度高于所述第一类语种的数据获取难度；

44、所述任务处理模型训练模块，用于利用所述目标语种的训练文本中各文本单元分别对应的基础特征以及所述目标语种的训练文本的标注信息，训练针对所述目标任务的任务处理模型。

45、一种任务处理装置，包括：文本获取模块、第二特征获取模块和任务处理模块；

46、所述文本获取模块，用于获取目标语种的目标文本；

47、所述第二特征获取模块，用于从所述目标语种的基础特征信息中，获取所述目标文本中各文本单元分别对应的基础特征；

48、所述任务处理模块，用于将所述目标文本中各文本单元分别对应的基础特征输入预先训练得到的任务处理模型进行处理，以得到所述目标文本在目标任务上对应的任务处理结果，其中，所述任务处理模型采用上述任一项所述的任务处理模型训练方法训练得到。

49、一种处理设备，包括：存储器和处理器；

50、所述存储器，用于存储程序；

51、所述处理器，用于执行所述程序，实现上述任一项所述的任务处理模型的训练方法，和/或，实现上述的任务处理方法的各个步骤。

52、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一项所述的任务处理模型的训练方法，和/或，实现上述的任务处理方法的各个步骤。

53、本发明提供的任务处理模型的训练方法，预先从第一语种到目标语种的翻译模型获得目标语种的基础特征信息，在从第一训练集中获得目标语种的训练文本后，从目标语种的基础特征信息中，获取目标语种的训练文本中各个文本单元分别对应的基础特征，然后利用目标语种的训练文本中各文本单元分别对应的基础特征以及目标语种的训练文本在目标任务上的标注信息训练针对目标任务的任务处理模型。本发明提供的任务处理模型训练方法并非直接利用目标语种的训练文本对任务处理模型进行训练(即并非从头开始训练)，而是利用训练文本中各文本单元分别对应的基础特征(即从第一语种到目标语种的翻译模型获得的目标语种的基础特征)进行训练，如此，任务处理模型可直接获得目标语种的语言特征，这种训练方式使得，任务处理模型在较少训练数据的情况下更易收敛，且最终训练得到的任务处理模型具有较好的性能。

54、在上述任务处理模型的训练方法的基础上，本发明还提供了一种任务处理方法，该方法基于采用上述训练方法训练得到的任务处理模型获得目标语种的目标文本在目标任务上对应的任务处理结果，由于本发明提供的任务处理方法基于性能较佳的任务处理模型实现，因此，基于本发明提供的任务处理方法可获得较好的任务处理结果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：卫凌霞王雪初雷琴辉刘俊峰
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

上一篇：一种提高铁路辙叉用高强韧钢力学性能的热处理方法
上一篇：互联网的引导式挂号系统及构建方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。