一种垂直领域的翻译模型训练方法和存储介质与流程

文档序号：33740398发布日期：2023-04-06 09:44阅读：51来源：国知局

【】本发明涉及机器翻译，特别涉及一种垂直领域的翻译模型训练方法和存储介质。

背景技术

0、
背景技术：

1、随着互联网的发展、可用数据规模的不断扩大和计算机硬件能力的提升，以神经机器翻译模型为代表的机器翻译模型的性能获得了重大提升，从实验室走向工业界，逐步落地服务于各行各业。机器翻译模型根据所使用的语料领域，可以分为通用机器翻译模型和垂直领域机器翻译模型，通用机器翻译模型的性能由于新闻数据的巨大规模，目前已经达到了比较令人满意的性能，但是在垂直领域翻译性能上受限于数据规模。

2、在以往的基于翻译记忆库的机器翻译中，检索实例融合的方式都比较简单，对于原始模型可能带来很大的噪声，如对经过相似度检索得到的目标端的句子直接拼接在要翻译的句子的后面，或进一步使用平行数据对齐的信息过滤掉部分词汇，减少拼接长度。这些方法一定程度上能够实现从高资源语言到低资源语言的领域迁移，引导低资源语言在垂直领域上获得较好的翻译性能。但是，这些方法会显著增加源端句子长度，对编码速度有明显的影响；第二，这些方法无法拼接过多的句子，过多的检索句子会“淹没”需要翻译的句子，使得翻译结果无法忠于原文；第三，这些方法往往通过词覆盖的方式检索相似句，这种相似句可能对提高翻译性能没有帮助；第四，这些方法仅结合了句子级别的信息，对于垂直领域而言，语料数量稀少，即使是高资源语言，其数据规模也并不大，无法在粗粒度的检索中获得有效信息。

技术实现思路

0、
技术实现要素：

1、为解决现有机器翻译模型在垂直领域翻译性能不高的问题，本发明提供了一种垂直领域的翻译模型训练方法和存储介质。

2、本发明解决技术问题的方案是提供一种垂直领域的翻译模型训练方法，其中翻译模型为编码器-解码器架构，包括如下步骤：

3、获取翻译模型和双语文本，将双语文本输入翻译模型，并对翻译模型进行句向量训练；

4、获取高资源的垂直领域数据，其中高资源的垂直领域数据由高资源句子构成，利用高资源的垂直领域数据对训练后的翻译模型进行微调；

5、获取低资源的垂直领域数据，其中低资源的垂直领域数据由低资源句子构成，利用低资源句子检索获得高资源句子，将低资源句子和检索得到的高资源句子输入编码器进行跨语言多实例融合，获得解码器端的输出状态；

6、基于解码器端的输出状态进行上下文近邻检索获得相关的高资源句子翻译概率分布，利用该翻译概率分布调整当前解码器端的输出状态产生翻译输出概率分布。

7、优选地，所述编码器采用transformers模型。

8、优选地，获取翻译模型和双语文本，将双语文本输入翻译模型，并对翻译模型进行句向量训练具体包括如下步骤：

9、将双语文本输入翻译模型并通过编码器对双语文本进行编码得到样本句向量；

10、从样本句向量中抽取其中一对作为正样本，将正样本结合基于间隔的优化方法进行训练。

11、优选地，对所述正样本结合基于间隔的优化方法进行训练的损失函数为：

12、

13、其中，表示正样本；n表示样本数量，每个样本中包含双语文本的平行句对；cos表示余弦相似度；m表示超参数。

14、优选地，对训练后的翻译模型进行微调时，冻结编码器的所有参数，基于高资源的垂直领域数据微调解码器的所有参数。

15、优选地，获取低资源的垂直领域数据，其中低资源的垂直领域数据由低资源句子构成，利用低资源句子检索获得高资源句子，将低资源句子和检索得到的高资源句子输入编码器进行跨语言多实例融合，获得解码器端的输出状态具体包括如下步骤：

16、创建记忆库，将每个高资源句子通过编码器进行编码并通过平均池化层获取高资源句子的句向量，将高资源句子以及句向量存储在记忆库；

17、获取低资源的垂直领域数据，将低资源句子输入记忆库进行检索得到至少一个高资源句子；

18、将低资源句子和高资源句子输入编码器进行跨语言多实例融合，基于解码器的每一个解码时间步和每一层cross-attention模块通过多头注意力机制进行计算，以实现高资源句子到低资源句子的知识迁移获得解码器端的输出状态。

19、优选地，获取低资源的垂直领域数据，将低资源句子输入记忆库进行检索得到至少一个高资源句子，具体为，将低资源句子输入记忆库，通过faiss工具进行向量距离检索得到至少一个高资源句子。

20、优选地，将低资源句子和高资源句子输入编码器进行跨语言多实例融合，基于解码器的每一个解码时间步和每一层cross-attention模块通过多头注意力机制进行计算，以实现高资源句子到低资源句子的知识迁移获得解码器端的输出状态具体包括如下步骤：

21、将低资源句子和高资源句子输入编码器，解码器每一层的cross-attention模块接受解码器的自注意力模块的输出，同时接受高资源句子在编码器顶层的状态序列；

22、将自注意力模块的输出和高资源句子在编码器顶层的状态序列进行注意力机制计算，得到基于高资源句子上下文的解码器的状态表示，且根据低资源句子和高资源句子进行相应次数的计算获得相应数量个状态表示；

23、设置门控机制对获得的状态表示进行加权计算，获得最终解码器端的输出状态。

24、优选地，基于解码器端的输出状态进行上下文近邻检索获得相关的高资源句子翻译概率分布，利用该翻译概率分布调整当前解码器端的输出状态产生翻译输出概率分布具体为：

25、基于解码器端的输出状态进行上下文近邻检索获得相关的高资源句子翻译概率分布，将该翻译概率分布从高资源的垂直领域数据中吸收细粒度信息调整当前的解码器端的输出状态产生翻译输出概率分布，而引导低资源领域到高资源领域的适配。

26、本发明为解决上述技术问题还提供一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被执行时实现如前述所述的机器翻译模型构建方法。

27、与现有技术相比，本发明的一种垂直领域的翻译模型训练方法和存储介质具有以下优点：

28、1、本发明的垂直领域的翻译模型训练方法，其中翻译模型为编码器-解码器架构，该训练方法的步骤先是获取翻译模型和双语文本，将双语文本输入翻译模型，并对翻译模型进行句向量训练；然后获取高资源的垂直领域数据，其中高资源的垂直领域数据由高资源句子构成，利用高资源的垂直领域数据对训练后的翻译模型进行微调；接着获取低资源的垂直领域数据，其中低资源的垂直领域数据由低资源句子构成，利用低资源句子检索获得高资源句子，将低资源句子和检索得到的高资源句子输入编码器进行跨语言多实例融合，获得解码器端的输出状态；最后基于解码器端的输出状态进行上下文近邻检索获得相关的高资源句子翻译概率分布，利用该翻译概率分布调整当前解码器端的输出状态产生翻译输出概率分布，即通过该翻译模型训练方法利用高资源的垂直领域数据对低资源的垂直领域数据作进一步提升，以实现更好的翻译结果。

29、2、本发明的步骤中编码器采用transformers模型，先是将双语文本输入翻译模型并通过编码器对双语文本进行编码得到样本句向量；再从样本句向量中抽取其中一对作为正样本，将正样本结合基于间隔的优化方法进行训练，即使原始的翻译模型经过训练得到具备句向量的生成能力，以提升句向量的质量。

30、3、本发明的步骤中对训练后的翻译模型进行微调时，冻结编码器的所有参数，基于高资源的垂直领域数据微调解码器的所有参数，此步骤在于使高资源的垂直领域数据的翻译能力能够更好地体现，通过较好的高资源的垂直领域数据去帮助低资源的垂直领域数据进行翻译能力的提升，且通过微调能够使高资源句子和低资源句子具有统一的语义表示，以更好地进行知识迁移，有效提高翻译质量。

31、4、本发明的步骤中对于获得解码器端的输出状态具体包括所述步骤，首先创建记忆库，将每个高资源句子通过编码器进行编码并通过平均池化层获取高资源句子的句向量，将高资源句子以及句向量存储在记忆库；然后获取低资源的垂直领域数据，将低资源句子输入记忆库进行检索得到至少一个高资源句子；最后将低资源句子和高资源句子输入编码器进行跨语言多实例融合，基于解码器的每一个解码时间步和每一层cross-attention模块通过多头注意力机制进行计算，以实现高资源句子到低资源句子的知识迁移获得解码器端的输出状态，在实际翻译过程中，低资源的垂直领域数据规模较局限且处于欠缺训练的状态，而高资源的垂直领域数据比低资源的垂直领域数据富有更多的领域知识，通过创建记忆库能够更加丰富高资源的垂直领域数据规模，利于扩大翻译的检索规模，通过跨语言多实例融合用户能够实现更强的知识迁移，从而提升低资源句子的领域翻译性能。

32、5、本发明的步骤中获取低资源的垂直领域数据，将低资源句子输入记忆库进行检索得到至少一个高资源句子，具体为，将低资源句子输入记忆库，通过faiss工具进行向量距离检索得到至少一个高资源句子，采用向量距离检索，能够较好的发现相似度高的多个高资源句子，利于提高低资源句子的翻译性能。

33、6、本发明的步骤中获得解码器端的输出状态具体包括所述步骤，首先将低资源句子和高资源句子输入编码器，解码器每一层的cross-attention模块接受解码器的自注意力模块的输出，同时接受高资源句子在编码器顶层的状态序列；随后将自注意力模块的输出和高资源句子在编码器顶层的状态序列进行注意力机制计算，得到基于高资源句子上下文的解码器的状态表示，且根据低资源句子和高资源句子进行相应次数的计算获得相应数量个状态表示；最后设置门控机制对获得的状态表示进行加权计算，获得最终解码器端的输出状态，通过注意力机制进行计算使词义的表达更加多元化，能够提升翻译效果，采用门控机制进行加权计算使低资源句子能够自适应地吸收知识，以实现知识迁移获得最终解码器端的输出状态。

34、7、本发明的步骤中基于解码器端的输出状态产生翻译输出概率分布具体为，基于解码器端的输出状态进行上下文近邻检索获得相关的高资源句子翻译概率分布，将该翻译概率分布从高资源的垂直领域数据中吸收细粒度信息调整当前的解码器端的输出状态产生翻译输出概率分布，而引导低资源领域到高资源领域的适配，进一步增强高资源句子到低资源句子的知识迁移，提高低资源的垂直领域数据的领域翻译性能。

35、8、本发明还提供一种计算机可读存储介质，具有与上述垂直领域的翻译模型训练方法相同的有益效果，在此不做赘述。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘明童李上杰周明
技术所有人：北京澜舟科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。