译文打分模型的训练方法及译文选取方法与流程

文档序号:37017810发布日期:2024-02-09 13:09阅读:38来源:国知局
译文打分模型的训练方法及译文选取方法与流程

本申请涉及文本处理,特别涉及一种译文打分模型的训练方法、译文选取方法、计算机可读存储介质、电子设备及计算机程序产品。


背景技术:

1、机器翻译是文本处理领域的重要技术手段,机器翻译可以将一种语言的文字转换为另一种语言,使得不同语言的人们可以互相交流。机器翻译得到的译文仍可能存在大意表述正确,但语句不自然不通畅等问题。

2、目前,可以采用bert(bidirectional encoder representations fromtransformers)模型对多个候选翻译结果的准确性和流畅度进行打分,以选取翻译效果较好的译文。

3、但是,目前的方案,由于bert模型是基于注意力机制的神经网络模型,该神经网络模型具有多层编码器结构,导致在bert模型的训练和推理过程中,在输入数据较多时,训练和推理的时间会大幅度增加。


技术实现思路

1、本申请实施例提供一种译文选取方法、计算机可读存储介质、电子设备及计算机程序产品,以实现在模型具有较高的打分准确度的基础上,减少模型训练和推理的时间。

2、根据本申请的第一方面,公开了一种译文打分模型的训练方法,方法包括:

3、获取训练译文的分词序列,将所述分词序列输入初始模型的第一个受限布尔兹曼机层;所述分词序列中每个分词具有标注概率,所述初始模型包括所述第一个受限布尔兹曼机层在内的多个依次连接的受限布尔兹曼机层,以及与最后一个受限布尔兹曼机层连接的分类层;

4、基于所述第一个受限布尔兹曼机层之外的每个受限布尔兹曼机层,对上一个受限布尔兹曼机层输入的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;

5、通过所述分类层获取所述最后一个受限布尔兹曼机层输出的分词序列,并输出所述每个分词对应的概率分布;所述概率分布包括多组候选分词和候选分词概率;

6、在所述概率分布中确定所述每个分词对应候选分词的候选分词概率,根据所述候选分词概率和所述每个分词的标注概率,训练所述初始模型得到译文打分模型。

7、根据本申请的第二方面,公开了一种译文选取方法,方法包括:

8、将多个候选译文输入到译文打分模型,基于所述译文打分模型分别计算所述多个候选译文中每个分词对应的概率分布;

9、在所述概率分布中查找所述每个分词对应的概率值,基于多个所述每个分词对应的概率值获得每个候选译文对应的概率值;

10、将所述每个候选译文对应的概率值确定为所述每个候选译文的分数,根据所述分数在所述多个候选译文中选取目标译文;其中,所述译文打分模型是由第一方面所述的方法训练得到。

11、根据本申请的第三方面,公开了一种译文打分模型的训练装置,包括:

12、译文输入模块,用于获取训练译文的分词序列,将所述分词序列输入初始模型的第一个受限布尔兹曼机层;所述分词序列中每个分词具有标注概率,所述初始模型包括所述第一个受限布尔兹曼机层在内的多个依次连接的受限布尔兹曼机层,以及与最后一个受限布尔兹曼机层连接的分类层;

13、层间运算模块,用于将除所述最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;

14、概率输出模块,用于通过所述分类层获取所述最后一个受限布尔兹曼机层输出的分词序列,并输出所述每个分词对应的概率分布;所述概率分布包括多组候选分词和候选分词概率;

15、模型训练模块,用于在所述概率分布中确定所述每个分词对应候选分词的候选分词概率,根据所述候选分词概率和所述每个分词的标注概率,训练所述初始模型得到译文打分模型。

16、根据本申请的第四方面,公开了一种译文选取装置,包括:

17、概率分布模块,用于将多个候选译文输入到译文打分模型,基于所述译文打分模型分别计算所述多个候选译文中每个分词对应的概率分布;

18、概率查找模块,用于在所述概率分布中查找所述每个分词对应的概率值,基于多个所述每个分词对应的概率值获得每个候选译文对应的概率值;

19、译文打分模块,用于将所述每个候选译文对应的概率值确定为所述每个候选译文的分数,根据所述分数在所述多个候选译文中选取目标译文;其中,所述译文打分模型是由第一方面的方法训练得到。

20、根据本申请的第五方面,公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有程序,所述程序被所述处理器执行时实现如第一方面和第二方面方法的步骤。

21、根据本申请的第四方面,公开了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面和第二方面方法的步骤。

22、根据本申请的第六方面,本申请实施例还公开了一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如第一方面或第二方面所述的方法的步骤。

23、根据本申请的第七方面,公开了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如第一方面和第二方面方法的步骤。

24、本申请实施例中,通过获取训练译文的分词序列,将分词序列输入初始模型的第一个受限布尔兹曼机层;将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;通过分类层获取最后一个受限布尔兹曼机层输出的分词序列,并输出每个分词对应的概率分布;概率分布包括多组候选分词和候选分词概率;在概率分布中确定每个分词对应候选分词的候选分词概率,根据候选分词概率和每个分词的标注概率,训练初始模型的参数。一方面,通过使用多层受限布尔兹曼机层和一个分类层构成的初始模型,并将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,提高了模型的特征捕捉能力,使得模型的效果能够接近bert模型,具有较高的打分准确性;另一方面,由于基于多层受限布尔兹曼机层的模型结构的参数量较少,在基于同等的训练数据情况下,训练模型的时间相较于bert模型明显减少。



技术特征:

1.一种译文打分模型的训练方法,其特征在于,方法包括:

2.根据权利要求1所述的方法,其特征在于,获取训练译文的分词序列,将所述分词序列输入初始模型的第一个受限布尔兹曼机层的步骤,包括:

3.根据权利要求2所述的方法,其特征在于,在获取所述正样本译文的分词序列和所述负样本译文的分词序列的步骤之后,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,在基于所述散度信息训练所述第一个受限布尔兹曼机层的参数的步骤之后,所述方法还包括:

5.根据权利要求2所述的方法,其特征在于,根据所述候选分词概率和所述每个分词的标注概率,训练所述初始模型得到译文打分模型的步骤,包括:

6.根据权利要求5所述的方法,其特征在于,在通过第二损失函数计算第二损失值的步骤之前,所述方法还包括:

7.一种译文选取方法,其特征在于,方法包括:

8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

9.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述方法的步骤。

10.一种计算机程序产品,其特征在于,所述计算机程序产品上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。


技术总结
本申请公开一种译文打分模型的训练方法及译文选取方法,包括:获取训练译文的分词序列,将分词序列输入初始模型的第一个受限布尔兹曼机层;将除最后一个受限布尔兹曼机层之外的每个受限布尔兹曼机层输出的分词序列进行自注意力运算及求和归一化运算,并将运算结果输出下一个受限布尔兹曼机层;通过分类层获取最后一个受限布尔兹曼机层输出的分词序列,并输出每个分词对应的概率分布;在概率分布中确定每个分词对应候选分词的候选分词概率,根据候选分词概率和每个分词的标注概率,训练初始模型得到译文打分模型。本申请可以基于上述模型结构及运算过程,在模型输出的准确度较高的基础上,能够降低模型训练和推理的时间成本。

技术研发人员:王元,邢启洲,李健,陈明,武卫东
受保护的技术使用者:北京捷通华声科技股份有限公司
技术研发日:
技术公布日:2024/2/8
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1