基于Transformer的翻译模型的专业术语词汇对齐替换方法

文档序号:31450042发布日期:2022-09-07 13:01阅读:来源:国知局

技术特征:
1.一种基于transformer的翻译模型的专业术语词汇对齐替换方法,其特征在于包括以下步骤:s1:构建基于transformer的翻译模型,包括m个编码层和m个解码层,并采用预先收集的源语言与目标语言的平行语料对该翻译模型进行训练;s2:将待翻译的源语言文本输入至步骤s1训练好的基于transformer的翻译模型,翻译得到目标语言的初始译文,记源语言文本中单词数量为d
r
,初始译文中目标语言单词数量为d
t
;在得到初始译文的同时获取翻译模型中m个解码层中交叉注意力机制所计算出的大小为d
t
×
d
r
的相关性矩阵,每个元素代表相应位置的源语言单词和目标语言单词之间的相关性值;根据需要选取m个解码层中的n个解码层作为参考解码层,对应相关性矩阵作为参考相关性矩阵r
n
,n=1,2,

,n;s3:对于初始译文中每个目标语言单词,分别确定其在n个参考相关性矩阵r
n
中相关性值最大的源语言文本中源语言单词作为待定源语言单词w
d,n
,并将其对应的相关性值记为c
d,n
,d=1,2,

,d
t
;将每个目标语言单词对应的n个待定源语言单词w
d,n
构成该目标语言单词的待定源语言单词集合φ
d
,记待定源语言单词集合φ
d
中待定源语言单词数量为k,对于第k个待定源语言单词,统计其出现的频率f
k,n
和相关性值的均值加权得到该待定源语言单词的评分α、β表示预设的权值且α+β=1;最后在每个目标语言单词的k个待定源语言单词中,选取评分s
k,n
最大的待定源语言单词作为该目标语言单词的对齐源语言单词,从而得到对齐单词对;s4:根据预先设置的源语言和目标语言的专业术语库,查询其中的每一个源语言术语是否存在于输入的源语言文本中,如果不存在,则不作任何操作,如果存在,则利用步骤s3确定的源语言单词与初始译文中目标语言单词的对齐关系,找到初始译文中与该源语言术语对齐的目标语言单词集合,将初始译文中与该源语言术语对齐的目标语言单词替换为源语言术语对应的专业术语目标语言译文,从而得到最终译文。2.根据权利要求1所述的专业术语词汇对齐替换方法,其特征在于,所述步骤s2中参考解码层的选取方法如下:使用外部对齐工具,获取源语言和目标语言的对齐结果作为其真实的标签,然后将源语言和目标语言输入至翻译模型,获取翻译模型中m个解码层中交叉注意力机制所计算出的相关性矩阵,分别基于每个相关性矩阵进行对齐抽取,将抽取出的对齐结果与真实标签进行对比,统计对齐结果的对齐错误率,将对齐错误率小于预设阈值的相关性矩阵对应的解码层作为参考解码层。3.据权利要求1所述的专业术语词汇对齐替换方法,其特征在于,所述步骤s4中还包括使用启发式的方法判断是否要对源语言文本中存在的源语言术语执行替换操作,具体方法如下:将待替换的源语言术语中包含的单词个数记为l1,将初始译文中与该待替换源语言术语对齐的单词个数记为l2,如果v
×
l1<l2<u
×
l1,则执行替换操作,否则不执行替换操作,其中v和u是根据源语言和目标语言间的翻译习惯所预设的系数。

技术总结
本发明公开了一种基于Transformer的翻译模型的专业术语词汇对齐替换方法,构建并训练基于Transformer的翻译模型,将待翻译的源语言文本输入至训练好的翻译模型,翻译得到目标语言的初始译文,同时获取源语言单词和目标语言单词的多个参考相关性矩阵,根据参考相关性矩阵对源语言单词和目标语言单词进行对齐,得到对齐单词对,查找源语言句子中是否存在预先设置的专业术语库中的源语言术语,如果存在则查询初始译文中与该源语言术语对齐的单词集合,将初始译文中与该源语言术语对齐的目标语言单词替换为专业术语译文,从而得到最终译文。本发明利用翻译模型中的相关性矩阵实现源语言和译文的对齐,并利用专业术语库对译文进行修正,从而提高译文的准确性。从而提高译文的准确性。从而提高译文的准确性。


技术研发人员:王晓玲 郑焕然 朱威
受保护的技术使用者:华东师范大学
技术研发日:2022.05.30
技术公布日:2022/9/6
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1