一种领域平行语料的生成方法与翻译模型的训练方法与流程

文档序号:30754172发布日期:2022-07-13 10:04阅读:116来源:国知局
一种领域平行语料的生成方法与翻译模型的训练方法与流程

1.本发明涉及自然语言处理中的机器翻译领域,更为具体的,涉及一种领域平行语料的生成方法与翻译模型的训练方法。


背景技术:

2.机器翻译属于计算语言学的范畴,其研究借由计算机程序,即机器翻译模型,将文字从一种自然语言翻译成另一种自然语言的技术。机器翻译模型分为监督式和无监督式两种。借由平行语料生成技术,可使得监督式翻译模型实现更复杂的文本自动翻译,能够处理不同的文法结构、辞汇辨识和惯用语的对应。
3.平行语料是指与译文并行放置的文本。平行文本对齐技术是指确定平行文本原文和译文的技术。原文是指需要翻译的文本,译文是与原文内容一致的对应语言的文本,如韩中翻译中,韩文文本为原文、中文文本为译文。平行语料生成是指实现句子层面上的平行文本对齐,生成平行语料集合,即平行语料库。翻译模型训练是指采用领域平行语料库中的平行语料,训练监督式机器翻译模型,使其能够将译文准确地翻译成原文。
4.领域平行语料是指关于某个具体领域,如军事领域、科技领域等的平行语料。相比如开放域平行语料,领域平行语料往往含有较多领域知识,如领域术语、领域文本表述方式、领域行文规范等。监督式机器翻译模型需要从平行语料中学习领域翻译知识。相比使用开放域平行语料训练模型,使用领域平行语料训练的翻译模型具有更好的应用效果。
5.平行语料的获取方法主要有两种,一是从各种数据库或者文献中人工挖掘平行语料,例如各国法律文、专利数据库等;二是通过网络爬虫采集双语网站资源,处理后生成平行语料。
6.以往关于平行语料生成的研究主要注重平行语料的规模和质量,很少涉及对领域平行语料生成的研究。同时,由于领域语料的收集和加工难度比较大,针对某个具体领域的平行语料生成往往依靠人工翻译完成,这就使得目前的领域语料特别少,甚至某些领域根本没有能够满足机器翻译模型训练的语料库。
7.目前,现有技术存在如下技术问题:1)领域平行语料稀少,不能满足机器翻译模型的使用需求:2)已有的领域平行语料通用性差;3)现有平行语料库生成过程中,存在无法保证领域术语正确翻译的问题;4)人工确定生成领域平行语料的成本高,效率低。


技术实现要素:

8.本发明的目的在于克服现有技术的不足,提供一种领域平行语料的生成方法与翻译模型的训练方法,生成领域平行语料,实现监督式机器翻译模型自更新,具有通用性,同时提升了领域平行语料的内容质量,保证了翻译过程中领域术语翻译的正确性,降低了成本,实现了监督式机器翻译中领域平行语料生成和机器翻译两部分的自循环,同时提升了效率。
9.本发明的目的是通过以下方案实现的:
10.一种领域平行语料的生成方法,包括步骤:
11.利用机器翻译模型对齐平行语料素材库中篇章级语料和句子级语料,对齐后生成篇章级平行语料和句子级平行语料,组成领域平行语料。
12.进一步地,包括子步骤:
13.利用开放平行语料初始化训练监督式机器翻译模型;
14.采集双语网站内容并解析素材标题、内容和报道时间生成语料素材,存入平行语料素材库;
15.篇章级平行语料对齐子步骤:对所述平行语料素材库中一篇原文素材和一篇译文素材计算它们的报道时间差,匹配翻译原文素材标题中的领域术语,如报道时间差大于预设的时间差阈值则不是篇章级平行语料,如小于预设的时间差阈值,则用初始化后的监督式机器翻译模型比较两篇素材标题内容的相似性,如大于预设的标题内容相似性阈值时,则判断它们为篇章级平行语料,否则为非篇章级平行语料并停止处理;
16.仅对判断为篇章级平行语料的情况进入句子级平行语料对齐子步骤:针对篇章级平行语料完成原文和译文篇章分句,匹配翻译原文句中的领域术语,利用初始化后的监督式机器翻译模型比较其任意两个原文和译文句子的内容相似程度,如高于预设的句子翻译性能阈值,则判断为句子级平行语料,否则为非句子级平行语料并停止处理。
17.一种翻译模型的训练方法,包括步骤:用如上所述方法生成的句子级平行语料更新机器翻译模型,再利用更新后的机器翻译模型生成领域平行语料;领域平行语料的生成过程和机器翻译模型的更新过程各自循环。
18.进一步地,所述开放平行语料包括开放域公开平行语料和开放域翻译接口,所述监督式机器翻译模型包括bert-transformer翻译模型。
19.进一步地,所述采集双语网站内容并解析素材标题、内容和报道时间生成语料素材,存入平行语料素材库,包括子步骤:
20.调用语料素材表,判断其中是否已存在素材报道时间和标题均相同的素材,若存在将采集的素材丢弃;不存在,将采集的素材加入到语料素材表。
21.进一步地,针对bert-transformer翻译模型,将计算译文和中文素材标题文本的rouge值作为内容相似性比较的参数。
22.进一步地,所述开放域公开平行语料通过爬虫获取。
23.进一步地,包括子步骤:设置句子级平行语料列表,用于存储如上所述方法生成的句子级平行语料。
24.本发明的有益效果包括:
25.本发明通过领域双语网站内容采集、篇章级领域平行语料对齐、句子级领域平行语料采集等步骤实现了领域平行语料生成,其具有一定的通用性,在领域语料库缺少的情况下,提供了一种能够适应多个领域的平行语料生成方法。
26.本发明考虑到平行语料库生成过程中,无法保证领域术语正确翻译的问题,借助领域原译文术语对照表,自动匹配原文本涉及的领域术语,提升了领域平行语料的内容质量,保证了翻译过程中领域术语翻译的正确性。
27.本发明能够基于生成的领域平行语料自动完成机器翻译模型更新训练,同时更新后翻译模型又能够支撑平行语料的生成,降低了人工确定生成领域平行语料质量的成本,
实现了监督式机器翻译中领域平行语料生成和机器翻译两部分的自循环,同时提升了语料生成和机器翻译的效率。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
29.图1为本发明实施例中一种领域平行语料生成与翻译模型训练方法的流程示意图;
30.图2为本发明实施例中领域平行语料素材采集流程示意图;
31.图3为本发明实施例中篇章级领域平行语料生成流程示意图;
32.图4为本发明实施例中句子级领域平行语料生成流程示意图;
33.图5为应用了本发明实施例语料生成方法和训练方法的基于bert-transformer的机器翻译模型的运行示意图。
具体实施方式
34.本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
35.针对背景中的问题,为了获取高质量的领域平行语料,本发明实施例一方面借助机器翻译模型和领域术语对照表,从领域双语网站采集双语语料素材,经过处理生成领域平行语料;另一方面,在生成领域平行语料的过程中,实现了领域机器翻译模型的更新,进一步优化了领域机器翻译模型。
36.在具体实施过程中,本发明实施例方法通过机器翻译模型初始化训练、领域双语网站语料素材采集、基于时间和标题内容的篇章级语料对齐、基于领域术语和信息内容的句子级语料对齐等步骤,生成领域平行语料,实现监督式机器翻译模型自更新。
37.为了更具体地表述本发明实施例的具体实施方法,本发明实施例以军事领域韩中平行语料构建为例,即原文为韩文、译文为中文,使用该语料的翻译模型为将韩文翻译成中文的基于bert-transformer的韩中机器翻译模型。该翻译模型使用bert模型作为编码器,transformer模型作为解码器。
38.如图1所示,本发明实施例提供一种领域平行语料生成与翻译模型训练的方法,包括以下步骤:
39.步骤1:翻译模型初始化:基于开放域公开平行语料、开放域翻译接口训练监督式翻译模型(如统计翻译模型),初始训练bert-transformer翻译模型。在步骤1中,具体包括子步骤:
40.步骤1.1:准备一批领域中文语料,调用开放韩中翻译接口,如百度翻译中的韩中翻译接口,将该批中文语料翻译成韩文语料,将韩文语料和中文语料组合,形成韩中平行语料;
41.步骤1.2:准备开源的平行语料,如世界机器翻译大赛提供的韩中平行语料;
42.步骤1.3:使用步骤1.1和步骤1.2准备的平行语料训练翻译模型。
43.步骤2:如图2所示,基于爬虫技术,采集领域双语网站内容,实现网页内容解析,生成语料素材,存入语料素材表。在步骤2中,具体包括子步骤:
44.步骤2.1:设定素材爬取的双语网站url。如通过前期调研,可以确定从东亚日报、中央日报等网站爬取军事领域韩中文素材,这里本发明选定东亚日报作为获取素材的双语网站,其爬取韩中素材网站url分别为http://www.donga.com和http://www.donga.com/cn。
45.步骤2.2:调用爬虫技术,分别获取双语网页的首页内容,解析首页素材url,存入素材urls列表。
46.步骤2.3:遍历urls列表中的url,调用爬虫技术,获取素材网页内容,解析素材的标题、报道时间以及素材正文;调用语料素材表,判断其中是否已存在素材报道时间和标题均相同的素材,若存在将新采集的素材丢弃;不存在,将新采集的素材加入到语料素材表。
47.步骤2.4:定期执行步骤2.1到2.3更新语料素材表。
48.步骤3:如图3所示,基于步骤2爬取的一篇韩文素材和一篇中文语料素材,基于报道时间和标题翻译的性能,判断这两篇素材是否是篇章级平行语料。在步骤3中,具体包括子步骤:
49.步骤3.1:设定篇章级平行语料报道时间差阈值为t_p,标题内容相似性阈值为rouge_p。
50.步骤3.2:输入需要对齐的韩中文素材(sz、sf);
51.步骤3.3:获取素材sz、sf的报道时间,计算两篇素材的报道时间差,若该时间差大于时间差阈值为t_p,表明两篇素材不可能为篇章级平行语料;若时间差小于阈值,转入步骤3.4;
52.本发明实施例认为,当两篇素材的报道时间差较大时,两篇素材越不可能描述同一件事。
53.步骤3.4:判断两篇素材的内容相似程度。在步骤3.4中,具体包括子步骤:
54.步骤3.4.1:调用领域韩中文术语对照表,匹配韩文素材标题中出现的术语,并将其替换成中文;
55.步骤3.4.2:调用步骤1初始训练得到的bert-transformer翻译模型,将韩文素材标题翻译中文,计算译文和中文素材标题文本的rouge值;
56.步骤3.4.3:若该rouge大于标题内容相似性阈值,则这两篇素材为篇章级平行语料;否则,这两篇素材为非篇章级平行语料。
57.步骤4:如图4所示,基于步骤3生成的篇章级平行语料(sz、sf),基于内容相似,生成句子级平行语料。在步骤4中,具体包括子步骤:
58.步骤4.1:设定句子翻译性能阈值bleu_p,中韩文句子长度最大值分别为len_z和len_f,句子级平行语料list。
59.步骤4.2:输入篇章级平行语料(sz、sf),中文语料按

。!
“””
等标点对其分句,长度超过len_z的句子分成若干句,英文按“.|
‘’”
等标点对齐分句,长度超过len_f的句子分成若干句,将中韩文分句结果依次存入listz和listf中。
60.步骤4.3:计算listz和listf任意两个句子a,b的内容相似程度,判断其是否为句
子级平行语料。在步骤4.3中,具体包括子步骤:
61.步骤4.3.1:调用领域韩中文术语对照表,匹配句子b中出现的术语,并将其替换成中文;
62.步骤4.3.2:调用步骤1初始训练得到的bert-transformer翻译模型,将句子b翻译中文,计算翻译后文本和句子a的bleu值bleu_b;
63.步骤4.3.3:比较bleu_b与句子翻译性能阈值bleu_p的大小,若bleu_b大于bleu_p,则这句子a和句子b为平行语料,将句子对(a、b)加入句子级平行语料列表list。
64.步骤5:使用句子级平行语料列表list中的语料更新训练领域翻译模型,生成新的翻译模型。
65.实施例1
66.一种领域平行语料的生成方法,包括步骤:
67.利用机器翻译模型对齐平行语料素材库中篇章级语料和句子级语料,对齐后生成篇章级平行语料和句子级平行语料,组成领域平行语料。
68.实施例2
69.在实施例1的基础上,包括子步骤:
70.利用开放平行语料初始化训练监督式机器翻译模型;
71.采集双语网站内容并解析素材标题、内容和报道时间生成语料素材,存入平行语料素材库;
72.篇章级平行语料对齐子步骤:对所述平行语料素材库中一篇原文素材和一篇译文素材计算它们的报道时间差,匹配翻译原文素材标题中的领域术语,如报道时间差大于预设的时间差阈值则不是篇章级平行语料,如小于预设的时间差阈值,则用初始化后的监督式机器翻译模型比较两篇素材标题内容的相似性,如大于预设的标题内容相似性阈值时,则判断它们为篇章级平行语料,否则为非篇章级平行语料并停止处理;
73.仅对判断为篇章级平行语料的情况进入句子级平行语料对齐子步骤:针对篇章级平行语料完成原文和译文篇章分句,匹配翻译原文句中的领域术语,利用初始化后的监督式机器翻译模型比较其任意两个原文和译文句子的内容相似程度,如高于预设的句子翻译性能阈值,则判断为句子级平行语料,否则为非句子级平行语料并停止处理。
74.实施例3
75.在实施例2的基础上,一种翻译模型的训练方法,包括步骤:用实施例1所述方法生成的句子级平行语料更新机器翻译模型,再利用更新后的机器翻译模型生成领域平行语料;领域平行语料的生成过程和机器翻译模型的更新过程各自循环。
76.实施例4
77.在实施例3的基础上,所述开放平行语料包括开放域公开平行语料和开放域翻译接口,所述监督式机器翻译模型包括bert-transformer翻译模型。
78.实施例5
79.在实施例3的基础上,所述采集双语网站内容并解析素材标题、内容和报道时间生成语料素材,存入平行语料素材库,包括子步骤:调用语料素材表,判断其中是否已存在素材报道时间和标题均相同的素材,若存在将采集的素材丢弃;不存在,将采集的素材加入到语料素材表。
80.实施例6
81.在实施例4的基础上,针对bert-transformer翻译模型,将计算译文和中文素材标题文本的rouge值作为内容相似性比较的参数。
82.实施例7
83.在实施例4的基础上,所述开放域公开平行语料通过爬虫获取。
84.实施例8
85.在实施例3的基础上,包括子步骤:设置句子级平行语料列表,用于存储用权利要求1中所述方法生成的句子级平行语料。
86.描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
87.根据本技术的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
88.作为另一方面,本技术还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现上述实施例中所述的方法。
89.本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。
90.上述技术方案只是本发明的一种实施方式,对于本领域内的技术人员而言,在本发明公开了应用方法和原理的基础上,很容易做出各种类型的改进或变形,而不仅限于本发明上述具体实施方式所描述的方法,因此前面描述的方式只是优选的,而并不具有限制性的意义。
91.除以上实例以外,本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例,各个实施例的特征可以互换或替换,本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1