一种新老维吾尔文字的混合神经机器翻译方法及系统与流程

文档序号:30219936发布日期:2022-05-31 21:00阅读:168来源:国知局
一种新老维吾尔文字的混合神经机器翻译方法及系统与流程

1.本发明属于语言翻译技术领域,特别是关于一种新老维吾尔文字的混合神经机器翻译方法及系统。


背景技术:

2.随着深度学习在自然语言处理中的不断应用,基于神经网络的机器翻译方法在双语资源丰富的语种获得较好的发展,翻译的质量也得到了大幅度的提升,然而在机器翻译中仍然存在差强人意的情况。对于翻译,我们首先对 500个句子人工进行错误分析,发现错误翻译的单词、语法错误、漏翻译、命名实体翻译等是最主要的翻译错误。对于资源匮乏的语言,因为语料库中出现的命名实体出现频率较低,命名实体翻译错误率较高。需要大量的命名实体词典来提高翻译的质量,命名实体作为在自然语言中承载信息和表达语义的主要载体,其翻译质量是直接影响机器翻译系统性能的重要因素之一。
3.近年来神经机器翻译取得很好的翻译效果,尤其是针对语料规模大的语种,例如:英中、英法、英德等语种。维吾尔语在语料规模上存在不足,尤其是新维吾尔文字。
4.新维吾尔文字是以拉丁字母为基础的维吾尔文,这套方案很少使用二合字母,而是使用了一些罕见的拉丁字母。老维吾尔文字是以阿拉伯字母为基础的维吾尔文,是目前使用最为广泛的维吾尔文文字。如何对新维吾尔文字进行翻译,以及如何提高新维吾尔文字的翻译精度及翻译效率是当下亟待解决的技术难题。


技术实现要素:

5.本发明的目的在于提供一种新老维吾尔文字的混合神经机器翻译方法及系统,其能够解决新、老维吾尔文字翻译精度低且效率低的技术问题。
6.本发明提供了一种新老维吾尔文字的混合神经机器翻译方法,包括以下步骤:
7.s1,获取拉丁文、中文、英文三者之间的相互翻译的三方语料库;
8.s2,根据老维吾尔文字与拉丁文之间的老维吾尔文字-拉丁文的老拉丁维吾尔文字语料库,构造新维吾尔文字转换成拉丁文的新维吾尔文字-拉丁文的新拉丁维吾尔文字语料库,并将老拉丁维吾尔文字语料库与新拉丁维吾尔文字语料库合并成统一拉丁维吾尔文字语料库;
9.s3,将所述三方语料库、老拉丁维吾尔文字语料库及新拉丁维吾尔文字语料库进行联合训练,得到新维吾尔文字、老维吾尔文字、英文、中文、拉丁文的混合机器翻译模型。
10.优选地,所述s2具体包括:先将老维吾尔文字转换成拉丁文,然后根据同样的字母转写规则,将新维吾尔文字转换成拉丁文。
11.优选地,所述s2具体包括:根据老维吾尔文字、新维吾尔文字、拉丁文之间的联系,将新维吾尔文字、老维吾尔文字映射到统一拉丁字母表。
12.优选地,所述s3具体包括:将新老维吾尔文字语料运用字符转换方式转换为拉丁符号,得到拉丁维吾尔文字转换到中文语料,联合英中语料一起进行训练。
13.本发明还提供了一种新老维吾尔文字的混合神经机器翻译系统,所述系统用于实现新老维吾尔文字的混合神经机器翻译方法,包括:
14.语料库获取模块,用于获取拉丁文、中文、英文三者之间的相互翻译的三方语料库;
15.语料库构建模块,用于根据老维吾尔文字与拉丁文之间的老维吾尔文字
‑ꢀ
拉丁文的老拉丁维吾尔文字语料库,构造新维吾尔文字转换成拉丁文的新维吾尔文字-拉丁文的新拉丁维吾尔文字语料库,并将老拉丁维吾尔文字语料库与新拉丁维吾尔文字语料库合并成统一拉丁维吾尔文字语料库;
16.模型训练模块,用于将所述三方语料库、老拉丁维吾尔文字语料库及新拉丁维吾尔文字语料库进行联合训练,得到新维吾尔文字、老维吾尔文字、英文、中文、拉丁文的混合机器翻译模型。
17.本发明还提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机管理类程序时实现新老维吾尔文字的混合神经机器翻译方法的步骤。
18.本发明还提供了一种计算机可读存储介质,其上存储有计算机管理类程序,所述计算机管理类程序被处理器执行时实现新老维吾尔文字的混合神经机器翻译方法的步骤。
19.本发明的目的在于提供一种新老维吾尔文字的混合神经机器翻译方法及系统,其能够解决新、老维吾尔文字翻译精度低且效率低,实现一个模型可实现新老维吾尔文字、英问到中文的一对多翻译的技术问题。
20.与现有技术相比,根据本发明的一种新老维吾尔文字的混合神经机器翻译及系统,其中方法包括:s1,获取拉丁文、中文、英文三者之间的相互翻译的三方语料库;s2,根据老维吾尔文字与拉丁文之间的老维吾尔文字-拉丁文的老拉丁维吾尔文字语料库,构造新维吾尔文字转换成拉丁文的新维吾尔文字-拉丁文的新拉丁维吾尔文字语料库,并将老拉丁维吾尔文字语料库与新拉丁维吾尔文字语料库合并成统一拉丁维吾尔文字语料库;s3,将所述三方语料库、老拉丁维吾尔文字语料库及新拉丁维吾尔文字语料库进行联合训练,得到新维吾尔文字、老维吾尔文字、英文、中文、拉丁文的混合机器翻译模型。过新老维吾尔文字之间与拉丁文的联系,在老维吾尔文字中文双语语料的基础上,借助字母转写规则,将老维吾尔文字与新维吾尔文字转为拉丁字母,利用回翻构建伪平行语料实现新老维吾尔文字的混合机器翻译模型。此外,通过借助英文翻译,实现富资源迁移,实现新老维吾尔文字工业化利用,且翻译效果佳。
附图说明
21.图1为本发明提供的一种新老维吾尔文字的混合神经机器翻译方法流程图;
22.图2为本发明提供的一种可能的电子设备的硬件结构示意图;
23.图3为本发明提供的一种可能的计算机可读存储介质的硬件结构示意图。
具体实施方式
24.下面结合附图,对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
25.除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变
换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
26.如图1所示,根据本发明优选实施方式的一种新老维吾尔文字的混合神经机器翻译方法,包括:s1,获取拉丁文、中文、英文三者之间的相互翻译的三方语料库;s2,根据老维吾尔文字与拉丁文之间的老维吾尔文字-拉丁文的老拉丁维吾尔文字语料库,构造新维吾尔文字转换成拉丁文的新维吾尔文字-拉丁文的新拉丁维吾尔文字语料库,并将老拉丁维吾尔文字语料库与新拉丁维吾尔文字语料库合并成统一拉丁维吾尔文字语料库;s3,将所述三方语料库、老拉丁维吾尔文字语料库及新拉丁维吾尔文字语料库进行联合训练,得到新维吾尔文字、老维吾尔文字、英文、中文、拉丁文的混合机器翻译模型。过新老维吾尔文字之间与拉丁文的联系,在老维吾尔文字中文双语语料的基础上,借助字母转写规则,将老维吾尔文字与新维吾尔文字转为拉丁字母,利用回翻构建伪平行语料实现新老维吾尔文字的混合机器翻译模型。此外,通过借助英文翻译,实现富资源迁移,实现新老维吾尔文字工业化利用,且翻译效果佳。
27.优选的方案,s2具体包括:先将老维吾尔文字转换成拉丁文,然后根据同样的字母转写规则,将新维吾尔文字转换成拉丁文。转写(transliteration) 是将一个拼音文字系统的字符按照一个字符对照表,忠实地对号入座地转换成另一个拼音文字系统的字符的过程(包括基础字符的附加符号和用双字符表示的单音素)。此外,日语音节字母用其他字母表的字符标记,也是一种转写。转写在文字系统之间进行。转写的主要目的在于为每个字母或字母组合求出相应的一个字母或字母组合,而不在于求得实际发音。因而,字符转换时常注重形体一致而不注重发音是否相同。俄文、日文等文字都有标准的拉丁(罗马)转写方案。由于新维吾尔文字与老维吾尔文字是有一定的对应关系,因此可以对照老维吾尔文字的撰写规则来翻译新维吾尔文字,以得到新维吾尔文字-拉丁文的新拉丁维吾尔文字语料库。
28.具体地,根据老维吾尔文字与拉丁文之间的联系,构建老维吾尔文字转换成老拉丁维吾尔文字的字母映射表;根据新维吾尔文字与拉丁文之间的联系,构建新维吾尔文字转换成拉丁维吾尔文字的字母映射表。即,根据新老维吾尔文字与拉丁文之间的联系,构造新老维吾尔文字转换成拉丁维吾尔文字的字母映射表。先将新维吾尔文字、老维吾尔文字分别映射到拉丁维吾尔文字表。然后将新、老维吾尔文字映射到统一拉丁字母表。统一拉丁字母表即组成了统一拉丁维吾尔文字语料库的必要成份。通过该统一拉丁字母表,可以将任何一个新拉丁文、老拉丁文或者二者混合的文本进行统一的全覆盖翻译成拉丁文。
29.然后将转换为统一拉丁字母表的新、老维吾尔文字-中文语料+英中双语数据,联合训练,利用英中双语数据进行富资源迁移,得到混合新老维吾尔文字翻译模型,可进行新维吾尔文字、老维吾尔文字、英文到中文的三种混合翻译模型。
30.优选的方案,s3具体包括:将新老维吾尔文字语料运用字符转换方式转换为拉丁符号,得到拉丁维吾尔文字转换到中文语料,联合英中语料一起进行训练。
31.请参阅图2为本发明实施例提供的电子设备的实施例示意图。如图2所示,本发明实施例提了一种电子设备,包括存储器1310、处理器1320及存储在存储器1310上并可在处理器1320上运行的计算机程序1311,处理器1320 执行计算机程序1311时实现以下步骤:s1,获取拉丁文、中文、英文三者之间的相互翻译的三方语料库;s2,根据老维吾尔文字与拉丁文之间的老维吾尔文字-拉丁文的老拉丁维吾尔文字语料库,构造新维吾尔文字转换成
拉丁文的新维吾尔文字-拉丁文的新拉丁维吾尔文字语料库,并将老拉丁维吾尔文字语料库与新拉丁维吾尔文字语料库合并成统一拉丁维吾尔文字语料库;s3,将所述三方语料库、老拉丁维吾尔文字语料库及新拉丁维吾尔文字语料库进行联合训练,得到新维吾尔文字、老维吾尔文字、英文、中文、拉丁文的混合机器翻译模型。
32.请参阅图3为本发明提供的一种计算机可读存储介质的实施例示意图。如图3所示,本实施例提供了一种计算机可读存储介质1400,其上存储有计算机程序1411,该计算机程序1411被处理器执行时实现如下步骤:s1,获取拉丁文、中文、英文三者之间的相互翻译的三方语料库;s2,根据老维吾尔文字与拉丁文之间的老维吾尔文字-拉丁文的老拉丁维吾尔文字语料库,构造新维吾尔文字转换成拉丁文的新维吾尔文字-拉丁文的新拉丁维吾尔文字语料库,并将老拉丁维吾尔文字语料库与新拉丁维吾尔文字语料库合并成统一拉丁维吾尔文字语料库;s3,将所述三方语料库、老拉丁维吾尔文字语料库及新拉丁维吾尔文字语料库进行联合训练,得到新维吾尔文字、老维吾尔文字、英文、中文、拉丁文的混合机器翻译模型。
33.本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
34.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
35.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
36.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
37.前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1