一种机器翻译中翻译单元表的抽取方法
【专利摘要】本发明提出了一种机器翻译中翻译单元表的抽取方法,本发明运行于Hadoop并行计算平台上,包括以下步骤:根据输入的双语对齐语料和词对齐文件,选择想要抽取的内容,并对相关信息进行合并;根据需要选择是否平滑和平滑方法,进行相应的平滑计数和合并;计算相应概率,输出最终结果文件。对比现有的集中式抽取方法,能大大加快程序运行时间;同时通过在计算概率的过程中可以选择性加入多项平滑技术,能够处理在训练数据集中由于数据稀疏和经验分布带来的过拟合现象,使得其中的概率更符合真实世界的情况,在实际情况中也能提高计算机机器翻译系统的性能。
【专利说明】一种机器翻译中翻译单元表的抽取方法
【技术领域】
[0001]本发明涉及一种计算机统计机器翻译和并行计算领域,特别是一种分布式抽取短语、层次短语表及词汇化调序模型的方法。
【背景技术】
[0002]统计机器翻译自上世纪90年代以来发展十分迅速,取得了很大的进步,逐渐成为机器翻译领域中的研究热点。相对于基于规则的机器翻译系统,统计方法的最大优点在于无需人工编写规则,可以利用语料库直接通过训练得到机器翻译系统。而基于短语或层次短语的统计机器翻译系统可以更好地把握局部上下文的依赖关系,在性能上优于基于词的统计机器翻译方法;相对于基于句法的统计机器翻译,又具有很好的通用性,且搜索空间比较小。
[0003]基于短语和层次短语的统计机器翻译系统的工作过程如下:输入待翻译的句子S,将之切分为η个短语,即S=S1, S2,……Sn,接着将每个源短语Si翻译成目标语言短语ti;生成目标语言句子T=t1;t2,……tn。最后在所有可能的候选翻译中找出概率最高的句子。而短语表、层次短语表和词汇化调序模型在基于短语和层次短语的统计机器翻译系统中扮演重要角色,其中短语表和层次短语表可以用来在翻译过程中找出翻译概率最大的目标短语;而词汇化调序模型则可以用来调整翻译结果中短语的次序,使得翻译结果更符合人们的习惯。在现有的发明技术中,如中科院计算所2009年申请的《统计机器翻译短语抽取方法》专利中,着重于抽取和计算概率的算法,没有提到如何实现本项工作,如果采用集中式抽取方法进行三个文件的抽取,即利用一台计算机独立完成工作,随着训练语料规模的不断增加,程序的时间消耗越来越大,而且每当试验一种新的词对齐方式都要重新抽取这些翻译规则,这样一来更是凸显了集中式抽 取方法在效率上的不足,因此需要寻求更快抽取这些翻译规则的方法。
[0004]Hadoop是由Apache基金会开发的一个分布式系统基础架构,用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利用集群进行高速运算和存储。Hadoop为大数据处理工作提供了优秀的数据存储与运算平台,对于大规模训练语料下抽取短语、层次短语表和调序规则的工作,可以通过编写hadoop分布式程序,充分利用多台计算结点来完成该项工作,从而缩短工作时间,提高效率。
【发明内容】
[0005]发明目的:本发明所要解决的技术问题是针对集中式抽取方法在效率上的不足,提出一种机器翻译中翻译单元表的抽取方法。
[0006]为了解决上述技术问题,本发明公开了一种机器翻译中翻译单元表的抽取方法,该方法的所有步骤均运行于Hadoop并行计算平台上,利用Hadoop并行计算平台分别抽取短语表、层次短语表以及词汇化调序模型。
[0007]所述抽取短语表包括如下步骤:[0008]步骤11,输入双语对齐语料和对应的词对齐文件,对于双语对齐语料中每一对双语对齐句对,根据词对齐文件中的词对齐信息,首先抽取出所有的对齐短语对并记录其词对齐信息和一次出现次数;接着对相同对齐短语对进行合并,即将出现次数相加,并保存出现次数最多的词对齐信息;抽取出的对齐短语对满足词对齐上的相容性,即在原有句子的短语对中一端映射到另一端上的范围不能超过该端短语的覆盖范围;
[0009]步骤12,以步骤11的结果作为输入,采用Good-Turing平滑方法进行平滑处理,统计(c,nc)对,其中c是单个短语对的出现次数,nc是所有短语对中出现次数为c的短语对的个数。也可以米用Kneser-Ney和Modified Kneser-Ney平滑方法(参阅An empiricalstudy of smoothing techniques for language modeling,I 999, Computer Speech andLanguage,13 :359-394)。
[0010]步骤13,以步骤11和步骤12的结果作为输入,计算对齐短语对的正向和反向的相对频率即短语互翻译概率,以及词汇化翻译概率,得到短语表。
[0011]本发明步骤12包括以下步骤:
[0012]对于Good-Turing平滑,统计(c,n。)对,其中c是短语对的共现次数,η。是所有短语对中出现c次的短语对的个数;假设目标短语为t,源短语为S,对于Kneser-Ney平滑,统计与源短语满足共现次数c (s,t) >0的目标短语的数量和与目标短语满足c (s,t) >0的源短语的数量;对于Modified Kneser-Ney平滑,统计与源短语分别满足c (s, t)=l、c(s, t)=2和c (s,t)>2的目标短语的数量和与目标短语分别满足c (s,t)=l、c(s,t)=2和c (s,t)>2的源短语的数量;同时对于Kneser-Ney和Modified Kneser-Ney平滑也同样统计(c, nc)对。统计这些量分别需要利用一次MapReduce过程。
[0013]对于Kneser-Ney和Modified Kneser-Ney平滑,在计数的同时要保存相应的短语,这样会导致结果文件过大,如果直接读到内存中将使hadoop集群的开销过大,本方法利用两个MapReduce过程将源短语和目标短语相应的计数合并到步骤11的结果中。
[0014]本发明步骤13包括以下步骤:
[0015]短语对的正向相对频率为给定源短语翻译为目标短语的相对频率,反向相对频率为给定目标短语翻译为源短语的相对频率。令s表示源短语,t表示目标短语,未使用平滑技术的情况下,对齐短语对的正向相对频率的计算公式如下:
【权利要求】
1.一种机器翻译中翻译单元表的抽取方法,其特征在于,利用Hadoop并行计算平台分别抽取短语表、层次短语表以及词汇化调序模型。
2.根据权利要求1所述的一种机器翻译中翻译单元表的抽取方法,其特征在于,所述抽取短语表包括如下步骤: 步骤11,输入双语对齐语料和对应的词对齐文件,对于双语对齐语料中每一对双语对齐句对,根据词对齐文件中的词对齐信息,首先抽取出所有的对齐短语对并记录其词对齐信息和一次出现次数;接着对相同对齐短语对进行合并,即将出现次数相加,并保存出现次数最多的词对齐信息;抽取出的对齐短语对满足词对齐上的相容性,即在原有句子的短语对中一端映射到另一端上的范围不能超过该端短语的覆盖范围; 步骤12,以步骤11的结果作为输入,采用Good-Turing方法进行平滑处理,统计(c,η。)对,其中c是单个短语对的出现次数,η。是所有短语对中出现次数为c的短语对的个数; 步骤13,以步骤11和步骤12的结果作为输入,计算对齐短语对的正向和反向的相对频率即短语互翻译概率,以及词汇化翻译概率,得到短语表。
3.根据权利要求2所述的一种机器翻译中翻译单元表的抽取方法,其特征在于,步骤13包括以下步骤: 短语对的正向相对频率为给定源短语翻译为目标短语的相对频率,反向相对频率为给定目标短语翻译为源短语的相对频率,根据训练语料中短语对的计数特征来重新计算一个值来替代原先的计数值,替换公式如下:
4.根据权利要求1所述的一种机器翻译中翻译单元表的抽取方法,其特征在于,所述抽取层次短语表包括如下步骤: 步骤21,输入双语对齐语料和对应的词对齐文件,对于双语对齐语料中每一对双语对齐句对,根据词对齐文件中的词对齐信息,首先抽取出所有的对齐层次短语对并记录对应词对齐信息和一次出现次数;接着对相同层次短语对进行合并,即将出现次数相加,并保存出现次数最多的词对齐信息; 步骤22,以步骤11的结果作为输入,采用Good-Turing方法进行平滑处理,统计(c,η。)对,其中c是单个层次短语对的出现次数,η。是所有层次短语对中出现次数为c的层次短语对的个数; 步骤23,以步骤11和步骤12的结果作为输入,计算层次短语对的正向和反向的相对频率即层次短语互翻译概率,以及词汇化翻译概率,得到层次短语表。
5.根据权利要求4所述的一种机器翻译中翻译单元表的抽取方法,其特征在于,步骤23包括以下步骤: 层次短语对的正向相对频率为给定源层次短语翻译为目标层次短语的相对频率,层次短语对的反向相对频率为给定目标层次短语翻译为源层次短语的相对频率; 根据训练语料中层次短语对的计数特征来重新计算一个值来替代原先的计数值,替换公式如下:
6.根据权利要求1所述的一种机器翻译中翻译单元表的抽取方法,其特征在于,所述抽取词汇化调序模型包括以下步骤: 步骤31,输入的双语对齐语料和对应的词对齐文件,对于双语对齐语料中每一对双语对齐句对,根据词对齐文件中的词对齐信息,抽取出所有的对齐短语对和对应的调序规则并输出至文件; 步骤32,根据步骤31的结果,统计各个调序规则出现的总次数; 步骤33,合并相同的短语对,统计各调序规则的出现次数和短语对的出现次数,根据步骤32的结果,计算短语对的各个调序规则的概率,得到词汇化调序模型表。
7.根据权利要求6所述的一种机器翻译中翻译单元表的抽取方法,其特征在于,步骤33包括以下步骤: 计算调序规则概率的公式如下:
【文档编号】G06F17/28GK103488629SQ201310439927
【公开日】2014年1月1日 申请日期:2013年9月24日 优先权日:2013年9月24日
【发明者】黄书剑, 孙辉丰, 戴新宇, 陈家骏 申请人:南京大学