专利名称:基于扩展的层次化短语模型的统计机器翻译装置和方法
技术领域:
本发明涉及机器翻译领域,更具体地涉及一种基于扩展的层次化短语模型的统计机器翻译装置和方法。
背景技术:
基于层次化短语的模型(下面也称为HPB模型)构建于加权的同步上下文无关语法(CFG)之上,其为统计机器翻译提供了一种强大的机制来捕获短、长距离的短语次序调整。其中,它利用两种规则1)翻译规则,其是从词对齐的双语语料库中学习而来的。翻译规则可以是由词构成的短语规则,或者由词和变量两者构成的层次化规则。在解码期间,短语规则执行词法翻译,而层次化规则既执行词法翻译,又执行短语次序调整;2)粘合规则, 其被定义为顺序地结合相邻的短语。然而,HPB模型的一个缺点是粘合规则仅仅提供短语的顺序结合。具体地说,对于两种语言之间的翻译,经常会遇到短语需要逆序结合的情况。而在HPB模型中,只能通过具体的层次化规则进行短语次序调整。因此,利用现有的HPB模型进行机器翻译时,如果需要逆序结合的短语找不到相应的层次化规则来进行短语次序调整,则只能根据HPB模型中的粘合规则来顺序地结合短语,这样就会造成翻译错误。有关HPB模型的更多细节可以例如参见David Chiang所著的“A hierarchical phrase-based model for statistical machine translation",Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics,pages 263—270, 2005。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。但是,应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图用来确定本发明的关键性部分或重要部分,也不是意图用来限定本发明的范围。其目的仅仅是以简化的形式给出关于本发明的某些概念,以此作为稍后给出的更详细描述的前序。鉴于现有技术的上述情形,本发明的目的是提供一种基于扩展的层次化短语模型 (HPB模型)的统计机器翻译装置和方法,其可以解决现有技术问题中的一个或多个。为了实现上述目的,根据本发明的一个方面,提供了一种基于扩展的HPB模型的统计机器翻译装置,包括翻译规则提取单元,用于从双语语料库中提取包括短语规则和层次化短语规则的翻译规则;粘合规则规定单元,用于规定包括顺序规则和逆序规则的粘合规则;以及解码单元,用于利用所述翻译规则将源语言句子翻译成目标语言短语序列,以及不断地利用所述粘合规则中的顺序规则顺序地结合相邻的目标语言短语,以及利用所述粘合规则中的逆序规则逆序地结合相邻的目标语言短语,直至产生候选目标语言句子,然后根据每个候选目标语言句子的得分确定最终的目标语言句子。根据本发明的另一个方面,还提供了一种基于扩展的HPB模型的统计机器翻译方
3法,包括从双语语料库中提取包括短语规则和层次化短语规则的翻译规则;规定包括顺序规则和逆序规则的粘合规则;以及利用所述翻译规则将源语言句子翻译成目标语言短语序列,以及不断地利用所述粘合规则中的顺序规则顺序地结合相邻的目标语言短语,以及利用所述粘合规则中的逆序规则逆序地结合相邻的目标语言短语,直至产生候选目标语言句子,然后根据每个候选目标语言句子的得分确定最终的目标语言句子。根据本发明的另一个方面,还提供了用于实现上述基于扩展的HPB模型的统计机器翻译方法的计算机程序产品。根据本发明的另一个方面,还提供了计算机可读介质,其上记录有用于实现上述基于扩展的HPB模型的统计机器翻译方法的计算机程序代码。根据本发明的上述技术方案,通过规定包括顺序规则和逆序规则的粘合规则,在解码期间以顺序和逆序两种方式进行相邻短语的结合,从而可以有效地提高翻译的准确度。
本发明可以通过参考下文中结合附图所给出的详细描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并形成说明书的一部分,用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。在附图中图1示出了根据本发明实施例的基于扩展的HPB模型的统计机器翻译装置的结构框图;图2示出了用于说明在解码过程中相邻短语之间的结合方式的示意图;图3示出了根据本发明另一实施例的基于扩展的HPB模型的统计机器翻译装置的结构框图;图4示出了根据本发明实施例的基于扩展的HPB模型的统计机器翻译方法的总体流程图;以及图5示出了其中实现本发明的计算机的示例性结构框图。本领域技术人员应当理解,附图中的元件仅仅是为了简单和清楚起见而示出的, 而且不一定是按比例绘制的。例如,附图中某些元件的尺寸可能相对于其它元件放大了,以便有助于提高对本发明实施例的理解。
具体实施例方式在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见, 在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其它细节。首先将参考附图详细描述根据本发明实施例的基于扩展的HPB模型的统计机器翻译装置。图1示出了根据本发明实施例的基于扩展的HPB模型的统计机器翻译装置的结构框图。如图1所示,根据本发明实施例的基于扩展的HPB模型的统计机器翻译装置100包括翻译规则提取单元110、粘合规则规定单元120、以及解码单元130。其中,翻译规则提取单元110可以用于从双语语料库中提取包括短语规则和层次化短语规则的翻译规则。有关该提取处理的更多细节可以例如参见David Chiang所胃白勺 “A hierarchical phrase-based model for statistical machine translation", Proceedings of the 43rd Annual Meeting of the Association for Computational Linguistics, pages 263-270,2005,这里不再赘述。粘合规则规定单元120可以用于规定包括顺序规则和逆序规则的粘合规则。具体地说,在现有的HPB模型中存在如下两条粘合规则
权利要求
1.一种基于扩展的层次化短语模型的统计机器翻译装置,包括翻译规则提取单元,用于从双语语料库中提取包括短语规则和层次化短语规则的翻译规则;粘合规则规定单元,用于规定包括顺序规则和逆序规则的粘合规则;以及解码单元,用于利用所述翻译规则将源语言句子翻译成目标语言短语序列,以及不断地利用所述粘合规则中的顺序规则顺序地结合相邻的目标语言短语,以及利用所述粘合规则中的逆序规则逆序地结合相邻的目标语言短语,直至产生候选目标语言句子,然后根据每个候选目标语言句子的得分确定最终的目标语言句子。
2.如权利要求1所述的统计机器翻译装置,还包括短语次序分类器,用于在解码期间基于相邻短语的上下文信息来引导是顺序地还是逆序地结合相邻的目标语言短语。
3.如权利要求2所述的统计机器翻译装置,其中短语次序分类器以最大熵方式进行训练。
4.如权利要求3所述的统计机器翻译装置,其中训练短语次序分类器所用的短语特征是短语的边界词及其词性。
5.一种基于扩展的层次化短语模型的统计机器翻译方法,包括 从双语语料库中提取包括短语规则和层次化短语规则的翻译规则; 规定包括顺序规则和逆序规则的粘合规则;以及利用所述翻译规则将源语言句子翻译成目标语言短语序列,以及不断地利用所述粘合规则中的顺序规则顺序地结合相邻的目标语言短语,以及利用所述粘合规则中的逆序规则逆序地结合相邻的目标语言短语,直至产生候选目标语言句子,然后根据每个候选目标语言句子的得分确定最终的目标语言句子。
6.如权利要求5所述的统计机器翻译方法,其中利用短语次序分类器在解码期间基于相邻短语的上下文信息来引导是顺序地还是逆序地结合相邻的目标语言短语。
7.如权利要求6所述的统计机器翻译方法,其中短语次序分类器以最大熵方式进行训练。
8.如权利要求7所述的统计机器翻译方法,其中训练短语次序分类器所用的短语特征是短语的边界词及其词性。
全文摘要
本发明公开了一种基于扩展的层次化短语模型的统计机器翻译装置和方法,其中该统计机器翻译装置包括翻译规则提取单元,用于从双语语料库中提取包括短语规则和层次化短语规则的翻译规则;粘合规则规定单元,用于规定包括顺序规则和逆序规则的粘合规则;以及解码单元,用于利用所述翻译规则将源语言句子翻译成目标语言短语序列,以及不断地利用所述粘合规则中的顺序规则顺序地结合相邻的目标语言短语,以及利用所述粘合规则中的逆序规则逆序地结合相邻的目标语言短语,直至产生候选目标语言句子,然后根据每个候选目标语言句子的得分确定最终的目标语言句子。根据本发明的技术方案,可以有效地提高翻译的准确度。
文档编号G06F17/28GK102402503SQ20101028653
公开日2012年4月4日 申请日期2010年9月15日 优先权日2010年9月15日
发明者于浩, 何中军, 孟遥 申请人:富士通株式会社