专利名称:基于树到树翻译模型的翻译规则抽取方法和翻译方法
技术领域:
本发明涉及自然语言处理领域,更具体地,涉及一种语言翻译规则抽取方法和翻 译方法。
背景技术:
基于句法的翻译模型已经逐渐成为统计机器翻译的主流模型,根据是否在源语 言端和目标语言端建立句法树,基于句法的翻译模型可以分为以下三类1)树到串翻译模 型,例如刘洋(Yang Liu)等人于2006年在第四十四届计算语言学年会(ACL 2006)上所 公开的;2)串到树翻译模型,马库等人在2006年基于经验主义方法的自然语言处理会议 (EMNLP 2006)上所公开的;3)树到树翻译模型,例如艾斯勒等人于2003年在第四十一届计 算语言学年会上所公开的。现有的树到树的翻译模型由于在源语言端和目标语言端分别建立唯一的一棵句 法树。句法树的质量很大程度上决定了最终翻译的结果。当句法分析不准确时,最优句法 分析结果可能是错误的,因此将对后面的解码准确率造成影响。而现有的句法分析技术准 确率并不高,英语只能达到91 %,而汉语仅能达到85 %左右。另外,现有的树到树模型的翻译规则都是从对齐的双语句法树中抽取出来的,其 中,对齐的双语句法树由一棵源语言句法树和对应的一棵目标语言句法树共同构成。在这 种情况下,能抽取的规则数量十分有限,通常一对句法树只能抽取出几十条规则。所以,现有的基于树到树的翻译模型的翻译质量不够理想。
发明内容
为解决上述技术问题,本发明提供一种翻译质量较高的基于树到树翻译模型的翻 译方法。为实现上述目的,根据本发明的一个方面,提供了一种一种基于树到树翻译模型 的翻译规则抽取方法,包括下列步骤1)、分析训练语料中的源语言串和目标语言串并输出训练语料的源语言压缩共享 句法森林和训练语料的目标语言压缩共享句法森林;2)、根据所述训练语料的源语言压缩共享句法森林和所述训练语料的目标语言压 缩共享句法森林抽取翻译规则。该翻译规则抽取方法中,所述步骤2)进一步包括获取关于所述训练语料的源语言压缩共享句法森林中的每个节点的第一前沿树 集合;获取所述每个节点的所述训练语料的目标语言压缩共享句法森林中的对应节点, 并获取关于所述对应节点的第二前沿树集合,根据所述第一前沿树集合和所述第二前沿树 集合构造前沿树对集合;在所述前沿树对集合中抽取最小前沿树对,并根据所述最小前沿树对构建翻译规则。该翻译规则抽取方法中,所述步骤2)包括将所述训练语料的源语言压缩共享句法森林和所述训练语料 的目标语言压缩共享句法森林进行缩减,根据缩减后的训练语料的源语言压缩共享句法森 林和训练语料的目标语言压缩共享句法森林抽取翻译规则。根据本发明的另一方面,还提供了一种根据翻译规则抽取方法所抽取的翻译规则 基于树到树翻译模型的翻译方法,包括下列步骤3)、分析测试语料中的待翻译的句子生成测试语料的源语言压缩共享句法森林;4)、根据所述翻译规则和所述测试语料的源语言压缩共享句法森林完成所述待翻 译句子的翻译。在该翻译方法中,所述步骤4)包括对所述测试语料的源语言压缩共享句法森林进行缩减,根据所 述翻译规则和缩减后的所述测试语料的源语言压缩共享句法森林完成所述待翻译句子的 翻译。本发明的优点在于,有效提高了句法分析准确率;另外,还增加了可用的翻译规 则,扩大了搜索空间;从而有效提高了翻译质量。
图1是根据本发明一个具体实施例的基于树到树机器翻译模型的翻译方法的流 程图;图2是根据本发明一个具体实施例的对齐的训练语料双语压缩共享句法森林示 意图;图3 (a)是根据本发明一个具体实施例的前沿树示意图;图3 (b)是根据本发明一个具体实施例的最小前沿树示意图;图3 (C)是根据本发明一个具体实施例的前沿树对示意图;图3(d)是根据本发明一个具体实施例的最小前沿树对示意图。
具体实施例方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发 明一个实施例的基于树到树翻译模型的翻译规则抽取方法和翻译方法进一步详细说明。应 当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。根据本发明的一个具体实施例,在树到树模型中引入了压缩共享句法森林,其中 保存的并不是句法分析的一棵最优句法树,而是可能保存了多达上万棵句法树,从而提高 了句法分析准确率。虽然现有技术中已经存在将压缩共享句法森林应用于树到串的翻译模 型的翻译方法。但将压缩共享句法森林引入树到树的翻译模型,由于树是一种复杂的结构, 而且压缩共享森林存储的不仅仅是一棵树,而是包含了多棵句法树,因此从源语言端和目 标语言端的这两个森林中抽取出理想的规则难度较大。图1示出了根据本发明一个具体实施例的基于树到树机器翻译模型的统计机器 翻译方法的流程图,如图1所示,该方法包括以下步骤
步骤11),利用句法分析器分析训练语料中的源语言串和目标语言串并输出训练 语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林,由这两个压缩 共享句法森林共同组成对齐的训练语料双语压缩共享句法森林。其中,压缩是指采用超图 的数据结构可以将巨大的森林压缩成一个简易的图结构;共享是指多个树节点可以共享 同一个子树。句法分析的主要目的是从输入的源语言串分析出与目标语言串相应的句法 树。本领域普通技术人员可以理解,句法分析可采用如下多种短语树句法分析器查尼亚 克句法分析器(Charniak parser)、比科尔句法分析器(Bikel Parser)、斯坦福句法分析器 (Stanford parser)、柯林斯句法分析器(Collins Parser)。句法分析器不仅要输出一颗 最优的句法分析树,而且根据所分析的所有句法树构建并输出训练语料的源语言压缩共享 句法森林和训练语料的目标语言压缩共享句法森林。图2示出了根据本发明一个具体实施 例的对齐的训练语料双语压缩共享句法森林示意图,其中上部是训练语料的源语言压缩共 享句法森林,下部是训练语料的目标语言压缩共享句法森林。其中,每条超边包括一个节点 Head 和一个节点集合 Tails,如图 2 所示,对于超边 el,Head(el) = IP1,Tails (el) =NPB6 和 VP3。通常上述在训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共 享句法森林内均含有大量概率很低的垃圾超边和节点,为加快搜索翻译的速度,根据本发 明的优选实施例,还包括步骤12)利用剪枝算法分别对在训练语料的源语言压缩共享句法 森林和训练语料的目标语言压缩共享句法森林进行缩减。具体缩减方法如下对于待缩减的压缩共享句法森林中的每个节点V,计算维特比(Viterbi)向内概 率负对数β (ν)、向外概率负对数α (ν);再对于每个句法超边 依次计算参数S(ep) = a(Head(ep))+ ^ 々(ν,)-A(TOP) 其中β (TOP)为最优句法树概率之负对数值,如果参数δ (ep)小于预定的阈值t, 则保留超边ep,否则删除,其中优选地3 < t < 15。最终将留下的超边和与之相关的节点 组成缩减后的压缩共享句法森林。步骤21),从生成的训练语料双语压缩共享句法森林中抽取翻译规则。通常可以抽 取出上百甚至上千条规则。因此提供了丰富的规则用于翻译。由这些翻译规则构成翻译规 则的集合W。表1给了部分翻译规则表1 翻译规则表(1) IP (X1 :NPB, X2 :VP) — S (X1 :NP,X2 :VP)(2) NPB (X1 :NR) — NP (X1 :NNP)(3) NR (bushi) — NNP(Bush) (4) VP (X1 :PP, VPB (x2 :VV, AS (Ie),X3 :NPB)) — VP (x2 :VBD, NP (DT (a),X3 :NP),X1 PP)以翻译规则(1)为例,翻译规则Γι 为 IP (X1 =NPB X2 =VP) — S (X1 :NP, X2 =VP),其表 示代表源语言端的IP(NPB VP)子树可以替换成目标语言端的S(NP VP)子树。步骤31)对于测试语料中的待翻译的句子,重复步骤11)所述的方法,利用句法分 析器根据测试语料中的待翻译的句子生成测试语料的源语言压缩共享句法森林。优选地, 为加快搜索翻译的速度,还对所生成的测试语料的源语言压缩共享句法森林进行缩减。
步骤41),遍历测试语料的源语言压缩共享句法森林,如果测试语料的源语言压缩 共享句法森林已经被缩减,则遍历缩减后的测试语料的源语言压缩共享句法森林,从所抽 取的翻译规则的集合W中搜索可用翻译规则,最终生成待翻译句子的翻译森林。根据本发 明的具体实施例,该生成待翻译句子的翻译森林的过程具体如下遍历测试语料的源语言压缩共享句法森林中的每个节点V,搜索每一个翻译规则 ,如果LHS(r)和以ν为根节点的子树片段完全匹配则生成与该节点ν对应的翻译超边
e,其中LHS(r)表示规则r的左部,例如对于表1中的规则r1; LHS (巧)=IP (NPB VP);由测 试语料的源语言压缩共享句法森林中的节点与翻译超边构建待翻译句子的翻译森林,从而 在测试语料的源语言压缩共享句法森林上附加了翻译规则,换句话说,为测试语料的源语 言压缩共享句法森林的每一条超边从规则表中寻找一条翻译规则与其对应,如果规则表中 没有找到对应的翻译规则,则构造一条默认的翻译规则,即将测试语料的源语言压缩共享 句法森林的超边作为翻译规则。步骤42)遍历待翻译句子的翻译森林,逐步构造待翻译句子的目标语言端句法树 并最终生成翻译结果。根据本发明的优选实施例,该步骤过程如下按照后续遍历顺序,自 底向上对于测试语料的源语言压缩共享翻译森林中的每个节点V,根据所有的Head(et)= ν的翻译超边et提取出节点ν对应的翻译规则,并在目标语言端建立对应的子树结构,再按 照柱状图剪枝,去除概率较小的子树结构。最终搜索出目标语言端一棵概率最大的待翻译 句子的目标语言端句法树,进而从待翻译句子的目标语言端句法树中得到叶子节点,即待 翻译句子的翻译结果。下面根据本发明的具体实施例,详细说明上述步骤21)的抽取翻译规则的步骤。 为此首先对相关定义进行说明。节点的区间σ (V),表示该节点所覆盖的源语言单词的索引区间,图2中的节点 VPB5覆盖了源语言串的三个单词“jUXing Ie huitan”,所以其区间为σ (ν) = {4-6}。节点的目标语言端区间δ (V),表示该节点覆盖的源语言串对应的目标语言串的 索引区间,图2中的节点VPB5对应的目标语言端语言串为“heldtalk”,所以其目标语言端 区间为 Y (ν) = {2-4}。节点的补集区间δ (V),表示非该节点的祖先和后代的节点代表的目标区间
δ (V)的合集,图2中的非VPB5节点的祖先和后代节点集合为{NP2, NPB6, NR9, CC10, P11, PP4, NPB7,NR12},其对应的目标语言串为“Bush withSharon”,所以节点VPB5的补集区间为δ (ν) ={1,5-6},。根据
权利要求
一种基于树到树翻译模型的翻译规则抽取方法,包括下列步骤1)、分析训练语料中的源语言串和目标语言串并输出训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林;2)、根据所述训练语料的源语言压缩共享句法森林和所述训练语料的目标语言压缩共享句法森林抽取翻译规则。
2.根据权利要求1所述的翻译规则抽取方法,其特征在于,所述步骤2)进一步包括 获取关于所述训练语料的源语言压缩共享句法森林中的每个节点的第一前沿树集合;获取所述每个节点的所述训练语料的目标语言压缩共享句法森林中的对应节点,并获 取关于所述对应节点的第二前沿树集合,根据所述第一前沿树集合和所述第二前沿树集合 构造前沿树对集合;在所述前沿树对集合中抽取最小前沿树对,并根据所述最小前沿树对构建翻译规则。
3.根据权利要求1或2所述的翻译规则抽取方法,其特征在于,所述步骤2)包括将所述训练语料的源语言压缩共享句法森林和所述训练语料的目 标语言压缩共享句法森林进行缩减,根据缩减后的训练语料的源语言压缩共享句法森林和 训练语料的目标语言压缩共享句法森林抽取翻译规则。
4.一种根据上述权利要求1至3任意一项所述的翻译规则抽取方法所抽取的所述翻译 规则基于树到树翻译模型的翻译方法,包括下列步骤3)、分析测试语料中的待翻译的句子生成测试语料的源语言压缩共享句法森林;4)、根据所述翻译规则和所述测试语料的源语言压缩共享句法森林完成所述待翻译句 子的翻译。
5.根据权利要求4所述的翻译方法,其特征在于,所述步骤4)包括对所述测试语料的源语言压缩共享句法森林进行缩减,根据所述翻 译规则和缩减后的所述测试语料的源语言压缩共享句法森林完成所述待翻译句子的翻译。
全文摘要
本发明提供一种基于树到树翻译模型的翻译规则抽取方法,包括下列步骤1)、分析训练语料中的源语言串和目标语言串并输出训练语料的源语言压缩共享句法森林和训练语料的目标语言压缩共享句法森林;2)、根据所述训练语料的源语言压缩共享句法森林和所述训练语料的目标语言压缩共享句法森林抽取翻译规则。根据该翻译规则进行测试语料的翻译,有效提高了翻译质量。
文档编号G06F17/28GK101989257SQ20091009020
公开日2011年3月23日 申请日期2009年7月31日 优先权日2009年7月31日
发明者刘洋, 刘群, 吕亚娟, 熊皓 申请人:中国科学院计算技术研究所