本发明涉及机器翻译方法技术领域,具体为一种融合形式化语法和语言学语法的藏汉机器翻译方法。
背景技术:
藏语是我国藏族使用的语言,属汉藏语系藏缅语族藏语支。现代藏语有以下特点:1、浊辅音声母趋于清化,局部地区所保留的浊声母都是来源于古复辅音声母中的浊基本辅音;2、复辅声母趋于简化和消失,只在局部地区保留带前置辅音的二合复辅音;3、单元音韵母增多,特别是鼻化元音;4、元音有长短区别,并与声调有互补关系;5、有鼻化和非鼻化两类真性复元音韵母;6、辅音韵尾趋于简化,从而引起带辅音韵尾韵母的简化;7、有较完整而稳定的声调系统,而且数量有增多的趋势;8、谓语是后置表达系统(即谓语的语法意义由谓语之后的部分表示);9、构语和构形的语素之间有丰富的减缩变化;10、动词只保留简化的屈析变化,而且它已失去独立表达语法意义的功能;11、动词有丰富的体的范畴;12、判断动词和存在动词有两种表示不同人称的词汇形式;13、动词无人称和方位范畴;14、单一部分表示否定(即在所否定的词的前或后加否定成分表示);15、有丰富的助词,而且常常有减缩和独立两种形式;16、形容词和部分派生名词有构词后缀;17、有敬语和非敬语的区别。
机器翻译作为一种计算机和语言学相结合的应用技术,一直是自然语言处理领域的研究热点和难点。汉语、英语之间的机器翻译的研究开始得较早,少数民族语言的机器翻译大都是借鉴汉语、英语机器翻译研究基础之上展开的。目前,藏汉机器翻译的研究很大程度上都是在短语模型基础上进行的,基于短语的藏汉机器翻译模型无法解决长距离调序的问题,特别是像藏文这种谓语后置的情况。要解决模型调序的问题,必须要借助于句法信息。
技术实现要素:
本发明的目的在于提供一种融合形式化语法和语言学语法的藏汉机器翻译方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种融合形式化语法和语言学语法的藏汉机器翻译方法,包括以下步骤:
a、将双语句子反向转换成双语句法结构形式,形成藏语短语句法分析模型以及藏汉机器翻译模型;
b、将反向转换后的双语短语进行特殊标记,进行句法分析训练以及解码;
c、在藏语短语句法树库的基础上进行藏汉词对齐,利用藏汉机器翻译模型进行翻译。
优选的,所述步骤b中句法分析训练及解码方法包括以下步骤:
a、获取输入的双语训练句子;
b、分别对汉语训练句子和藏语训练句子进行词法分析,得到汉语训练句子的词法分析结果和藏语训练句子的词法分析结果;
c、利用汉语训练句子的词法分析结果,对汉语训练句子进行句法结构分析,得到汉语训练句子的句法分析结果;利用汉语训练句子的句法分析结果,抽取汉语训练句子的谓词论元结构;
d、根据藏语的句法特点,将汉语训练句子的谓词论元结构进行结构转换,得到符合藏语的句法特点的谓词论元结构;利用转换后的谓词论元结构,抽取翻译规则,将翻译规则放入所述翻译规则库中。
优选的,所述步骤a中反向转换方法包括以下步骤:
a、将双语句子的词对齐关系表示成对齐矩阵的形式;
b、标定整个双语句子为当前要处理的块,并设置当前块的组合顺序;所述组合顺序为反序;
c、根据当前块的组合顺序和词语对齐信息,通过词对齐工具以及整合藏语的上下文信息,使汉语词成为藏语词的孩子结点,成为整棵树的叶子结点,在藏语短语树库上形成藏语和汉语的词对齐关系,建立一种新的藏汉词对齐方法,生成整个双语句子的双语句法树结构。
优选的,所述步骤b中翻译规则从包含三元组的语料库中抽取得出,三元组是汉语言树或串、藏语言串或树以及汉语言与藏语言之间的词语对齐方式。
与现有技术相比,本发明的有益效果是:本发明能够解决长距离调序的问题,提高了翻译质量;本发明公开的反向转换方法能够形成一种融合了句法信息和反向转换文法信息的藏汉机器翻译模型,进一步提高了翻译质量。
附图说明
图1为本发明的流程图;
图2为本发明的句法分析训练及解码方法流程图;
图3为本发明的反向转换方法流程图。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种技术方案:一种融合形式化语法和语言学语法的藏汉机器翻译方法,包括以下步骤:
a、将双语句子反向转换成双语句法结构形式,形成藏语短语句法分析模型以及藏汉机器翻译模型;
b、将反向转换后的双语短语进行特殊标记,进行句法分析训练以及解码;
c、在藏语短语句法树库的基础上进行藏汉词对齐,利用藏汉机器翻译模型进行翻译。
本实施例中,步骤b中句法分析训练及解码方法包括以下步骤:
a、获取输入的双语训练句子;
b、分别对汉语训练句子和藏语训练句子进行词法分析,得到汉语训练句子的词法分析结果和藏语训练句子的词法分析结果;
c、利用汉语训练句子的词法分析结果,对汉语训练句子进行句法结构分析,得到汉语训练句子的句法分析结果;利用汉语训练句子的句法分析结果,抽取汉语训练句子的谓词论元结构;
d、根据藏语的句法特点,将汉语训练句子的谓词论元结构进行结构转换,得到符合藏语的句法特点的谓词论元结构;利用转换后的谓词论元结构,抽取翻译规则,将翻译规则放入所述翻译规则库中。
其中,步骤b中翻译规则从包含三元组的语料库中抽取得出,三元组是汉语言树或串、藏语言串或树以及汉语言与藏语言之间的词语对齐方式。
本实施例中,步骤a中反向转换方法包括以下步骤:
a、将双语句子的词对齐关系表示成对齐矩阵的形式;
b、标定整个双语句子为当前要处理的块,并设置当前块的组合顺序;所述组合顺序为反序;
c、根据当前块的组合顺序和词语对齐信息,通过词对齐工具以及整合藏语的上下文信息,使汉语词成为藏语词的孩子结点,成为整棵树的叶子结点,在藏语短语树库上形成藏语和汉语的词对齐关系,建立一种新的藏汉词对齐方法,生成整个双语句子的双语句法树结构。
本发明能够解决长距离调序的问题,提高了翻译质量;本发明公开的反向转换方法能够形成一种融合了句法信息和反向转换文法信息的藏汉机器翻译模型,进一步提高了翻译质量。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。