一种获取泰文断句规则的方法及装置与流程

文档序号:15133029发布日期:2018-08-10 18:51阅读:444来源:国知局

本发明涉及自然语言处理技术,特别涉及一种获取泰文断句规则的方法及装置。



背景技术:

随着全球化的加快,国内用户在使用机器翻译的过程中,已经不仅限于英文和中文的翻译了,其他的语言的翻译需求也越来越多,泰文与其他语种的互译就是其中之一。

为了提高机器翻译的翻译质量,需要有高质量的双语句对对机器翻译系统进行训练,例如想要提高泰英机器翻译质量,就必须有大量高质量的泰文与英文句对作为训练语料对机器翻译系统进行训练。互联网上存在着大量这样的双语文本可供挖掘,但是在挖掘过程中发现,由于泰文本身缺乏断句符号,因此在确定对齐的双语句对时存在困难。例如在挖掘泰文与英文的双语句对时,常常出现几句泰文匹配上一句英文的情况,或者是多句英文匹配上一句泰文。为了提高泰文和英文句对的匹配成功率,必须考虑泰文句子的切分问题。

现有的泰文句子切分,主要是利用人工总结的规则,这种方法的问题是规则总结都是来自于小规模数据上的,如果把这些规则运用到海量的网页数据中,效果不理想。



技术实现要素:

本发明所要解决的技术问题是提供一种获取泰文断句规则的方法及装置,以提高泰文断句的准确性。

本发明为解决技术问题而采用的技术方案是提供一种获取泰文断句规则的方法,包括:将泰文训练样本机器翻译为至少两种目标语言文本,并根据所述至少两种目标语言文本中的断句符号对所述泰文训练样本进行断句标注;确定所述泰文训练样本的断句特征;根据所述断句特征,对标注后的泰文训练样本进行机器学习,以得到泰文断句规则。

根据本发明之一优选实施例,所述方法中根据所述至少两种目标语言文本中对齐的断句符号对所述泰文训练样本进行断句标注。

根据本发明之一优选实施例,所述方法中根据所述至少两种目标语言文本中翻译置信度最高的目标语言文本中的断句符号对所述泰文训练样本进行断句标注。

根据本发明之一优选实施例,所述断句特征至少包括以下类型特征中的一种:泰文句子完整性的描述特征、泰文的语法特征、泰文的单词特征及泰文句尾的组合型特征。

本发明还提供了一种获取泰文断句规则的装置,包括:标注单元,用于将泰文训练样本机器翻译为至少两种目标语言文本,并根据所述至少两种目标语言文本中的断句符号对所述泰文训练样本进行断句标注;特征确定单元,用于确定所述泰文训练样本的断句特征;训练单元,用于根据所述断句特征,对标注后的泰文训练样本进行机器学习,以得到泰文断句规则。

根据本发明之一优选实施例,所述标注单元根据所述至少两种目标语言文本中对齐的断句符号对所述泰文训练样本进行断句标注。

根据本发明之一优选实施例,所述标注单元根据所述至少两种目标语言文本中翻译置信度最高的目标语言文本中的断句符号对所述泰文训练样本进行断句标注。

根据本发明之一优选实施例,所述断句特征至少包括以下类型特征中的一种:泰文句子完整性的描述特征、泰文的语法特征、泰文的单词特征及泰文句尾的组合型特征。

由以上技术方案可以看出,本发明通过采用机器翻译与机器学习相结合的办法,可以利用泰文训练样本得到适合用于对任意泰文文本进行断句的机器断句规则,与人工总结的规则相比,本发明可以有效提高泰文断句的准确性。

【附图说明】

图1为本发明中对泰文进行断句的方法的实施例的流程示意图;

图2为本发明中获取泰文断句规则的装置的实施例的结构示意框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。

请参考图1,图1为本发明中对泰文进行断句的方法的实施例的流程示意图。如图1所示,该方法包括:

步骤S1:将泰文训练样本机器翻译为至少两种目标语言文本,并根据所述至少两种目标语言文本中的断句符号对所述泰文训练样本进行断句标注。

步骤S2:确定所述泰文训练样本的断句特征。

步骤S3:根据所述断句特征,对标注后的泰文训练样本进行机器学习,以得到泰文断句规则。

下面对上述步骤进行详细介绍。

本发明通过采用机器学习的方法得到泰文的断句规则,该断句规则后续可用于对任意未有断句符号的泰文文本进行断句。为了便于理解,下面先对机器学习的过程进行介绍。

机器学习的过程可以表示为Y=f(X1,X2,......Xn)的形式。其中X1,X2,......Xn表示一个训练样本的n维特征,Y表示该训练样本的断句标注,f表示断句规则。当大量训练样本的X1,X2,......Xn已知且Y已知时,通过对这些训练样本进行学习,就可以总结出断句规则f。本发明对机器学习的具体算法不做限制,任何已知的机器学习算法均可在本发明中使用。

从上述说明中可以看出,训练样本的特征集X1,X2,......Xn和训练样本的断句标注Y,决定了最终总结出的断句规则的准确性。

图1所示的实施例的步骤S1,是获取训练样本的断句标注Y的过程,而步骤S2,则是获取训练样本的特征集X1,X2,......Xn的过程。

下面先对步骤S1中获取训练样本的断句标注的过程进行具体介绍。

在步骤S1中,首先通过机器翻译将泰文训练样本翻译为至少两种目标语言文本,然后再根据目标语言文本中的断句符号对泰文训练样本进行断句标注。下面以翻译为英文和中文这两种目标语言为例进行介绍。

调用已有的泰译英的机器翻译系统接口,就可以将泰文训练样本翻译为英文,同理,调用已有的泰译中的机器翻译系统接口,就可以将泰文训练样本翻译为中文。

例如将泰文“A:翻译为英文和中文分别是“B:I love this city,and I want to stay here forever.What is your opinion?”和“C:我热爱这个城市,并且我想在这里永远生活下去。你觉得怎么样?”。在B中,符号“.”表示断句,因此B可以分为两句,分别是“I love this city,and I want to stay here forever.”(对应泰文)和“What is your opinion?”(对应泰文)。在C中,符号“。”表示断句,因此C可以分为两句,分别是“我热爱这个城市,并且我想在这里永远生活下去。”(对应泰文)和“你觉得怎么样?”(对应泰文

作为一种实施方式,步骤S1中根据目标语言文本中的断句符号对训练样本进行断句标注时,可以根据目标语言文本中对齐的断句符号对训练样本进行断句标注。在上述例子中,由于英文和中文对应泰文的翻译中,都存在断句符号,也就是说,这两种目标语言文本中的断句符号是对齐的,因此,就可以在此处为对应泰文进行断句,上述泰文A也就被断为两句,分别是和了。

作为另一种实施方式,步骤S1中根据目标语言文本中的断句符号对训练样本进行断句标注时,还可以根据翻译后的目标语言文本中,翻译置信度最高的目标语言文本中的断句符号来对训练样本进行断句标注。

例如在前面的例子中,泰译英的机器翻译系统对泰文A进行翻译后,会给出英文目标语言文本B的翻译置信度,泰译中的机器翻译系统对泰文A进行翻译后,会给出中文目标语言文本C的翻译置信度,如果英文目标语言文本B的翻译置信度高于中文目标语言文本C的翻译置信度,则可以根据英文目标语言文本B中的断句符号来对泰文A进行断句标注。翻译置信度指的是机器翻译系统在将源语言文本翻译到目标语言文本时,对目标语言文本翻译准确性的度量,翻译置信度越高,说明通过该机器翻译系统得到的目标语言文本的翻译准确性的可能性越大,反之则说明翻译准确性的可能性越小。

作为另一种实施方式,步骤S1中还可以将前面两种方式结合起来以决定训练样本的断句标注。例如将训练样本翻译为两种以上的目标语言文本后,首先判断这几种目标语言文本中是否存在对齐的断句符号,如果存在,则利用对齐的断句符号对训练样本进行标注,如果不存在,则利用翻译置信度最高的目标语言文本中的断句符号对训练样本进行标注。

以上对步骤S1中训练样本断句标注的过程进行了完整的介绍,下面将对步骤S2中确定训练样本的断句特征的过程进行介绍。

在本发明中,断句特征至少包括以下类型特征中的一种:

1、泰文句子完整性的描述特征。如一句泰文中的泰文字母的总数、一句泰文分词之后的单词总数、一句泰文中的泰文音节的总数、一句泰文中短语韵律停顿的个数等等构成的特征。

2、泰文的语法特征。例如一句泰文句子起始和结尾处单词的词性、或者泰文句子中的短语搭配结构等等构成的特征。

3、泰文的单词特征。例如单词的含义、词频信息等等构成的特征。

4、泰文句尾的组合型特征。例如一个泰文句子中最后一个单词的词性和含义组合在一起构成的特征。

作为一种实施方式,可以提取训练样本任意若干个上述类型的特征构成特征向量,作为训练样本的断句特征。较优的,可以采用特征选择算法从提取的任意若干个上述类型的特征中选取对断句的判断影响显著的特征构成特征向量,以作为训练样本的断句特征。

在本实施例中,是对离散特征(即只有0和1两种取值的特征)使用卡方检验的特征选择算法,对连续特征(即其取值范围是连续的)使用基于信息增益的特征选择算法。

例如确定是否选取离散特征“一句泰文句子结尾处单词的词性”时,假设100个样本中,有95%的样本在泰文句子结尾处单词的词性都是动词,则说明“一句泰文句子结尾处单词的词性”这个特征对断句的判断影响显著,但是如果在这100个样本中,泰文句子结尾处单词在各种词性上的分布是比较均匀的,则说明这个特征对断句的判断影响不够显著。

在执行步骤S2之后,大量训练样本的X1,X2,......Xn和Y都得到了,这时通过步骤S3,对这些训练样本进行机器学习,就可以总结出泰文断句规则f。

本发明进一步地,还可以利用总结的泰文断句规则对大量未知断句信息的泰文进行断句。例如对互联网上的泰文和英文的双语互译文本中的泰文进行断句,这样就能够从互联网上挖掘大量的双语句对,从而为进一步提高已有的机器翻译系统的准确性提供材料。

请参考图2,图2为本发明中获取泰文断句规则的装置的实施例的结构示意框图。如图2所示,该装置包括:标注单元101、特征确定单元102、训练单元103。

其中标注单元101,用于将泰文训练样本机器翻译为至少两种目标语言文本,并根据所述至少两种目标语言文本中的断句符号对所述泰文训练样本进行断句标注。

特征确定单元102,用于确定所述泰文训练样本的断句特征。

训练单元103,用于根据所述断句特征,对标注后的泰文训练样本进行机器学习,以得到泰文断句规则。

下面对上述装置进行具体说明。本发明通过采用机器学习的方法得到泰文的断句规则,该断句规则后续可用于对未有断句符号的泰文文本进行断句。为了便于理解,下面先对机器学习的过程进行介绍。

机器学习的过程可以表示为Y=f(X1,X2,......Xn)的形式。其中X1,X2,......Xn表示一个训练样本的n维特征,Y表示该训练样本的断句标注,f表示断句规则。当大量训练样本的X1,X2,......Xn已知且Y已知时,通过对这些训练样本进行学习,就可以总结出断句规则f。本发明对机器学习的具体算法不做限制,任何已知的机器学习算法均可在本发明中使用。

从上述说明中可以看出,训练样本的特征集X1,X2,......Xn和训练样本的断句标注Y,决定了最终总结出的断句规则的准确性。

标注单元101,就是用于获取训练样本的断句标注标注Y的单元,特征确定单元102,就是用于获取训练样本的特征集X1,X2,......Xn的单元。

标注单元101首先通过机器翻译将泰文训练样本翻译为至少两种目标语言文本,然后再根据目标语言文本中的断句符号对泰文训练样本进行断句标注。下面以翻译为英文和中文为例介绍。

标注单元101调用已有的泰译英的机器翻译系统接口,就可以将泰文训练样本翻译为英文,同理,调用已有的泰译中的机器翻译系统接口,就可以将泰文训练样本翻译为中文。

例如标注单元101将泰文“A:翻译为英文和中文分别是“B:I love this city,and I want to stay here forever.What is your opinion?”和“C:我热爱这个城市,并且我想在这里永远生活下去。你觉得怎么样?”。在B中,符号“.”表示断句,因此B可以分为两句,分别是“I love this city,and I want to stay here forever.”(对应泰文)和“What is your opinion?”(对应泰文)。在C中,符号“。”表示断句,因此C可以分为两句,分别是“我热爱这个城市,并且我想在这里永远生活下去。”(对应泰文和“你觉得怎么样?”(对应泰文

作为一种实施方式,标注单元101根据目标语言文本中的断句符号对训练样本进行断句标注时,可以根据目标语言文本中对齐的断句符号对训练样本进行断句标注。在上述例子中,由于英文和中文对应泰文的翻译中,都存在断句符号,也就是说,这两种目标语言文本中的断句符号是对齐的,因此,就可以在此处为对应泰文进行断句,上述泰文A也就被断为两句,分别是和了。

作为另一种实施方式,标注单元101根据目标语言文本中的断句符号对训练样本进行断句标注时,还可以根据翻译后的目标语言文本中,翻译置信度最高的目标语言文本中的断句符号来对训练样本进行断句标注。

例如在前面的例子中,泰译英的机器翻译系统对泰文A进行翻译后,会给出英文目标语言文本B的翻译置信度,泰译中的机器翻译系统对泰文A进行翻译后,会给出中文目标语言文本C的翻译置信度,如果英文目标语言文本B的翻译置信度高于中文目标语言文本C的翻译置信度,则可以根据英文目标语言文本B中的断句符号来对泰文A进行断句标注。翻译置信度指的是机器翻译系统在将源语言文本翻译到目标语言文本时,对目标语言文本翻译准确性的度量,翻译置信度越高,说明通过该机器翻译系统得到的目标语言文本的翻译准确性的可能性越大,反之则说明翻译准确性的可能性越小。

作为另一种实施方式,标注单元101还可以将前面两种方式结合起来以决定训练样本的断句标注。例如将训练样本翻译为两种以上的目标语言文本后,首先判断这几种目标语言文本中是否存在对齐的断句符号,如果存在,则利用对齐的断句符号对训练样本进行标注,如果不存在,则利用翻译置信度最高的目标语言文本中的断句符号对训练样本进行标注。

以上对标注单元101对训练样本进行断句标注的过程进行了完整的介绍,下面将对特征确定单元102确定训练样本的断句特征的过程进行介绍。

在本发明中,断句特征至少包括以下类型特征中的一种:

1、泰文句子完整性的描述特征。如一句泰文中的泰文字母的总数、一句泰文分词之后的单词总数、一句泰文中的泰文音节的总数、一句泰文中短语韵律停顿的个数等等构成的特征。

2、泰文的语法特征。例如一句泰文句子起始和结尾处单词的词性、或者泰文句子中的短语搭配结构等等构成的特征。

3、泰文的单词特征。例如单词的含义、词频信息等等构成的特征。

4、泰文句尾的组合型特征。例如一个泰文句子中最后一个单词的词性和含义组合在一起构成的特征。

作为一种实施方式,特征确定单元102可以提取训练样本任意若干个上述类型的特征构成特征向量,作为训练样本的断句特征。较优的,特征确定单元102可以采用特征选择算法从提取的任意若干个上述类型的特征中选取对断句的判断影响显著的特征构成特征向量,以作为训练样本的断句特征。

在本实施例中,是对离散特征(即只有0和1两种取值的特征)使用卡方检验的特征选择算法,对连续特征(即其取值范围是连续的)使用基于信息增益的特征选择算法。

例如确定是否选取离散特征“一句泰文句子结尾处单词的词性”时,假设100个样本中,有95%的样本在泰文句子结尾处单词的词性都是动词,则说明“一句泰文句子结尾处单词的词性”这个特征对断句的判断影响显著,但是如果在这100个样本中,泰文句子结尾处单词在各种词性上的分布是比较均匀的,则说明这个特征对断句的判断影响不够显著。

在标注单元101和特征确定单元102执行后,大量训练样本的X1,X2,......Xn和Y都得到了,这时通过训练单元103,对这些训练样本进行机器学习,就可以总结出泰文断句规则f。

本发明进一步还可包括一断句单元(图中未示出),用于利用总结的泰文断句规则对大量未知断句信息的泰文进行断句。例如对互联网上的泰文和英文的双语互译文本中的泰文进行断句,这样就能够从互联网上挖掘大量的双语句对,从而为进一步提高已有的机器翻译系统的准确性提供材料。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1