一种词语对齐方法及装置制造方法
【专利摘要】本发明公开了一种词语对齐方法及装置,涉及机器翻译【技术领域】;解决了词语对齐的技术问题;该技术方案包括:将需要对齐的两种语言的句子切分成一个个单词或短语,进行词语分组,在所述词语分组中查询匹配,进行互译对的对齐;用于在机器翻译过程中准确、完整的短语表的构建。
【专利说明】一种词语对齐方法及装置
【技术领域】
[0001] 本发明涉及机器翻译【技术领域】,尤其涉及一种词语对齐方法及装置。
【背景技术】
[0002] 词语对齐是自然语言处理领域的一个基本的问题,许多基于双语语料库的应用 (如统计机器翻译(SMT)、基于实例的机器翻译(EBMT)、词义消歧(WSD)、词典编撰等)都需要 词汇级别的对齐。一般来讲,对齐有篇章(section)、段落(paragraph)、句子(sentence)、 短语(phrase)、词语(word)等不同级别的对齐,其目的就是从双语互译的文本中找出互译 的片段。其中篇章、段落、句子的对齐技术主要用于语料库的整理,而短语和词语对齐,就是 要找出相互翻译的文本中对应的词与词、词与短语、短语和短语之间的相互翻译对。现今的 基于短语的统计机器翻译系统中,很大一部分程度依赖于词语对齐,词语对齐对统计机器 翻译中的短语抽取起到了很大的作用。现在使用最多的词语对齐方法就是使用双语语料库 来抽取词语对齐,其中典型的对齐软件就是GIZA++ [0ch,2000;0ch et al.,2003]。612八++ 实现了 IBM公司提出的5个模型[Brown et al.,1993]和隐马尔科夫模型(HMM) [Och et al.,2003],其主要思想是利用EM算法对双语语料库进行迭代训练,由句子对齐得到词语 对齐。表1是从GIZA++对齐文件中取出的一个稍加改进的例子。其中z是目标语言句子、 是源语言句子、a是对齐结果,比如"3-2"的意思就是说中文句子的第二个单词"在"对齐 到英文的第四个单词"in"(英文句子从0开始标注)。
[0003] 表1.词语对齐示例
【权利要求】
1. 一种词语对齐方法,其特征在于,该方法包括: 将需要对齐的句子切分成一个个单词或短语,进行词语分组;在所述的词语分组中查 询匹配,进行互译对的对齐。
2. 如权利要求1所述的方法,其特征在于,所述进行词语分组前先构建短语词典,所述 短语为语言学意义上的短语;尽可能的用所述短语词典内的最长的短语来匹配句子中的字 符串。
3. 如权利要求2所述的方法,其特征在于,所述词语分组,在分组过程中要同时查询到 每个单词或者短语对应的译文解释;由每个单词或者短语及其对应的译文解释构成基本词 典。
4. 如权利要求3所述的方法,其特征在于,在双语对齐的时候,可以利用一种语言的单 词或短语的译文信息对另一种语言的句子切分结果进行校正。
5. 如权利要求2所述的方法,其特征在于,所述词语分组的过程如下: (1) 待切分的字符串^,已经切分分组的字符串七; (2) 如果是&是空串,则转到(6); (3) 从5^的左边复制一个字符串ff,长度不以A; (4) 如果在所述短语词典中找到这个子字符串#或者#最后是一个单个单词,那么把r 和一个分隔符放到_s2中; (5) 去掉r中右边的一个单词,继续转到(4)进行处理; (6) 分组结束。
6. 如权利要求3所述的方法,其特征在于,根据构建的基本词典来查询一种语言的单 词或短语是否在另一种语言的句子中的单词或短语对应的译文解释中,如果在的话那就直 接找到这个对齐对。
7. 如权利要求6所述的方法,其特征在于,对于不在另一种语言的句子中的单词或短 语对应的译文解释中的单词或短语,可以在所述构建的另一种语言的基本词典中,根据相 似度的匹配经过第一次相似度计算来找到可能的对齐对。
8. 如权利要求7所述的方法,其特征在于,把经过第一次相似度计算仍然未对齐的单 词或短语与GIZA++生成的短语对齐概率表中释义进行第二次相似度的计算,找出可能的 对齐对。
9. 如权利要求1所述的方法,其特征在于,对于句子中含有两个以上的相同单词或短 语,可以使用不同的词性来处理;或者,如果词性相同,对于含有两个以上的相同数字对齐 的情况,可以简单的把一种语言词语前面的对齐到另一种语言的句子中前面的词语,后面 的词语对齐到后面的词语;或者,对于数字不相同的,按照对齐后的数字要连续递增的规 律,去除小于前面的数字,构成连续递增序列; 其中,数字代表词语的位置。
10. 如权利要求1所述的方法,其特征在于,当一种语言A的单词或短语可以对应多个 另一种语言B的单词或短语概率比较大时,关于该两种语言的对齐,采用单向对齐的方法, 就是把语言B单词或短语对齐到语言A单词或短语上,一个或者多个语言B单词或短语可 以对齐到一个语言A单词或短语上去。
11. 一种词语对齐装置,其特征在于,该装置包括: 切分单元,用于将需要对齐的句子切分成一个个单词或短语,进行词语分组; 比较单元,用于在所述的词语分组中查询匹配,进行互译对的对齐。
12. 如权利要求11所述的装置,其特征在于,所述切分单元,用于进行词语分组前先构 建短语词典,所述短语为语言学意义上的短语;尽可能的用所述短语词典内的最长的短语 来匹配句子中的字符串。
13. 如权利要求12所述的装置,其特征在于,所述切分单元用于所述词语分组,在分组 过程中要同时查询到每个单词或者短语对应的译文解释;由每个单词或者短语及其对应的 译文解释构成基本词典。
14. 如权利要求13所述的装置,其特征在于,所述切分单元用于在双语对齐的时候,可 以利用一种语言的单词或短语的译文信息对另一种语言的句子切分结果进行校正。
15. 如权利要求12所述的装置,其特征在于,所述切分单元用于所述词语分组的过程 如下: (1) 待切分的字符串^,已经切分分组的字符串七; (2) 如果是&是空串,则转到(6); (3) 从5^的左边复制一个字符串ff,长度不以A; (4) 如果在所述短语词典中找到这个子字符串#或者#最后是一个单个单词,那么把r 和一个分隔符放到_s2中; (5) 去掉r中右边的一个单词,继续转到(4)进行处理; (6) 分组结束。
16. 如权利要求13所述的装置,其特征在于,所述比较单元,用于根据构建的基本词典 来查询一种语言的单词或短语是否在另一种语言的句子中的单词或短语对应的译文解释 中,如果在的话那就直接找到这个对齐对。
17. 如权利要求16所述的装置,其特征在于,所述比较单元,用于对于不在另一种语言 的句子中的单词或短语对应的译文解释中的单词或短语,可以在所述构建的另一种语言的 基本词典中,根据相似度的匹配经过第一次相似度计算来找到可能的对齐对。
18. 如权利要求17所述的装置,其特征在于,所述比较单元,用于把经过第一次相似度 计算仍然未对齐的单词或短语与GIZA++生成的短语对齐概率表中释义进行第二次相似度 的计算,找出可能的对齐对。
19. 如权利要求11所述的方法,其特征在于,所述比较单元,用于对于句子中含有两个 以上的相同单词或短语,可以使用不同的词性来处理;或者,如果词性相同,对于含有两个 以上的相同数字对齐的情况,可以简单的把一种语言词语前面的对齐到另一种语言的句子 中前面的词语,后面的词语对齐到后面的词语;或者,对于数字不相同的,按照对齐后的数 字要连续递增的规律,去除小于前面的数字,构成连续递增序列; 其中,数字代表词语的位置。
20. 如权利要求11所述的装置,其特征在于,所述比较单元,用于当一种语言A的单词 或短语可以对应多个另一种语言B的单词或短语概率比较大时,关于该两种语言的对齐, 采用单向对齐的方法,就是把语言B单词或短语对齐到语言A单词或短语上,一个或者多个 语言B单词或短语可以对齐到一个语言A单词或短语上去。
21. -种机器翻译系统,其特征在于,该系统包括词语对齐装置, 用于将需要对齐的句子切分成一个个单词或短语,进行词语分组;在所述的词语分组 中查询匹配,进行互译对的对齐; 进行词语分组前先构建短语词典,所述短语为语言学意义上的短语;尽可能的用所述 短语词典内的最长的短语来匹配句子中的字符串; 所述词语分组,在分组过程中要同时查询到每个单词或者短语对应的译文解释;由每 个单词或者短语及其对应的译文解释构成基本词典; 根据构建的基本词典来查询一种语言的单词或短语是否在另一种语言的句子中的单 词或短语对应的译文解释中,如果在的话那就直接找到这个对齐对。
【文档编号】G06F17/30GK104375988SQ201410611053
【公开日】2015年2月25日 申请日期:2014年11月4日 优先权日:2014年11月4日
【发明者】魏子杭 申请人:北京第二外国语学院