维吾尔语词语对齐方法

文档序号:6493968阅读:762来源:国知局
维吾尔语词语对齐方法
【专利摘要】本发明公开了维吾尔语词语对齐方法,1.实现了维吾尔语词语的自动对齐,维吾尔语词语和汉语词语之间的对齐关系分为5种,分别是一对一,一对多,多对一,多对多,一对空;2.对自动对齐出现错误的词语人工对齐,提高了系统处理维吾尔语的准确率;3.根据维吾尔语的特点实现了对维吾尔语词语的拆分和合并。本发明实现了维吾尔语词语的自动对齐,为维吾尔语电子词典的构建和维吾尔语语料库的建设提供了帮助;为汉维机器翻译系统的研究提供了基础,对乌(乌孜别克文)、哈(哈萨克)、柯(柯尔克孜)、土(土耳其文)电子词典及辅助机器翻译系统的开发打下了坚实的基础。
【专利说明】维吾尔语词语对齐方法
【技术领域】
[0001]本发明涉及语言信息处理技术,特别是维吾尔语词语对齐方法。
【背景技术】
[0002]在国民经济和社会信息化的今天,人们对各类语种信息获取、查询、翻译提出了更快、更高的要求。随之,研制开发了各类电子词典产品和机器翻译系统,受到广大用户欢迎。在进行机器翻译时,语料库的质量直接影响翻译的质量,维吾尔语词语对齐系统是机器翻译和语料库建设的辅助工具。
[0003]机器翻译系统和自然语言处理系统的实用化进程中,机器词典和机器翻译系统已成为开发的焦点,语料库的建设速度和质量尤为重要。词语对齐是在互译的文本上寻找以词为单位的翻译对应。词语是双语语料库的自然语言处理任务都需要词语级的对齐。目前词语对齐的方法主要有4种:基于统计的方法、基于字符的方法、基于语言学知识的方法和混合方法。基于统计的方法是通过对大规模双语语料库的统计训练,获得双语对译词的同现概率以此作为对齐的基础。基于字符的方法是以两种语言含有的同源词在词性上面的共同之处进行词对齐。基于语言学知识的方法是以双语词典和同义词词典等语言学知识作为对齐的基础。混合方法同时使用了包含上三种方法的多种方法。
[0004]近年来,随着少数民族信息化领域的发展,在新疆的少数民族语言语料库建设也有了新的发展,但大多数以维吾尔语为主,在更多少数民族语言的支持和技术水平上存在一定的缺陷。

【发明内容】

[0005]本发明的目的在于提供一种维吾尔语词语对齐方法,实现了维吾尔语词语的自动对齐,为维吾尔语电子词典的构建和维吾尔语语料库的建设提供了帮助;为汉维机器翻译系统的研究提供了基础,对乌(乌孜别克文)、哈(哈萨克)、柯(柯尔克孜)、土 (土耳其文)电子词典及辅助机器翻译系统的开发打下了坚实的基础。
[0006]本发明的目的是这样实现的:一种维吾尔语词语对齐方法,1.实现了维吾尔语词语的自动对齐,维吾尔语词语和汉语词语之间的对齐关系分为5种,分别是一对一,一对多,多对一,多对多,一对空;2.对自动对齐出现错误的词语人工对齐,提高了系统处理维吾尔语的准确率;3.根据维吾尔语的特点实现了对维吾尔语词语的拆分和合并。
[0007]本发明涉及维吾尔语词语的对齐,实现了维吾尔语词语的自动对齐和维吾尔语词语的拆分和合并。词语对齐是语料库建设的基本问题之一,也是长期以来一直在研究的课题。在目前市场上,这种能对维吾尔语词语对齐的系统尚属首例。本发明解决了对提交的维吾尔词语进行自动对齐;是维吾尔语电子词典的构建,汉维机器翻译系统很好的辅助工具;另一方面对将来汉维机器翻译语料库建设;对乌(乌孜别克文)、哈(哈萨克)、柯(柯尔克孜)、土 (土耳其文)电子词典及辅助机器翻译系统的开发打下了坚实的基础。本发明是基于计算语言学、语言学、社会学、计算机信息处理科学的维吾尔语词语对齐系统。其特征是:根据维吾尔语的形态特点对维吾尔语词语进行自动对齐;可以实现没有自动对齐的词语;根据维吾尔语的特征本系统实现了对维吾尔语词语的拆分和合并。
[0008]本发明的有益效果是,系统实现了维吾尔语词语的自动对齐,为维吾尔语电子词典的构建和维吾尔语语料库的建设提供了帮助;为汉维机器翻译系统的研究提供了基础,对乌(乌孜别克文)、哈(哈萨克)、柯(柯尔克孜)、土 (土耳其文)电子词典及辅助机器翻译系统的开发打下了坚实的基础。
【专利附图】

【附图说明】
[0009]下面将结合附图对本发明作进一步说明。
[0010]图1是本发明的流程图。
【具体实施方式】
[0011]一种维吾尔语词语对齐方法,1.实现了维吾尔语词语的自动对齐,维吾尔语词语和汉语词语之间的对齐关系分为5种,分别是一对一,一对多,多对一,多对多,一对空;2.对自动对齐出现错误的词语人工对齐,提高了系统处理维吾尔语的准确率;3.根据维吾尔语的特点实现了对维吾尔语词语的拆分和合并。
[0012]如图1所示,首先,判断用户的角色,然后获得审核通过之后的句子。根据维吾尔语词语的特点实现词语的拆分和合并,对自动对齐错误的词语进行人工对齐,然后保存对齐结果,同时登记有错误的句子。
【权利要求】
1.一种维吾尔语词语对齐方法,其特征是:1.实现了维吾尔语词语的自动对齐,维吾尔语词语和汉语词语之间的对齐关系分为5种,分别是一对一,一对多,多对一,多对多,一对空;2.对自动对齐出现错误的词语人工对齐,提高了系统处理维吾尔语的准确率;3.根据维吾尔语的特点实现了对维吾尔语词 语的拆分和合并。
【文档编号】G06F17/28GK103902528SQ201210579979
【公开日】2014年7月2日 申请日期:2012年12月28日 优先权日:2012年12月28日
【发明者】尼加提·纳吉米, 买合木提·买买提, 帕肉克·司地克, 马斌 申请人:新疆电力信息通信有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1