专利名称:一种用于盲人读取汉字的系统和方法
技术领域:
本发明涉及自然语言处理技术领域,特别是涉及一种用于盲人读取汉字的系统和方法。
背景技术:
在当今信息社会,信息化水平不断提高,信息技术在人们的工作、学习和生活中得到了广泛应用,而互联网也成为人们日常生活中的一个重要组成分,网络以一种便捷的方式为人们提供了海量的信息资源。但是,这些信息资源大多是以汉语文本的形式存储,没有考虑到盲人的需求。而在中国,盲人是一个庞大的群体,盲人人口已经超过了全国人口总数的1 %。这阻碍了盲人像正常人一样享受海量的信息资源,使盲人和正常人之间的信息鸿沟不断扩大,盲人在信息化社会中的生存和发展能力受到进一步制约。虽然现有的语音合成技术比较成熟,网络上大量的文本资源可以通过语音合成转换为音频文件使得盲人可以通过听觉获得这些信息,但由于语音资源的存储比较耗费空间,并且在携带、查询等方面并不方便,因此,对于盲人来说,文本资源仍然是获得信息最重要的方式。然而,我国盲人在阅读书写时使用的文字是中国盲文。中国盲文基于布莱尔盲文体系,每个盲文字符均以两列共6个点作为一个基本结构(丨丨),这6个点有的凸起,有的不凸起,形成64种变化,即能表示64种不同的字符,每种字符分别表示汉语拼音中的一个声母、韵母或声调,不同的字符按照汉语拼音规则组成合法音节以表示汉字,也就是说中国盲文是一种拼音性的文字。盲文的书写和阅读比较特殊。盲文的书写是在比较特殊的纸张上通过打孔实现的,一般使用由若干方盲符所组成的盲文导板,然后在导板的导引下,按照盲文编码方案,从右向左进行打孔(点字);阅读时,则把带有穿透孔的纸张翻过来,用手从左向右进行触摸阅读。可以看出,中国盲文和汉语在形态上差别很大,盲人无法直接“阅读”汉语文本,而网络上以盲文形式出现的资源又很匮乏,急需将汉语文本转换为盲文文本提供给盲人。现有的将汉语文本转换为盲文文本的方法,由于盲文分词连写规则的限制和汉语中多音字的现象,使得由汉语转换得到的盲文与符合中国盲文标准的盲文有一定的差别, 这些差别主要是盲文文本中词与词之间分词连写的形式的不同,以及由于多音字造成转换出的一些盲文字符的不同,因此,在使用这些方法进行转换之后,还需要做大量人工修正工作,造成了效率低下,也使得盲文文本资源的获取的时间较长且成本较高。
发明内容
本发明的目的在于提供一种用于盲人读取汉字的系统和方法。有效的解决了汉字到中国盲文转换中的多音字问题。为实现本发明的目的而提供的一种用于盲人读取汉字的系统,包括分词模块,用于以句为单位,按顺序对每一句汉语文本进行分词;转换模块,利用N-gram语言模型,将汉语分词结果转换为中国盲文。
所述N-gram语言模型的描述如下假设要转换的一句分词后的汉语文本为X,X由词序列S1, &,...,&组成,设这个汉语句子X对应的候选盲文句子τ由盲文词序列Wl,w2,w3,...,Wn组成;由于汉语中的多音字存在,一个X可能对应多个T,对于每一个T,利用公式
权利要求
1.一种用于盲人读取汉字的系统,其特征在于,所述系统,包括分词模块,用于以句为单位,按顺序对每一句汉语文本进行分词;转换模块,利用N-gram语言模型,将汉语分词结果转换为中国盲文。
2.根据权利要求1所述的用于盲人读取汉字的系统,其特征在于,所述N-gram语言模型的描述如下假设要转换的一句分词后的汉语文本为X,X由词序列S1, S2, ...,&组成,设这个汉语句子X对应的候选盲文句子T由盲文词序列Wl,w2,w3,...,Wn组成;由于汉语中的多音字存在,一个X可能对应多个T,对于每一个T,利用公式P (T) =P (W1W2. . . Wn) ^ P (W1) P (W2 W1) . . . P (Wn I Wn_NWn_N+1. . . W^1)求出候选盲文句子τ的概率值P,取概率值最大的那句候选盲文作为转换结果的一句盲文文本。
3.根据权利要求1所述的用于盲人读取汉字的系统,其特征在于,所述用于盲人读取汉字的系统,包括分词修正模块,用于根据盲文分词连写规则,对所述分词模块产生的汉语分词结果进行修正,并将修正后的分词结果提供给所述转换模块。
4.根据权利要求3所述的用于盲人读取汉字的系统,其特征在于,所述分词修正模块, 包括词性标注模块,用于标出经过分词后的每一个词在句中的词性;匹配模块,利用标注了词性的分词,对其中所有的相邻词组合去匹配分词连写规则集, 完成对分词结果的修正,使分词结果符合盲文分词连写规则。
5.根据权利要求4所述的用于盲人读取汉字的系统,其特征在于,所述匹配模块,利用每个词的词性标注结果,去匹配连写规则集,若有相邻词的词性组合在连写规则集中,则将分词结果中这两个词合并连写为一个词;同时,也对分词模块得到的分词结果中的多于一个字的词“拆分”,并对这个词拆分后得到的词的组合进行词性标注,去匹配分写规则集,如匹配成功,将这个词按这种拆分方式分开写。
6.一种用于盲人读取汉字的方法,其特征在于,所述方法,包括下列步骤步骤100,分词模块以句为单位,按顺序对每一句汉语文本进行分词;步骤200,转换模块利用N-gram语言模型,将汉语分词结果转换为中国盲文。
7.根据权利要求6所述的用于盲人读取汉字的方法,其特征在于,所述N-gram语言模型的描述如下假设要转换的一句分词后的汉语文本为X,X由词序列S1, S2,...,&组成,设这个汉语句子X对应的候选盲文句子T由盲文词序列Wl,w2,w3,...,Wn组成;由于汉语中的多音字存在,一个X可能对应多个T,对于每一个T,利用公式P (T) =P (W1W2. . . Wn) ^ P (W1) P (W2 W1) . . . P (Wn I Wn_NWn_N+1. . . W^1)求出候选盲文句子τ的概率值P,取概率值最大的那句候选盲文作为转换结果的一句盲文文本。
8.根据权利要求6所述的用于盲人读取汉字的方法,其特征在于,所述用于盲人读取汉字的方法,在步骤100和步骤200之间,包括步骤300,分词修正模块根据盲文分词连写规则,对所述步骤100产生的汉语分词结果进行修正,并将修正后的分词结果提供给所述转换模块。
9.根据权利要求8所述的用于盲人读取汉字的方法,其特征在于,所述步骤300,包括步骤310,词性标注模块标出经过分词后的每一个词在句中的词性; 步骤320,匹配模块利用标注了词性的分词,对其中所有的相邻词组合去匹配分词连写规则集,完成对分词结果的修正,使分词结果符合盲文分词连写规则。
10.根据权利要求9所述的用于盲人读取汉字的方法,其特征在于,所述步骤320,包括匹配模块利用每个词的词性标注结果,去匹配连写规则集,若有相邻词的词性组合在连写规则集中,则将分词结果中这两个词合并连写为一个词;同时,也对分词模块得到的分词结果中的多于一个字的词“拆分”,并对这个词拆分后得到的词的组合进行词性标注,去匹配分写规则集,如匹配成功,将这个词按这种拆分方式分开写。
全文摘要
本发明公开了一种用于盲人读取汉字的系统和方法。所述用于盲人读取汉字的系统,包括分词模块,用于以句为单位,按顺序对每一句汉语文本进行分词;转换模块,利用N-gram语言模型,将汉语分词结果转换为中国盲文。有效的解决了汉字到中国盲文转换中的多音字问题。
文档编号G09B21/00GK102184172SQ201110120329
公开日2011年9月14日 申请日期2011年5月10日 优先权日2011年5月10日
发明者林守勋, 王向东, 王超, 赵颖, 钱跃良 申请人:中国科学院计算技术研究所