专利名称:一种汉字输入过程中的汉语拼音串处理方法及其系统的制作方法
技术领域:
本申请涉及计算机汉字输入技术领域,尤其涉及一种汉字输入过程中的汉语拼音串处理方法及其系统。
背景技术:
汉字输入法(Input Method Editor, IME),就是利用键盘,根据一定的编码规则来输入汉字的一种方法。从实现汉字输入原理上来看,可以分为两类一类是形码,例如五笔输入法,这类输入方式是基于汉字的笔画进行编码的;另一类是音码,例如拼音输入法,它是建立在汉字读音的基础上。拼音输入法是按照拼音来输入汉字的方法。为了能把用户输入的拼音转换为汉字输出,需要首先对用户输入的拼音流进行切分,分割为合法的拼音音节序列,然后将音节序列转换为汉字。音节是语音的基本单位,汉语普通话中,一个汉字的读音就是一个音节。每个音节由声母、韵母和声调三个部分组成,拼音输入技术中所称的音节是指合法的[声母, 韵母]对。如何把拼音输入流正确切分为合法的拼音音节序列是实现拼音输入法的关键一
止
少ο目前常用的拼音流切分技术包括动态规划方法。该方法用M矩阵的元素Mu记录 i到j之间的分割代价,对拼音字符串C1C2……Cn按音节进行划分,并用分段函数来计算每个子串Ci…… .的代价值,最后取其中最小分割代价值所对应的分割结果,作为该拼音串的分割结果。其中,分割代价函数可以表示为
权利要求
1.一种汉字输入过程中的汉语拼音串处理方法,其特征在于,包括如下步骤对接收到的汉语拼音串进行切分,分别将所述汉语拼音串中的声母和韵母作为切分子串得到切分子串序列;对所述切分子串序列中的切分子串进行扩展,并根据扩展结果生成扩展子串序列集合;按照音节组成特征对所述扩展子串序列集合中每个扩展子串序列进行音节抽取,得到对应的音节序列;对各音节序列中的音节进行合法性验证,并根据验证结果删除包含有非法音节的音节序列。
2.如权利要求1所述的方法,其特征在于,分别将所述汉语拼音串中的声母和韵母作为切分子串,包括如果相邻的至少两个声母字母具备组合为多字母声母的条件,则将该相邻的至少两个声母字母组合并作为一个切分子串;如果相邻的至少两个韵母具备组合为合法的韵母组合的条件,则将该相邻的至少两个韵母组合并作为一个切分子串。
3.如权利要求1所述的方法,其特征在于,对接收到的汉语拼音串进行切分,还包括 如果所述汉语拼音串中存在声母后未跟随韵母的声母,则将该声母作为一个切分子串ο
4.如权利要求1所述的方法,其特征在于,对接收到的汉语拼音串进行切分,还包括 如果元音字母与其后的多个字母具备顺序组合得到韵母的条件,则取该元音字母与其后的多个拼音字母组合得到的韵母长度最长的字母串作为一个切分子串。
5.如权利要求1所述的方法,其特征在于,对所述切分子串序列中的切分子串进行扩展,包括如果切分子串为单字母声母切分子串且该单字母声母具备变换为双字母声母的条件, 则将该切分子串中的单字母声母扩展为双字母声母得到扩展子串;如果切分子串为双字母声母切分子串且该双字母声母具备变换为单字母声母的条件, 则将该切分子串中的双字母声母扩展为单字母声母得到扩展子串。
6.如权利要求5所述的方法,其特征在于,如果切分子串自身为声母子串或韵母子串, 则扩展生成的扩展子串序列包括其自身。
7.如权利要求5所述的方法,其特征在于,对所述切分子串序列中的切分子串进行扩展,还包括如果相邻的切分子串都为声母切分子串,则分别在该相邻的声母切分子串后增加具备与各声母切分子串组合条件的韵母子串,得到与各声母切分子串对应的至少一个扩展子串ο
8.如权利要求1所述的方法,其特征在于,对所述切分子串序列中的切分子串进行扩展,包括如果切分子串包括多个韵母组合,则将该多个韵母作为一个扩展子串; 如果切分子串包括以η结尾的鼻韵母且该鼻韵母具备增加g以变换为以g结尾的鼻韵母的条件,则将该以η结尾的鼻韵母扩展为以g结尾的鼻韵母并作为一个扩展子串;如果切分子串包括以g结尾的鼻韵母且该鼻韵母具备删除g以变换为以η结尾的鼻韵母的条件,则将该以g结尾的鼻韵母扩展为以η结尾的鼻韵母并作为一个扩展子串。
9.如权利要求8所述的方法,其特征在于,对所述切分子串序列中的切分子串进行扩展,还包括如果切分子串包括由多字母组成的韵母且该韵母具备分割为零声母韵母和声母的条件,则将该切分子串扩展为包括零声母韵母和声母的扩展子串;如果切分子串包括由多字母组成的韵母且该韵母具备分割为韵母和零声母韵母的条件,则将该切分子串扩展为包括韵母和零声母韵母的扩展子串。
10.如权利要求1所述的方法,其特征在于,对接收到的汉语拼音串进行切分,分别将所述汉语拼音串中的声母和韵母作为切分子串得到切分子串序列,包括遍历接收到的汉语拼音串,将遍历到的拼音字母或字母组合与预先按照设定的切分规则配置的切分规则表中所包含的拼音字母或字母组合进行匹配,如果在该规则表中匹配到相应的字母或字母组合,则将遍历到的字母或字母组合作为所述汉语拼音串的一个切分子串;将所述汉语拼音串的切分子串按照遍历顺序组合,得到所述汉语拼音串的切分子串序列。
11.如权利要求1所述的方法,其特征在于,对所述切分子串序列中的切分子串进行扩展,包括对于切分子串序列中的每一个切分子串,通过查询按照设定的扩展规则配置的扩展规则表,以查找与每一个切分子串对应的扩展子串。
12.如权利要求11所述的方法,其特征在于,所述根据扩展结果生成扩展子串序列集合,包括根据切分子串在所述切分子串序列中的顺序,将查找到的所述每一个切分子串对应的扩展子串以排列组合方式组合得到扩展子串序列集合;其中,所述扩展子串序列集合中包括的扩展子串序列数目等于所述每个切分子串分别对应的扩展子串数目的乘积。
13.如权利要求1-9任一项所述的方法,其特征在于,所述音节组成特征,包括先声母后韵母组成特征。
14.一种汉字输入过程中的汉语拼音串处理系统,其特征在于,包括切分模块,用于对接收到的汉语拼音串进行切分,分别将所述汉语拼音串中的声母和韵母作为切分子串得到切分子串序列;扩展模块,用于对所述切分模块切分得到的切分子串序列中的切分子串进行扩展,并根据扩展结果生成扩展子串序列集合;音节抽取模块,用于按照音节组成特征对所述扩展模块扩展得到的扩展子串序列集合中的每个扩展子串序列进行音节抽取,得到对应的音节序列;过滤模块,用于对各音节序列中的音节进行合法性验证,并根据验证结果删除包含有非法音节的音节序列。
15.如权利要求14所述的系统,其特征在于,所述切分模块,具体用于如果相邻的至少两个声母字母具备组合为多字母声母的条件,则将该相邻的至少两个声母字母组合并作为一个切分子串;如果相邻的至少两个韵母具备组合为合法的韵母组合的条件,则将该相邻的至少两个韵母组合并作为一个切分子串;如果所述汉语拼音串中存在声母后未跟随韵母的声母,则将该声母作为一个切分子串,以及,如果元音字母与其后的多个字母具备顺序组合得到韵母的条件,则取该元音字母与其后的多个拼音字母组合得到的韵母长度最长的字母串作为一个切分子串。
16.如权利要求14所述的系统,其特征在于,所述扩展模块,具体用于如果切分子串为单字母声母切分子串且该单字母声母具备变换为双字母声母的条件, 则将该切分子串中的单字母声母扩展为双字母声母得到扩展子串;如果切分子串为双字母声母切分子串且该双字母声母具备变换为单字母声母的条件, 则将该切分子串中的双字母声母扩展为单字母声母得到扩展子串。
17.如权利要求16所述的系统,其特征在于,所述扩展模块,还用于如果相邻的切分子串都为声母切分子串,则分别在该相邻的声母切分子串后增加具备与各声母切分子串组合条件的韵母子串,得到与各声母切分子串对应的至少一个扩展子串ο
18.如权利要求14所述的系统,其特征在于,所述扩展模块,具体用于 如果切分子串包括多个韵母组合,则将该多个韵母作为一个扩展子串;如果切分子串包括以η结尾的鼻韵母且该鼻韵母具备增加g以变换为以g结尾的鼻韵母的条件,则将该以η结尾的鼻韵母扩展为以g结尾的鼻韵母并作为一个扩展子串;如果切分子串包括以g结尾的鼻韵母且该鼻韵母具备删除g以变换为以η结尾的鼻韵母的条件,则将该以g结尾的鼻韵母扩展为以η结尾的鼻韵母并作为一个扩展子串;以及, 如果切分子串包括由多字母组成的韵母且该韵母具备分割为零声母韵母和声母的条件,则将该切分子串扩展为包括零声母韵母和声母的扩展子串;如果切分子串包括由多字母组成的韵母且该韵母具备分割为韵母和零声母韵母的条件,则将该切分子串扩展为包括韵母和零声母韵母的扩展子串。
19.如权利要求14-18任一项所述的系统,其特征在于,还包括第一存储模块,用于存储按照设定的切分规则配置的切分规则表,所述切分规则表中包含作为切分子串的拼音字母或字母组合;所述切分模块具体用于遍历接收到的汉语拼音串,将遍历到的拼音字母或字母组合与所述切分规则表中所包含的字母或字母组合进行匹配,如果在该规则表中匹配到相应的字母或字母组合,则将遍历到的字母或字母组合作为所述汉语拼音串的一个扩展子串;以及,将所述汉语拼音串的切分子串按照遍历顺序组合,得到所述汉语拼音串的切分子串序列。
20.如权利要求14-18任一项所述的系统,其特征在于,还包括第二存储模块,用于存储按照设定的扩展规则配置的扩展规则表,其中包含拼音字母及其对应的扩展子串,或/和字母组合及其对应的扩展子串;所述扩展模块具体用于对于切分子串序列中的每一个切分子串,通过查询所述扩展规则表,以查找与每一个切分子串对应的扩展子串。
21.如权利要求20所述的系统,其特征在于,所扩展模块具体用于根据切分子串在所述切分子串序列中的顺序,将查找到的所述每一个切分子串对应的扩展子串以排列组合方式组合得到扩展子串序列集合;其中,所述扩展子串序列集合中包括的扩展子串序列数目等于所述每个切分子串分别对应的扩展子串数目的乘积。
全文摘要
本申请公开了一种汉字输入过程中的汉语拼音串处理方法及其系统,该方法包括对接收到的汉语拼音串进行切分,分别将所述汉语拼音串中的声母和韵母作为切分子串得到切分子串序列;对所述切分子串序列中的切分子串进行扩展,并根据扩展结果生成扩展子串序列集合;按照音节组成特征对扩展得到的扩展子串序列集合中的每个扩展子串序列进行音节抽取,得到对应的音节序列;对各音节序列中的音节进行合法性验证,并根据验证结果删除包含有非法音节的音节序列。采用本申请,可以解决现有拼音串处理技术系统资源消耗大、效率低以及不支持模糊音输入的问题。
文档编号G06F3/023GK102200839SQ20101013454
公开日2011年9月28日 申请日期2010年3月25日 优先权日2010年3月25日
发明者侯磊, 秦吉胜, 薛永刚, 陈培军 申请人:阿里巴巴集团控股有限公司