专利名称:一种适合于汉语拼音输入的小型数字键盘的制作方法
技术领域:
本发明涉及到一种电话机、移动电话机、传真机等需用数字键输入汉字的设备的小型数字键盘设计,属于信息、通信及电子、电脑类产品。
■技术背景随着手机功能的扩展,尤其是短信交流方式的出现,提高在手机上输入文字的速度已成为移动终端设备制造厂商研究的一个技术热点。在文字输入的方式上,大致有三种键盘输入、手写输入、语音输入,本发明内容涉及的是主流的键盘输入方式。
键盘输入最基本的原理就是把字母叠加地定义在数字按键上,当手机等设备运行输入法程序时,将输入的按键信息转换为相应的字母信息。具体有两种转换方式,比较原始低效的方式是以字母为基本转换单位,由于一个按键上定义有多个字母,就要通过重复按键一次或多次以确定所要键入的字母,连续输入同一按键上的两个字母还必须等待延时,改进后的方式是以单词作为基本转换单位,单词中的各字母只需按键一次,按完之后再在有限的几个单词组合中选择即可,本发明就是后者为背景的。为了叙述的方便,先对所以使用的概念作一个定义1)拼音串——汉语中各个汉字的拼音注音,如“爱”的拼音串是“ai”,“老”的拼音串是“lao”;2)按键序列——包含拼音串中各字母的输入按键的有序集;3)拼音串重码——多个拼音串有着相同的按键序列;4)重度——同一按键序列对应的不同拼音串的个数,拼音串重码按重度不同,称之为二重码,三重码等,重度为一时就不成为拼音串重码。
目前手机上所使用的汉字输入法主要有拼音和笔划输入法。现代汉语拼音方案在汉字国际标准化和汉语教学中有着不可替代的地位,其权威性、普及度、易学性、易用性都是其它输入法所不能比拟的。在拼音输入法中,拼音串就等同于英文中的单词,但是两者又有很大的不同,主要体现在(1)汉语拼音中所使用的拼音串一共有406个,而英文单词则有上万个;
(2)汉语拼音的平均信息熵远远低于英文;(3)汉语拼音中各个字母的出现有很强的规律性,而在英文单词中基本没有。
通过以上比较,在理论上汉语拼音应该比英语更适合在按键较少的小型数字键盘上录入。可是,实际使用情况并非如此,目前手机上的拼音输入法甚至比只用了五个按键的笔划输入法还要慢,主要体现在以下几点上(1)出现拼音串重码的按键序列很多,而且重度很高,最高有六重码;(2)无法方便快捷地输入音调;(3)在以词语或者整句方式输入时,会引起相邻拼音串切分的难题,拼音串重码的缺陷也会以乘数的形式被放大,以至此类输入方式无法让用户接受。
经研究后发现,以上缺点都是由于目前手机键盘上的键面字母排列组合不够合理引起的。
■发明目的本发明在充分研究汉语拼音规律的基础上,重新安排小型数字键盘键面字母的排列组合方式,设计出一种更适合拼音输入的小型数字键盘,以克服目前手机或移动电话机上普遍使用的小型数字键盘在输入汉语拼音时的种种缺点,使得小型数字键盘上可以流畅快速地使用拼音输入法输入汉字。
■发明内容这里说的小型数字键盘是指由“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”、“0”十个数字键和“*、#”两个符号键组成,同时拼音字母分别定义在不同的按键上,通过接触转换装置可以输入文字信息。为了提高在小型键盘上以汉语拼音输入法输入汉字的效率,本发明提出了顺乎汉语拼音输入规律的字母排列。先对拼音规律做一下梳理,以明确键盘字母定义方式的原理所在。
1.增补字母的分离定义及字母的划分汉语拼音中韵母一共有35个,数目虽多,但都是由a、u、e、i、o、v(ü)、n、g这几个字母组合而成的;声母以及辅助声母一共有23个,它们分别是b、p、m、f、d、t、n、l、g、k、h、j、q、x、z、c、s、r、w、y、zh、ch、sh。注意到zh、ch、sh中的h和韵母中出现的n和g,它们与声母n、g、h的含义是截然不同的,这就是现代汉语拼音相对于26个拉丁字母的增补部分,在本文中称之为增补字母。
如果把增补字母h、n、g分离定义在#键或*键上,会产生非常好的效果1)h、n、g这三个字母本身在输入时是不会相互混淆的,也不会与输入法定义的一些功能发生冲突。h的输入只可能是出现在输入序列的第二位,而且前一个输入序列必须是z、c、s所在的按键;n的输入只能跟在a、o、e、i、u的输入之后,而且一般出现在输入序列的第三位和第三位以后,只在输入拼音串an和en时会在第二位使用,只要保证a和e所在的按键上没有z、c、s就不会和zh、ch、sh的输入相混淆;g的输入时机更为特定,只会在n之后输入;输入法定义的功能就可以定义在输入序列的首位。
2)可以使26个字母的使用功能单纯化,便于使用算法来优化其最佳分布方案。增补字母被分离后,26个字母就可以严格地分成两类——韵母字母(a、u、e、i、o、v)和声母字母(b、p、m、f、d、t、n、l、g、k、h、j、q、x、z、c、s、r、w、y),大致上对应了拉丁字母中的元音字母和辅音字母。这样,在输入时,有声母键、韵母键,再辅之以增补字母键,一目了然,输入过程也实现了优化。
3)增补字母没有定义在数字键上,不会影响键盘在输入英文时的使用,即使是把hng直接定义在传统手机键盘的“*”“#”键上,也可以取得立竿见影的效果,很大程度地减少拼音串重码的重度和出现的机率。略举两例即可说明这一点在传统手机键盘中输入序列“7426”,会有pian、shao、qiao、qian、shan、piao六个拼音串与之匹配,如果把hng定义在#键上,输入的情况就变成742#——pian、qian,7#26——shao,7426——qiao、piao,7#2#——shan;传统键盘中输入序列“726”,会有rao、ran、pao、pan、sao、san六个拼音串与之对应,定义hng在#键上之后,输入情况就变为726——rao、pao、sao,72#——ran、pan、san。
汉语拼音中绝大部分拼音串是由一个声母和一个韵母相拼而成的。设有两个按键序列S1和S2分别用于输入声母和韵母,S1对应的不同声母个数为m,S2对应的不同韵母个数为n,当S1+S2结合成一个拼音串的按键序列S3时,由排列组合的乘法原理可知S3对应的拼音串的个数至多为m×n。因此,为了减少同一按键序列对应的拼音串的重度和数量,就要尽可能使m和n的值变小。在任意一个拼音串中必定是声母在前韵母在后,由于已经将会发生混淆的增补字母分离出来,并且三个增补字母本身因为使用的时机和场合不同,相互间也是不会发生混淆的,因此声母字母和韵母字母基本不会发生相互影响,可以先分开考虑其分布。
2.韵母字母的键位定义韵母字母只有6个,只要把6个韵母字母随意地定义在6个不同的数字键上,就可以保证所有韵母都有唯一的输入序列,这就已经达到了最佳的效果。但考虑到以下两个情况,韵母字母的定义还是有文章可作1)那些没有被定义上韵母字母的数字键在输入中会形成按键冗余,如果把这种按键冗余好好利用,就可以进一步提高输入效率。
2)字母v的使用机率非常低,仅仅在两个拼音串lv、nv中被使用到;对于第一点,需要对按键冗余进行具体说明。观察406个拼音串,可以发现,所有的拼音串的第二位及第二位之后的字母一定是韵母字母或者增补字母,绝不可能出现声母字母,如果一个数字按键上没有定义韵母字母,那这个按键在输入完拼音串的首个字母后就绝不可能再参与拼音串的输入,如果此时这些按键没有定义其它的功用,就会被闲置,这就是一种冗余。要把这种冗余利用起来,可以考虑把与拼音输入法相关的一些功能定义到这些按键上。
首先想到是选字的功能。在输入时,会有一组符合当前拼音串输入的汉字备选,要完成对备选字的选择一般有两种方法第一种方法是给每个备选字标上数字,按下某个状态转换键后,再按下对应的数字键就可选择对应的备选字;第二种方法是用方向键控制光标进行选择。两种方法的目的都是为了避免选字所按下的按键与拼音串输入按键相混淆。要产生备选字,至少要输入拼音串中的一个字母,此功能在使用时机上正好与冗余键相符。习惯上的备选字都用由1开始的数字进行标号的,根据普通手机屏幕的尺寸和字体大小,一般可以显示5个备选字,少了会导致用户频繁翻页,多了字体会太小也不利于用户查找。五个备选字一般都会依次用数字1、2、3、4、5标出,所以对应的冗余键是1、2、3、4、5这五个数字键会比较合适。
另一个功能是音调的输入。汉语拼音中有五个音调,第一声、第二声、第三声、第四声和轻声。习惯上,音调也都是在拼音码后输入的,所以也可以定义到冗余键上,同样也会很自然地与1、2、3、4、5这五个数字键相对应,1、2、3、4键对应一、二、三、四声,5键对应轻声。音调在汉语中变化比较多,尤其轻声,能够完全把握的人不多,也可以灵活地把5键定义成音调的模糊键。输入音调在单字输入法中减少同音字的个数,同时也可以把键盘由拼音串输入状态转换为数字键选字状态;在词语输入法中,可以增加输入信息量,同时也可以有效地把词语中各个字的拼音串分隔开来。
综上,应该让数字键1、2、3、4、5成为冗余键,用来定义音调或者选字功能,为了使数字键1、2、3、4、5成为冗余键,就不能在其上定义韵母字母,故6个韵母字母就只能定义在数字键6、7、8、9、0这五个按键上。由于字母v的使用机率非常低,可将字母v与某个合适的韵母字母共用一个按键,这个韵母字母所要满足的条件就是作为单韵母使用时,与声母的结合能力比较差,经过比较后发现字母“o”满足这一条件,“v”和“o”定义在同一个按键上,其它四个韵母字母分别定义在另四个按键上,这样的定义方式相比较把6个韵母定义在6个不同按键上的方式,只是引起了两个二重拼音重码的出现,基本不会影响输入效率。
3.声母字母的键位定义首先,因为zh、ch、sh是由z、c、s和增补字母h的组合而成的,所以只要把z、c、s相错地定义在不同的数字键上,按键序列与zh、ch、sh就会产生一一对应的关系,加之韵母的输入也是唯一的,这样就不存在拼音串重码的问题。
接下来的问题就是如何把20个声母字母分配到十个数字键上的问题。为了使得发一个按键对应的不同声母数目尽可能少,应该尽可能将其分散,最佳方案是将其平均分为十组定义到每个键盘上,每个按键上只有两个声母。这样根据乘法原则可知,同一按键序列对应拼音串至多有2×1=2个,如此一安排,在输入时所产生的拼音串重码的重度至多为二,其余的拼音串都有唯一的输入序列与之对应,和在PC键盘上作输入没有区别。
注音到并不是任选两个声母和韵母相拼都可以得到有效的拼音串的,事实上,在这20个声母字母和35个韵母的20×35=700个拼法中,只有338种是汉语发音中拼音串,就会有这种情况产生比如“f”和“z”都定义在3键上,“e”定义在6键,输入序列“36”可能产生的拼音串组合有“fe”和“ze”,但是因为发音“fe”并没有在现代汉语拼音中使用,本来会产生拼音串重码的地方却没有产生,若换成是“l”和“z”定义在3键上,输入序列“36”下就会有一个拼音串重码出现——“le”和“ze”。因此,声母分组方案还有很大的优化空间。如果粗略地去看待这个优化问题,很容易简单地把优化目标设定为如何使拼音串重码的总数最少。这个优化目标把所要涉及的338个拼音串同等看待了,其实各个拼音的使用频率是各不相同的,例如拼音串ji和nou,前者在GB2312中有118个汉字对应,而后者则只有一个“耨”字相对应。在优化模型中必须要考虑各个拼音串的使用频率是不同的,使得使用频率高的拼音串的输入更为方便。拼音串的使用频率由两个因素决定,一是与该拼音串对应的汉字的个数,然后是这些汉字在行文时的使用频率。如果严格地照这两个因素去分析,模型的难度和复杂程度会非常大,难以求解。本发明采用了一个折衷的方案,就是去统计拼音串下的常用汉字的个数,以此来大致表征该拼音串使用频率,GB2312中的一级汉字就是一个合适的统计对象。在本文中就有以下表达式成立P(pyi)=G(pyi)M...(1)]]>其中P(pyi)代表拼音串pyi的使用频率,G(pyi)是拼音串pyi对应的一级汉字的个数,M是GB2312中一级汉字的总数。
在这个基础上,我们建立了两种优化模型单字输入最优模型和词语输入最优模型。
3.1.单字输入最优模型在以单字方式输入时,因拼音串重码所带来的不便之处仅仅在于如果目标拼音串不是输入法默认选中的那个拼音串,那得按下*键切换到目标拼音串。如果目标拼音串是被默认选中的,那可以认为这与无重码的情况是一样的,出现拼音串重码时输入法程序可以把使用频率比较高那个拼音串默认选中。这样,单字方式输入下的优化目标就是选择最合适的声母字母的分组方案,使得输入时按下*键作拼音串的切换次数最少。其数学模型如下P(chage_probability)=ΣG(pyseconed)M...(2)]]>在上式中,P(chage_probability)是指在输入时*键被按下的概率,pyseconed是出现拼音串重码时所有的末被默认选中的拼音串,∑G(pyseconed)是指此类拼音串对应的一级汉字的总和。该模型为一离散型模型,无法通过数学计算求得最优解,20个声母字母的所有不同分组方案是一个有穷问题,对G(pyi)进行统计后,可以通过计算机程序穷举搜索来找到最优解。
在算法中先生成一个新的分组方案,然后对分组中的每一对声母进行分析,通过G(pyi)统计表考查它们与每个韵母结合的情况,如果发现此时会出现拼音串重码,就选出其中数目较小的一个,累加到累计值中去,十组都分析完后,这个累计值就是(2)式中的∑G(pyseconed)。,算法中将所有分组方案的∑G(pyseconed)都时行计算,因为M为定值,∑G(pyseconed)值最小的那些分组就是最优解。
经过对20个声母字母的20!10!×210=654729075]]>种不同的分组方案逐一考查后,得到了以下三个最优解①bs,cm,dw,ft,gj,hp,kq,lr,ny,xz;②bs,cm,dw,ft,gq,hp,jk,lr,ny,xz;③bs,cm,dw,ft,gq,hp,jz,kx,lr,ny;MIN(∑G(pyseconed))=395,M=2815。所以,如果采用以上分组方案,在输入中用*键作切换的机率是395÷2815≈0.14。
3.2.词语输入最优模型拼音输入法最初是以单字方式输入,逐步升级为词语方式甚至是整句方式。如果解决好了拼音码混淆问题和重码过多的问题,词组输入方式在输入效率上要远远高出单字输入方式,词语输入模型一定比单字模型更有价值。该模型下的优化目标就是选择合适的声母分母方案,使得与任意一个输入序列对应的词语数目最少。
词语是由单字组合而成,任意的组合方式有亿万多种,而汉语中的词语只是所有的组合中极小的一部分而已。词组的组合规律没有规律性,也很难进行客观的统计,不同的人名地名,不同的用语习惯,都会影响它,在本模型中,我们认为对于任意两个汉字或多个,它们串接而成的字串可以组合成词的机率是均等的。设S输入序列S是由词语中各字的拼音串的输入序列S1、S2、…、Sn串接而成,又设SM为所有单字的按键序列对应的一级汉字个数的平均值,先假设任意汉字拼接而成的字串都是有效的词语,则输入序列S对应的词语的个数应该是(SM)n,而这(SM)n个字串是有效词语的机率又是相等的,所以只要使得(SM)n尽可能小就可以了,要使(SM)n,只要使SM尽可能小,所以优化目标最终可以转化为如何对声母字母时行分组,使得所有单字的按键序列对应的一级汉字个数的平均值最小。
SM在概率论上又称数学期望SM‾=ΣG(sn)*P(sn)=ΣG(sn)*G(sn)M=ΣG(sn)2M...(3)]]>使用算法寻优后得到了一个唯一的最优解bs,cm,dw,fz,gx,hq,jk,lr,ny,pt。
MIN(ΣG(sn)2)=63797,MIN(SM‾)=637972815≈22.66.]]>3.3规律总结由于统计方式的问题,所得的最优解一定不是绝对的科学和严谨,但从以上两模型中,我们也可以总结出一些普遍的规律。
在汉语拼音中,声母是有分类的,分为它采用语音学中的发音部位排列法,依次为唇音b、p、m、f,舌尖音d、t、n、l,舌根音g、k、h,舌面音j、q、x,舌尖前音z、c、s。以下是词语输入最优模型的最优解和次优解①bc,dw,fz,gj,hq,kx,lr,ms,ny,pt;②bc,dw,fz,gq,hx,jk,lr,ms,ny,pt;③bc,dw,fz,gx,hq,jk,lr,ms,ny,pt;④bs,cf,dw,gx,hq,jk,lr,mz,ny,pt;
⑤bs,cm,dw,fz,gx,hq,jk,lr,ny,pt;以及单字模型的三个最优解①bs,cm,dw,ft,gj,hp,kq,lr,ny,xz;②bs,cm,dw,ft,gq,hp,jk,lr,ny,xz;③bs,cm,dw,ft,gq,hp,jz,kx,lr,ny;可以发现,同一组的声母一定是不会被分配到同一个按键上的,同一类型的声母在于韵母相结合时有一致性,这个规律也可以简单地从下表上直观地反应出来,此表为声母和韵母结合表,有“●”的单元格表示该行上的声母可以行该列上的韵母相拼,没有就表示不能相拼。
续表 在上表中,可以发现,同类型的声母所结合的韵母大致上是重叠的,这在语音学上也是可以得到合理解释的,人们总是习惯在同一类型的开口音后再发出特定类型的闭口音。在做声母排列时,只要避免把同组的声母组合到一起,只对组内声母作相互调整,拼音串重码的控制效果不会相差太大。
4.最终排列方案最终排列方案的形成要坚持两大原则,一是效率原则,二是易用原则,效率就是最大可能地遵守前文效率分析的结果,易用就是使得各字母在键面上的排列趋于简单化,便于用户熟悉和掌握。首先是声母字母的排列,框架上采用了词语模型的最优解,但为了照顾易用性,对个别字母作了组内的微调,这样,声母按bpmf,dtnl,gkh,jqx,zcs,wyr为组别,有规律地呈纵向排列在键盘各列上,一目了然,详见附图1。在这个分布中,各类型的声母都整齐地排列(除了tp有点不规则),既遵守了规律性又不失对称之美,只要学习过汉语拼音的用户在一两分钟之内便可熟悉各个字母在按键上的位置。z c s定义在最右边一例是考虑到经常要输入zh ch sh,所以把它们和增补字母h放在同一列上会方便输入。
再来落实声母,因为有ai、ou、ao、ei、er、an、en拼音串的存在,以及lv和nv的输入,韵母和哪个声母字母分组放在一起还是有所讲究的,组合不同会导致在输入这些拼音串时产生的拼音串重码数目的不同,应当避免产生三重码。另一个需要重点考虑的就是排列的规律性,如果规律性强,键面字母就比较好记忆,用户上手容易。
最后,经过细致的排查和调整,找到了如附图2所示的键面字母排列,即符合上文所述的各个要求,又有较强的规律性。这样方案下,只产生了一个不可避免的三重码,就是ou,lu,ru,因为u是可以和任何一个声母字母相拼的,所以此处三重码是不可避免的。在规律性方面,按a、o、e、i、u、v的口诀,大致遵循了由下至上,由左至右的排列规律。
这种字母定义键盘的方式尊重了汉语拼音的规律性,实现了汉语拼音输入的简化,减少了拼音输入的重码。
■
图1是本发明的声母字母排列示意图。
图2是本发明的最终排列方案示意图。
■具体实施方式
电话机、移动电话机的产品制造商可以如附图2所示来印制键盘,然后以此键盘为基础,开发出各种快速高效的汉字拼音输入法程序。所附软盘中就有一个关于本发明键盘的以单字方式录入的拼音输入法演示程序可供参考。
权利要求
1.一种适合于汉语拼音输入的小型数字键盘,其特征在于zh、ch、sh中的h以及韵母中出现的n和g定义在“*”键或“#”键上。
2.如权利要求1所述的小型数字键盘,其特征在于声母字母和韵母字母按如下方式定义在键盘的具体的按键上d、w定义在“1”键上,t、p定义在“2”键上,b、z定义在“3”键上,n、y定义在“4”键上,g、j定义在“5”键上,m、c、u定义在“6”键上,l、r、o、v定义在“7”键上,k、q、e定义在“8”键上,f、s、i定义在“9”键上,h、x、a定义在“0”键上。
全文摘要
本发明公开了一种适合于汉语拼音输入的小型数字键盘。本发明在充分研究汉语拼音规律的基础上,重新安排小型数字键盘键面字母的排列组合方式,设计出一种更适合拼音输入的小型数字键盘,以克服目前手机或移动电话机上普遍使用的小型数字键盘在输入汉语拼音时的种种缺点,使得小型数字键盘上可以流畅快速地使用拼音输入法输入汉字。
文档编号H04M1/23GK1801054SQ200510091829
公开日2006年7月12日 申请日期2005年8月8日 优先权日2004年8月23日
发明者徐彦铭 申请人:徐彦铭