专利名称::以词为单位的数字键盘汉字计算机输入方法
技术领域:
:本发明是一种以词为单位的数字键盘汉字计算机输入方法,将汉字拆分为部首—字身音码输入方法的规范码或容错码的形式,以词为单位,按规则依次击键输入汉字,并可不切换状态直接输入阿拉伯数字、标点符号、英文字母等中文信息。本发明属于中文信息处理在计算机及通讯领域方面的应用,是在中国发明专利申请03153755.3和200310113427.4基础上再创造所产生的发明。
背景技术:
:目前,计算机出现了膝上型、掌上型、微型化的趋势,手机逐渐出现了具备计算机各项功能的趋势,PDA、机顶盒、电子书、手持终端、家用电器、汽车电子、自动柜员机、条码阅读器、数据采集器、游戏控制台、卡拉OK点播机、MP3播放机、公共信息查询终端、双向寻呼机以及固定电话等嵌入式设备也都迫切需要用数字键方便、快捷地输入中文信息,这就要求我们将现有的主要使用英文字母编码的汉字输入方法转变为主要使用数字键编码的数字化汉字输入方法。针对掌上型、微型化电脑以及手机、PDA、机顶盒、电子书、手持终端、家用电器、汽车电子、自动柜员机、条码阅读器、数据采集器、游戏控制台、卡拉OK点播机、MP3播放机、公共信息查询终端、双向寻呼机以及固定电话等领域汉字输入的效率比较低的问题,发明人于2003年8月20日在中国专利ZL95102608.9的基础上,发明了小键盘拼音混合输入技术(“以词为单位的数字化汉字计算机输入方法”,中国专利申请03153755.3),有效地解决了这一难题。该专利技术得到智能ABC(itABC)和美国特捷通讯公司(TegicCommunications,其T9输入法共有44种语言版本,占据了世界手机输入法80%左右的市场)的好评,三方将在该技术的基础上共同开发T9ABC小键盘汉字输入法,使主要使用汉语拼音编码的计算机小键盘汉字输入变得更为快捷和便利。2004年7月27日,以该发明为技术核心之一的智能ABC手机输入法在T9全球用户大会上进行了展示,得到了众多的电信运营商、手机制造商、内容提供商等的一致好评。在中国专利ZL95102608.9中,提出了音码I和音码II的概念。将不带声调符号的汉字拼音中的zh、ch、sh、ng、ü分别变换为η、v,构成压缩拼音码;当压缩拼音码的码长为1时,重复该压缩拼音码构成拼音码,当压缩拼音码的码长大于1时,取压缩拼音码构成拼音码;将拼音码的第一码定为音码I,将除第一码之外的拼音码定为音码II。2003年11月10日,发明人还针对目前手机上输入阿拉伯数字、标点符号、英文字母等中文信息必须切换输入状态,使用者对此感到十分不便的实际情况,发明了“以词为单位的汉字的通用计算机输入方法”(中国专利申请200310113427.4),有效地解决了这一难题,任何中文信息都可在汉字输入过程中不切换状态直接输入,使手机输入法的易用性得到了飞跃。针对单字输入效率低,以及很多用户并不掌握部分汉字拼音的问题,该发明还特别设计了汉字的部首—字身音码辅助输入方法,进一步提高了嵌入式设备汉字输入的效率。该发明中的部首—字身音码辅助输入方法如下取部首的一个集合,该部首集合必须包含横“一”、竖“丨”、撇“丿”、点“丶”、折“乛”这五个单笔部首。对这五个笔画按照横1竖2撇3点4折5的国家标准进行编码,构成其部首码。对该部首集合中的其他部首每个部首确定一个唯一的读音,将该读音按照小键盘拼音混合输入技术(中国专利申请03153755.3)转换为音码,构成该部首的部首码。任何一个汉字的部首对应的部首码就是该汉字的部首码。如果一个汉字是无字身的汉字,即该汉字就是所确定部首集合中的部首之一,则该汉字的编码就是该部首对应的部首码。对于有字身的汉字,即除无字身的汉字外的其他汉字,则部首之外的部分构成该汉字的字身。对部首取部首码,对字身取字身码。部首码加字身码就是该汉字的编码,具体的取码顺序与部首和字身的相对位置相一致,但最长取6码(即按规则取码后略去第6码以后的部分)。字身码的具体取法如下a)如果字身是由1个部分组成的,且该部分是一个部首或者一个汉字,则取该部首的部首码或该汉字的音码,构成该字身的字身码。字身既是一个部首同时又是一个汉字的,按照是一个部首处理。b)否则,如果字身是由1个部分组成的,则按顺序逐笔取笔画,最多取6和部首码码长之差个编码。c)对于其他任何情况,即字身为2个或者2个以上部分,则对每一个部分按照下述规则取一码构成该汉字的字身码构成部首的部分取该部首所对应的部首码的第一码,构成一个汉字的部分取该汉字音码的第一码,其他部分取该部分第一笔所对应的部首码。上述编码为规范码。如果一个汉字的字型是左右型,但其规范码的部首不是位于其左边或者右边的全部部分,而左边或者右边的全部部分可以构成一个汉字;或者一个汉字的字型是上下型,但其规范码的部首不是位于其上边或者下边的全部部分,而上边或者下边的全部部分可以构成一个汉字,则将该汉字视为虚拟的部首按照上述规范码编码的规则分别取部首码和字身码,构成容错码。但是,很多用户(特别是中国南方的部分用户)对汉语拼音掌握的并不是很好,他们倾向于使用笔形输入汉字。这些用户也迫切需要一种快捷、方便的汉字输入方法,不但能够使用五个基本笔画快速输入中文信息,而且能够不切换状态直接输入阿拉伯数字、标点符号、英文字母等中文信息,享受到类似小键盘拼音混合输入技术的快捷与便利。当前,横、竖、撇、点、折这五个基本笔画的定义(包括其在数字键盘上的键位定义),以及汉字的笔画书写顺序国家都有较为规范的规定,大家对它们的认识一般没有歧义,通用性较强。因此,笔画输入法得到广泛应用,成为目前手机等嵌入式设备上较为普及的输入方法。如T9笔画汉字输入法,采用包含横1、竖2、撇3、点4、折5和模糊键6的数字键盘,以字为单位逐个输入汉字,并可在输入过程中实现联想输入,深受部分用户喜爱。但由于汉字本身的特点,许多汉字笔画极多,如笔画达48笔之多,以字为单位的笔画输入法不可避免地普遍存在平均码长长、重码多、效率低等问题。此外,目前的笔画输入法输入阿拉伯数字、标点符号、英文字母等中文信息必须切换输入状态,用户也迫切需要尽快解决这一多年来困扰手机用户的“老大难”问题。为了解决笔画输入法效率低的问题,有两个主要的思路。一是象小键盘拼音混合输入技术那样,以词为单位输入,可有效减少重码、提高效率。如T9新的笔画输入法以词为单位输入,效率比旧版本(以字为单位)高。但这种方法也存在一些问题,其中最大的问题就是为了规避字与词的重码,要求在输入非单字词的过程中,除最后一个汉字外,每一个汉字都必须在第一个笔形后加“8”这个分隔键完成输入,使非单字词输入按键多,效率低。如“北京”编码为“284”(“北”的第一码竖+分隔符“8”+“京”的第一码点)等。本发明采用三行提示的方法,在解决输入阿拉伯数字、标点符号、英文字母等中文信息必须切换输入状态的问题的同时,使单字词、非单字词以及全码和简码可同时输入,免去了按“8”这个分隔键的烦恼,效率大大提高。如“北京”的编码可为“24”(“北”的第一码竖+“京”的第一码点),比上述“284”更直观,更易学,效率也更高。第二种思路就是对“以词为单位的汉字的通用计算机输入方法”中部首—字身音码输入方法进行适当简化后,用其改进方法输入所有词,使用10个数字键进行编码,充分发挥数字键盘的潜能,可使汉字输入效率得到质的飞跃。为此,本发明针对拼音掌握不是很好的用户,特别设计了一种新型的小键盘数字化汉字输入方法,采用了简化后的部首—字身音码输入方法,综合采用上述两种思路,巧妙地解决了使用数字键输入汉字,特别是如何以词为单位输入汉字的难题,并有效地解决了笔形输入汉字过程中不切换状态直接输入阿拉伯数字、标点符号、英文字母等中文信息的难题。本发明中所提到的“音码”,是指音码I+音码II。
发明内容取横、竖、撇、点、折这五种笔画,并将其依次定义在1、2、3、4、5这五个数字键上;取小键盘拼音混合输入技术(中国专利申请03153755.3)定义的30个音码,并分别定义在1、2、3、4、5、6、7、8、9、0这十个数字键上η分别定义在1、0两个健位上,每个键位定义其中任意两个,其他26个音码与英文字母在数字键盘上的定义保持一致);取1、2、3、4、5、6、7、8、9、0这十个数字,将其依次定义在1、2、3、4、5、6、7、8、9、0这十个数字键上取a、b、c、d、e、f、g、h、i、j、k、l、m、n、o、p、q、r、s、t、u、v、w、x、y、z这26个英文字母,将其按照目前手机通常的键位分布分别定义在2、3、4、5、6、7、8、9这八个数字键上;使用任何包含1、2、3、4、5、6、7、8、9、0这十个键的数字化键盘,用1、2、3、4、5、6、7、8、9、0十个数字键对汉字、阿拉伯数字、标点符号、英文、混合词等中文信息进行编码,以词为单位依次击键输入汉字、阿拉伯数字、标点符号、英文、混合词等中文信息。本发明所述的计算机汉字输入方法包括(1)确定一个最长编码长度N(N为≥1的自然数)。如果N≤4,编码空间较小,重码过多,效果不好,因此建议N一般大于或等于5。任何一个汉字都按照下述部首—字身音码输入方法编码(a)取中国专利申请200310113427.4的部首—字身音码辅助输入方法中最小的部首集合,即包含且仅包含横“一”、竖“丨”、撇“丿”、点“丶”、折“乛”这五个单笔部首的部首集合,按照横1、竖2、撇3、点4、折5编码,构成其部首码。规定每一个汉字的部首都是该汉字的第一笔,如果一个汉字是所确定部首集合中的部首之一,或者是由一个部首的变体构成的,则该汉字的编码就是该部首对应的部首码。如“一”1、“乙”5等。如果一个汉字只有一笔,则该汉字就是一个无字身的汉字,如“一”、“乙”等,否则,该汉字是一个有字身的汉字。对于有字身的汉字,部首之外的部分构成该汉字的字身,如“人”的部首为撇,字身为点;对部首取部首码,对字身取字身码,如“人”的部首码为3,字身码为5;部首码加字身码就是该汉字的编码,具体的取码顺序与部首和字身的相对位置相一致,但最长取N码,即按规则取码后略去第N码以后的部分。字身码的具体取法如下依照字身的书写顺序按照横1、竖2、撇3、点4、折5的规则逐笔对汉字的字身取码,构成该汉字的字身码。以上编码就是规范码。任何一个汉字都具有规范码的形式。如N=8时“一”1,“乙”5,“人”34,“大”134,“会”341154,“构”1234554,“码”13251551,41431251等。(b)如果一个汉字的字型是左右型,但其规范码的部首不是位于其左边或者右边的全部部分,而左边或者右边的全部部分可以构成一个汉字;或者一个汉字的字型是上下型,但其规范码的部首不是位于其上边或者下边的全部部分,而上边或者下边的全部部分可以构成一个汉字,则该汉字具有容错码i.将上述可以构成汉字的部分定义为虚拟部首,取其音码对应的数字构成汉字的虚拟部首码。如“构”取“木”为虚拟部首,虚拟部首码为68(mu)。ii.将汉字的虚拟部首外的部分定义为虚拟字身,按照下述规则对虚拟字身进行编码,定义编码结果为虚拟字身码(1)如果虚拟字身是由1个部分组成的,且该部分是一个部首或一个汉字,则取该部首的部首码或该汉字的音码对应的数字,构成该字身的虚拟字身码;字身既是一个部首同时又是一个汉字的,按照是一个部首处理。如“构”取“勾”为虚拟字身,虚拟字身码为468(gou)。(2)如果虚拟字身是由1个部分组成的,且该部分既不是一个部首,也不是一个汉字,则先确定该汉字虚拟部首码的码长,然后按虚拟字身的书写顺序逐笔对字身取笔画,最多取N和该汉字的虚拟部首码码长之差个编码,构成该字身的虚拟字身码。如“市”虚拟部首为“巾”,虚拟部首码为546,长度为3,则虚拟字身码为41。(3)如果虚拟字身为2个或者2个以上部分,则对每个部分分别取一码构成该汉字的虚拟字身码构成部首的部分取该部首所对应的部首码的第一码,不构成一个部首但构成一个汉字的部分取该汉字音码对应的数字的第一码,其他情况一律取该部分第一笔对应的部首码。如的虚拟部首为“龍”,虚拟字身由两个“龍”组成,虚拟字身码为55(11)。iii.按照“虚拟部首码加虚拟字身码就是该汉字的编码,具体的取码顺序与虚拟部首和虚拟字身的相对位置相一致,但最长取N码”的规则组合汉字的虚拟部首码和汉字的虚拟字身码,构成汉字的容错码。如N=6时“构”取“木”为虚拟部首,“勾”为虚拟字身,容错码为68468(mugou),当然也可以取“勾”为虚拟部首,“木”为虚拟字身,结果相同;“码”取“石”为虚拟部首,“马”为虚拟字身,容错码为0462当然也可以取“马”为虚拟部首,“石”为虚拟字身,结果相同;“如”取“女”为虚拟部首,“口”为虚拟字身,容错码为68568(nvkou),当然也可以取“口”为虚拟部首,“女”为虚拟字身,结果相同;如“竖”取“立”为虚拟部首,“立”外的部分为虚拟字身,容错码为225454(22541i);再如的容错码为54055(符合容错码的定义,具有容错码,即虚拟部首第一个“龍”对应的音码540+虚拟字身“龍龍”的编码55),等。上述汉字规范码和容错码的定义,是本发明的核心内容,充分发挥了数字键盘上10个键位的潜能,通过规范码和容错码任意组合混合输入词的编码,可以使形码输入的效率接近小键盘拼音混合输入技术的效率。(2)每一个阿拉伯数字都视为一个虚拟汉字,用其本身作为其编码输入。(3)每一个标点符号都视为一个虚拟汉字,其编码为该标点符号的读音所对应的音码的第一码所对应的数字。如“,”、“、”、“;”编码都为“3”(逗号、顿号、分号的音码的第一码所对应的数字),“。”和“(”、“)”等各种括号编码为“5”(句号、括号的音码的第一码所对应的数字),“”编码为“6”(冒号的音码的第一码所对应的数字),“?”编码为“9”(问号的音码的第一码所对应的数字),“@”编码为“2”(at的第一码所对应的数字),等等。(4)每一个英文字母都视为一个虚拟汉字,按如下通用的英文字母—编码对应表编码<tablesnum="002"><tablewidth="446">编码对应英文字母23456789abcdefghijklmnopqrstuvwxyz</table></tables>(5)词由构成该词所有汉字(或者虚拟汉字)编码的第一码+最后一个汉字(或者虚拟汉字)除第一码外的所有编码输入,编码总长度超过N码的取前N个编码。(6)混合词的编码,如果一个词,除汉字、阿拉伯数字、标点符号、英文之外还有其他信息,在本发明中就被定义为混合词。上面已定义阿拉伯数字、标点符号、英文为虚拟汉字,此处定义除汉字、阿拉伯数字、标点符号、英文之外的其他信息,每一个都视为一个虚拟汉字,并确定一个唯一的数字编码,仅取一码,然后对该混合词按照上述(5)所述的词的编码规则进行编码。混合词中很多编码元素本发明没有定义,按目前通用的方法确定。如“¥”定义与“y”相同(编码为9);ü按通常理解与u类似,用8编码;α与a类似,用2编码;又如德语中的“_”,一般认为其与“a”类似,用2编码,等等。(7)按照上述规则编码的结果就是词的全码。任何一个词的全码都具有简码形式任何一个词的全码可省去其除第一码外的最后一码,或最后两码……,直至最后N-1码,构成词的简码。此外,为了提高本发明的易学性,本发明还可对上述方法进行改进(以下称为改进1)规定虚拟字身码除了虚拟字身本身是一个汉字仍然取该汉字的音码作为汉字的虚拟字身码外,其他情况一律逐笔对虚拟字身取笔画,构成汉字的虚拟字身码。这一改进,简化了虚拟字身码的取码方法,进一步提高了部首—字身音码输入方法的易学性。如的虚拟部首为“龍”,虚拟字身由两个“龍”组成,按照本改进,N=6时虚拟字身码由虚拟字身的前3笔(414)构成。此外,为进一步提高本发明的易学性,本发明还可对上述方法改进如下(以下称为改进2)在改进1的基础上,规定任何情况下一律逐笔对虚拟字身取笔画,构成汉字的虚拟字身码。这一改进,进一步简化了虚拟字身码的取码方法,使容错码的易学性达到了最高程度。如N=6时“理”的编码为112125(规范码),或者920251(取“王”为虚拟部首,“里”为虚拟字身,虚拟部首码为920,虚拟字身码为“里”前三笔对应的数字编码251),或者112154(取“里”为虚拟部首,“王”为虚拟字身,虚拟部首码为54,虚拟字身码为“王”前四笔对应的数字编码1121),等等。此外,在上述基本编码规则和改进1、改进2中,很多汉字都同时具有规范码和容错码,因此,词的编码可能的组合形式多,占用内存空间大,部分嵌入式设备实现起来有一定难度。为此,可对本发明进一步改进(以下称为改进3)仅词的最后一个汉字允许使用容错码。如N=6时“计算机”的编码为431234(“机”用规范码),或者436854(“机”用容错码muji),等等。此外,上述改进3可进一步改进(以下称为改进4)任何一个汉字都仅使用规范码编码,在任何情况下都不使用容错码。如N=6时“计算机”的编码为431234,等等。此外,上述改进4可进一步改进(以下称为改进5)全部由汉字组成的非单字词的编码长度不足N码时,在其编码后补0。如N=6时“一一”的全码为110,这样就与“二”的全码11不发生重码,有效降低了字与词的全码发生重码的可能性。此外,上述方法还可进一步改进(以下称为改进6)单字词可兼容使用汉字的容错码编码。如N=6时单字词“机”的编码为123435(“机”用规范码),或者6854(“机”用容错码muji),这样就加快了单字词的输入速度。此外,为进一步提高单字词输入的效率,本发明还可对上述所有方法进行改进(以下称为改进7)在输入过程中,对单字词兼容音码和标准汉语拼音输入。即任何一个单字词,可按上述方法输入,也可按小键盘拼音混合输入技术方法输入。这就解决了部分用户对部分汉字的笔画顺序不清楚,难以输入的问题。在具体实施时,可选择只兼容标准汉语拼音,也可选择只兼容音码,或者可选择同时兼容。上述改进本身还可继续改进,如改进3,可规定非单字词中的汉字,如果既有规范码,又有容错码时,只使用容错码,不使用规范码。这样可有效减少词的编码的数量,便于嵌入式系统的应用。目前,较为流行的重码选择方法主要有两种,一种是将所有重码依次排列,用上下左右键选择,移至所要输入的词后,用ok键选中,这种方法按键很多,效率很低。第二种是长按技术,也就是根据重码排列的顺序,对相应位置的重码,长按对应数字选中。如果当前提示行中没有,用上下键翻页。这种方法比上述技术有很大改进,不过长按比短按耗时长,而且还要找候选词的位置,效率较低。本发明不但可以使用上述两种方法中的任何一种方法进行重码选择,而且还可在上述简码的基础上,创造性地提出了三行提示功能这一全新的重码选择方法,实现所有词,以及全码和简码的混合输入,进一步提高输入效率。三行提示功能的具体方式是对于输入的任何编码,将编码本身作为一个候选词(该候选词是全部由数字构成的)。如输入234567后,最少有一个重码,就是234567本身。每个提示行显示3个重码。为了快捷输入,用ok、、*、#分别选择3个重码。上述数字候选词一般排列在提示行第一屏的第二位,但在任何情况下,当输入的编码(无论全码还是简码)除该数字候选词外不存在对应的词,则第一位显示数字,第二位、第三位显示为空。除了上述情况外(a)当键入编码码长为1时,第一位为汉字(全码或者简码),或者英文字母,或者其他字符,第二位为数字,第三位为标点符号,然后将其他全码长度为1位的排列在后面,随后是所有简码为1位的词。(b)当键入编码长于1时,当有对应的全码时,第一位显示全码中最常用的那个词,第二位显示数字,第三位显示简码中最常用的那个词(如果没有任何对应的简码,则继续显示其他全码),随后显示剩余的全码重码,然后是所有的简码重码;当编码没有对应的全码时,第一位显示最常用的那个简码,第二位显示数字,随后显示其他全部简码。这种三行提示功能最大的优点就是不用长按就可以输入,无论重码在提示行任何一屏的第一、第二、第三个位置,用上、下键翻页找到对应重码(第一屏无须按上下键翻页)后,都可以分别按ok、*、#直接输入,效率比长按技术大为提高。如按24后“卜”、“24”、“北京”出现在提示行的第一、第二、第三位,直接按#输入“北京”,按*键输入“24”,按ok键输入“卜”。如果输入其编码后该词并没有出现在提示行的第一屏,按上、下键翻页即可,如按24后应该可以输入“北京市”(简码可为24),但输入24后提示行第一屏显示的是“卜”、“24”、“北京”,没有“北京市”,这时向下翻页一定可以找到“北京市”这个词。具体实施例方式实施方法一选定键盘定义为编码规则为N=8,采用改进5的编码规则。按照这一规则,只要确定了最长编码长度N,所有词的编码就唯一确定了。这样,占用的计算机内存小,系统开销少,很容易实现。则生成了一种以词为单位的数字键盘汉字计算机输入方法。如“三”的编码为“111”(规范码);“个”的编码为“342”(规范码);“三个”的编码为“13420”(“三”的规范码的第一码+“个”的规范码,编码总长度不足N码补0);“计算机”的编码为“43123435”(“计”的规范码的第一码点+“算”的规范码的第一码撇+“机”的规范码),“不进则退”编码为“11251154”(前三字的规范码的第一码横横竖+最后一个汉字“退”的规范码的前五码);“印度尼西亚”编码为“34511224”(撇点折横+“亚”的规范码的前四码);“中华人民共和国”的编码为“23351325”(竖撇撇折横撇+“国”的规范码的前2码);“T9”的编码为“89”(“t”+“9”);“123456”的编码为“123456”;“智能ABC”的编码为“35222”(“智”、“能”各取规范码的第一码,即撇、折,+“A”2、“B”2、“C”2);“Mobile”的编码为“662453”(“M”+“o”+“b”+“i”+“l”+“e”);“”的编码为“3”(冒号的音码的第一码对应的数字),“h_@α”的编码为“4222”,“)”的编码为65(冒号6+括号5)等。当然,以上编码具有简码形式。例如“三”简码为“1”或“11”,“三个”简码为“1”或“13”或“134”或“1342”,“计算机”简码为“4”或“43”或“431”或“4312”或“43123”或“431234”或“4312343”,“不进则退”简码为“1”或“11”或“112”或“1125”或“11251”或“112511”或“1125115”;“印度尼西亚”简码为“3”或“34”或“345”或“3451”或“34511”或“345112”或“3451122”;“中华人民共和国”简码为“2”或“23”或“233”或“2335”或“23351”或“233513”或“2335132”;“T9”简码为“8”;“123456”简码为“1”或“12”或“123”或“1234”或“12345”;“智能ABC”简码为“3”或“35”或“352”或“3522”;“Mobile”简码为“6”或“66”或“662”或“6624”或“66245”,“h_@α”简码为“422”、“42”、“4”,“)”的编码为6等。上述编码方法在实施过程中,采用三行提示功能。如按3时第一位显示“的”(所有全码和简码为3的词中最常用的那个词),第二位显示“3”,第三位显示“,”,这样数字和标点符号等非汉字中文信息可快速输入;再如按24时第一位显示“卜”(全码中最常用的那个词),第二位显示“24”,第三位显示“北京”(简码中最常用的那个词),效率比对比技术中的T9新的笔画输入法要高;再如按133111时第一位显示“133111”,第二位、第三位没有对应重码不显示,可直接输入数字,等等。这一实施方法,当然也可以采用改进4,唯一的区别就是当全部由汉字组成的非单字词的编码长度不足N码时,也不在其编码后补0。如“三个”的编码为“1342”,简码为“134”、“13”、“1”。实施方法二选定键盘定义同实施方法一。N=6,采用改进5和改进7的编码规则。在具有实施方法一的优点的同时,对于部分笔画顺序不清楚的汉字可直接用标准汉语拼音或者音码输入。词的编码(全码和简码)与实施方法一的不同之处在于长于6码的取前6码,如“中华人民共和国”的编码为“233513”。此外,由汉字组成的单字词可兼容标准汉语拼音或者音码输入,如“码”不但可以用实施方法一的方式输入,也可以用拼音62(ma),以及其简码6输入;“帮”不但可以用实施方法一的方式输入,也可以用拼音2264(bang)以及其简码226、22、2输入,或者用音码220(baη)以及其简码22、2输入,等等。当然,在具体实施时,可以只使用标准汉语拼音,也可以只使用音码,也可以两者同时使用。实施方法三选定键盘定义同实施方法一。N=6,采用改进5、6、7的编码规则,且容错码的规定按照基本的编码规则确定。其他编码与实施方法二相同,但由汉字组成的单字词还可兼容容错码输入,如“码”不但可用实施方法二的方式输入,也可以用容错码0462(虚拟部首为石、虚拟字身为码,编码为0462,即输入,当然也可以用0462的简码046、04、0输入,再如既可用实施方法二的方式输入,也可以用容错码56055(loηll)及其简码5605、560、56、5输入,等等。由于单字词可以采用容错码的方式输入,单字词的输入效率大大提高。实施方法四选定键盘定义同实施方法一。N=6,采用改进3、7的编码规则,且容错码的规定按照基本的编码规则确定。其他编码与实施方法三相同,但词的最后一个汉字可用容错码编码,且当全部由汉字组成的非单字词的编码长度不足N码时,也不在其编码后补0。如N=6时“计算机”的编码为431234(“机”用规范码),或者436854(“机”用容错码muji);“机”的编码为123435(规范码),或者6854(容错码muji),当然上述编码也都具有简码形式,如“计算机”的简码为43123、4312、431、43、4或者43685、4368、436等,“机”的简码为12345、1234、123、12、1或者685、68、6,等等。由于所有词的最后一个汉字都可以采用容错码的方式输入,词的输入效率大大提高。实施方法五选定键盘定义同实施方法一。N=6,采用基本的编码规则,以及改进7。其他编码与实施方法四相同,但非单字词的最后一个汉字外的其他汉字也可使用容错码输入。如“机构”的编码为“机”的编码的第一码为1(规范码的第一码)或者6(容错码muji的第一码),“构”的编码的前5码为12343(规范码)或者68468(容错码mugou),则“机构”的编码为112343、612343、168468、668468,其简码为11234、1123、112、11、1或者61234、6123、612、61、6或者16846、1684、168、16或者66846、6684、668、66,等等。在这一实施方案中,组成词的任何一个汉字,既可以使用规范码编码,也可以使用容错码编码,两者可任意组合,这对用户而言,是十分方便的。同时,由于这样的方案使用10个数字键进行输入,可以充分发挥数字键盘的潜能,输入效率也很高,可与小键盘拼音混合输入技术的输入速度相媲美。在实施方法三、四、五中,如果容错码的规定按照改进1或者改进2的编码规则确定,则只是部分汉字的容错字身码部分发生了变化,具体实现方式与这些实施方法基本类似。如采用改进1后,实施方法五中的“机构”,以及实施方法三、四、五中的“机”、“构”的编码都没有变化,但实施方法三、四、五中的的编码发生了变化,原来其容错字身码为55,现在变为414。再如采用改进2后实施方法五中的“机构”,以及实施方法三、四、五中的“机”、“构”的编码也都发生了变化,“机”的编码为123435(规范码)或者6835(容错码,mu35),“构”的编码为123435(规范码)或者683554(容错码,mu3554),则“机构”的编码为112343、612343、16835、66835,当然它们的简码也相应发生了变化,如“机”的简码为12345、1234、123、12、1或者683、68、6,等等。实施方法六对实施方法五进行以下限定当一个汉字既有规范码,又有容错码的时候,在对非单字词编码的时候,只使用汉字的容错码编码。这样,可使非单字词的编码数目大大减少。其他编码与实施方法五相同,但非单字词中的汉字,如果只有规范码、没有容错码时使用规范码,其他任何情况,只使用容错码,不使用规范码。如“机构”的编码为668468(“机”取容错码的第一码,“构”取容错码的前5码),简码为66846、6684、668、66,等等。这一改进方案,总编码数目少,占用的计算机空间也相应减少,这对部分内存空间要求严格的嵌入式设备是非常适合的。本发明与现有技术相比,具有以下显著优点1、以词为单位输入,平均码长短,重码率低,输入效率高;2、完全以国家标准和现有的手持设备的通用技术为编码依据,附和汉字和汉语的传统知识,科学、系统、合理,学习的起点低,编码自然流畅,易学易用;3、通用性强,可对所有汉字和其他中文信息编码输入,并可实现不切换状态混合输入,有助于普通话的推行与传播,有助于汉语文化的传播。权利要求1.一种以词为单位的数字键盘汉字计算机输入方法,其特征在于使用定义如下的数字键盘,(音码η分别定义在0、1两个键位上,每个键位定义其中任意两个音码)按以下规则以词为单位输入汉字和其他中文信息(1)任何一个汉字都按照下述部首一字身音码输入方法编码(a)取包含且仅包含横“一”、竖“丨”、撇“丿”、点“丶”、折“乛”这五个单笔部首的部首集合,按照横1、竖2、撇3、点4、折5编码,构成其部首码;汉字的规范码的定义如下规定每一个汉字的部首都是该汉字的第一笔;如果一个汉字是所确定部首集合中的部首之一,或者是由一个部首的变体构成的,则该汉字的编码就是该部首对应的部首码;如果一个汉字只有一笔,则该汉字就是一个无字身的汉字,否则,该汉字是一个有字身的汉字;对于有字身的汉字,部首之外的部分构成该汉字的字身;对部首取部首码,对字身取字身码;部首码加字身码就是该汉字的编码,具体的取码顺序与部首和字身的相对位置相一致,但最长取N码(N为≥1的自然数),即按规则取码后略去第N码以后的部分;字身码的具体取法如下依照字身的书写顺序按照横1、竖2、撇3、点4、折5的规则逐笔对汉字的字身取码,构成该汉字的字身码;(b)汉字的容错码定义如下如果一个汉字的字型是左右型,但其规范码的部首不是位于其左边或者右边的全部部分,而左边或者右边的全部部分可以构成一个汉字;或者一个汉字的字型是上下型,但其规范码的部首不是位于其上边或者下边的全部部分,而上边或者下边的全部部分可以构成一个汉字,则该汉字具有容错码;将上述可以构成汉字的部分定义为虚拟部首,取其音码对应的数字构成汉字的虚拟部首码;将汉字的虚拟部首外的部分定义为虚拟字身,按照下述规则对虚拟字身进行编码,定义编码结果为虚拟字身码如果虚拟字身是由1个部分组成的,且该部分是一个部首或一个汉字,则取该部首的部首码或该汉字的音码对应的数字,构成该字身的虚拟字身码,字身既是一个部首同时又是一个汉字的,按照是一个部首处理;如果虚拟字身是由1个部分组成的,且该部分既不是一个部首,也不是一个汉字,则先确定该汉字虚拟部首码的码长,然后按虚拟字身的书写顺序逐笔对虚拟字身取笔画,最多取N和该汉字的虚拟部首码码长之差个编码,构成该字身的虚拟字身码;如果虚拟字身为2个或者2个以上部分,则对每个部分分别取一码构成该汉字的虚拟字身码构成部首的部分取该部首所对应的部首码的第一码,不构成一个部首但构成一个汉字的部分取该汉字音码对应的数字的第一码,其他情况一律取该部分第一笔对应的部首码;虚拟部首码加虚拟字身码就是该汉字的容错码,具体的取码顺序与虚拟部首和虚拟字身的相对位置相一致,但最长取N码;(2)每一个阿拉伯数字都视为一个虚拟汉字,用其本身作为其编码输入;(3)每一个标点符号都视为一个虚拟汉字,其编码为该标点符号的读音所对应的音码的第一码所对应的数字;(4)每一个英文字母都视为一个虚拟汉字,其编码为该英文字母对应的上述数字键盘上的数字键;(5)词由构成该词所有汉字(或者虚拟汉字)编码的第一码+最后一个汉字(或者虚拟汉字)除第一码外的所有编码输入,编码总长度超过N码的取前N个编码。2.根据权利要求1所述的以词为单位的数字键盘汉字计算机输入方法,其特征在于虚拟字身码除了虚拟字身本身是一个汉字仍然取该汉字的音码作为汉字的虚拟字身码外,其他情况一律逐笔对字身取笔画,构成汉字的虚拟字身码。3.根据权利要求1所述的以词为单位的数字键盘汉字计算机输入方法,其特征在于任何情况下一律逐笔对虚拟字身取笔画对应的数字,构成汉字的虚拟字身码。4.根据权利要求1至3任意一项所述的以词为单位的数字键盘汉字计算机输入方法,其特征在于仅词的最后一个汉字允许使用容错码。5.根据权利要求1所述的以词为单位的数字键盘汉字计算机输入方法,其特征在于任何一个汉字都仅使用规范码编码,在任何情况下都不使用容错码。6.根据权利要求6所述的以词为单位的数字键盘汉字计算机输入方法,其特征在于全部由汉字组成的非单字词的编码长度不足N码时,在其编码后补0。7.根据权利要求5至6任意一项所述的以词为单位的数字键盘汉字计算机输入方法,其特征在于单字词可兼容使用汉字的容错码编码。8.根据权利要求1至7任意一项所述的以词为单位的数字键盘汉字计算机输入方法,其特征在于单字词可兼容音码和标准汉语拼音输入。9.根据权利要求1至8任意一项所述的以词为单位的数字键盘汉字计算机输入方法,其特征在于任何一个词的编码可省去其除第一码之外的最后一码、或最后两码、或最后三码、……、或最后(N-1)码,构成该词的简码。10.根据权利要求1至9任意一项所述的以词为单位的数字键盘汉字计算机输入方法,其特征在于上述音码定义在键位1上,η定义在键位0上。全文摘要本发明属于中文信息处理在计算机及通讯领域方面的应用,是在中国发明专利申请03153755.3和200310113427.4基础上再创造所产生的发明。针对目前数字键盘上汉字输入速度慢、效率低,以及输入阿拉伯数字、标点符号、英文字母等须切换输入状态的问题,将汉字拆分为部首—字身方法的标准码或容错码的形式,以词为单位,按规则依次击键输入汉字和阿拉伯数字、标点符号、英文字母等中文信息,巧妙地解决了使用十个数字键以词为单位输入汉字和其他中文信息的难题。本发明码长短,重码率低,输入效率高;附和汉字和汉语的传统知识,学习起点低,易学易用,编码自然流畅;通用性强,可对所有汉字和其他中文信息编码输入,有助于汉语文化的传播。文档编号G06F3/023GK1737735SQ20041005819公开日2006年2月22日申请日期2004年8月18日优先权日2004年8月18日发明者刘向东申请人:刘向东