专利名称:汉字四笔画数码查字法的制作方法
汉字四笔画数码查字法是一种把汉字查字法和计算机汉字编码法合二为一的新型汉字的查字法,它利用组成一个汉字的横、竖、曲、折四种笔画的数目编制而成的汉字四笔画数码来查字,代码形式为等长4位十进制数,编码方法十分简单,编码时不需记忆和运用任何形-符、音-符转换关系,一般人对笔画数较少的常用汉字不难做到见字得码,对笔画数较多的繁难汉字可采用运算方法来编码,此码还可用来查找其它汉字代码及用来做汉字辅助输入码或输入码使用。
如所周知,除了区位码和电报码这二种与汉字特征无直接联系的汉字序号码之外,目前已经出现的各种汉字检索码和汉字输入码都是利用汉字的某些形、音、义特征来进行编码的,但在对汉字字形特征的利用方面,一般都只利用了汉字的笔画、部件(字元、字根、构件)和整字这三个层次的形状特征,还有一个隐含着的字形特征-构成汉字的各种类型笔画的数量特征至今还未被人们利用来对汉字进行编码。
人们都知道,构成一个汉字的笔画数是固定不变的,而且都会利用汉字的部首、部件或整字的笔画数来对汉字进行检索(查字),这点是人们非常熟悉的,但对构成一个汉字的各种类型的笔画的数目也是固定不变的这一点却并未引起人们的注意,更未认识到它的价值,能否利用汉字分类笔画数这个隐含着的汉字字形特征来对汉字进行编码呢?这是一个很有趣的很值得人们深入进行探索的课题。
本专利的目的是研究和尝试解决这个问题,探索利用汉字分类笔画数特征对汉字进行分类、编码和检索的可能性和具体方法,提供一个十分简单易学的汉字四笔画数码的编码方案供人们检索汉字和其它汉字代码使用,并指出这种码虽然编码速度比较慢,但由于它肯定能够编得出来,因此可供人们用它作辅助输入码使用,输入一些用其它方法一时无法输入的汉字(如采用拼音输入法时,遇到不知其发音或不知其汉语拼音拼写方法的汉字时便可用此法),对于不懂汉语拼音又不愿学习其它输入方法的人,在没有方法可以输入汉字的情况下,如有兴趣,也可利用它来作输入码使用。
下面,为了引起本文读者对此查字方法的兴趣和初步体验一下这种代码的易学性和编码方法,在我们正式介绍这种代码的编码方案之前,我们请读者立即自己来试编几个字的四笔画数码。
首先,请读者来编一个“生”字的四笔画数码,请你将它的横、竖、撇、折这四种笔画的数目计算出来,是3、1、1、0吗?如是,则“生”字的四笔画数码即3110;
其次,请读者来编一个“盒”字的四笔画数码,请你将它的横、竖、撇和捺、折这四类笔画的数目计算出来,是3、4、2、2吗?如是,则“盒”字的四笔画数码即3422;
最后,再请读者来编一个“数”字的四笔画数码,请你将它的横、竖、撇(包括捺和点)、折这四类笔画的数目计算出来,是3、1、8、1吗?如是,则“数”字的四笔画数码即3181。
从以上试编中,读者可能已经大致明白了四笔画数码的编码方法,为了检验一下读者理解和掌握的程度,我们现在出个小题目来考考读者,请读者用笔将本专利题目“汉字四笔画数码查字法”这10个字的四笔画数码编出来写在纸上,然后和本段末尾那行代码相对照,看看是否相同,如全部或大部分相同,说明你已经基本上学会了本代码的编码方法,用此法,你已经有可能独立地将任意一个汉字的四笔画数码编制出来了!
0041112211124051330231813113422111222141下面,我们来系统地介绍一下汉字四笔画数码的编码方案。
汉字是由若干种基本笔画组成的,按照《印刷通用汉字字形表》的划分方法,汉字的笔画一共有33种,本编码方案为了使编码时更容易对笔画进行分类,将其中的提(挑)笔按下述三种情况再分为3种(1)横提笔与水平线夹角小于45°角的较平提笔,如孑、刁、习、匀、虫、或、禺、卸、邶、戥等字和工、土、扌、王、纟、立、牜、车、耳、豆、、马、鱼等部首中的提笔;
(2)尖提笔二点水冫和三点水氵部首中的提笔;
(3)点提笔和其它点笔一起出现的较短提笔,如兆、水、求、隶、羽、丬、疒等字和部件中的提笔。
本方案为了企求得到4位十进制数字形式的代码,将以上35种笔画分为横、竖、曲、折四大类,如表一所示,分类方法如下1.横画类包括横笔和 横提笔;
2.竖画类包括竖笔和 竖钩笔;
3.曲画类包括全部撇 笔、捺笔和点笔及尖提 笔和点提笔;
4.折画类包括除竖钩 笔之外的全部带折笔画。
将第3类笔画称为曲画的原因是该类笔画均具有弯曲的形状。
本方案根据构成一个汉字的上述四种类型的笔画的数目来进行编码,故将代码称为四笔画数码(可简称为四笔数码或笔数码),它的一般形式为Y4Y3Y2Y1,其中Yi(i=1~4)的取值范围为0~9,编码法则十分简单,仅以下二条1.当各类笔画数<10时,Y4的值等于横画的数目;
Y3的值等于竖画的数目;
Y2的值等于曲画的数目;
Y1的值等于折画的数目。
例如“书”字,横画0、竖画1、曲画1、折画2,故其四笔画数码为0112;
“笔”字,横画4、竖画0、曲画5、折画1,故其四笔画数码为4051;
“张”字,横画2、竖画0、曲画2、折画3,故其四笔画数码为2023。
2.当某类笔画数≥10时,采用进位方式来编码,将进位数加到后一码位数上去,Y4的进位数则予以舍弃。
例如“鼷”字,横画4、竖画1、曲画12、折画6,故其四笔数码为4226;
“疆”字,横画10、竖画5、曲画0、折画4,故其四笔画数码为0504。
四笔画数码的编码方法不仅可用来对全部国标一、二级汉字进行编码,也可以用来对部首和部件(字元、字根、构件)及某些标点、运算、单位等图形符号及繁异体汉字进行编码,方法相同,因而可以混用,只是在对标点和其它图形符号进行编码时,需对笔画的分类附加一些规定,这里我们不作详述。
四笔画数码有一个重要和有用的性质,即一个字的四笔画数码等于组成该字的各个部件的四笔画数码之和,利用这一性质,可以由部件的四笔画数码通过加、减、乘、除(主要是加和乘)等简单四则运算来求繁难汉字的四笔画数码。
例如“理”字由“王”、“里”二部件组成,“王”、“里”的四笔画数码为3100和4201,则“理”字的四笔画数码=3100+4201=7301;
“森”字由3个“木”部件组成,“木”的四笔画数码为1120,则“森”字的四笔画数码=1120×3=3360;
“飚”字由3个“火”和一个“风”部件组成,“火”和“风”的四笔画的数码为0040和0031,则“飚”字的四笔画数码=0040×3+0031=0120+0031=0151。
利用上述方法对汉字进行编码,必然会出现重码,笔者对全部6763个一、二级汉字进行了编码,所得重码情况如下在总共10000个代码中,有字代码有1671个,代码值最小的有字代码为0001(“乙”字),代码值最大的有字代码为9833(“罐”字),其中无重码字代码有686个,占有字代码总数1671的大约41%,重码字数在10个以下的代码(包括无重码字代码)一共有1511个,占有字代码总数1671个的大约90%,重码字数在11~20个的代码有126个,约占有字代码总数1671的7.5%,重码字数在21~30个的代码有33个,重码字数在31个以上的代码只有1个,此代码为2142,它有34个重码字。
四笔画数码的重码字虽然仍然偏多,但作为检索码使用,比部首检索要好得多,和汉语拼音检索相比情形也要好一些。为了进一步的提高检字速度,在本方案中,重码字按照部首的笔画数的顺序来排序,并给每一个重码字序号Z2Z1,而且为了区分多音字的不同发音,排序时给多音字每一种发音一个不同的序号,因此可组成一种无重码的6位十进制数字形式的音形二用的四笔画数码Y4Y3Y2Y1Z2Z1,利用此码便可唯一地将发某音的某字检索出来,例如“差”字,它的四笔画数码Y4Y3Y2Y1为5130,发chāi音的“差”字的重码字序号Z2Z1为00;发chāi音的“差”字的重码字序号Z2Z1为01;发chāi音的“差”字的重码字序号Z2Z1为02;发cī音的“差”字的重码字序号Z2Z1为03,则由513000、513001、513002、513003便可分别将发上述各音的“差”字检索出来(见表二)。
四笔画数码的编码方法也可用来对词语进行编码,但这方面的具体编码工作笔者还未开始进行,初步考虑可采用如下方法来进行编码。
四笔画数词语码的形式可取5位十进制数,一般形式可表示为X1Y4Y3Y2Y1,其中X1为词语的字数码,字数<10时,X1=1~9,字数≥10时,X1=0,Y4Y3Y2Y1为词语的四笔画数码,取值方法不同于字码,分以下二种情形1.字数≤5时,Y4、Y3的值等于第1个字的横画和竖画数;Y2、Y1的值等于最末1个字的曲画和折画数,如“机器”的四笔画数词语码为21134;
“打字机”的四笔画数词语码为33231;
“标点符号”的四笔画数词语码为43202;
“中国科学院”的四笔画数词语码为51233;
2.字数≥6时,Y4、Y3、Y2的值分别等于第1、第2、第3个字的横画、竖画、曲画数,Y1的值等于最末一个字的折画数,如“中华人民共和国”的四笔画数词语码为71221;
“计算机汉字输入技术”的四笔画数词语码为91230;
“世上无难事,只怕有心人”的四笔画数词语码为02110;
“信息交换用汉字编码字符集”的四笔画数词语码为04150。
词语码编码时如笔画数≥10,也采用进位方式来编码,和字码一样,Y4的进位数也予以舍弃。
由以上介绍可知,词语码的编码法则中包含了字码的编码法则,当X1=1时,词语码编码法则自动转化为字码的编码法则,每一个字均可当作为一个单字词语来处理,这一性质,为字、词语码的混用提供了可能性,混用时,只需在字码之前加“1”,使其变为单字词语码即可。
为了区分重码词语,也可给每一个重码词语一个重码词语序号Z2Z1,于是可构成一个7位十进制数字形式的无重码四笔画数词语码X1Y4Y3Y2Y1Z2Z1,这时任一汉字和词语便可唯一与一个7位十进制数字对应,由这串数字便可直接将任一汉字及其发音或词语检索出来。同码词语序号Z2Z1可按不同方式来排序,如可按专业类别来排序,Z2代表类别,Z1代表同类别序号。
作为查字法使用,汉字四笔画数码查字法和现有的部首查字法、汉语拼音查字法、四角号码查字法及新近出现的笔画编码查字法相比,具有以下一些优点1.编码法则极为简单,使用者不必知道一个字的部首和笔顺,不必知道一个字的发音和汉语拼音,编码时不需记忆和运用的任何形-符、对应转换关系(这点是它的最大优点),只需知道一个字的正确写法和笔画的区分方法便可进行编码,是一种不需要学习和记忆便可使用的查字法;
2.分类笔画的数目只要笔画类型判断无误(做到这点并不困难)是一定可以求得出来的,因此一个字的四笔画数码是一定可以编出来的,不会发生查不出字或要花很长时间才能找到所需字的情形,分类笔画数的计算貌似困难,其实并不困难,大多数笔画数较少的常用字经过一段时间使用后一般人不难做到见字得码,笔画数较多的繁难汉字可不必直接进行笔画计数,可采用加、乘运算方法来求它的四笔画数码;
3.由于它得码容易,重码字相对较少,查字时可一步到位,查字速度比需二步到位的部首检索和需懂汉语拼音的拼音检索要快得多;
4.由于它是一种等长4位十进制数字码,比较容易记忆,用多了容易记住(尤其是一些部件和常用简单汉字),故为提高编码速度提供了潜在可能性。
汉字四笔画数码的具体用途有以下三个方面一、用来做汉字、词典检索码(1)用来做汉字、词典的辅助检索码现有汉字、词典大都采用部首和拼音索引,如能增加一个四笔画数索引,则可大大提高查字速度,尤其对查找部首难辩和不知汉语拼音的字大有好处;
(2)直接按照四笔画数码顺序编辑各类汉字、词典、这类字、词典不需索引,使用者可按欲查字、词语的四笔画数码的顺序直接找到它们所在的页数。
二、用来做其它各种汉字代码的检索码由于汉字四笔画数码十分简单易求,且一定求得出来,因此可利用它来查找一时记不起来或编不出来的其它汉字代码,如区位码、电报码、汉语拼音码等等,可将它们的对应关系印成手册或存入电脑磁盘供人们随时查阅和调阅。笔者现已编成了一本“国标一、二级汉字区位码和汉语拼音四笔画数码检索表”,利用此表可由一字的四笔画数码很快找到它的区位码和各种不同发音的汉语拼音,现将其中一小段列于表二供读者参考。对于不会在电脑上输入汉字的人,可利用此表,先将拟输入字或文章译成区位码,然后采用区位码输入法便可将它们输入电脑。
表二国标一、二级汉字区位码和汉语拼音四笔画数码检索表
三、用来做汉字辅助输入码和输入码在电脑上也可直接利用四笔画数码来输入汉字,方法和汉语拼音输入法基本相同,一般方法是通过击键输入代码调出重码字提示行然后选择所需字进行键入,但它还可增加一种运算编码输入功能,下面我们举几个例子来介绍一下在计算机上如何使用加、乘运算法来输入汉字例1如拟输入“魔”字,直接数出它的四笔画数比较困难,可先输入“麻”的四笔画数码3260,提示行显示3260的第1行
注麻1发mā音,麻2发má音因“麻”非拟输入字,不应按“0”或“1”键将它键入屏幕正文区(这里我们附带解释一下麻1、麻2的用途,它们是供语音处理设备输入不同发音的“麻”字使用的,如仅需输入“麻”的字形,则输入其中任一个均可),而应按“+”运算键,然后再输入“鬼”的四笔画数码2133,提示行改显3260+2133=5393的第1行
因“魔”字已出现,按“0”键即可将它键入屏幕正文区;
例2如拟输入“矗”字,可先输入“直”的四笔画数码5201,提示行显5201第1行
然后按“×”运算键和“3”数字键,这时提示行改显5201×3=5603的第1行
权利要求
1.一种新型汉字四笔画数码查字法,其特征是a.这种汉字四笔画数码查字法利用组成一个汉字的横、竖、曲、折四种笔画的数目编制而成的汉字四笔画数码来查字,代码形式为等长4位十位制数,一般形式为Y4Y3Y2Y1,其中Yi(i=1~4)的取值范围为0~9;b.汉字四笔画数码编码方案将汉字笔画分为横、竖、曲、折四大类的分类方法如下①横画类包括横笔和横提笔,横提笔指的是与水平线夹角小于45°角的较平提笔,如孑、刁、习、匀、虫、或、禺、卸、邶、戥等字和工、土、扌、王、纟、立、牜、车、耳、豆、、马、鱼等部首中的提笔;②竖画类 包括竖笔和竖钩笔;③曲画类 包括全部撇笔、捺笔和点笔及尖提笔(二点水冫和三点水氵部首中的提笔)和点提笔(和其它点笔一起出现的较短提笔,如兆、水、求、隶、羽、丬、疒等字和部件中的提笔);④折画类 包括除竖钩笔之外的全部带折笔画;c.汉字四笔画数码编码法则为(1)当各类笔画数<10时,Y4的值等于横画的数目;Y3的值等于竖画的数目;Y2的值等于曲画的数目;Y1的值等于折画的数目。(2)当某类笔画数≥10时,采用进位方式来编码,将进位数加到后一码位数上去,Y4的进位数则予以舍弃;d.汉字四笔画数码有一个重要和有用的性质,即一个字的四笔画数码等于组成该字的各个部件的四笔画数码之和,利用这一性质,可以由部件的四笔画数码通过加、减、乘、除(主要是加和乘)等简单四则运算来求繁难汉字的四笔画数码;
2.根据权利要求1所述的汉字四笔画数码编码方法,其特征是,这种编码方法也可用来对汉字词语进行编码,四笔画数词语码的形式可取5位十进制数,一般形式可表示为X1Y4Y3Y2Y1,其中X1为词语的字数码,字数<10时,X1=1~9,字数≥10时,X1=0;Y4Y3Y2Y1为词语的四笔画数码,取值方法不同于字码,分以下二种情形(1)字数≤5时,Y4、Y3的值等于第1个字的横画和竖画数,Y2、Y1的值等于最末1个字的曲画和折画数;(2)字数≥6时,Y4、Y3、Y2的值分别等于第1、第2、第3个字的横画、竖画、曲画数,Y1的值等于最末一个字的折画数;词语码编码时如笔画数≥10,也采用进位方式来编码,和字码一样,Y4的进位数也予以舍弃。当X1=1时,词语码编码法则自动转化为字码的编码法则,每一个字均可作为一个单字词语来处理,这一性质,为字、词语码的混用提供了可能性,混用时,只需在字码之前加“1”使其变为单字词语码即可。
3.根据权利要求1和权利要求2所述的汉字四笔画数码和汉字四笔画数词语码,其特征是,为了区分重码字和重码词语,可在它们之前附加一个2位十进制数字形式的重码字和重码词语序号Z2Z1,形成一个无重码的6位和7位十进制数字形式的四笔画数字码Y4Y3Y2Y1Z2Z1和四笔画数词语码X1Y4Y3Y2Y1Z2Z1,重码字按照部首的笔画数的顺序来排序,排序时为了区分多音字的不同发音,可给多音字每一种发音一个不同的序号;重码词语可按不同方式来排序,如可按专业类别来排序,Z2代表类别,Z1代表同类别序号。
全文摘要
汉字四笔画数码查字法是一种把汉字查字法和计算机汉字编码法合二为一的新型汉字查字法,它利用组成一个汉字的横、竖、曲、折四种笔画的数目编制而成的汉字四笔画数码来查字,代码形式为等长4位十进制数,编码方法十分简单,编码时不需记忆和运用任何形-符、音-符转换关系,一般人对笔画数较少的常用汉字不难做到见字得码,对笔画数较多的繁难汉字可采用运算方法来编码,此码还可用来查找其它汉字代码及用来做汉字辅助输入码或输入码使用。
文档编号G06F3/023GK1086327SQ9311836
公开日1994年5月4日 申请日期1993年9月30日 优先权日1993年9月30日
发明者林宇威 申请人:林宇威