专利名称:二维汉字形码的制作方法
技术领域:
计算机汉字输入技术。
现有技术目前汉字编码已有数百种,由于部件与键位均按一维序列的方式对应,因此统称为一维汉字编码。除纯音码外,其他形码或音形码均将汉字分成三级笔形、字根、单字并以笔形或字根作为编码的基本部件。本人于1985年首先提出二维汉字编码的原理(见附件一),其主要特征是将汉字分成四级笔形、笔形结构、字根、单字,以笔形结构作为编码的基本部件,采用纵横两套法则定出部件的纵横坐标码,并将键盘视为平面坐标使键位与部件对应。根据这个原理设计了第一套二维汉字汉字编码-音形坐标输入法(简称YXB)。此后又以笔形结构作为基本部件设计了另一套纯形码CXB。这两套均由北京市计算机软件中心实现,并于87年4月通过鉴定(见附件二)。
发明目的使汉字编码更加易学易用。
发明内容(1)键盘设计,参照图一。
说明P键的功能是数码等字码补位(见3);
P1键的功能是词码的转换(见6);
P2键的功能是处理第二个重码及简码符号码补位(见7);
空格键的功能是处理第一个重码及字码补位。
(1)定码法则(参照附表1)。
二维汉字编码D2-A有横纵两套法则,横向法则由笔形结构定,口诀是单笔一,双笔二,三角三,方块四,直交五,斜交六,直角七,人八八,三笔九。
纵向法则由笔形或笔数定,口诀是按点撇直横,横一直点二;撇勾夹八字,纵标取作三,四五六七九,还要看横数。
说明与举例11(Q)(1)单独的横,如亘(上下)、旦(下);
(2)下(上)面连有一笔的横,如王(上)、正(上)、石(上)、页(上)、生(下)、里(下)。
注
土为一个整体,其中的横仅作为横标取1(见下)。
21(W)两横或点横,如示(上)、亍(上)、月(下)、甘(下)、齐(上)文(上)、充(上)。
31(E)(1)横起笔的勾(包括部首冖及饣的上码,如买(上)、予(上)、阝(上)、及(上)、乃(上)、子(上)、了、罕(上)、(下)、巾(下)、韦(下)、讠(下);
(2)
看作横起笔的勾,主要用在单字比及顷的左边。
41(R)(1)带一横或一直的口,如日、巴(上)、豆(上)、或(下)、咸(下)、艮(上);
(2)
作为下面为横的方块,用在且(上)、皿(上)等字型上;
(3)足的上码为41,属于特例;
51(T)
(1)土作为下面为横的直交,如走(上)、幸(上)、王(下)、主(下),但生、里等字型的下码不能取土,因它与其余笔形相交,故下码取一横为11(请注意他们之间的区别);
(2)与横笔交一次的直交,如巾(上)、也(上)、皮(上)(十字作为数码,规则见后)。
61(Y)(1)又作为横起笔的斜交,如圣(上)、支(下)、反(下);
(2)与横交一次的斜交,如大(上)、女(上)、尧(上)、农(上),内(上)、厥(左下)。
71(U)(1)横起笔的直角如录(上)、司(上)、区(左)、妇(右)、已(上下),心的下码为71属于特例;
(2)与横笔交一次的直角,如七、托(右下)、屯(下);
81(I)(1)八字,如部首冫、单(上)、共(下)、将(左)、分(上)、公(上),
为一整体作为下面为一横的八,例如,前(上)、豆(卞)、亚(下)(注意豆、亚、业、金等单字下码不是11);
(2)竹字头作为带横的八,故取码为81。
91(O)(1)三点水,如学(上)、兴(上)、心(上)及部首氵;
(2)右上角带点的笔形结构,如犬(上)、戈(上)、我(上)、求(上)、甫(上)、书(上)、尤(上)、龙(上);
(3)与横笔交一次的小,如木(下)、乐(下)、策(下)、东(下);
(4)÷作为带横的小,如母(下)、舟(下)。
12(A)(1)单独的直,如引(右)、个(下)、片(上)、鬲(下)、阝(下)卩(下)、叫(右下);
(2)横下(上)有两笔,如耳(上)、开(上)、酉(上)、亚(上)、正(下)、丘(下)、两(上);
(3)
作为直起笔的一,如止(上)、卓(上)、上(上)。
22(S)(1)平行的两直(包括廾),例如草字头艹、共(上)、革(上)、齐(下)、异(下)、典(上)、曲(上)、收(左上)、叫(右上);
(2)平行的两点
(不同于冫),冬(下)、尽(下)、斗(上);
(3)
作为直起笔的二,如乍(下)、假(中下);
(4)
为丽字的下码,作为带点的双笔。
32(D)(1)直起笔的勾,如丁(下)、争(下)、民(下)、弋(下);
(2)带点的三角,如部首礻(上)、衤(上)、宀以及单字令(下)、专(下)、寸(下)、勺(下)、夕(上)、之(上)。
(3)
作为直起笔的三,如非(左右),肆(左上)。
42(F)(1)带两横或两直的口,如目、罗(上)、言(下)(四为数码,包括西(下),定码为41);
(2)大囗,如田(上)、国(上)、母(上)、臼(下)、凹(下)、凸(下);
(3)直起笔的口,指笔形结构
,如民(上)、官(下)、巨(右)、
假(中上)巳(上)、异(上)、导(上);
(4)带点的方块,如户(上)、良(上)。
52(G)(1)十字,如卖(上)、支(上)、早(下)、单(下)、事(上);
(2)与横笔交两次的直交,如中、降(右下)、奉(下)、聿(下);
(3)带点的土,如玉(下)、压(下)、国(下)。
62(H)(1)带直的斜交,如部首扌、单字艮(下)、辰(下)、农(下)、才(下)、卜、长(上下);
(2)与横笔交两次的斜交,如夫(上)、史(上)、匆(下);
(3)其他带挑的笔形结构,如扌、刁(下)、北(左)、虫(下)(有的字形作偏旁时有时将横写成挑,如土字旁,不在此例);
(4)带点的斜交如,义、叉、夜(右下)。
72(J)(1)直起笔的直角,如儿、轧(右)、充(下)、凶(下)山(下)、同(上)、断(左下),部首辶=乚;
(2)与横笔交两次的直角,如毛(下);
(3)带点的直角,如讠(上)、门(上)、为(上)。
82(K)(1)单立人亻(作为带直的人),包括禾的上码,如禾(上)、乐(上)、延(右上)、毛(上)、手(上)、千(上)、重(上);
(2)一长撇带一点的人,如贝(下)、凡(下)、丸(下)、班(中)、为(下)、太(下)。
92(L)(1)带直笔的小,如竖心旁忄、堂(上)、尚(上)、肖(上)、兼(下)、亦(下)、半(上);
(2)三直,如川、山(上)、出(上)、流(右下);
(3)水(包括氺),如汞(下)、泉(下)、录(下)、隶(下)、雨(下);
(4)与横笔交两次的小,如末(下)、朱(下)、束(下);
(5)四点灬。
13(Z)(1)单独的撇,如白(上)、后(上)、向(上)、鸟(上)、户(下)刀(下)、乡(下)、氕(下)、夕(下);
(2)带撇的横,指笔形结构与厂,如放(右上)、施(右上)、厉(上);
23(X)(1)平行的两撇,如彳(上)、勿(下)、豕(下)、家(下)、象(下);
(2)带撇的二和广,如气(上)、庆(上)(疒=广);
(3)带勾的两直,如部首刂、冂(下),包括丙、内、离、两、再、禹、呙等单字的下码;
(4)业的上码为23,属于特例。
33(C)(1)撇起笔的三角,如纟(上)、乡(上)、去(下)、公(下)、县(下)、矣(上);
(2)带撇的三角,如欠(上)、尔(上)、久(上)、鱼(上)、奂
(上)、免(上)。
43(V)(1)口字,如只(上)、古(下);
(2)尸字(带撇的口),如尺(上)、眉(上)、所(左下)。
53(B)(1)撇起笔的直交,如牛(上)、告(上)、朱(上)、制(左上);
(2)与横笔交三次的直交,如丰、聿(上)、表(上)、羊(下)、由(上)、甲(下)、申(上下)、电(上)、耒(上);
(3)下面带勾的直交,如寸(上)、才(上)、子(下)、手(下)、于(下)、乎(下);
(4)中间或上下夹八的直交,如丧(上)、平(下)、伞(下)、来(上)、木(上)。
63(N)(1)撇起笔的斜交,如杀(上)、丈(下)、女(下)、吏(下)、更(下)、史(下)、风(下);
(2)带撇的斜交,如失(上)、务(上)、备(上)、条(上)、夏(下)、陵(下)、复(下)、处(左);
(3)中间夹八的斜交,如夹(上)、潦(右上)。
73(M)(1)带撇的直角,如用(上)、月(上)、周(上)、句(上)、力、匕、几、风(上);
(2)与横笔交三次的直角,如电(下)、龟(下)、奄(下)。
83(<)
(1)人字(包括入),如金(上)、从(左右)、今(上)、令(上)、天(下)、大(下)、火(下)、亥(下)、久(下)、尺(下);
(2)横撇与直撇的连,如夭(上)、乔(上)、看(上);
(3)中间夹八的立人,如乎(上)、释(左上)。
93(>)(1)带撇的小,如火(上)、卷(上),以下单字的上部同火,如癸(上)、祭(上)、脊(上);
(2)撇起笔及带撇的三笔,如彡、巛、爪、采(上)、受(上)、爱(上);
(3)小字,如示(下)、不(下)、京(下)、少(上)、雀(上);
(4)与横笔交三次的小,如耒(下)、秉(下);
(5)米字,如柬(下)、米(上下)、来(下)。
数码一、二、三、四、五、六、七、八、九,依次对应于第一排的九个键位(P键补位),不完全按以上法则。如一11P,二21P,…九91P,大写数码分别为壹11 11P,贰21 21P,…玖91 91P,十看作5×2取码为52P。
横标为5、6、7、9时,纵标有时由与横笔的交数确定,但单独的横与拐弯的横不能合计,例如耒的下码为93,上码为53,但束的下码为92,上码为52。又如毛的下码为72,但屯的下码为51。
(3)单体字取码法则单体字即由字根及部首构成的单字。从上一章可以看到,多数单体字仅取上下两码,不用拆根,这是二维汉字编码的一个主要特点。对于一些笔形比较简单的单体字,在取上下码时,有的笔形可能要公用。如的上码为71下码为31;大的上码为61,下码为83,冂的上码为72,下码为23;木的上码为53,下码为91;巾的上码为51,下码为31。反之对于一些笔形比较复杂的单体字,中间的部分可能略去不计,例如重的上码为82,下码为11;事的上码为52,下码为32。初学时不能如一维汉字编码那样,将它们拆开取3码。以下单体字仅取一码以P键补位的有数码一11、二21、三31、四41、五51、六61、七71、八81、九91、十52以及口43、目42、牛53、卜62、几72、川92、爪93。以空格键补位的有工11、了31、日曰41、土士51、又61、厂13、广23、中52、义叉62、儿72、水92、丰53、力匕73、人入83、小93。部首有氵91、冫81、疒23、亻82、宀32、扌62、艹廾22、辶72、忄92、犭夂63。
因为字码的最大码长为3,因此无论取两码还是取一码都需补位才能断码。字码补位一般情况用空格键,以下几种情况用P键补位(a)数码;一、二、…九及其大写、十、百、千、万、几、单、双、两、共;
(b)干支;甲、乙、丙、丁、…子、丑…;
(c)人体器官口、目、舌、耳、身、手、足、血、肉、骨、皮、毛、发、心、头、首、爪;
(d)动物牛、马、羊、鹿、犬、龙、鱼、虫、鸟、鼠、龟、虎;
(e)人物父、母、兄、弟、夫、妻;
(f)方向东、西、南、北、上、下、左、右、前、后;
(g)重量长度斤、两、克、尺、寸、丈;
(h)含门、勹、辶、弋、川、肀、卜、的两码单字。
(4)双体字的取码。
双体字即由两个字根构成的单字,分左右与上下两种结构(A)左右结构(a)如两体均为单码字,则从左至右取两码,然后补位。例如,汇91 71,扑62 62P,泪91 42,仅82 61,抓62 93P;
(b)如一体为单码另一体为双码,则从左上角起按顺时针方向取三码。如沐91 53 91,换62 33 83,札53 72 91;
(c)如两体均为双码,则按顺时针方向取三码,但部首只取一码。
当部首在左时(图二a),例如,枝53 52 61,驮71 61 83;
当部首在右时(图二b),例如,顶11 11 32,鸭42 13 53。
(B)上下结构(a)如两体均为单码,则依次取上下两码,然后补位。如尘93 51,早41 52P;
(b)如两体中有一体为单码,另一体为双码,则按上下中的顺序取三码。例如芙22 83 62,弄11 22 51,尖93 83 61;
(c)如两体均为双码,则依次取上体的上码,下体的下码,然后再取非部首的另一码。
当部首在上时(图二c),例如,奈61 93 21,需11 22 11。
当部首在下时(图二d),例如,患52 71 52,灸33 83 83。
(C)其余结构一律转换为左右或上下结构(a)内外例如,因42 83 61(上下);
(b)上包例如,同72 41 23,风73 63,咸91 41 13(上下);
(c)下包例如,连61 72 52(上下);
(d)左包例如,区71 63,巨71 42(左右);
(e)右上包例如,司71 41,句73 43 31,或91 41 63,裁91
91 63(上下);
(f)左上包例如,床23 91 53,房42 31 21(上下)。
在双体字中,如两体都可作为部首,则常用字均有两种输入法。例如欣,取码为13 33 83(左边斤作部首),或13 33 12(右边欠作部首)。又如季,取码为82 53 31(上边禾作部首),或82 53 91(下边子作部首)。
(D)对于一些常用的笔形比较简单的双体字(特别是上下结构和部首在左边的三码左右结构),均配有两键简码。例如召71 43,号43 31P,委82 63,和82 43,权53 61,相53 42P,责53 82,利82 23,别43 23。用户可以在使用过程中逐渐掌握(这些字如按规取三码有时可能是重码)。
(5)多体字的取码规则如一个单字由三个或三个以上字根组成,原则上是从左上角起按顺时针方向取三码,但每个字根最多取一码,且遵循以下法则(A)先上后下、先左后右、先外后内;
(B)上上、下下、中上。
所谓上上,即上面的字根取上码;下下,即下面的字根取下码;中上,即中间的字根取上码。多体字主要有以下几种类型(a)例如(图三a),树53 61 53,沤91 71 63,微23 92 13;
(b)例如(图三b),瑞11 92 22,编33 42 22,槌53 13 72;
(c)例如(图三c),款51 33 93,题41 11 83,新21 13 91;
(d)例如(图三d),慰43 53 71,避43 21 72,些12 73 21;
(e)例如(图三e),罚42 23 31,宿32 41 82,履43 63 82;
(f)例如(图三f),密32 72 91,愿13 71 13,蓬22 72 63;
(g)例如(图三g),楷53 31 41,燃93 32 92,溜91 13 42;
(h)例如(图三h),棍53 41 73,渝91 83 23,嚼43 93 32;
(i)例如(图三i),樊53 63 83,舆13 61 81,兜13 13 72;
(j)例如(图三j),嬴21 82 82,箍81 31 71;
(k)例如(图三k),率21 52 81,燕22 92 62;
(l)例如(图三l),菀22 71 32,蓖22 73 13。
(6)词码二维汉字编码D2-A编有词码约一万七千余条,由P1键转换,分以下几种情况。
(一)双音词(1)第一个字为单体结构或上方只有一个字根,先取第一个字的上码,然后击P1键,再取第二个字的前两码。
例如,正巧11P1 11 11,露骨11P1 72 21,可能11P1 33 73,最低41P1 82 13;
(2)第一个字的上方为左右结构,先取第一个字的前两码,然后击P1键,再取第二个字的第一码。但如第二个字也是左右结构且与第个字的部首相同,则第二个字取第二码。
例如,短评13 41P1 72,往返23 21P1 13,组织33 41P1 43,楼梯53 93P1 81,衡量23 33P1 41,帮助63 31P1 41。
(3)特例(A)如第一个字为下、后、不、无,则第一码分别取这些字的下码。
例如,后面41P1 11 42,下落62P1 22 43,不断93P1 93 13,无耻72P1 12 12。
(B)如第一个字的部首为厂(包括)、辶和竹字头,则前一个字取两码(与上下结构同样处理)。
例如,厘米13 11P1 93,反动13 61P1 21,道理81 72P1 11,等待81 32P1 23。
(二)三音词先击P1键,然后依次每个字各取第一码。
例如,副总理P1 41 81 11,对不起P1 61 93 51,介绍信P1 83 33 82。
注意下、后、不、无仍取下码(下同)。
(三)四音词先击P1键,然后依次取第一、第二、第四个字的第一码。
例如,理所当然P1 11 13 32,无产阶级P1 72 21 33,科学管理P1 82 91 11。
(四)多音词(五音或五音以上)先击P1键,然后依次取第一、第三及最后一个字的第一码。
例如,中国共产党P1 52 22 92,集体所有制P1 82 13 53,政治协商会议P1 11 52 72,中华人民共和国P1 52 83 42(为了避免重码,少数多音词不按以上法则取码,用户可在使用过程中逐渐掌握(7)简码、特殊码、符号码(A)简码如按规则应取三码,但实际上仅取两码或一码;或者按规则应取两码,但实际上仅取一码的字或词,均称为简码。简码的主要作用是(1)减少重码,有些常用字,如按规则取三码则是重码,但如取前两码,则可能不是重码。例如,相按规则取码应为53 42 91,这时与棵是重码,但如取简码53 42 P,则不是重码。
(2)有些常用字并非重码,但为了提高输入速度(仅取一码或两码),也配有相应的简码。例如,这按规则应取21 72 63(不是重码),但由于经常用,因此配有简码21。
简码可用空格键、P键或P2键补位,用P2键补位时,单码为字码,双码为词的简码。
例如,正确11 11P2,国际42 31P2,人民政府83 23P2(取首尾字的第一码)。
(B)特殊码凡不按规则取码者均为特殊码。特殊码的主要作用是(a)减少重码,例如,临按规则取码应为22 81 41,这与监是重码,如采用另一码22 81 42,则不是重码(这种特殊码为数不多,而且都是改变最后一码的纵标)。
(b)有些汉字的笔形结构容易弄错,故配有特殊码。例如肺的取码应为73 52 31,但有人将它误写为肺,因此配有特殊码73 21 31。
用户掌握了这些简码和特殊码后(约150个),可以做到常用字几乎无重码,且纯字码的动态平均码长可降到2.8以下。但是这些简码与特殊码并不用死记硬背,初学时重码率可能高一些,如常用字出现重码就要找出相应的简码或特殊码,经过一段时间的练习自然就能掌握。
(C)符号码二维汉字编码D2-A有三套符号码(均以P2键补位)。
(a)常用标点先击27个基本键位中的任一个,然后击93(>)键,最后击P2键。
例如,?号的对应码为72>P2(只有逗号,和句号。分别为92P和93P)。
(b)小写拉丁字母先击27个基本键位中的任一个,然后击92(L)键,最后击P2键。
例如,a的对应码为12LP2,s的对应码为22L P2,余类推。
(C)常用数学符号先击27个基本键位中的任一个,然后击52(G)键,最后击P2键。
例如,∑号的对应码为73G P2。
与现有技术相比。
(1)与一维汉字编码相比(A)易学。除拼音码与笔形码外,所有一维汉字编码均以字根作为编码的基本部件,用户一般要记一百多个编码字根,有的虽可按某种方式分组(例如五笔形码是按起笔分成五组),但各组内的字根与键位并无统一的对应法则,而且对一些非编码字根还要拆根,因此用户的记忆量大,难以掌握。
D2-A码是以笔形结构为部件的二维汉字编码,用户不用记字根也不用拆根,只要记住九类笔形结构及有关笔形,就能按二维坐标的对应方式找到每个部件所对应的键位,因此记忆量小,比较易学。
(B)键位少、码长短。迄今为止,所有一维汉字编码,在基本键位小于30的条件下,欲重码率较低,字码的最大码长至少为4;反之,欲将字码的码长压缩到3,则基本键位数至少在40以上,D2-A码的基本键位为27,但字码的最大码长仅为3,且保持较低的重码率(动态重码率约为1%且最多3字相重)。
(2)与YXB、CXB相比。YXB虽是二维汉字编码,但由于纵向法则由字音确定,每击一键均要考虑音与形,二者永远不能合一,因此只是易学,但输入速度不可能提高。
CXB虽是纯形码,且以笔形结构作为编码的基本部件,但由于没有统一的纵向法则,规则较多,难以掌握。
D2-A码综合了二者的长处,克服了各自的不足,因为它有按笔形统一确定的纵向法则,因此学习难度低,又因其纵横两套法则均由字形确定,因此熟悉后即能使二者合一,完全如一维汉字编码那样由部件(笔形结构)直接找对应的键位,因此能得到较高的输入速度。
关于D2-A码与其它输入法的不同之处可参阅附表二(一维形码以五笔型码为代表)。
3)D2-A码现已在IBM-PC及长城0520等同类机型上实现,并有现成的软件。经测试,动态重码率约为1%,且最多3字相重。对于其他机型只要对程序作适当调整即可实现。如用户需要,可提供字码与词码的全部码本。
权利要求
1.前序部分现有汉字编码多数是一维汉字编码,其共同特征是(1)将汉字分成三级笔形、字根、单字,以笔形或字根作为编码的基本部件;(2)部件与键位按一维序列方式对应。YXB码虽是二维汉字编码,但纵向法则由字音确定,CXB码虽是以笔形结构作部件的纯形码,但没有统一的纵向法则。
2.特征部分D2-A码是二维汉字编码,其特征是(1)将汉字分成四级笔形、笔形结构、字根、单字,以笔形结构作为编码的基本部件,(2)以九类笔形结构作为统一的横向法则,以三类笔形作为统一的纵向法则,由此定出部件的纵横坐标码,按二维平面坐标与键位对应。
专利摘要
D2—A码是一种新的计算机汉字输入技术,它是纯形二维汉字编码,由于将汉字分成四级笔形、笔形结构、字根、单字,以九类笔形结构定横标,以三类笔形定纵标,由此定出部件的纵横坐标码,并按二维平面坐标的方式将部件与键位对应,从而缓和了汉字编码易学(规则少)与易用(码长短、键位少、重码率低)的矛盾。D2—A码以较少的规则,不用字音,在27个基本键位上实现了GB2312—80中的全部6763个汉字的字码码长不超过3,动态重码率约为1%,且最多3字相重。
文档编号G06F3/023GK87106169SQ87106169
公开日1988年4月27日 申请日期1987年9月9日
发明者石啸生 申请人:石啸生导出引文BiBTeX, EndNote, RefMan