专利名称::汉字的子汉字编码方法
技术领域:
:本发明是关于汉字的一种编码方法。目前汉字编码方法很多,已经在计算机上使用的汉字编码方法有几十种,其中包括最常见的拼音码、首尾码、五笔字型码、大众码和表形码等。这些编码都未能很好地同时解决汉字拆码的简易性、汉字输入的快速性和编码方法易记易学三方面的矛盾。例如拼音码,虽然简单易学,但重码率高,输入速度慢。首尾码、五笔字型码、大众码和表形码等虽然能实现汉字的快速输入,但汉字拆码难,部件或字根难以记忆。最近出现的自然码,是在双拼法的基础上发展起来的,它采用以词为主导、字词混合的编码方法,其汉字输入速度更高。但是这种编码仍存在汉字不易拆码、部件多、难以记忆等缺点。本发明的编码方法在于不另外引入部件、字根等,而是通过选择汉字中的子汉字作为部件,对汉字拆分,并对汉字分类。这样使汉字的拆分变得十分简单,没有额外需要记忆的部件、字根等,因此彻底克服了许多编码方法中存在的汉字难以拆分和部件多、不容易记忆等缺点,并且重码率低,能够实现汉字的更高速度输入。下面对本发明进行详细说明。在本发明中,子汉字就是指一个汉字中所包含的汉字(“一”除外)。我们规定交式单体字不拆分,因此交式单体字不包含子汉字。本发明对汉字的拆分原则是1.见汉字中有子汉字(首先取最大部分)就拆分,如果有需要,子汉字还可进一步拆分。如“暮”先拆分成“莫”和“日”,“莫”再拆分出“大”。“膏”先拆分成“高”和“月”,“高”再拆分出“口”。“汪”先拆分出“王”,“王”再拆分出“土”。2.一个汉字最多拆分成三部分。如“懿”拆分成“壹”、“次”和“心”三部分。“嘉”拆分成“吉”、“加”和中间剩余部分。3.汉字尽可能拆分成三部分。如“王”先拆分出“土”,“土”再拆分出“十”,因此,“王”拆分成“一”、“十”和“一”三部分。注意“一”不是作为子汉字拆分出来的,而是从“王”拆分出“十”后剩余出来的。4.汉字中的各部分尽可能多地参与编码。如“赣”拆分出“章”后,再从其右半部中拆分出“贡”。5.按汉字笔画顺序进行拆分。如从“产”的前部分拆分出子汉字“立”,而不从后部分拆分出子汉字“厂”。6.汉字尽可能多地拆分出子汉字。如“荔”拆分出最后面两个子汉字“力”,“能”拆分出最后面两个子汉字“匕”,“蠹”拆分出最后面两个子汉字“虫”,它们分别作为这些汉字的第二和第三部。如果从“蠹”的中间部分拆分出子汉字“石”,则其前面和后面部分均不能构成子汉字,按此拆分法,只能拆分出一个子汉字。“荔”和“能”的情况类似。另外,如果汉字拆分成两个子汉字后,此两个子汉字均可再拆分出一个或均可再拆分出两个子汉字,我们规定拆分后面一个子汉字,前面一个子汉字不拆分。如坂、珠、歼、碘、秋、蜕、庐和窒等,从“窒”拆分出子汉字“穴”和“土”。又如辞、辜和踢等,“辜”拆分成“古”、“立”和“十”。根据上述拆分原则,将汉字分为单部字、双部字和三部字。1.单部字具有下列特征的汉字都称为单部字。(1)交式单体字,如东、乐、木、未、末、申、由、甲、电、中、串、央、丰、丸、臾、西、半、事、秉、禺、果和重等。(2)无法拆分出子汉字的连式或散式单体字,如心、瓦、见、不、业、立、爪、瓜、予、永、衣、疋、雨、凸和凹等。(3)无法拆分出子汉字的双体字或三体字等,如卵、兆、印、扎、非、宏、官、定、巡、匀和临等。2.双部字具有下列特征的汉字都称为双部字。(1)只能拆分出一个子汉字或只能拆分成两个子汉字的连式或散式单体字等汉字,前者如土、父、太、犬、夭、方、户、白、石、禾、今、矛、朱、云、血、丕、尺,页、虫、布、氐、产、米、亚、兔和象等。后者如古、君、辛、兄、支、另、吊、名、易、星和岁等。(2)双体字中至少有一体为子汉字、且此二体不能再分出子汉字,如从、明、邓、订、江、过、伴、便、闭、闯、冰、畅、春、纯、饿、鹅、汞、鹤和氙等。(3)双体字中至少有一体为子汉字,且在此二体或一体中,仅其中间部分为汉字,如渔、鲜和掺等。(4)仅字首或字尾部分为子汉字的汉字,前者如足和走等,后者如受、帝、字、着、允、帚和学等。(5)三体字或多体字中,拆分成两部分后,不能再拆分出子汉字,例如昂、蔽等。3.三部字具有下列特征的汉字都称为三部字。(1)可拆分出子汉字、且该子汉字可再拆分出子汉字的连式或散式单体字。如王、光、矢、百、卓、丢、壬、午、舌和缶等。(2)可拆分出两个子汉字的连式或散式单体字,如桌和卒等。(3)仅中间部分含有子汉字的汉字,如参、鱼、羔、荒和蓼等。(4)至少有一体为子汉字、且此子汉字可再分出子汉字的双体字,如敌、顶、独、柏、玻、残、绸、妒、动、坟、列、秋、烦、仕、群、泵、吉、墨、封、强、柔、肩、闰、迟、矫、皇、颇和庆等。(5)三体字中至少有两体为子汉字,如享、崇、冀、崽、覃、意、曼、粪、品、森、崭、霸、贷、想、努、浆、婴、盟、智、壁、哭、瑟、枷、惭、树、蜘、湘、糊、鹕、斑、粥、辑、蝶、职、解、昭、航、投、博、族、凯、部、尉、阔、周、厢、凰、瘪、厕和屡等。(6)三体字中仅两体可构成子汉字、且该子汉字可再拆分出一个子汉字,如彻、喂、漕和褓等。(7)具有下列特征的三体字和多体字,a.如赢和嚣等,它们均由五个独立的子汉字构成,则拆分出最前面两个子汉字作为第一、第二部,剩余部分作为第三部。b.如疑和嶷等,情况类似上面。可采取同样的拆分方法。下面说明汉字的编码方法。汉字本身包括声码、韵码和形码,子汉字包括声码和形码(也可有韵码)。声码和韵码有两种取法①分别取汉字拼音声母和韵母的首字母,②分别按双拼法取汉字拼音的声母和韵母。对于汉字中无法读音的部分,即非子汉字部分,用形码来表示。形码编码方法如下将各种笔画分为横、竖、撇、捺和折共五种,形码由非子汉字部分的最前面两笔画或单笔画(当该部由单一笔画构成时)的种类决定。形码编码规则具体如下</tables>当然,也可规定其它的形码编码规则。通过最佳形码编码规则的选择,可使重码率降低。另外,我们可规定“木”的声码为“V”,部首“三点水”(即“汉”字左半部)是子汉字,其声码为“O”。汉字的具体编码方法如下方法一单部字只有三码,第一、第二码为汉字的声码和韵码,第三码为汉字的形码,双部字也只有三码,第一码为汉字的声码,第二、第三码分别为第一和第二部的声码(该部为子汉字时)或形码(该部为非子汉字部时),三部字共有四码,第一码为汉字的声码,第二、第三和第四码分别为第一、第二和第三部的声码(该部为子汉字时)或者形码(该部为非子汉字时)。方法一可简写为单部字码=声码+韵码+形码,双部字码=声码+声码1(形码1)+声码2(形码2),三部字码=声码+声码1(形码1)+声码2(形码2)+声码3(形码3)。方法二单部字码=声码+韵码+形码,双部字码=声码+韵码+声码1(形码1)+声码2(形码2),三部字码=声码+韵码+声码1(形码1)+声码2(形码2)。方法三单部字码=声码+韵码+形码,a.当双部字的第二部为子汉字时,双部字码=声码+声码1(形码1)+声码2+形码2,b.当双部字的第二部为非子汉字时,双部字码=声码+声码1+形码1+形码2,三部字码=声码+声码1(形码1)+声码2(形码2)+声码3(形码3)。方法四单部字码=声码+韵码+形码,a.当双部字的第二部为子汉字时,双部字码=声码1(形码1)+声码2+形码2,(可加声码识别重码)b.当双部字的第二部为非子汉字时,双部字码=声码1+形码1+形码2,(可加声码识别重码)c.当三部字的第三部为子汉字时,三部字码=声码1(形码1)+声码2(形码2)+声码3+形码3。d.当三部字的第二部为子汉字、第三部为非子汉字时,三部字码=声码1(形码1)+声码2+形码2+形码3。下面举例加以说明。在下表中,声码和韵码均采用第一种取法,即分别取汉字拼音声母和韵母的首字母。词组编码方法如下双字词的码分别由第一字的第一码、第二码和第二字的第一码、第二码构成,三字词码分别由第一字的第一码、第二码和第二字的第一码、第三字的第一码构成,四字词的码分别由第一、第二、第三和第四字的第一码构成,多字词的码分别由第一、第二、第三和最后一个字的第一码构成。本发明的汉字编码方法具有规律性强、易记易学、汉字拆分十分简单、重码率低和汉字输入速度快等优点。权利要求1.一种汉字的编码方法,其特征是通过选择汉字中的子汉字作为部件的方法,对汉字进行拆分,并且将汉字分为单部字、双部字和三部字。2.按照权利要求1所述的汉字编码方法,其特征是汉字本身包括声码、韵码和形码,子汉字包括声码和形码(也可以有韵码),非子汉字部分只有形码。3.按照权利要求1和2所述的汉字编码方法,其特征是声码和韵码有两种取法①分别取汉字拼音声母和韵母的首字母,②分别按双拼法取汉字拼音的声母和韵母。4.按照权利要求1和2所述的汉字编码方法,其特征是形码编码方法如下将各种笔画分为横、竖、撇、捺和折共五种,形码由非子汉字部分的最前面两笔画或单笔画(当该部由单一笔画构成时)的种类决定。5.按照权利要求1、2、3和4所述的汉字编码方法,其特征是单部字码=声码+韵码+形码,双部字码=声码+声码1(形码1)+声码2(形码2),三部字码=声码+声码1(形码1)+声码2(形码2)+声码3(形码3)。6.按照权利要求1、2、3和4所述的汉字编码方法,其特征是单部字码=声码+韵码+形码,双部字码=声码+韵码+声码1(形码1)+声码2(形码2),三部字码=声码+韵码+声码1(形码1)+声码2(形码2)。7.按照权利要求1、2、3和4所述的汉字编码方法,其特征是单部字码=声码+韵码+形码,双部字码编码方法如下a.当第二部为子汉字时,双部字码=声码+声码1(形码1)+声码2+形码2,b.当第二部为非子汉字时,双部字码=声码+声码1+形码1+形码2,三部字码=声码+声码1(形码1)+声码2(形码2)+声码3(形码3)。8.按照权利要求1、2、3和4所述的汉字编码方法,其特征是单部字码=声码+韵码+形码,a.当双部字的第二部为子汉字时,双部字码=声码1(形码1)+声码2+形码2,(可加声码识别重码)b.当双部字的第二部为非子汉字时,双部字码=声码1+形码1+形码2,(可加声码识别重码)c.当三部字的第三部为子汉字时,三部字码=声码1(形码1)+声码2(形码2)+声码3+形码3。d.当三部字的第二部为子汉字、第三部为非子汉字时,三部字码=声码1(形码1)+声码2+形码2+形码3。9.按照权利要求1、2、3和4所述的汉字编码方法,其特征是词组编码方法如下双字词码分别由第一字的第一码、第二码和第二字的第一码、第二码构成,三字词码分别由第一字的第一码、第二码和第二字的第一码、第三字的第一码构成,四字词码分别由第一、第二、第三和第四字的第一码构成,多字词码分别由第一、第二、第三和最后一个字的第一码构成。全文摘要汉字的一种编码方法,其特点是通过选择汉字中的子汉字作为部件,对汉字进行拆分,并且将汉字分为单部字、双部字和三部字。汉字本身包括声码、韵码和形码,子汉字包括声码和形码,非子汉字部分只有形码。可以采用不同的方法对汉字进行编码。本发明的汉字编码方法具有规律性强、易记易学、汉字拆分十分简单、重码率低和汉字输入速度快等优点。文档编号G06F3/023GK1159622SQ9610261公开日1997年9月17日申请日期1996年1月23日优先权日1996年1月23日发明者邱励楠,邱行中申请人:邱励楠