专利名称:汉字双形码编码方法
技术领域:
本发明涉及汉字编码方法,尤其是一种汉字双形码编码。
目前计算机汉字编码方法种类特别多,有的单纯以汉字字根与键盘符号外形结构相似进行编码,这种表形编码特征信息元集过大,加之不少字根与键盘符号没有直观的联系,记忆难度相对加大;有的编码方法汉字字根以读音对应键元进行编码,该方法易学易记的优点突出、作为大众化编码具有很大优势,但其字根没有严格限定的不确定性,给准确认定一个字根带来一定困难。
本发明的目的就是把象形字根与键盘符号联系起来,读音字根与键元读音统一起来,提供一种易学易用、输入效率高、重码率低的汉字双形码编码方法。
本发明的汉字双形码编码方法是以26个英文字母和10个数字作为代码,根据汉字字根的表形特征并采用以声代形的方法设计的一种编码,该编码从字根与代码的表形联系出发,按形归类,归并出29个代码形字根(串),如;字根串“纟幺”和“己已巳”与代码Ee外形相似,就把它们归入E形字形串;此外,该编码从字母代码的读音联系出发,选出31个最有代表性的常用字根作为以声代形码,如车(C)、广(G)、女(N)等。
汉字双形码的编码规则单字编码规则1、排头单根字代码加填充码;2、其它单根字(或成字字根)代码加填充码后补加该字读音代码,排末单根字则重复其读音代码,无单独读音字根的取码是代码加上填充码后再取首笔划和末笔划码单笔划字根的取码是代码加双填充码。
3、双码字取首码和末码,三码、多码字取首码、次码和末码。单字取码后出现重码,可用该字读音代码加以解决,非常用二码字,需重复其读音代码。词组的编码规则(取四码)1、二字词组取每字的前两码,单根字可加填充码。2、三字词组取每字的首码加上末字的次码,若末字为单根字,可加填充码。3、四字词组取每字的首码。4、五字及五字以上词组取第一、二、四、五字的首码。
本发明的汉字双形码是以人们的视觉、感觉所能直接接受为依据,把象形字根与键盘符号联系起来,把读音字根与键元读音统一起来,使得编码更加合理,形象更为直观,从而达到易学易用的目的。该码通过对国际6763个汉字的编码,约80%的汉字只需取三码,在常用字中取三码的达90%,大大缩短码长,减少了平均每个汉字的击键次数,从而使输入效率得以提高。此外,重码字只有46对92字,占1.36%,而常用字的重码字只有32对64字,占0.94%,重码率较低。
表1为汉字双形码字根表;表2为汉字双形码单笔字根表。
下面结合表1、表2对本发明作详细说明。
本发明的汉字双形码编码方法的单字编码规则1、排头单根字的编码排头单根字是指排在第一的单根字,如“月”、“白”排头单根字的编码为代码加填充码“0”(零),如月→A(0),白→B(0)。
2、其它单根字(或成字字根)的编码为代码加填充码“0”后补加该字读音代码,如马→5(0)M,但排末单根字需重复其读音代码,如门→8(0)MM,弓→G(0)GG无单独读音字根的取码是代码加上填充码“0”后再取首笔划和末笔划码,如冂→A025单笔划字根的取码是代码加双填充码“00”,如乙→5(00)3、双码字取首码和末码,如休→亻木→VM,当→小彐→LE;三码、多码字取首码、次码和末码,如疮→疒人巳→BVE警→艹勹(口攵)言→HSI;字根表以外的独体字,其取码方法与合体字同,即是按书写顺序把该字拆分成几个最大字根,拆分时兼顾习惯,然后按合体字的取码方法取码,如央→冂大→AD,丙→一冂人→
AV,身→丿冂(三)丿→4A4上述规则单字取码出现重码,可用该字读音代码加以解决,譬如吗→口马→O5(M) 苕→艹刀口→HDO(T)绮→纟大(丁)口→EDO(Q) 龇→止人(ㄩ止)匕→ZV7(Z)非常用二码字出现重码,可重复其读音代码。
如叻→口力→OL(LL)屺→山己→UE(QQ)本发明的汉字双形码编码方法的词组编码规则(词组编码取四码)1、二字词组取每字的前两码,如铅笔→钅几竹→J9K4二字词组中的单根字可加填充码“0”。
如一时→一(单根字)日寸→1(0)RT华人→亻匕人(单根字)→V7V(0)工人→工(单根字)人(单根字)→I(0)V(0)2、三字词组取每字的首码加上末字的次码,如办公厅→力八厂丁→L8CJ若末字为单根字,可加填充码“0”如机器人→木口人(单根字)→MOV(0)3、四字词组取每字的首码。
如保卫祖国→亻卩礻囗→VPSQ4、五字及五字以上词组取第一、二、四、五字的首码。
如马克思列宁主义→马十丶丶→ 5T33马克思列宁主义→马十一宀→5T16本发明的汉字双形码收集了6763个国标字,重码字有46对92字,约占1.36%,其中常用字32对64字,约占0.94%,而且它们中大多数均可用二、三级简码予以区别,它们是铂——钡氡——氘哆——呔唆——嗖鸥——瓯蹋——踢麇——麂凉——凛络——绺般——舨罩——焯窖——窘害——豁者——赭起——趋鞋——靴姑——牯淌——耥赢——赢福——匐彀——毂玫——玟婴——瘿术——杉亟——孑硝——霄钒——帆铍——帔镘——幔锯——锔莨——蒗糜——縻椋——檩唠——嘞嚆——嗬易——昀南——耐侠——歙香——旭惹——蕊醴——鳢蝥——蟊骛——鹜岁——参魔——麽涮——扇表一汉字双形码字根表
表二汉字双形码单笔字根表
权利要求
1.一种汉字双形码编码方法,它是以26个英文字母和10个数字作为代码,每个代码赋予相应的字根,每个代码所代表的字根是
单笔字根
2.根据权利要求1所述的汉字双形码编码方法,其单字的编码规则是
排头单根字代码加填充码
其它单根字(或成字字根)代码加填充码后补加该字读音代码,排末单根字的编码在填充码后重复读音代码;无单独读音字根的编码是代码加上填充码后再取首笔划和末笔划码;单笔划字根的编码是代码加双填充码。
双码字取首码和末码,三码、多码字取首码、次码和末码。
3.根据权利要求1或2所述的汉字双形码编码方法,单字取码后出现重码,可用该字读音代码加以区别,非常用二码字需重复其读音代码。
4.根据权利要求1所述的汉字双形码编码方法,其词组的编码规则是
二字词组取每字的前两码、单根字可加填充码;
三字词组取每字的首码加上末字的次码,若末字为单根字,可加填充码;
四字词组取每字的首码;
五字及五字以上词组取第一、二、四、五字的首码。
5.根据权利要求2或4所述的汉字双形码编码方法,其特征在于填充码为“0”。
全文摘要
本发明涉及一种汉字的编码方法,它是以26个英文字母和10个数字为代码,根据汉字字根的表形特征并采用以声代形的方法设计的一种汉字双形码,该编码方法按形归类归并出29个代码形字根(串),从字母代码的读音联系出发,选出31个最有代表性的常用字根作为以声代形码,并采用科学的编码规则。本发明的汉字双形码易学易用,输入效率高,重码率低。
文档编号G06F3/023GK1178342SQ9711883
公开日1998年4月8日 申请日期1997年10月14日 优先权日1997年10月14日
发明者钟兴 申请人:钟兴