汉字笔画字母编码法的制作方法

文档序号:6407784阅读:932来源:国知局
专利名称:汉字笔画字母编码法的制作方法
技术领域
本发明涉及一种按照汉字笔画形状及其书写顺序(笔顺)进行编码的方法,包括一套汉字笔画字母的建立,以及使用此笔画字母对汉字按其笔画书写顺序(笔顺)进行编码的方法。
目前在计算机应用及信息技术的发展中出现了大量的汉字编码方法,种类很多,各有其特长和不足,但是寻求一种既简单易学,又编码及输入速度不太慢,重码率不太高,有相当的实用价值既符合西方文字按字母拼写键盘输入的普遍方式,又不脱离中国汉字发展的传统规律的汉字编码方法仍然为社会所期望。本发明中所建立的方法即是为寻求此目的所作研究的一个结果。
为使汉字能够达到像西方文字一样从外观上有一目了然的确定性很强的构成文字的有序的单元(字母),较简单的方法就是利用汉字的单笔笔画这一汉字的天然字母,它在字中如同西文的字母一样是呈有序的排列(按笔顺),但是它的实际形状数量太多,而对它的归类又过于概括数量太少。若能将其合理而又明确地归纳为适宜的规范化的种数,则可起到如西文中字母所起的相应的作用。
本方法中创造了一套汉字笔画字母,其所遵循的原则为1.以传统的汉字笔画为基础,从中选择归纳,归纳中注意其确定性;
2.采用英文的26个字母为代码,使汉字笔画的归结数量亦为26个;
3.代码与笔画搭配时考虑到英文字母在键盘上的位置,以便于笔画字母的记忆和使用操作。
以下列出本发明的26个笔画字母的代码字母、典型笔画、笔画名称,归类笔画及有关说明代码字母及典型笔画 笔画名称、归类笔画及说明a 一 -横b 丨 -竖c 丶 -点.含 (忆)d -提.含 (虫)e 丿 -撇f -撇折,含 (东)g -竖折,含 (互) (牙) (二折者以首折计)h -竖弯钩,含 (几) (殳) (西) (心)乙i -横撇,含 (专)j -横折,含 (互) (凹)(二折者以首折计)k -横折钩,含 (永)l ㄋ -三折,含ㄋ(乃) (廷) (边) (凸)m -捺,含 (边)n -斜钩o 乛 -横钩p 亅 -右竖钩,含 (狂), (了)q -左竖钩,含 (计)
r 丿 -竖撇,属r不属e的丿定义为①字或部左侧通笔撇(月厂反)②与竖或竖钩并立者(介帅顽)③与 并立者(儿刀乃)④穿横上出者(大右)⑤简体贯中撇(贝见)⑥点后靠撇(班火)s ㄑ -撇点t -二或多交叉的横或竖(不管端接如何)(廿丰)u -一端与另一笔画端接成直拐角的横(厂)v -一端与另一笔画端接成直拐角的竖(贝)w -二端与另二笔画端接成直拐角的横(口)x -二端与另二笔画端接成直拐角的竖(口)y -单交叉的横(不管端接如何)(十中)z -单交叉的竖(不管端接如何)(十冉)在26个笔画字母中排于最后的t至z的7个字母为具有表达笔画间关系的关系笔画字母,用之可将汉字中的横及竖笔画进一步加以明确地细分。
附图
是26种笔画在键盘上的位置图,其中标出了各字母以其所表示的典型笔画的键盘位置。如前所述各种笔画在键盘上的分布位置考虑到了记忆和使用操作的方便性,这具体表现在1.把键盘的范围视作一个汉字方块,使各类笔画尽量接近其在字中的常见位置,如左竖钩在左端,横钩、右竖钩及三折在右端,捺及斜钩在右下
2.折笔在中部,左折的靠左,右折的靠右;
3.横笔靠上,竖笔在下;
4.撇、竖撇及提集中在一起。
在实际使用中典型笔画是不必标记在字母键上的,因为它以英文字母为明确的表示,是易于记熟的。
使用上述的汉字笔画字母就可以按照汉字的笔顺对每个汉字进行编码,这样的编码是合乎中国汉字传统文化习惯的一种发展。但是每个汉字笔画有多有少,有些甚至多达二三十笔,用多少笔画来确定一个汉字最为合适呢?笔画用得越多则确定性越高,亦即重码率越低,但是随之其编制和使用操作也会越不方便。通过分析研究,发现采取首2码加尾3码的5码制较为适宜,它包括字首的信息及字尾的信息,二者结合起来就可以有足够的信息来较好地确定各个汉字,使重码率下降到不太高的程序,而在码的编制和使用操作中又不至于太长太慢。
具体的编码规则为1.对一切汉字不论简体或繁体均按其笔画的书定顺序(笔顺)用笔画字母进行编码;
2.对每字取其首2笔码+尾3笔码按顺序排成5位码作为该字的编码;
3.对少于5笔的字按前位优先的原则取码直至末笔,不足的码位均在最后留空,构成1~4位的编码。
举例例字-中 华 人 民 共 和 国对应编码-xjyt ebhyz em juqyn tzaec eyxjw xjacw
对GB2312-80所收的6763个字进行编码时,按字母排列后的a部共包括467个字,出现重码114个,其中单重(二字同码)的47组,多重的20组,最多的一组重码为8重,此部分的重码率为24.4%。
此基本编码法的重码率不太高,而方法极为简单且很规范化,可适用于汉字的手工检索系统(字辞典、资料库)的编码及速度要求不很高的计算机及信息系统的输入编码。
以汉字笔画字母基本编码法为基础,辅助以一些特首部及特尾部码的减重码作用,使编码结果的重码率降到很低,从而提高向计算机及信息系统输入的效率的方法为提高编码法。
提高编码法的具体方法包括1.按照对减低重码所起作用的程序对汉字中字首及字尾上常出现的偏旁部首加以选择,取其影响程度较大的20个字首上的定为特首部,28个字尾上的定为特尾部;
2.每一特首部或特尾部均以其所包含(少数为间接包含)的一个代表性笔画的笔画字母为代码,在字的编码中使用时相当这个单笔画的笔画字母的作用;
3.特首部只在字的最开始成立,其后无笔画时亦不能成立特尾部只在字的最末尾成立,并且其前至少有一单笔画码尾码存在时该特尾部方可成立,特首部或特尾部在符合条件时必须使用4.特首部码及特尾部码在字的编码中与单笔画码混合使用,对每字取首2笔码+尾3笔码按笔顺排成5位码作为该字的编码,码长不足5位时按前位优先的原则取码,不足码位的最后留空。
以下列出所使用的20个特首部及其代码以及一些必要的说明特首部及代码 说明口 x -口内无笔画 j -口内有笔画,口后如有笔画则接口后第一笔编码,否则接口内第一笔编码月 k氵 d火 r -不含火十 y木 z -不含木扌 p亻 b女 s钅 q -含 旁,不含金鱼 i -含魚旁,不含鱼疒 u宀 o艹 t f -取首2笔连笔作为 (撇折)取码虫 g -取第4.5笔连作为 (竖折)取码纟 l -取首2笔连笔作为 (三折)取码讠 w -取言之末笔码,含言旁忄 h -取心之第2笔码
20个特首部中最后5个是间接包含代表性笔画。
以下列出28个特尾部及其代码以及一些必要的说明特尾部及代码 说明日 j -含曰月 k -含月页 j -含贝、 皿 b口 x -只含口内无笔画者大 r -含横以上有重交叉者(如夫中之大),不含 小 p -含上部有交叉者(如 中之小)火 r -不含火寸 p亍 p土 y -含士木 z -含米中之木,不含 未 t -含未、果等中之木,即横以上有重交叉之木 t -含牛、羊、甲中之 ,不含丰辛 z儿 r -含几、凡女 s鸟 k -含 衣 q -含
心 h e -含 ,不含业金中之 及只中之 辶 l攵 m -含文,不含 戈 n -含横笔后有夹笔者,此时横笔作特尾部外笔画止 b三 a彡 e灬 c由于所使用的特首部及特尾部数量不多(合计48个),所以不必强记,只需稍加熟悉即可在编码中见字识出所遇到的特首部或特尾部。又由于其代码为所包含的一代表性笔画的笔画字母,所以不必强记即可从字面上直观地读出所遇到的特首部或特尾部的代码。举例例字——坊枋 耐碍 嘹瞟基本法编码——yzakr aeypc xjpec提高法编码——ydakrzcakr aebbpaewapxyawpjaaap对GB2312-80所收的6763个字进行编码时,按字母排列后共出现397个重码,其中大多数为单重(二字同码),小部分为两重(三字同码),更多重者没有,总计重码率为5.87%。
提高编码法由于重码率达到很低,所以编码的输入操作效率可以大为提高,而方法仍很简单,故适用于广泛的计算机及信息系统的输入编码。
权利要求
1.一种按照汉字笔画形状及其书写顺序进行汉字编码的方法,其特征是将汉字笔画细分为26种,每种固定地以26个英文字母中一个作为其代码,成为汉字笔画字母,使用这些笔画字母对汉字只按照其单笔笔画的书写顺序进行编码的汉字笔画字母基本编码法,以及加入特首部及特尾部的辅助减重码作用进行编码的汉字笔画字母提高编码法。
2.根据权利要求1所述的汉字编码的方法,其特征为具有一套汉字笔画字母,它是用26个英文字母分别表示以下对应的汉字笔画a-横一f撇折レl-三折ㄋr-竖撇丿b-竖丨g-竖折 m-捺 s-撇点 c-点丶h-竖弯钩しn-斜钩 d-提 i-横撇 o-横钩 e-撇丿j-横折 p-右竖钩 k-横折钩 q-左竖钩 t-二或多交叉的横或竖(不管端接如何)艹 u-一端与另一笔画端接成直拐角的横 v-一端与另一笔画接成直拐角的竖 w-二端与另二笔画端接成直拐角的横 x-二端与另二笔画端接成直角拐角的竖 y-单交叉的横(不管端接如何) z-单交叉的竖(不管端接如何) 其中t→z 7个笔画字母具有表达笔画间关系的性质。
3.根据权利要求1所述的汉字编码的方法,其特征在于按照以下的方法进行编码的汉字笔画字母基本编码法(1)对一切汉字不论简体或繁体只按照其笔画的书写顺序用笔画字母进行编码;(2)对每字取其首2笔码及尾3笔码按顺序排成5位码作为该字的编码;(3)对少于5笔的字,按前位优先的原则取码,不足码位在最后留空,构成1~4位的编码。
4.根据权利要求1所述的汉字编码的方法,其特征在于按照以下方法进行编码的汉字笔画字母提高编码法(1)按照对减少重码所起作用的程序对汉字字首及字尾上常出现的偏旁部首加以选择,取其影响程度较大的20个字首上的定为特首部,28个字尾上的定为特尾部;(2)每一特首部或特尾部均以其所包含(直接或间接包含)的一个代表性笔画的笔画字母为代码,在字的编码中使用时相当于这个单笔画的笔画字母的作用;(3)特首部只在字的最开始成立,其后无笔画时亦不能成立;特尾部只在字的最末尾成立,并且在其前至少有一单笔码尾码存在时该特尾部方可成立;(4)在字的编码中特首部码及特尾部码与单笔码混合使用,对每字取首2笔码及尾3笔码按笔顺排成5位码作为该字的编码,码长不足5位时按前位优先的原则取码,不足码位在最后留空,构成1~4位的编码。
全文摘要
本汉字笔画字母编码法为一种按笔画形状及笔顺对汉字编码的方法。它包括一套有26个字母的汉字笔画字母的建立及用此笔画字母对汉字按笔顺编码的基本及提高编码法。基本法只使用单笔笔画字母,方法极为简单又规范化,重码率也不很高,适于汉字手工检索系统编码及对速度要求不很高的信息系统输入编码;提高法借助特首部及特尾部码的降重码作用使重码率达到很低,方法仍很简单,适于速度要求较高的信息系统输入编码。
文档编号G06F3/023GK1110803SQ9410348
公开日1995年10月25日 申请日期1994年4月18日 优先权日1994年4月18日
发明者麻福武 申请人:麻福武
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1