形数关联汉字编码输入方法

文档序号:6330729阅读:623来源:国知局
专利名称:形数关联汉字编码输入方法
技术领域
本发明涉及一种用数字进行汉字编码输入的方法。
目前,在已有的汉字编码方案中主要集中在计算机键盘输入编码上,使用字母键位和数字键位。利用数字对汉字进行编码的方法主要有“五笔画”、“区位码”等,主要依据汉字笔画或偏旁进行编码。
本方案是一种拼形输入方法,即通常所指的“形码”。由于一般拼形方法普遍要使用200个左右字根,记忆量大,因而字根的分类规律性和在键位上对应分布的有序性,将是确定编码方法有无创造性的重要方面。
本发明的目的在于编制出一套具有规律性的汉字字根分组方案,并确定“字根分组”与“数字”的有机对应,达到易学易记,面向大众的目标,可广泛在手机、电话、电子记事本、电脑小键盘等具有数字键位的电子产品和设备上进行中文处理。
一、汉字的字根几何分类由于汉字是一种图形符号,某字根具有几何学上特定图形特征,本发明提出利用字根宏观外形进行几何分类,将常用字根分为10类。
1、单方向线条(平行线)是主体为“水平、竖直、左斜”3个方向的线条组合,也就是常说的“横-竖-撇”三种基本笔形,字根如“一二三,丨刂川卜,丿 彡”等等。字根由数字“1”关联表示。
2、二方向包围字根字根主体从两个相连方向上形成封闭。字根如“厂厂广尸,乚匕厶∠心, 勹刀力了马”,它们的基本宏观外形可描绘为“、、”。因有2个方向包围,故由数字“2”关联表示。
3、三方向包围字根字根主体从三个相连方向上形成封闭。字根如“匚巳巴巛镸、彐夕コ 、冂门月巾冖雨贝 舟、 凵山ㄩ臼廿”,它们的基本宏观外形可描绘为“匚、、冂、凵”四种3面包围。由数字“3”关联表示(即包围边的数量)。
4、四面包围字根字根主体上呈四方形封闭、将内部线条包围。字根如“日目曰且白耳、 四皿、田 甲由鱼”,它们的基本宏观外形可描绘为“日、四、田”,这里以“田”来表示。由数字“4”关联表示(“4“方形或”四“面包围中都含有”4“)。
5、“五(工)”形垂直字根字根中中部竖线与上或(和)下水平线垂直,有顶部、顶底、底部3种垂连方法,字根如“丁下干 石、 工王五 、土士上 ”,这里以“工(或五)”记忆。
本组中使用的字根“五“具有顶底双垂特点。由数字“5”关联表示(可与“五“形交和字意相交)。
6、“六字型”离散字根包含以“六”字头(亠)为主要特征开头的字根和“点的集合”,字根如“亠 六文立方言 ,丶冫氵灬”。由数字“6”表示(本组字根主体是“六“的部件)。
7、“七”交叉字根形成交叉形状,包含正交和斜交,汉字“七”本身上部主体就是“交叉”状。字根如“十 丰扌寸艹廾ナ千手七车,乂 又夂女大犬 木禾米”。由数字“7”表示(字根“七“字本身即是交叉形状)。
8、“八”字型对称字根字根呈左右对称,上部小底部扩散状,即常说的“八”字形。字根如“八人儿小水火癶  “代表符号记为“八”(或“人”)。由数字“8”表示(“八”与“8”关联)。
9、“九”状连折字根连折形的字根常常包围方向不确定,如汉字“九“中包含的”乙“状,字根如”乙九之讠ㄣ弓已ㄋ“,代表符号用”乙“或“九”表示。由数字“9”表示(本组含有“九”字并联用“九曲”之意)。
10、“0”形空心字根字根为空心四方形,是汉字是较常用字根,字根如“口 ”等,在数字上用“0”表示(空心状如“0”)。二、汉字编码的字根选用与扩展以上10种类型字根可简称为“一单线、二包围、三包围、四方形、五垂直、六分散、七交叉、八对称、九连折、0空心”。这些类型分别与数字1、2、3、4、5、6、7、8、9、0对应进行分配,记忆和使用非常方便。
下面是在手机、电话机、电脑小键盘和其它电子设备键面上常用的数字键位分布和对应的几何字根的分布,图中用10种符号或字符辅助记忆。 手机、电话机等常用键面的代表字根分布示意在编码中,使用了130个左右基本汉字字根,经分析可满足GB2312-80字符集的汉字的编码使用。由于汉字字根是以宏观外形分类的,对于汉字扩充字符集和其它繁体字符集的需求,可要求扩充和增加繁体字字根,仍然依外形归类,因而记忆量并不会增加。如繁体字中常用的“門”按形状基本为3面包围,分布在3上,“貝”主体为四方形,分配在数字4上。因而,本方案中字根的选用针对不同字库要求可以扩充。
下面是0-9十个数字代表的字根和基本特点 二、汉字编码规则本方案可以进行单字和词组编码。
1、单字编码规则(1)将单字拆为一个至多个子根,根据子根所属数字对应编码,拆分时按照汉字的书写顺序左向右,从上到下的习惯拆分,拆分中力求取大,使编码最简,但字根间能独立或相连时就不拆分为交叉的。
(2)单字编码选长度不超过4位,超过4位时取1、2、3和末个字根进行编码。下面是一些汉字的拆分和编码例子(口丨)01 (口王丶)056 (月月)3(山月月)333 (门日)3(日匕匕)42(日月皿)434 (皿十且)474 (厂贝刂)2(丨丶)221(讠 一口)9210(宀八八口)3880(扌三 三)7111 (日勹 刂)421(扌广彐口)7230(口贝贝女)033(且厶心)422 (六冂八口)6380(冂XX)37(米斤)722 (扌日一)(土弓彡)591 (口二儿)018 (冂土口)350(一田凵)143 (七小)78(弓刂贝)91(月文凵)363 (扌广彐丨口)034(尸 口)220(3)繁体汉字的拆分取码方法一致,如彄→(弓匚口口口)-----编码为9300悶→(門心)----编码32由上面介绍可看出,数字几何编码时主要根据字根宏观外形并与相关数字进行“联想”快速确定编码。例如能→厶 月 匕 匕↓ ↓ ↓ ↓(宏观外形为)    对应包围量为2322↓ ↓ ↓ ↓对应编码 2 3 2 2 看包围宏观形状确定编码商→六 冂 八 口↓ ↓ ↓ ↓编码为 6 3 8 0(“六、八、口”的编码为6、8、0联想巧妙)
这样,主要看字根形状即可定出编码,如拆为日乚,是一个4面包围和2面包围形,编码为42。(4)字根表中已有的字规定为“连击3次+0键″,如编码为3330广编码为2220,简单字不拆确定编码更方便。
2、词组编码规则词组编码中使用长度为4位进行编码,双字词以次取各字前2位进行编码;三字词取1、2、3字首码和第三字第二码;三字以上取1、2、3字和末字首码。词组编码时遇到使用的子根作为单字在词组中出现,不再拆分,只重复以本键自身表示。
例如昆明----------→(日匕日月)→42朋友----------→(月月ナ又)→337工人----------→(工工人人)→5588记忆----------→(讠己忄乙)→9919亏空----------→(二ㄣ 宀八)→1938中国----------→(口丨口王)→010语文----------→(讠五文文)→956历史----------→(厂力口X)→220参观团--------→(厶又口十)→270联合国--------→(耳人口王)→480司空见惯------→( 宀冂忄)→23中国人民解放军→(口口人冖)→00833、单字编码不足4码时的识别码为减少单字编码重码,在汉字编码长度小于4时可在后面增加识别码,识别码以汉字尾部结构和字型结构为特征确定
(1)汉字字型结构将汉字分为左右结构、上下结构、混合结构,分别对应1-2-3、4-5-6、7-8-9三行数字表示。如A、左右结构如“朋明什回响计程从林项”B、上下结构如“昌置量全类是号贡雪婪”C、混合结构如“团回田又大正出王五天”(2)汉字尾部结构结尾的子根或笔划的几何形状分为3种即单线条结尾、包围结尾、单点型结尾,分别以1-4-7、2-5-8、3-6-9三列表示,识别码由字型所在的行和尾部结构所在的列确定。A、单线条结尾,字结尾为不用于构成封闭的线条,如“查勿量应”B、包围结尾,结尾笔是折笔包围(如“ 乚”)或总体构成封闭方框(口日),如“品号方春毛七今含”,它们结尾为“ 乚口日”等形状。C、单点型结尾,字结尾为“丶()”,例如“米大及勺文八六水”识别码对应如下单线条结尾 包围结尾单点型结尾左右结构 1 23上下结构 4 56混合结构 7 89识别码以汉字尾部结构和字型结构为特征确定,例如汉字“回”的结构是“混合型”,字尾是“包围(口)”,识别码为“8”,同样汉字“万”的识别码也是“8”;汉字“吕”是上下结构,识别码为“5”;汉字“林”的识别码为“3”,汉字“太”的识别码为“6”等等。
识别码仅在使用中作为辅助可选技术。
4、简码汉字单字标准码长为4,而常用字一般1-3码即可确定,这可根据汉字的使用频度确定,同时可进一步降低重码。
如“一”编码“1”;“二”编码“11”;“三”编码“111”等。
“国”编码“05”(2级简码);“恰”编码“181”(3级简码)。
1-3级简码可容纳1000余个常用汉字,可大大提高输入速度。三、宏观字根特征进行数字编码的优点1、字根的分类方法上有显著的实质性特征字根分类基本规则十分简单,即“字根包围看封闭量,不成包围看交连形态”,首次将汉字字根按几何宏观外形分为“1方向单线、2面包围、3面包围、四方形、五形垂直、六状离散、七状交叉、八字对称、九状连折、0型空心”共10大类,这对于字根分类记忆和使用十分方便,可使用户迅速掌握。字根分类后在宏观外形上是十分相近的,这对于分类记忆具有的特征。2、字根分类特征与数字本身具有奇妙的相关是分类方法的显著特点汉字字根分类体现了中文图形字符的特征,同时在分组中巧妙使用数字与分组特征配合,更使分组的理解记忆变得简单、易用、具有趣味性。在10个字根组中,0代表“口”,外形便于联想;1代表单一方向线条;2、3上就是字根包围封闭量,如“冂”在3上;4是代表四方形,与字根中的“四”对应;5是代表“工(五)”形垂直字根,与字根中“五”对应;6代表“六首(亠)”型字根,与数字“六”对应;7代表“交叉”字根,对应的字根“七”主体就是交叉形状;8代表“八字对称”之意,与数字“八”巧妙融为一体;9代表“曲折”字根,与数字“九”形状不谋而合,尤言“九曲”之意。
下面是几个字例“中”的部件为“口丨”编码为“01”。
“画”的部件为“一田凵”编码为“143”(看包围封闭量)“众”的部件为“人人人”编码“888”(“人”同“八”形)“崩”的部件为“山月月”编码“333”(看包围数量)“商”的部件为“六冂八口”编码6380(六→6冂→3八→8口→0)“厕”的部件为“厂贝刂”编码为“231”(厂→2贝→3刂→1)3、字根分组记忆与编码十分简单字根组中各组的分配是依据宏观外形,而不是按笔画、笔顺或拼音。在人们学习和使用汉字的过程中,由于汉字是图形文字,人脑中首次产生的是对图形的总体轮廓,汉字几何字根分类就是使用的这种“模糊”印象进行快速记忆。如“冂门月巾冖雨贝 舟,山臼,彐”等就可统一按“包围量”对应到数字“3”上,无论从字根记忆还是在编码中都是十分快捷的。4、应用的设备范围和适应的用户范围十分广阔本方案可广泛应用在电脑、手机、电子记事本、普通电话等大量具有数字键位的电子产品中,具有广阔的应用前景。
本方案分体现了汉字是图形文字的特征,编码中仅使用字汉字字根的宏观结构。也就是说,在汉字编码过程中,使用者可以通过对汉字平面组合的宏观印象识别出这种特征,从而直接提取出字根形状并联想到对应数字,达到“看字知码”的效果。
本方案易学易用,不易遗忘。使用几何宏观外形编码,对于汉语水平较差的外籍人士,亦可在短时间内掌握。因而,这一方案对于汉字在世界上的推广应用是有独特价值的,尤其对于不精通或不懂中文的非汉语语系人士,他们在进行汉字输入时完全可以在不熟悉汉字笔画笔顺情况下,使用这种方法去记忆众多字根,甚至直接根据汉字的宏观框架结构,使用这种特征去推测汉字编码。因而,这一方案号有望为汉语的世界性交流中发挥作用。
权利要求
1.一种用数字进行汉字编码的方法,其特征在于将编码使用的字根(偏旁部首)按外形的宏观图形特征分成10大类,每类具有一种与数字相关的宏观外形特征,从而使每组字根与数字0-9形成字根的“形”与表示键的“数”密切相关,形成易于记忆的数字分组方法和数字键位分布,各个数字对应的汉字偏旁部首和分组特征如下
2.根据权利要求1所述的汉字数字编码,其特征在于10个数字键上分布的字根是一种具有与数字本身具有“形与数“关联和联想记忆的有序分组,数字0外形与“口”相近,数字1、2、3、4代表的字根类型分别是1、2、3、4个线条封闭包围方向(单线条可为1个方向包围),其中4上含字根“四”便于联想记忆,数字5上字根“五”可代表基本字根特征,数字6上用字根“六”代表基本形状、数字7上用“七”表示交叉型字根,数字8上为“八”字型左右对称字根,数字9上是“九”形连折状的字根。
3.根据权利要求1所述的汉字数字编码,其特征在于在字根具有明确封闭或包围结构时分为单一(“1”)线条、2面、3面、4面包围特征,无包围特征时将字根宏观图形分为“五”字垂直、“八”字对称、“九”形连折、“六”状离散共5种,并以此对字根进行分组。
4.根据权利要求1所述的汉字数字编码,其特征在于是一种按字根宏观外形进行的字根分组方法,数字键1上分配的是一个方向的单线条构成的字根,数字2、3、4分配的是2面、3面、4面包围或封闭的字根、数字5分配上或下为水平线中间有垂直线连结的垂直状字根,数字6上分布散点(含捺)和六字形开头字根、7上分配交叉型字根,数字8上为左右分散且基本对称字根,数字9上是连折状的字根,字根0只是“口”字根(含“母”字外框)。
5.根据权利要求1所述的汉字数字几何编码,其特征在于汉字编码中将单字拆为一个或多个子根,根据子根所属的母根类别,选取不超过4个母根进行母根编码,超过4键时取1、2、3和末位进行编码。
6.根据权利要求1所述的汉字数字几何编码,其特征在于汉字编码中将单字拆为一个或多个子根时,按照汉字的书写顺序左向右,从上到下的习惯拆分,拆分中力求取大,使编码最简,但字根间能独立或相连时就不拆分为交叉的。
7.根据权利要求1所述的汉字数字几何编码,其特征在于对词组编码中使用长度为4位进行编码,双字词以次取各字前2位进行编码;三字以及三字以上取1、2、3和末字首码。
8.根据权利要求1所述的汉字数字几何编码,其特征在于词组编码中遇到字根表中子根作为单字时不再拆分,只重复以本键自身表示。
9.根据权利要求1所述的汉字数字几何编码,其特征在于为减少单字编码重码,在汉字编码长度小于4时可在后面增加识别码,识别码以汉字尾部结构和字型结构为特征确定,即将汉字分为左右结构、上下结构、混合结构,分别对应1-2-3、4-5-6、7-8-9三行数字,汉字结尾的子根或笔划的几何形状分为3种即单线条结尾、包围结尾、单点型结尾,分别以1-4-7、2-5-8、3-6-9三列表示,识别码由字型所在的行和尾部结构所在的列确定。
全文摘要
本发明提出一用数字进行汉字编码的方法。将汉字常用偏旁部首以宏观外形分为10种,其宏观外形分别与数字0-9具有关联特征,从而使用0-9数字表示和编码。字根分组完全以宏观外形而不强调笔形笔画,且与数字对应分配上具有巧妙的有序性或规律性,形成数字代码的“数”与字根宏观上的“形”直接联系,方便记忆,汉字在拆为字根部件后,按照“外形”即可对应确定出“数”-即数字代码。依据“形”-“数”联想编码记忆量极小、可在手机、电话、电脑等设备中方便实现数字编码的中文输入。
文档编号G06F3/023GK1328283SQ00131600
公开日2001年12月26日 申请日期2000年11月2日 优先权日2000年11月2日
发明者唐文生 申请人:唐文生
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1