专利名称:一种将汉字部首词组化双声编码在数字键输入汉字的方法
技术领域:
本发明属汉字信息处理技术领域。
背景技术:
现有在数字键盘输入汉字的方法,有拼音输入,也有笔画输入。拼音输入的前提是要认识该汉字,不认识的汉字用拼音输入就有困难。笔画输入的可以不认识,但输入笔画多,速度慢。编码输入的方法少,且重码率普遍偏高(以王永民《五笔字型》的重码率为准)。编码输入要达到低于《五笔字型》的水平,很难。
本发明采用拼音输入的基本方法,拆分汉字为标准部件,将汉字部首双字词组化,双声拼音编码;加上直观的笔画编码,单字和词组混合输入,重码率比《五笔字型》低一半以上,可以实现盲打输入。
发明内容
本发明是一种将汉字部首词组化,结合笔画和部件,组合编码,在数字键的十个键位上输入汉字的方法。
现行在数字键上输入汉字的方法,普遍存在的问题是输入键次太多,输入速度太慢;不认识的汉字不能用拼音输入;只输入单字,不能输入词组;不能盲打输入等问题。
本发明要解决的问题是用拼音的基本方法可以输入所有汉字;输入键次少,一个单字或一个多字词组,最多六键完成;重码率很低,低于《五笔字型》;可以实现盲打输入。
本发明的几个基本概念 数字键盘将数字键盘的十个键位设计为符合汉语拼音认读习惯的声母键位,(见附图1)。符合汉语拼音认读习惯指将汉语拼音的声母依照汉语拼音方案的声母表,将声母顺次读为 b p m f;d t n l;g k h;j q x;zh ch sh r;z c s; 每组声母在数字键盘上纵向排列,各字母所在键位编码为 1 g j;2 b d;3 zh z;4 k q;5 p t;6 ch c r;7 h x;8 m n;9 sh s;0 f l; 特别安排的有y视为声母,在3号键;w视为声母,在4号键;将没有声母的字设计为零声母,零声母在5号键; 笔画指横(一)竖(丨)撇(丿)点(丶)折(乙)等五类。其中,捺(
)属于点类。本发明将这五类笔画依据其有无其他笔画叉过,一分为二,又分出有叉笔的五类笔画,即叉横、叉竖、叉撇、叉点(叉捺)、叉折等五类。
在本说明书中,叉笔画的表示如下,虚线表示有叉笔叉过
笔画的编码是横1,竖2,撇3,点4,折5,叉横9,叉竖8,叉撇7,叉点6,叉折0 中撇有其他笔画与撇的中部相连特征的为“中撇”,中撇归入叉撇; 直点和直捺与上下左右的横或竖相邻的点或捺,为“直点、直捺”,直点、直捺归入叉点叉捺; 部件指《信息处理用GB13000.1字符集汉字部件规范》中所列,由笔画组成的具有组配汉字功能的构字单位。部件分为成字部件和非成字部件两种,成字部件中的成字以《国标GB-2310(80)》中的常用字为限; 超出常用字部分的成字归入非成字部件部分;本发明所使用的部件除部首中合成成字部件和特别说明的部件外,均为不可再拆分的基础部件; 部首指《现代汉语词典》中所列部首; 部首成字的词组化将部首中的下列成字全部两字词组化,并取两字的声母码或中心字的声母码; 取一码时取本字声码; 部首中合成成字部首单独使用,再分解时,拆分成基础部件使用; 部首中非成字的处理将部首中的下列非成字两字词组化,并取两字的声母码;取一码时取中心字; 笔画与基础部件合成常用字的,不再拆分,直接作为成字使用; 将不是部首的下列部件词组化处理,作为部首使用
癶=登头=登 部首中其他非常用字成字的处理取笔画码; 成字部首及非成字部首词组第一声码键位示意见附图2; 编码输入方法本发明单字和词组均六位编码; 单字是成字部件部首的取该字双声码,再依次取笔画的一、二、三、末笔画码,笔画不足的,补0;凡笔画不足的,均补0,下同; 单字是成字部件不是部首的取一声码,再依次取笔画的一、二、三、四、末笔画码; 都是部首或都不是部首的两部件单字每部件各取三码;是部首的前两码取双声码,第三码取末笔画码;不是部首是成字的,取一声码和首末笔画码;不是部首也不是成字的,取一、二、末笔画码; 一个是部首,一个不是部首的两部件单字是部首的取两码,不是部首的取四码,是成字部件的,先取声码,再取一、二、末笔画码;不是成字部件的,取一、二、三、末笔画码; 三部件单字每个部件取二码; 四部件单字一、四部件各取二码,二、三部件各取一码; 五部件单字一部件取二码,其他部件各取一码; 六部件及以上单字一部件取二码,二、三、四、末部件各取一码; 两字词每字取三码;两部件字,首部件取一码,尾部件取两码;多部件字一、二、三部件各取一码; 三字词每字取两码; 四字词首末字各取两码,二、三字各取一码; 五字词首字取两码,其他字各取一码; 六字及六字以上词首字取两码,二、三、四、末字各取一码;
附图1是24个声母在10个键位上的设置键位图; 附图2是成字部首及非成字部首词组键位示意图;
具体实施例方式 下面结合实例具体说明; 数字键盘将数字键盘的十个键位设计为符合汉语拼音认读习惯的声母键位,(见附图1)。符合汉语拼音认读习惯指将汉语拼音的声母依照汉语拼音方案的声母表,将声母顺次读为 b p m f;d t n l;g k h;j q x;zh ch sh r;z c s; 每组声母在数字键盘上纵向排列,各字母所在键位编码为 1 g j;2 b d;3 zh z;4 k q;5 p t;6 ch c r;7 h x;8 m n;9 sh s;0 f l; 特别安排的有y视为声母,在3号键;w视为声母,在4号键;将没有声母的字设计为零声母,零声母在5号键; 笔画指横(一)竖(丨)撇(丿)点(丶)折(乙)等五类。其中,捺(
)属于点类。本发明将这五类笔画依据其有无其他笔画叉过,一分为二,又分出有叉笔的五类笔画,即叉横、叉竖、叉撇、叉点(叉捺)、叉折等五类。如“王”的第一笔为横,第二笔为叉横,第三笔为叉竖。其余类推。
在本说明书中,叉笔画的表示如下,虚线表示有叉笔叉过
笔画的编码是横1,竖2,撇3,点4,折5,叉横9,叉竖8,叉撇7,叉点6,叉折0;横与叉横1、9相对,竖与叉竖2、8相对,等等,便于记忆,其余同; 中撇有其他笔画与撇的中部相连特征的为“中撇”,如“亻、勹、牛”等,中撇归入叉撇; 直点和直捺与上下左右的横或竖相邻的点或捺,为“直点、直捺”,如“亠”中的点,“卜”中的点,“其”中的点,“水”中的捺等,直点、直捺归入叉点叉捺; 部件指《信息处理用GB13000.1字符集汉字部件规范》中所列,由笔画组成的具有组配汉字功能的构字单位。部件分为成字部件和非成字部件两种,成字部件中的成字以《国标GB-2310(80)》中的常用字为限,201个成字部件如下 口一八木日曰人入土士月金十田文贝七又大止女言虫火山王玉心小立禾衣竹目几石寸车厂四广白工力皿米示门巾刀刁巳已己尸爪子耳卜羊儿牛习戈雨夕夫方食酉水二川干西斤臼丰见弓戊丁犬户革由长舟歹册而臣业未末自非毛巴且矛千中甫氏束里母手龙乙世皮黑亡瓦也丸不内父果上鬼亚身乃柬九电气万冉央曲兆乍必甘屯巨牙瓜了弗我重尹丘五民丫申于下东乡及更予甲片为丑求垂尺韦乎丹夷久之井禹熏本肉串永象才两斥州乐曳三飞专丈年史事凹吏秉个书凸承 超出常用字部分的成字归入非成字部件部分,如“匕、缶、聿、廿、臾、艮、耒、豸、爿、弋”等;本发明所使用的部件除部首中合成成字部件和特别说明的部件外,均为不可再拆分的基础部件; 部首指《现代汉语词典》中所列部首;如“木、亻、氵、匚、缶、聿、音、鼻、”等; 部首成字的词组化将部首中的下列成字全部两字词组化,并取两字的声母码或中心字的声母码; 八=八一卜=卜辞齿=齿轮歹=歹徒耳=耳朵 白=白面厂=厂矿赤=赤膊刀=刀螂二=二胡 贝=贝壳车=车厢虫=虫子斗=斗争方=方向 鼻=鼻子臣=臣服寸=寸断豆=豆腐风=风雨 比=比较辰=辰年大=大会儿=儿童父=父亲 戈=戈壁巾=巾帼母=母亲尸=尸体小=小说 革=革命斤=斤斗木=木头十=十分心=心灵 工=工厂口=口袋目=目光石=石膏穴=穴头 弓=弓子老=老实鸟=鸟瞰食=食盐羊=羊毛 谷=谷穗里=里头牛=牛毛矢=矢口页=页码 骨=骨肉力=力量女=女性士=士气衣=衣裳 瓜=瓜分立=立场皮=皮革手=手续音=音乐 广=广泛龙=龙井片=片儿鼠=鼠疫用=用途 鬼=鬼魂卤=卤莽其=其他巳=巳年酉=酉年 禾=禾木鹿=鹿茸气=气势田=田园又=又及 黑=黑板麻=麻醉欠=欠缺土=土方鱼=鱼虾 户=户口马=马车青=青春瓦=瓦斯雨=雨滴 火=火车毛=毛笔犬=犬吠王=王国月=月亮 几=几许矛=矛盾人=人民韦=韦姓止=止境 己=己任门=门市日=日程文=文明爪=爪子 见=见识米=米粒山=山水夕=夕阳子=子孙 角=角落皿=皿底身=身材西=西方足=足旁 取一码时取本字声码;如王=w; 部首中合成成字部首单独使用,再分解时,拆分成基础部件使用;如音=音乐+立场+日程; 部首中非成字的处理将部首中的下列非成字两字词组化,并取两字的声母码;取一码时取中心字 亻=单人=人讠=言词=言彳=双人=人爿=将旁=将 门=同匡=同阝=耳刀=耳忄=竖心=心礻=示威=示 冖=宝盖=盖丬=将旁=将犭=犬犹=犬疒=病毒=病 冫=两点=点口=方匡=匡纟=绞丝=丝衤=衣裳=衣 刂=立刀=刀夂=折文=文艹=草头=草虍=虎穴=虎 勹=包头=包宀=宝盖=盖辶=走之=之=竹头=竹 匚=三匡=匡尢=尤旁=尤饣=食盐=食=足旁=足 卩=耳刀=耳巛=三拐=拐扌=提手=手 厶=私字=私廾=弄底=弄攵=反文=文 廴=建之=之彡=三撇=撇灬=四点=点 下列笔画与基础部件合成常用字的,不再拆分,直接作为成字使用 百办币丙叉产成旦乏凡互今韭旧亏礼良乱马么灭鸟乓乒乞羌刃勺少生升失术戍司太天卫乌无戌血严艺亿忆义引尤与再扎札轧正朱主 将不是部首的下列部件词组化处理,作为部首使用
癶=登头=登 部首中其他非常用字成字的处理与非成字部件等同,取笔画码;如“缶”的笔顺笔画码
“缶”的首末笔画码
成字部首及非成字部首词组键位示意见附图2; 编码输入方法本发明单字和词组均六位编码; 单字是成字部件部首的取该字双声码,再依次取笔画的一、二、三、末笔画码,笔画不足的,补0;凡笔画不足的,均补0,下同; 如
工=工(g)厂(ch)+一丨一+补码=161210; 音=音(y)乐(y)+立(l)场(ch)+日(r)+程(ch)=330666; 单字是成字部件不是部首的取一声码,再依次取笔画的一、二、三、四、末笔画码; 如
乃=乃(n)+乙丿+补码=853000; 都是部首或都不是部首的两部件单字每部件各取三码;是部首的前两码取双声码,第三码取末笔画码;不是部首是成字的,取一声码和首末笔画码;不是部首也不是成字的,取一、二、末笔画码; 如
一个是部首,一个不是部首的两部件单字是部首的取两码,不是部首的取四码,是成字部件的,先取声码,再取一、二、末笔画码;不是成字部件的,取一、二、三、末笔画码; 如打=提手(tsh)+丁(d)-丨+补码=592120;
三部件单字每个部件取二码; 如轻=车厢(chx)+ス(乙丶)+工厂(gch)=675416; 四部件单字一、四部件各取二码,二、三部件各取一码; 如照=日程(rch)+刀(d)+口(k)+四点(sd)=662492; 五部件单字一部件取二码,其他部件各取一码; 如
六部件及以上单字一部件取二码,二、三、四、末部件各取一码; 如
两字词每字取三码;两部件字,首部件取一码,尾部件取两码;多部件字一、二、三部件各取一码; 如大家=大会(dh)丶+宀(g)豕(一丶)=274114; 智慧=矢(sh)口(k)日(r)+丰(f)丰(f)彐(乙)=946005; 三字词每字取两码; 如计算机=言(y)十(sh)+竹(zh)目(m)+木(m)几(j)=393881; 四字词首末字各取两码,二、三字各取一码; 如掩耳盗铃=手(sh)大(d)+耳(零)+点(d)+金(j)人(r)=925216; 五字词首字取两码,其他字各取一码; 如二一添作五=二胡(零h)+一(y)+点(d)+人(r)+五(w)=573264; 六字及六字以上词首字取两码,二、三、四、末字各取一码; 如
权利要求
一种将汉字部首词组化双声编码在数字键输入汉字的方法,属汉字信息处理技术领域,它涉及将汉字部首词组化、汉字部件的拆分组合规则,以及部件和笔画在数字键盘上的安排等,其特征是将汉字规范部首中的成字部件和一部分非成字部件词组化,取双声母编码;将横(一)竖(ㄧ)撇(丿)点(丶)折(乙)等五类笔画依据其有无其他笔画叉过,一分为二,又分出有叉笔的五类笔画,即叉横、叉竖、叉撇、叉点(叉捺)、叉折等五类,共十类笔画;用拼音的基本方法和十个笔画,即可输入所有汉字;
本发明的几个基本概念
数字键盘将数字键盘的十个键位设计为符合汉语拼音认读习惯的声母键位(见附图1);符合汉语拼音认读习惯指将汉语拼音的声母依照汉语拼音方案的声母表,将声母顺次读为
b p m f;d t n l;g k h;j q x;zh ch sh r;z c s;
每组声母在数字键盘上纵向排列,各字母所在键位编码为
1g j;2b d;3zh z;4k q;5p t;6ch c r;7h x;8m n;9sh s;0f l;
特别安排的有y视为声母,在3号键;w视为声母,在4号键;将没有声母的字设计为零声母,零声母在5号键;
笔画指横(一)竖(丨)撇(丿)点(丶)折(乙)等五类;其中,捺
属于点类;本发明将这五类笔画依据其有无其他笔画叉过,一分为二,又分出有叉笔的五类笔画,即叉横、叉竖、叉撇、叉点(叉捺)、叉折等五类;
在本说明书中,叉笔画的表示如下,虚线表示有叉笔叉过
=叉横;
=叉竖;
=叉撇;
=叉捺、叉点;
=叉折;
笔画的编码是横1,竖2,撇3,点4,折5,叉横9,叉竖8,叉撇7,叉点6,叉折0;
中撇有其他笔画与撇的中部相连特征的为“中撇”,中撇归入叉撇;
直点和直捺与上下左右的横或竖相邻的点或捺,为“直点、直捺”,直点、直捺归入叉点叉捺;
部件指《信息处理用GB13000.1字符集汉字部件规范》中所列,由笔画组成的具有组配汉字功能的构字单位;部件分为成字部件和非成字部件两种,成字部件中的成字以《国标GB-2310(80)》中的常用字为限;
超出常用字部分的成字归入非成字部件部分;本发明所使用的部件除部首中合成成字部件和特别说明的部件外,均为不可再拆分的基础部件;
部首指《现代汉语词典》中所列部首;
部首成字的词组化将部首中的成字全部两字词组化,并取两字的声母码或中心字的声母码;
取一码时取本字声码;
部首中合成成字部首单独使用,再分解时,拆分成基础部件使用;
部首中非成字的处理将部首中的一部件非成字两字词组化,并取两字的声母码;取一码时取中心字;
笔画与基础部件合成常用字的,不再拆分,直接作为成字使用;
部首中其他非常用字成字的处理取笔画码;
成字部首及非成字部首词组键位示意见附图2;
编码输入方法本发明单字和词组均六位编码;
单字是成字部件部首的取该字双声码,再依次取笔画的一、二、三、末笔画码,笔画不足的,补0;凡笔画不足的,均补0,下同;
单字是成字部件不是部首的取一声码,再依次取笔画的一、二、三、四、末笔画码;
都是部首或都不是部首的两部件单字每部件各取三码;是部首的前两码取双声码,第三码取末笔画码;不是部首是成字的,取一声码和首末笔画码;不是部首也不是成字的,取一、二、末笔画码;
一个是部首,一个不是部首的两部件单字是部首的取两码,不是部首的取四码,是成字部件的,先取声码,再取一、二、末笔画码;不是成字部件的,取一、二、三、末笔画码;
三部件单字每个部件取二码;
四部件单字一、四部件各取二码,二、三部件各取一码;
五部件单字一部件取二码,其他部件各取一码;
六部件及以上单字一部件取二码,二、三、四、末部件各取一码;
两字词每字取三码;两部件字,首部件取一码,尾部件取两码;多部件字一、二、三部件各取一码;
三字词每字取两码;
四字词首末字各取两码,二、三字各取一码;
五字词首字取两码,其他字各取一码;
六字及六字以上词首字取两码,二、三、四、末字各取一码。
全文摘要
一种将汉字部首词组化双声编码在数字键输入汉字的方法,属汉字信息处理技术领域,它涉及将汉字部首词组化、汉字部件的拆分组合规则,以及部件和笔画在数字键盘上的安排等,其特征是将汉字规范部首中的成字部件和一部分非成字部件词组化,取双声母编码;将笔画分为横(一)竖(丨)撇(丿)点(丶)折(乙)等五类。其中,捺(ㄟ)属于点类;将这五类笔画依据其有无其他笔画叉过,一分为二,又分出有叉笔的五类笔画,即叉横、叉竖、叉撇、叉点(叉捺)、叉折等五类,共十类笔画;用拼音的基本方法和十个笔画,可以输入所有汉字;输入键次少,一个单字或一个多字词组,最多六键完成;重码率很低,可以实现盲打输入。
文档编号G06F3/023GK101339463SQ200810096010
公开日2009年1月7日 申请日期2008年4月17日 优先权日2008年4月17日
发明者平 李, 想 李 申请人:平 李