一根码计算机汉字输入法的制作方法

文档序号:6560500阅读:465来源:国知局
专利名称:一根码计算机汉字输入法的制作方法
技术领域
本发明为“一根码计算机汉字输入法”,以取声为主,取形为辅,系一种声形码汉字输入法。国内现有输入法可分为“声码”、“形码”和“声形码”几大类,其一般特点是“声码好学不好用,形码好用不好学”。它们连同试图综合二者优点的“声形码”在内,在如何处理好“难度”与“速度”的矛盾方面,还留下了较大的改进余地。本发明以“字取声母,形取首笔”的声形编码原理,通过对单字构件的精当分解和精巧的键盘布局,实现了“大词汇量,多简码字,高容错度,零重码率”的超高性能,这些其它汉字输入法所难以达到的性能指标,加上极为简捷的拆分方式和编码方法,使本方案“简单易学,快捷实用”,妥善地解决了汉字输入法“难度”与“速度”的矛盾。
本输入法为声形码,最大码长4码,揉合了拼音码易学与笔形码快捷的显著特点,通过“字取声母,形取首笔” 的编码原理,实现了“大词汇量,多简码字,高容错度,零重码率”的超高性能,使编码自然流畅,最大限度地缩短学习的时间,减轻学习的负担。
目前国内已有大量的各式汉字输入法的存在,呈现出所谓的“万码奔腾”的局面。方案不少,大体可分为以下三类①声码。代表为全拼码。
汉语拼音是指我国法定的标准汉语拼音方案,采用标准西文键盘上除“V”以外的25个英文字母。在全拼拼音状态下输入汉字,要求逐个打入汉字拼音,从所显示的同音字中选取所需要的汉字。这种方案建立在汉语拼音的基础上,因此,有一定汉语拼音基础者学起来很容易,但因其重码太多,选码费时费力,速度很慢,使用颇为不便。
②形码。代表为五笔字型。
五笔字型是王永民研究出来的汉字输入法,是我国目前应用较广、影响较大的汉字输入技术。虽然在开始学习需要记忆的字根较多,上手较慢,但是由于它具有重码率较低等特点,经过一定时间的学习与实践后会逐渐适应,输入速度也会逐步提高。
③声形码代表为自然码。
自然码是周志农完成的一个以音为主,以形为辅,尝试集各种输入方案的优秀功能为一体的汉字输入法。自然码的核心是拼音输入,吸收了双拼输入法的键盘布局,输入词为主,单字的输入引入了形码的部分技巧。但双拼键盘布局以及形码部分记忆量较大,体系较繁杂,熟练掌握仍需花费不少时间和精力。
本发明的目的,是突破电脑的学习和使用中汉字输入这个“瓶颈”,使汉字输入法更为简单实用,妥善解决汉字输入中“好学”与“好用”的矛盾。
本发明技术方案如下①单字构件一是字元,指构成单个汉字的最小汉字,如“桂”字由字元“木土土”构成;二是笔形,指单笔或由单笔组合而成的非字元的字块,如“汉”字由字块“氵”和字元“又”构成;②编码原理概括为两条,一是“字取声母”,即所有单字一律取其声母为首码;单字中的所有字元也取其声母为代码,如“桂”字,第1码取其本字的声母G,第2码取字元“木”字的声母M,第3码取字元“土”字的声母T,那么“桂”字的代码即为GMT。各声母码与键盘字母的对应关系为 其中,声母“zh、ch、sh、n”分别并入声母“z、c、s、l”中;“V”用作查询键,用以查询不明编码;“N”为难字的借代声母。
二是“形取首笔”,即所有构成汉字的“笔形”按其首笔分成“横竖撇捺折”5类进行取码,代码分别为与它们有相同首笔的5个字母“横E、竖I、撇A、捺U、折O”,如“汉”字第1码取单字声母H,第2码取形“氵”的代码“U”,第3码取“又”的声母Y,这样“汉”字代码为HUY。
③拆分原则,有以下三点一是“按级拆取”全部构件按级别高低依序分成3级“字元→笔形→单笔”。单笔只有首笔,是笔形中的最简形式,为叙述方便,列为单独的一级,而实际上属于“笔形”构件。拆分时,级别高的构件优先拆分,但字元不能单纯地以笔划数最少来确定,而是从笔顺方向具体来确定是否字元。如“换”拆成“扌奂th”。
二是“字小优先”对于构成汉字的更小汉字,除后面另有规定的除外,应尽量把笔划取小。如“锌”取码为“xals”右边取“立十”而不取“辛”。
三是“下拆一层”笔划之间关系分为四层“散→连→交→单”。散是指构件笔划间有空间距离,如“权”字;连是指构件笔划间无空间距离,如“辛”字;交是指构件笔划间相互交叉,如“丰”字;单是指构成构件的单笔划,如“一”。下拆一层,即按四层关系顺序往下拆一层,有散拆散,无散拆连,无连拆交,交拆单笔,如“人”拆成单笔撇和捺,“贝”拆成下框和“人”,“财”拆成“贝才”。
四是“兼顾习惯”当字元与单笔组合而成的汉字作为单字的构件时,该汉字可不按“字小优先”进行拆小,以兼顾习惯,便于理解。如“圣”不拆成“又十一”而拆成“又土”④编码方法一是单字编码,全码码长4码,首码取汉字声母码,其余3码依笔序按拆分原则取“首件,次件,末件”代码。不足4码加取最后部的字元,如无,则加取末笔码。如“树”字取“木又寸”全码为“smyc”;“汉”字“氵又”加取末笔后全码为“huyu”;再如“顶”字加取最末字元后部字元为“丁页贝”,编码为“ddyr”。
二是词组编码,即由一个以上单字组成的字串的编码,方法为二字词组各取前两码,三字词组取各字首码及末字第二码,三字以上词组取前三字及最未字首码。如“一根”取码“yegm′;“一根码”取码“ygmw”;“一根码输入法”取码“ygmf”。
三是简码编码简码分一级,二级,三级简码,方法是先输入相应个数编码,再加空格断码键。如一级简码“的”,键入“d”加空格即可;二级简码“大”,键入“de”加空格即可。
⑤容错处理。所谓容错处理,即当单字输入时,对有可能出现的错误作出相应的包容处理。内容有声母容错zh,ch,sh,n分别与z,c,s,l声母合并使用。
识读容错当不知道单字或字元发音而不能确定其声母码时,可以根据该字的起笔取相应单笔码“EIAUO”来作替代声码,也可用“N”来作难字的替代声母;
多音容错多音字给出全部不同读音的不同编码。
发明与
背景技术
相比所具有的有益的效果①单字构件更为简明实用现有的形码技术中,其构件往往只有一种,即字根,字根因划分过细,一般数量较大,编码及拆分没有优化的余地,也增大了记忆量和学习的难度。
本发明把单字构件分成字元和笔形两种,既简明又极易掌握,摆脱了字根表的束缚,将机械的记忆变为原理性的应用,使拆分和编码自然流畅。
②编码原理更加科学合理现有的技术中,声码如拼音码,只取其声母韵母,而导致重码过多;形码如五笔字型,只取其字根码,且各个字根形状各异,学习量过大,掌握不易。声形码如自然码,虽然力图揉合前者好学和后者好用的特点,但因为在编码的原理上没有突破,因而,只能作有限的改进。
本发明采用的声形编码原理,只用“字取声母,形取首笔”八个字,就概括出方案的主要内容,突破了原有输入法中各种繁琐的东西,使本法既能很容易地取出声码,又可以很容易地取出形码。其突破之处在于对于取声部分,提供了难字声母“N”,使不能认识的字也能方便地编出代码;对于取形部分,按五类首笔取具有同样首笔的“EIAUO”为代码,既使所有取形构件得到了全面覆盖,又极大地简化了编码方法,使方案易学实用。
③拆分原则更为自然直观现有的声形码技术中,由于构件没有级别之分,故无按级拆取的方法。拆取字根时,正因为没有级别的概念,拆分一律从不变的字根拆起,字根形状各异,给拆分带来困难。而由于采取取大优先,还易造成代码位数过少,形成重码。
本发明由于建立了构件的级别概念,按级拆取,不从相交笔划中拆出非单笔划构件,因此极为直观,易于快速拆取,保证了拆分和编码的唯一正确性。由于采取了取小优先的原则,加上改进了取码方法,因此每个单字都能取出4位代码的全码,这就为科学合理地分配和调整各级简码、离散重码提供了极大的自由空间。
④编码方法整齐划一现有的声形码技术中,必须根据不同情况使用不同的编码方法,如五笔中的键名汉字、成字字根、单个汉字都有各自不同的编码方法,增大了方案的内容和复杂的程度,也增加了学习者的学习负担。
本发明编码不用区别编码对象的不同情况,只用同一种方法进行编码,精简了方案的内容,减轻了学习的负担,使本方案简单易学,快捷实用。
⑤容错技术得到了系统应用现有的声形码技术中,也会有一些容错码,但量极少,作用甚微。
本发明中提供了系统的容错方法,有声母容错、识读容错、多音容错。这些容错技术的系统采用,为录入提供极大的便利。特别是识读容错,更是本发明之独创。
实施例1(单字编码)李lmz、好hlz、比bbb;体tab、汉huy、提ter;全qa、下xe、次cu、登do。
实施例2(词组编码)原理yclw、声码ssms;输入法srfu、一根码ygms;中国人民zgrm、扬眉吐气ymtq。
实施例3(句子编码)过去人们努力研究科学的普遍目的是了解自然,现在的人们Gcqt rama llla ysjx khxu d pbbh midb s lojj zara,xwze d rama则试图找出控制自然的方法和手段来保护人类和改善生活。zb sutk zeg co keza zara d fufu h sada le bahe ralm h gjsy slhd.但是,科学如果使用不当,它的破坏力将会是无法控制,因而Dasr,khxu rlgi saya bedi,tudb phla juha s wefu keza,ykee是极为可怕的。科学本身是无辜的,而问题主要在于人类s jmwu kdpx d.khxu besa s wegs d,e wmtr zuyx zeye ralm过度滥用了科学。gcdg luya l khxu.
权利要求
1.一根码计算机汉字输入法,与现有汉字键盘输入法的共同之处,在于以英文字母键为码元,最大码长4码;本法取码以声为主,以形为辅,其特征在于以“字元”和“笔形”为构成全部汉字的两类构件,其中,“字元”是指构成单个汉字的最小汉字,如“桂”字由字元“木土土”构成;所谓“笔形”是单笔划或由单笔划组合而成的非字元的字块,如“汉”字由字块“氵”和字元“又”构成;本法的取码方法为①字取声母即所有单字一律取其声母为首码;单字中的所有字元也取其声母为代码,如“桂”字,第一码取其本字的声母G,第二码取字元“木”字的声母M,第三码取字元“土”字的声母T,那么“桂”字的代码即为GMT;②形取首笔所有构成汉字的“笔形”按其首笔分成“横竖撇捺折”5类进行取码,代码分别为与它们有相同首笔的5个字母“横E、竖I、撇A、捺U、折O”,如“汉”字第一码取单字声母H,第二码取形“氵”的代码“U”,第三码取“又”的声母Y,这样“汉”字代码为HUY。
2.根据权利要求1所述的输入法,其特征在于“字取声母”中所取声母与键盘的对应为键位Q对应声母q、W对应w、E对应e、R对应r、T对应t、Y对应y、0对应o、P对应p、A对应a、S对应s和sh、D对应d、F对应f、G对应g、H对应h、J对应j、K对应k、L对应l、N对应“难字声母”、Z对应z和zh、X对应x、C对应c和ch、V对应“查询键”、B对应b、M对应m。其中,声母“zh、ch、sh、n”分别并入声母“z、c、s、l”中;“V”用作查询键,用以查询不明编码;“N”为难字的借代声母。
3.根据权利要求1所述的输入法,其特征在于以“点”为首笔的“笔形”可视作以“捺”笔为首笔的“笔形”进行取码。
4.根据权利要求1所述的输入法,其特征在于在对汉字进行编码时,声母zh,ch,sh,n分别以z,c,s,l为借代声母,称之为“声母容错”,例如“女”编码为“lo”。
5.根据权利要求1所述的输入法,其特征在于在对汉字进行编码时,对不知道读音的汉字或字元根据其“横、竖、撇、捺、折”不同起笔,分别用“E、I、A、U、O”字母作借代声母,也可用“N”字母作借代声母,称之为“识读容错”,例如“彗”正确编码为“HFF”,识读容错码为“EFF”或“NFF”。
6.根据权利要求1所述的输入法,其特征在于当汉字存在一字多音的情况时,给出各种不同读音的全部正确编码,称之为“多音容错”,例如“行”读hang时编码为hcc,读xing时编码为xc。
全文摘要
一根码计算机汉字输入法,是一种高效的声形码输入法。它以字元和笔形为汉字的构件,字元指构成单个汉字的最小汉字,笔形是单笔划或由单笔划组合而成的非字元的字块。主要内容概括为8个字:“字取声母”,即所有单字一律取其声母为首码,单字中的所有字元也取其声母为代码,如“桂”字的代码为gmt;“形取首笔”即所有构成汉字的“笔形”按其首笔分成“横竖撇捺折”5类进行取码,代码分别为与它们有相同首笔的5个字母“横E、竖I、撇A、捺U、折O”,如“汉”字代码为huy。一根码以至简化的方案,实现了“大词汇量、多简码字、高容错度、零重码率、易学难忘”的超高性能指标,完美地解决了汉字输入中“好学与好用”的矛盾。
文档编号G06F3/023GK1373408SQ02104850
公开日2002年10月9日 申请日期2002年2月11日 优先权日2002年2月11日
发明者黄桂清 申请人:黄桂清
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1