一种有助于正确书写汉字的形码输入法的制作方法

文档序号:11707198阅读:920来源:国知局

一、技术领域:本发明的名称为“一种有助于正确书写汉字的形码输入法”,简称“易学高效形码”,是一种按照汉字字形编码的计算机键盘汉字输入方法,属于汉字信息处理技术研究领域。

二、

背景技术:

信息时代要求对文字能够进行方便快捷的信息化应用。英文可以直接输入计算机,转换成数字码能够高效地用于手机,而汉字计算机键盘输入必须借助汉字编码构成输入法才能进行。我国研究计算机汉字输入法已有三十多年的历史,申请发明专利一千件以上,但至今不能全面满足社会需求。

现在大多数人使用拼音输入法。以汉语拼音作为汉字编码使用,在gb2312-80汉字内重码率为99.8%,智能拼音虽然减少了现代汉语连续文本的重码字挑选,但是整句输入不能避免返回修改。例如,文汇报文章的句子“崇明岛与上海桥隧相接,水清、气洁、土净”,用微软智能拼音整句输入,显示为“重名岛屿上海桥隧相接,水情、气节、途径”,必须返回逐字挑选进行修改。使用拼音输入法,输入不认识的汉字必须先查字典,输入非连续文本如人名、地名或古诗、古文等仍然需要在重码字中查找,输入效率不高。不能熟练使用拼音输入法的计算机用户不在少数,包括没有学过汉语拼音、因受方言影响拼读有误、我国少数民族及外国人学汉语发音不准确等情况。区分平舌音和卷舌音是学习汉语拼音的难点,师、狮是卷舌音,但蛳是平舌音;寺是平舌音,但诗、侍、恃是卷舌音,必须用心学习和记忆。

使用拼音输入法长期在同音字中挑选汉字,会导致书写思维的荒疏,使汉字的传承和发展受到不利影响。人民日报2010年报导:“最近一项调查显示,两千余名受访者中有逾八成的人承认写字有困难。提笔忘字,频写错别字,正成为一个令人忧心的文化现象。”同年的两会上,有4名委员的提案呼吁重视“汉字书写文化没落现象”。但议论多年,呼吁频频,至今情况不见好转。解放日报2015年12月5日刊登《瞿秋白最后的日子》一文,竟把鲁迅写给瞿秋白的对联“人生得一知己足矣,斯世当以同怀视之”错为“世事当以同怀视之”。在《中国语言文字网》对国家语委咨询委员会第14次会议的报导中,说到“对当前社会不规范的用语用字现象以及学生的语言文字修养担忧”的同时,却把咨询委员会主任讲话中“任何改革措施都要紧紧依靠法律”写成“仅仅依靠法律”,几个地方教育网站的报导也都写为“仅仅依靠法律”。搞语言文字的人也是错别字频出,可见问题之严重。

怎样才能让汉字在信息化环境下更好的应用呢?中国工程院院士许居衍指出:“形码输入法对汉字的传承有重要作用。形码是依形编码,输入时就相当于直接输入汉字,会写就会输入,会输入就会写。通过这种方式,人们就不会忘掉汉字的笔画和结构,这是传承汉字文化的上上之策。”(光明日报2013年9月28日《“汉字热”中热议汉字文化传承》)在搜狗输入法五周年庆典高峰论坛上,四通打字机发明人王辑志不忘提醒:字形输入法有潜力,把搜狗输入法的理念放到字形输入法里面,有很大空间。(搜狐it,《高峰论坛:中文输入法的前世、今生和未来》2011年06月14日)列入国家标准的汉字有几万个,国家语委2010年调查,当年汉字使用的字种共有10613个,而多数用户只认识几千字,只有使用形码输入法才能不依赖字典输入字库中的全部汉字。因此,能够满足社会需求的汉字形码输入法是不可或缺的。用26个字母编制汉字形码有475254个编码码位,6763个gb2312-80汉字的编码只占用1.4%;21003个gbk汉字的编码也只占用码位中的4.4%,故能够设计出低重码率的汉字形码。由于重码很少,编制智能化软件比拼音输入法难度小,重码选择要比智能拼音少得多,输入性能会更好。

但是现在使用的形码输入法不能满足规范、易学、高效、通用的要求,快速性好的产品需要死背口诀难学难记,拆分独体字违反汉字规范;而易学性好的产品快速性不佳。如何研究新的形码产品有各种不同观点:有人主张专门研发识字教学用形码,将来再学打得快的形码;有人说要区分“看打”还是“想打”,写文章是“想打”,慢一点没关系,等等。然而正如国家语委文件所指出:“语言文字信息处理的技术和使用水平,已经成为衡量国家现代化水平的重要标志。”(《关于进一步做好语言文字信息化工作的若干意见》)北京语言大学党委书记原语委副主任李宇明指出:“我们现在最大的任务是抢占汉字信息化的制高点,让汉字在信息化环境下更方便的应用,并获得信息化的话语权与语言红利。”当前最需要的,是向社会广大计算机用户提供易学高效、有效防止提笔忘字频写错别字的汉字形码输入法。

汉字形码输入法的研发包含汉字编码技术和输入法软件技术两个层次,由于软件技术已经成熟,因此研发的关键在于汉字形码编码技术的创新。

与此同时,使用汉字字典查生字很不方便,直接翻页查字的愿望长期不能实现,在信息时代用电子字典查生字仍然需要找部首、数笔划,效率很低,不符合信息时代的需要。理想的解决方案,是编制适合汉字排序检索的汉字形码字典,并且与计算机汉字输入使用同一种形码,做到一次学习,两种收获,使学编码和学汉字相辅相成,这也需要通过汉字形码编码技术创新来解决。

本发明的内容,主要体现在汉字形码编码技术创新方面。

三、

技术实现要素:

(一)“易学高效形码”要解决的技术问题

①提高形码输入法的易学性,不背助记口诀,不学拆分规则,易记不忘,各类计算机用户都能够较快学会(小学生通过老师讲解学习使用)。

②提高形码输入法的快速性,使输入效率超过智能拼音输入法和现有形码输入法,包括提高gb2312-80汉字的单个汉字输入快速性和词组输入快速性,提高数学物理符号和数字序号输入快速性,以及提高gbk汉字输入的便捷性。

③提高形码输入法的规范性,编码方法符合各种汉字规范。

④编码方法与学校汉语教学保持一致,汉字编码的思维过程与汉字书写一致,有助于正确书写汉字,从根源上防止提笔忘字频写错别字。

⑤使汉字形码输入法获得良好的通用性,适合想打、看打、听打;适合中小学生、普通用户和专职录入人员使用,一次学习终生适用。

⑥编码方法适合编制直接翻页查字的汉字字典和直接输入的电子字典,汉字排序检索与计算机汉字输入使用同一种形码。

⑦将“易学高效形码”转换成数字码能够高效地用于手机汉字输入。

(二)“易学高效形码”采用的技术方案

1.遵循新的汉字编码思路

传统的汉字形码编码技术沿袭“建立汉字键盘”、“拆分汉字拼形输入”的编码思路。“易学高效形码”不采用这种思路,因为汉字输入的实质是向计算机键入汉字的编码,上述传统思路只是一种比拟化表述,与书写汉字的思维过程不一致,造成学习困难,并引起拆分方法的争论,制约汉字编码技术的发展。

“易学高效形码”的编码思路是:编码部件从《信息处理用gb13000.1字符集汉字部件规范》“汉字基础部件表”中选取,不制订新的拆分规则,应用编码部件的音形特征,用26个字母代码(键盘拉丁字母,即汉语拼音字母)对全部编码部件进行理据性表达,按照编码规则对汉字直接编码输入。

2.采用“编码部件音形综合表达方法”

形码输入法借助编码部件的读音或形状编码早已有之,但由于只有单项的不完整的编码方法,不能达到易学高效的目标。“易学高效形码”采用的技术方案是整体配套的“编码部件音形综合表达方法”,包含以下内容:

(1)编码规则简单易操作

①单码成字部件编码,在编码部件的代码后补加部件首笔笔形和末笔笔形的两个代码,如:木=mhn,其中,木-m,一-h,\-n(代码关系用短横-表示,编码关系用等号=表示,下同)。

②两码合体字编码,按照笔顺先后取两个编码部件的代码并补加部件末笔笔形的两个代码,如:炉=hhnp,其中,火-h,户-h,丶-n,丿-p,输入词组时不加补码,如:炉灶=hhht。

③三码合体字编码,按照笔顺先后取三个编码部件的代码为其编码,输入时补空格键结束,如:甄=xtw,其中,西-x,土-t,瓦-w。

④四码合体字编码,按照笔顺先后取四个编码部件的代码,如:跃=kzpd,其中,口-k,止-z,ノ-p,大-d。

⑤多于四码的合体字编码,依照笔顺先后取编码部件的前三个代码及最后一个代码,如:赣=liab,其中,立-l,日-i,十-s,贝-b;输=csrd,其中,车-cs,人-r,刂-d。

(2)应用读音特征表达成字部件、有名称的部首及半字部件,并实行字母代用

①编码部件是汉字,代码是拼音首字母,例如:

贝-b,立-l,口-k,赔=blk;木-m,又-y,寸-c,树=myc;火-h,口-k,木-m,燥=hkkm。

②编码部件是有名称的部首,代码是名称实义字的拼音首字母:

左耳旁阝-e(耳),单人旁亻-r(人),走之儿辶-z(走),例字:附=erc,过=cz,陪=elk。

按上述方法,字母o、v没有用处,字母a、i用处很小。实行字母代用,用字母o表达编码部件水和氵(以o代s),用字母v表达编码部件手和扌(以v代s),用字母a表达草字头艹和乂(叉)(以a代c);用字母i表达日(以i代r);有效增大编码空间,减少重码。

③借用整字读音表达半字编码部件,例如:

刺字左部束-c,刺=cd,肺字右部市-f,肺=uf,

韩字左部-h,韩=hw,衣字上部亠-i,衣=ii,

衣字下部-i,衣=ii,殷字左部-i,殷=ijy,

纠字右部丩-j,纠=lj,青字上部-q,青=qu,

④单笔画,代码是名称的拼音首字母:

横是h(一-h),撇是p(丿-p),提是t(/-t),点捺是n(丶-n,\-n),以o代s表示竖(丨);

例字:画=htu,向=pnk,或=gkt,主=nw,旧=oi,木=mhn,昌=iihh。

(3)应用形状特征表达编码部件

①编码部件不是汉字、名称不通用,代码是与其形状相近的字母:

如:丆,彐,,凵,冂,对应的代码是t,e,f,u,n,

例字:页=tb,寻=ec,右=fk,画=htu,周=ntk。

②各种折笔用与其形状相近的字母表示:

用l表示l形折乚ㄥくしl等,如:吼=kzl,厶=vln,女=nlh,民=mzl,断=mmlj;

用s表示s形折ㄅ等,如:巧=ghs,弓=gzs;

用z表示z形折和半z形折乙乛等,如:亿=rz,虱=zpc,司=zhk,买=zed,也=yzl。

(4)双码部件整体表达法

对一部分编码部件进行双码整体表达,两个字母代码即是双码成字部件的编码,不拆分汉字基础部件,应用音形特征保持表达理据性,保持编码规则最简化,有效减少重码,提高输入效率。例如,独体字止、重如果都用z表示,易学易记,但重码不少:芷董、趾踵……,为解决重码问题,很多形码输入法都把重字拆分,拆分方法难学难记,且违反汉字部件规范。

“易学高效形码”不拆分重字,取为双码部件进行整体表达,有效减少了重码:重=zt,z为重字拼音首字母,t为下部土字拼音首字母,与其他形码的拆分方法比较如下:

一体化形码:重=zt,止-z,踵=kzzt,趾=kzz

五笔字型:重=ノ一日土=tgjf,止-h,踵=khtf,趾=khhg

郑码:重=千日二=mekb

“双码部件整体表达法”易学易记,不拆分独体字,符合汉字部件规范,仍按前述编码规则编码,不需要增加新的编码规则。

例如双码部件车=cs,在合体字中是取两个码,还是只取前码或后码,由前三后一的规则来决定:

①在3码、4码字中车取双码cs:连=csz,轮=csrb,恽=xgcs(辶-z,匕-b,冖-g,忄-x),

②多于4码的字,车之前已取了2码,车取第3码即前码c:鲢=uhcz,最后取z(鱼=uh),

③多于4码的字,车之前已取了3码,车取最后1码即后码s:辉=xwgs(光=xw)。

(5)词组编码简单易学适合字词混合输入

在gb2312-80汉字字库中编入25000多条常用词组,重码率低于4%,覆盖率高,并编入多种数字序号和数学物理符号,与汉字等同输入。编码规则简单易学:

两字词组:[1首][1末][2首][2末],呈献=kwsq(口-k,王-w,十-s,犬-q)

三字词组:[1首][2首][3首][3末],计算机=yzmj(讠-y,-z,木-m,几-j)

四字词组:[1首][2首][3首][4首],望而却步=wetz(亡-w,而-e,土-t,止-z)

多字词组:[1首][2首][3首][末首],为人民服务=wrmw(为-w,人-r,民-m,夂-w)

词组编码取首末两码最方便,与双码部件取首末两码的规则一致,适合字词混合输入。

编入数字序号、数学物理符号,提供符号编码表供使用,比插入符号更快速。

3.编码方法繁简兼容,gbk汉字编码方法与gb2312-80汉字相同

gbk汉字有21003个字符,重码更多,为减少重码,有的形码输入法改用5码(98王码国际版:镕=qpwwk),增加了学习难度,降低了输入效率。“易学高效形码”的编码方法繁简兼容,gbk汉字编码方法与gb2312-80汉字相同,只需增加若干编码部件,输入gbk汉字重码不超过10个,不需要翻页查找,输入gbk汉字不再难,能够保证整个输入法的高效率。

用于“通用规范汉字”编码,不需要添加编码部件。

4.一体化汉字输入

(1)“易学高效形码”适合编制直接翻页查字的汉字字典

设计“易学高效形码”编码时,考虑到与部首检字法有良好衔接,适合编字典之用:

①《汉字统一部首表》中有80%被划入《汉字部件规范》之“汉字基础部件表”,“易学高效形码”将其选为编码部件,并增选合体字部首鱼、齿、骨、革等。

②编码部件的归并与部首检字法一致,例如:兰字头(丷)归入八,危字头()归入刂,危字的尾(,两画)归入卩,四点(灬)归入火,寻字头(彐)与彝字头(彑)同部等等。

③常用部首依据其音形特征表示,可与部首检字法比照衔接,《易学高效形码字典》汉字排序之片段如下(数字表示声调):

汉字的字形用英文字母进行有理据的表达,如咐字由口人寸构成,编码是krc,口-k,亻-r,寸-c,易学易记,查字速度超过传统方法许多倍。《易学高效形码字典》即是“易学高效形码”的编码辅助教材,学汉字与学编码相辅相成。

(2)“易学高效形码”转换为数字码用于手机汉字高效输入

按照《gb/t18030-2000数字码规范》将“易学高效形码”转换为数字码(与英语的转换规则相同),可用于手机汉字输入,重码数少于10,一键选中不需要翻页查找,实现字母键盘和数字键盘汉字输入一体化。转换规则如下:

a、b、c-1,d、e、f-2,g、h、i-3,j、k-4,l、m-5,

n、p-6,o、q、r-7,s、t、u-8,v、w、x-9,y、z-o。

输入实例:输入“锋”字,字母编码jwf,转换成数字码492,键入键盘后显示提示:锋、铛、吮、郢、咚,选定“锋”字即可。

(三)使用“易学高效形码”的有益效果

1.“易学高效形码”具有良好的易学性,各类计算机用户都能较快学会

①以“柬”字和“炼”字的编码为例与现有技术进行对照:

“易学高效形码”是对汉字直接编码:柬=jx,炼=hjx,j、h为柬和火的拼音首字母,x为柬下部小字的拼音首字母;炼字右部是柬的简化,编码仍为jx,易学易记。五笔字型的拆分与编码为:柬=一四小=glii,炼=火七八=oanw,拆分出的部件与代码的对应关系是,一-g,四-l,小-i,火-h,七-a,-n,八-w,拆分规则难学难记,编码部件与字母代码之间没有音形联系,三码字要编识别码,柬与其简化形式要学两种拆分方法,因此要学拆分规则,背助记口诀,学识别码的编法,学习难度极大,需要很长时间才能做到熟练编码输入。有人说,对独体字进行拆分可以减少编码部件的数量,背口诀容易。这是一种误导,因为汉字独体字的数量是确定的,减少编码部件就要多拆分独体字,编码部件减少一个“柬”,就要学会柬的拆分方法。拆分方法难学难记,编码速度也要减慢;对独体字不搞拆分,整体表达,易学易记,编码速度更快。对有理据的表达只要见到编码部件能够识别即可,并不需要背口诀记忆。

②折笔表达方法与现有技术对照

《汉字折笔规范》有25种折笔笔形,五笔字型统一用n表示,认知码统一用数字9表示,容易产生重码,且代码与笔形没有音形联系。郑码用x表示半z形折,用y表示z形和s形折,用z表示l形折,虽有利于减少重码但缺少表达理据,不利于记忆。只有表形码用l表示l形折,用z表示z形折和半z形折比较合理。“易学高效形码”对25种折笔笔形依据形状特征分为l形折、s形折、z形折和半z形折,既有利于减少重码,又容易学习记忆,最为合理。

2.“易学高效形码”具有良好的快速性

形码输入法的快速性与以下因素有关:编码速度,重码多少,平均码长的长短,符号输入便捷性,gbk汉字输入的便捷性等。

①“易学高效形码”重码字数量最少

形码输入法重码字数量比较(gb2312-80)如下:

易学高效形码:一级汉字重码73字/1.1%,全部汉字重码2.8%

五笔字型:一级汉字重码134字/2%,全部汉字重码8%

郑码:一级汉字重码178字/2.6%

认知码:一级汉字重码684字/10%

“易学高效形码”和五笔字型数据由发明人统计得出,其他数据取自《计算机世界》“认知码不宜推广”一文。

②“易学高效形码”不拆分独体字,编码速度快,与现有技术对照如下:

易学高效形码:垂=ch,我=wg,

五笔字型:垂=ノ一艹士=tgaf,我=ノ扌乚ノ=trnt,

郑码:垂=千艹二=meeb,我=ノ扌戈=mdhm

③“易学高效形码”两码字和三码字多,四码字少,平均码长小

易学高效形码:门=mz,米=mm,石=shh,品=kkk,

五笔字型:门=uyhn,米=oyty,石=dgtg,品=kkkf。

④“易学高效形码”编入数字序号和数学物理符号,提供符号对照表,比插入符号快速如:dva=①,dvb=②,dvc=③,dua=(1),dub=(2),duc=(3),dr=π,dra=α,drb=β,

dacz=⊥,daj=∠,∴=dasy,dalg=log,dajf=∫,dano=№,dacm=cm,dapm=m2

⑤“易学高效形码”在gb2312-80汉字字库中编入词组25000多条,重码率低;用字词混合输入方便快速,并为编制智能化整句输入软件创造了良好条件。

输入实例比较:《星光下,那一道辙痕》摘录(2016年6月26日解放日报文章)

那是/1920/年/2/月/的/一个/凌辰,说/是/凌辰,还有/星光/依稀,但/路上/仍是/黑/得/瘆/人。北京/朝阳/门,此时/驶/出/一辆/旧式/带/蓬/骡/车,在/通往/天津/的/土/路上/卷起/了/一路/行/尘。”整段输入没有重码。

用微软智能拼音整句输入,显示为:“那1920年2月的一个凌晨,说是凌晨,还有星光议席,但路上仍是黑的神人。北京阳门,此时是处一辆旧时代碰落车,在通往天津的土路上卷起了一路星辰。”有多处需要返回逐字修改,在同音字中挑选。

⑥“易学高效形码”gbk汉字编码方法与gb2312-80汉字相同,两个字库能够组成链接式软件,gb2312-80汉字为常用档,gbk汉字为备用档,输入gbk汉字重码不超过10个,不需要翻页查找,方便快捷,并能够保证整个输入法的高效率。以输入“镕”字为例:

“易学高效形码”:镕=jgbk,输入常用档无显示,转入备用档,再输入jgbk即显示“镕”字;

五笔字型:因不能事先判断“镕”是否为gb2312-80汉字,先编为4码,镕=qpwk,输入无显示,再改用98王码国际版,重新编为5码,镕=钅宀八人口=qpwwk,输入后方能显示。

3.“易学高效形码”具有良好的规范性

“易学高效形码”符合汉字笔顺规范、折笔规范、部件规范、内码规范等各种规范,与学校的汉语教学一致。对照现在使用的形码,常有不符合汉字规范的情况,如五笔字型把戊、我等字的末笔丶改为ノ;郑码把达、建等字的辶、廴放在大、聿之前,违反笔顺规范。

4.“易学高效形码”编码思维过程与汉字书写思维过程一致,有效防止提笔忘字

小学生学汉字,独体字学读音和笔画,合体字学读音和汉字构成;“易学高效形码”编码,独体字由拼音首字母和首笔画、末笔画的代码组成,合体字由构成汉字的各部件拼音首字母组成,并列比较很容易看出相关性:

学汉字——石,shi,一ノ丨乛一,“易学高效形码”——石=s+一一=shh,

世,shi,一丨丨一l,世=s+一l=shl,

木,mu,一丨ノ\,木=m+一\=mhn,

碟,die,石、世、木构成,碟=ssm。

对照五笔字型:石=dgtg,世=anv,木=ssss,碟=dans,与汉字书写缺少相关性。

使用“易学高效形码”有助于正确书写汉字,有很强的防止提笔忘字频写错别字的功能。书写汉字是同时思考字音、定义、字形而写出,“易学高效形码”编码的思维过程也是想字、编码、键入,如符合的符是竹字头-z,符=zrc;附和的附是耳刀旁阝-e,附=erc,因此会写就会打,会打就会写。

再如翱字左下部是大十(ds),不是本,“易学高效形码”翱字编码bdsu——白大十羽,编码与书写一致。肺、沛等字的右半部分是市,不是城市的市,容易写错,而市在gbk汉字中是一个字,音fu;在“易学高效形码”中,市-f,肺=uf,沛=of,会编码就不会写错。

5.“易学高效形码”具有良好的社会通用性。

良好的易学性和快速性,与汉语教学一致,使其适合中小学生、普通用户和专职录入人员等各类用户,适合想打、看打、听打;一次学习终生适用。而设想为小学生识字专门设计简单易学的形码,以后再学习快速性好的形码,显然其学习投入更大,能够快速输入的时间向后推迟很多。对于没有学好汉语拼音和方言口音重的人,学习“易学高效形码”更有到;对于用字范围广、要求输入速度快的用户,学习“易学高效形码”能够更早受益。

6.用《易学高效形码》编制直接翻页查字的汉字字典和直接输入的电子字典,定位准确,查字速度极高。如要查“卖官鬻爵”的鬻字,编码为gmmt,(弓-g,米-mm,丅-t)直接查到鬻字读音为yu4。而用《新华字典》部首检字表,查弓部无此字,要查鬲部,数笔画是10画,查部首表,鬲部在105页,再查,鬻字在正文637页,翻到才能查出鬻字读音为yu4。如果不知道有鬲部,要去查“难检字笔画索引”,数出笔画是22画才能翻到。

7.用《易学高效形码》数字码进行手机汉字输入效率高,输入1-4个数字显示所需汉字,重码小于10,不需要翻页查找。

四、具体实施方式

1.利用本专利提供的“易学高效形码gb2312-80汉字及词组计算机汉字输入软件”和“学习材料”进行计算机汉字输入,提供“《新华字典》易学高效形码检字表”作为辅助学习材料,并可以更便捷地用《新华字典》查生字。

2.利用本专利提供的“gb2312-80汉字码表”(扩展至《新华字典》简体字收字范围),编制直接翻页查字的《易学高效形码字典》和直接输入查字的《易学高效形码电子字典》。

3.利用本专利提供的“gb2312-80汉字及词组码表”以及“gbk汉字码表”,研发链接式输入软件及智能化输入软件,为社会提供更优秀的计算机汉字输入法产品。

4.在计算机汉字输入法推广成功之后,利用本专利提供的“gb2312-80汉字数字码码表”,研制嵌入式手机汉字输入软件。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1