专利名称:鼎立世界码及其改进兼容键盘的制作方法
技术领域:
本发明是一种汉字及词语以及全角字符的编码,可用普通英美键盘当然更好是用其改进兼容键盘对电子计算机等进行汉字及其词语等的输入,也可用于字典词典等对汉字及其词语进行排序和检索,也可用于用汉字及其词语命名的事物进行排序和检索。
汉字及其词语的输入法已不下千种,而键盘编码输入仍是主流。键盘输入法计有三种类型,音码、形码及音形混合码。一般音码,有易学、创意输入和听读输入时不打断思维、可认读而不会写的字和词语也可输入、好的音码输入码短输入速度也快等优点,但也有使用受方言限制和不知读音的字词不能输入的缺点。形码一般重码率低录入时可不看或少看提示行用数字选择键进行选择,因此录入速度快。另外形码虽然有不受方言限制的优点,但要求使用者对汉字的结构笔顺等有准确的掌握,也就是不会写或不可准确写出的字不能输入。而音形混合码,不但不能取长补短,反而常常两短相兼而两长又不能充分发挥。各种编码输入法常常自成体系,使用时需要切换,使音码形码互相取长补短难以实现。现在的键盘输入法也有几百上千种,然而就装入计算机以供使用的而论,不过十多种,而大家津津称道的不过五六种,其中包括全拼、简拼、双拼、自然码等普通话拼音输入法。用汉语拼音方案输入(如全拼输入法),对于标准普通话者而且又有一定的拼音基础的,可以说是一种不用学习的输入法,但其输入码长,输入速度慢。传统简化拼音输入法(如简拼、双拼、自然码等),单纯使用复韵母和双键声母的单键化技术(即用一个码键代替双字母的声母或复韵母),虽然达到了缩短输入码提高输入速度的目的,但新定义的码键多,有十几个到三十多个,而且一个键常常具有两三重意义,因此学习使用者的记忆量大而且又是机械记忆。这些简化拼音输入法,仍然没有解决音码的方言限制问题,即对于方言者和普通话不标准者,输入时为了分清一些声母和韵母常常感到非常大的困惑,造成很大的输入障碍。音码还由于重码多输入时常需在十几个或几十个同音字词中做翻行选择,很影响输入速度,这是那些专业录入人员很不喜欢的。这些便是音码不太受欢迎的三大原因,有鉴于这些原因,对于绝大多数的键盘输入法的使用者,拼音输入法都只作为一种辅助手段。传统形码,多为构件拼合码,常有上百个构件,多者可达两三百(如五笔字型码、表形码等),而且不少构件很不符合传统的识字教学规范。这么多的字根(构件)记住了还不行,还得理解掌握若干条界定不清的相互矛盾的模棱两可的使学者难以是从的拆字规则和字根(构件)码和键的对应规则,这些规则大多难以说得清道得明,最后只有靠艰苦的强化训练来解决,这便是如今“电脑培训班”多如牛毛的原因。现在的绝大多数的电脑“培训教材”及“培训班”等所集中攻克的输入法,实际上也只有一种——《五笔字型》。这说明了,其他的形码输入法,比之于《五笔字型》差不多或者更不如。由此可见现有的键盘输入法,好用的实在难学,而易学的又实在难用。
在电脑已经作为一种“家用电器”进入寻常人家的今天,汉字及其词语的输入已经不是少数专业计算机或录入人员的事,因此对输入法不仅要求输入速度快更重要的是要求输入法易学好用。本输入法中的音码部分码是普通话的简化拼音码,它用近音合并、近音缩减和合理缩减技术并配合适量的复韵母单键化,对汉语拼音方案进行简化。既达到了码短和记忆量小,同时还提高了拼音码的方言适应能力,特别适合于长江流域的北方方言者使用,但又不影响标准普通话者的输入,从而使拼音码易学好用输入速度快。本输入法中的形码部分不是一般的构件拼合码,而是一种汉字的结构形态解析码,它用二分法提取配件的方法回避了汉字构件(字根)的记忆和复杂的汉字拆分规则,用双笔数字码区位定位法回避了复杂的码和键的对应关系,有关的基本规则、基本范畴和基本概念不多界定确切,而且回归于传统的认识和很靠近于中小学对汉字的识字教学规范,从而使形码易学好用的同时,还使重码率很低,输入时基本上不看提示行进行选择因而输入速度也可以很快。本输入法以音码部分为核心,配以全角标点符号码,然后引接入形码和常用全角字符的编码,三部分码编码分流(各占编码空间互不产生重码)而共存于一体,使用时随意输入不用切换,因此本输入法不仅达到了使音码和型码易学好用速度快和方便输入全角字符的目的,而且还达到了将音码型码结合起来相互取长补短的目的,故称之为《鼎立世界》码。
汉语拼音方案(可简称为国标拼音,参考《新华字典》附录),产生于五十年代,当时的电子技术及信息处理技术水平很低,汉字及其词语输入电子计算机是少数计算机专家的事,该方案只考虑了为汉字标准注音和未来的汉语书面语“拼音化”,没有照顾到汉字及其词语的编码输入问题。从二十六个码元(字母),最长码(最长音节)六码计算,可以产生约三百一十兆不同的编码。这么大的编码空间,只为了四百多个音节编码,可见此方案必有大量的冗余成分可以缩减简化。另外,根据汉语学家们的研究,北方方言的长江流域地区(西南官话分区和下江官话分区),是南北焦汇之地人口密度最大经济最发达,这些地方的北方方言都共同有的一些听觉相近的声母韵母而不加区分的现象。其他的南方方言,甚至北方方言区的北方官话分区和西北官话分区的一些地方,在不同的程度上也有类似的现象。〔参看翟时雨《汉语方言与方言调查》西南师范大学出版社1988年5月;张志公《现代汉语》上册人民教育出版社1983年7月〕看来该方案把北京的方音定成普通话的标准音,本身就没有照顾到汉语的语音现实及其发展的趋势。根据汉语学家们的研究,汉语语音的发展,不管从声母、韵母或声调看,时至今日都有了很大的简化,既然如此从现在起以后有更进一步的简化也不是不可能的。有鉴于这些原因,本拼音输入法,着眼于改造汉语拼音方案,提出了近音合并、近音缩减及合理缩减三项技术,下面逐一进行解释(一)近音合并是在听觉上读音相近而在不少的方言区又不加区分的一些声母和韵母的合并。这虽然会造成有关音节重码即同音字成倍的增加,但是输入时在“五十个与一百个”中进行选择在难度上实际上是差不多的,而方言者输入时的语音障碍才是影响输入的真正的主要矛盾。这样做在保证标准普通话者顺利输入的条件下,在缩短简化输入码的同时又无须使用大量的方言容错码的条件下,扩大了音码的方言适应能力,因此收效是很大的。
(二)近音缩减是从复韵母或音节中缩减一些字母而又能在听觉上维持相近的读音或能产生与英文字母相似的读音,同时还要要求不增加或极少增加重码。
(三)合理缩减是在复韵母或音节中缩减一些字母而又不增加或极少增加重码。
本发明把以汉语拼音方案为基础使用近音合并、近音缩减和合理缩减并配合适量的复韵母单键化所得到的汉字及其词语的普通话拼音编码,叫做普通话科学简化拼音汉字及其词语的编码,简称《科学简拼》码。下面首先说明《科学简拼》原始I型码,简称《原始I型》码(NSI)的编码,只说明相对于国标变化了的声母和韵母,因为汉字的编码即为其读音的音节码,也就是声母和韵母的拼音。
(1)近音合并翘舌声母到平舌声母即ch合并到c、sh合并到s和zh合并到z;鼻音声母n合并到边音声母l;定义字母n为韵母ü。为了简单,分别用表达式表示之C(c,ch);S(s,sh);Z(z,zh);L(l,n);N(ü).
表达式中,()外为码键或码键串,()中为其可以输入的国标声母、韵母或音节,每一项用西文逗号隔开。以后出现类似的表达式不再作说明。
(2)在汉语拼音方案中字母v只用于拼外来语、少数民族语和方言,字母w是u的零声母,y是i及ü的零声母。实际上是三个空闲字母,在此改用于分别单键化三个在拼音中结合力最强的三个a行双字母复韵母(ai)、(an)和(ao)。分别用表达式表示之V(ai);W(an);Y(ao).
(3)缩减辅音韵尾ng的字母g。这样韵母ang和ong实现了合理缩减,韵母en与eng和韵母in与ing实现了近音合并。分别用表达式表示之AN(ang);ON(ong);IN(in,ing);EN(en,eng).
(4)其实韵母(eng),极少数情况下所拼得的音节或复韵母与韵母(en)所拼得的在听觉上也明显不同,即beng(崩) peng(碰) meng(盟) feng(风) ueng(翁)与ben(本) pen(喷) men(们) fen(分) uen(问)因此必须将它们分离开来。为此,除开这极少数的例外仍保持为EN(eng),其他的都进一步近音缩减成n,即近音缩减成N(en,eng)。可是在这种情况下,音节LN(leng,nen,neng)与音节LN(lü,n ü)和韵母自成音节N(en)与韵母自成音节N(ü)又产生了混淆。为此,只有将两者的前者分别恢复成LEN(leng,nen,neng)和EN(en)以与之区分,即对其中的韵母来说恢复成EN(en,eng)。
总之,(3)中的EN(en,eng)的绝大多数都近音缩减成了N(en,eng),极少部分(共计九个)的例外任保留成EN(en,eng)。
(5)韵母uo、iou和ei及儿化韵er分别近音缩减成o、iu、e和r,即可分别表示成O(uo);IU(iou);E(ei);R(er)。(6)单韵母音节gu、ku、fu、hu合理缩减其单韵母u,其它声母的单i韵母音节合理缩减其单韵母i,对于声母j、q、x拼得的音节,此情况扩展到合理缩减其复韵母前的i。
声母不能自成音节,因此为了便于呼叫声母的方便,把规则(6)确定的单韵母音节取名叫做声母音节,其对应的汉字的使用频度最高者(不考虑声调)取名叫做声母字。韵母除少数而外都能自成音节,不再引入相应的概念。现把《科学简拼》码的声母字罗列于下G K F H, B P M, D TL,J Q X, Z C S R。
固 苦 复 护 比 批 米 地 体 力 级 起 系 子 此 是 日共计17个,既可以用这些字母键输入《科学简拼》音节的声母,也可以用它们输入所对应声母字及其同音字。这17个《科学简拼》声母与国标声母是完全相通的,所不同的是少了一个声母字母键N,但有C、S、Z和L四个实际上具有双重的国标的声母功能。
《原始I型》码(NSI)有如下的优点和特点1.机械记忆量少。要记忆的只有三个基本单键化码键V、W、Y和一个新定义ü韵母的码键N(简拼的单键化码键为十二个,双拼为三十多个),其它是一些不太多的合并和缩减规则(非机械记忆,其中变化了的复韵母只有五个)。2.码短。音节码长1-4码,按使用频度前千个汉字计算平均使用码长为2.01,低于简拼(2.22)和双拼相接近。3.由于(1)(3)中的近音合并,能在不影响标准普通话者顺利输入的前提下,和能在不加方言容错码的前提下,大大减轻方言者和普通话不纯者输入时因语音而造成的障碍。4.若不加容错码,方言者和普通话不纯者如果坚持使用,可以纠正那些听觉上明显不同的汉字的方音和错误读音,令其逐渐归依普通话,这对推广普通话是有利的。5.全部码键都为字母键,可用于DOS系统为命令及文件名进行汉语拼音化。6.韵母键和声母键完全分离,除个别码键N而外一个码键表示一个意义。要进一步使音码好用和提高它的输入速度,除了改进编码而外,应当强化词语输入、对软件采取一些优化措施和进行智能化。虽然这些属于软件的构思和编程问题,但编码的特征也应当有利于此。第6.的这个特点,对于智能化可能是非常有利的。
下面再说明一种更加完善的改进《科学简拼》码,简称为《科简I型》码(KJI)的编码,只说明相对于国标改变了的声母和韵母。从NSI码可以看出码键N担当的任务是很重的N(n,ng,en,eng,ü),而且已经出现了韵母(en,eng)和(ü)相混淆的情况,这主要是因为受到了码键数量的限制。在此不妨用字符键适当扩大复韵母的单键化。这样不仅可以进一步降低音节平均使用码长,将码键的功能作适当的调整也可以避免韵母ü产生的有关混淆。下面把KJI型码分点罗列于下(1)C(c,ch);S(s,sh);Z(z,zh);L(n,l);/(ü).
(2)V(ai);W(an);Y(ao);](ang);[(in,ing);\(ong);`(ou);O(uo);E(ei);R(er).
(3)复韵母(eng)与声母b,p,m,f和韵母u相拼成音节和复韵母时,将其单键化成/(eng),其他情况下的复韵母(en)和(eng)都近音合并后再近音缩减成N(en,eng)。(4)与NSI型码(6)相同。
《科简I型》码的优点和特点,与《原始I型》码相比也有了不少的变化,现分点罗列于下1.记忆量少。要记忆的在三个基本单键化码键V、W、Y之外,扩充了五个字符键做复韵母的单键化和一个从新定义了韵母ü的码键(共八个新定义码键,加上缩减变化了的韵母也不超出十二个,仍比简拼和双拼为少),其它是一些不太多的合并和缩减规则(非机械记忆)。2.码短。音节码长1-3码(与简拼同),按使用频度前千个汉字计算平均使用码长为1.84(比简拼和双拼都短得多),比《原始I型》码有了较大的降低。3.由于(1)(2)(3)中的近音合并,能在不影响标准普通话者顺利输入的前提下,和能在不加方言容错码的前提下,大大减轻方言者和普通话不纯者输入时因语音而造成的障碍。4.若不加方言容错码,方言者和普通话不纯者如果坚持使用,可以纠正那些听觉上明显不同的汉字的方音和错误读音,令其逐渐归依普通话,这对推广普通话是有利的。5.韵母键和声母键完全分离,基本上做到一个码键一个意义。6.单韵母和单键化韵母键(以下统称为单码韵母)共计十四个,除I、U和/(ü)外,都是音节的自然结束码键,即大大的提高了音节码的自然分断能力。第5.和6.两点对于输入软件的智能化都可能是很有利的。
最后明说《科学简拼O型》码的编码。对于前述两种科学简拼码,定义和使用“零声母”和“隔音符”,便可分别得到两种O型码,即《原始O型》码(NSO)和《科简O型》码(KJO)。
零声母和隔音符——用字符键’、;和,分别替换i、u和ü的单韵母或复韵母的自成音节的首码,即字符键’、;和,被定义成三种不同的零声母。如汉字验、挖和月,它们的读音的音节的KJI码分别为iw、ua和/e,使用零声母变成KJO码则分别为’w、;a和,e。其他的单码韵母的自成音节前加码键.做隔音符。如汉字额、安、应和育,它们的读音的KJI音节码分别为e、w、[和/,使用隔音符变成KJO码则分别为.e、.w、.[和./。不过,为了减少输入键数,可以安排成输入单码韵母自成音节单字时不使用隔音符和零声母。
O型码比起I型码有如下的两大优点和特点其一是在一个输入码串中新的隔音符、零声母和声母的出现,必然是旧音节的结束和新音节的开始,即音节码完全能自然分断;其二是凡用单码韵母键开头的两码以上的输入码,必然是非《科学简拼》码(即它的空码)。前者对输入软件的智能化可能很有利。而后者,是使用单码韵母键做引接码,引接人常见的全角字符的编码和其他种类的汉字及其词语的编码,使其只占据《科学简拼》码的空码空间而不会与它产生重码的原因。简单地说,这便是《科学简拼O型》码能与其他编码组成《鼎立世界》的根据。
《科学简拼》码汉字及汉字词语码的组成汉字的《科学简拼》码便是它们的读音的音节码,双字词便是两个汉字的音节码。音节码的绝大多数是由声母和韵母两部分编码组成的,但声母字和它们的同音字只用其对应的声母单键输入。如汉字鼎、立、世和界,它们的输入码(即音节码)分别为d[、l、s和je,双字词语鼎立和世界的输入码分别为d[l和sje。韵母的绝大多数都能自成音节,因此其对应的汉字就用该韵的化合物的合成方法17-亚甲基-雄甾-4-烯-3β-醇(A3/N3),17-亚甲基-雄甾-4-烯-3α-醇(A4/N3),17-亚甲基-6-氧代-雄甾-4-烯-3-酮(A6/N3),6β-OH-雄甾-4,16-二烯-3-酮(A11/N1)。
表1包括本发明涉及的雄甾烷,但并不限制其范围。合成部分图解说明用于制备这些雄甾烷的中间体和亚结构的合成。
雄甾烷
(3)双笔码1.笔型码及双笔码。汉字的笔画可以分成很多种类型,而且分法各有不同,可以用数字1-9做它们的编码。但从双笔的两个数字码在键盘上的区位定位转变成双笔字母或字符单键码(简称双笔码)的需要,一般以分成三到十种为宜,这样在键盘上按区位定位可产生九到一百个双笔码,太少实用价值不大,太多会使键盘太大也不符合实际使用。在此推荐分成如下五种笔型,可产生二十五个双笔码适合于普通计算机键盘,()中为其笔型数字码横(1);竖(2);撇挑(3);点捺(4);弯折钩(5)。
2.双笔码的抽取。汉字的结构形态序列中的配件或最后主体,四划以下者用顺序取码法,即按笔顺次序顺数12和34次序取双笔码,五划以上者用变序取码法,即按笔顺首末、倒数32、顺数23和顺数45次序取双笔码。每一配件取一个双笔码,第一分核配件、右配件及下配件四划以上取两个双笔码。对于最后主体来说,只是最后做编码的添补码,根据需要和可能,可以取零到任意个双笔画码。
3.双笔码在键盘上的实现。在普通英美键盘上,把二十五个字母键分成五个区每区分成五个位,按2.中抽取的两个笔型数字码,其前笔画的数字码对应于区号,后笔画的数字码对应于该区的位号,则按下此键就相当于打入此双笔画。字母码键与区位的对应关系可规定如说明书附图
(一)。与此类似,在《鼎立世界》码改进的兼容键盘上,字母字符码键与区位的对应关系可规定如说明书附图(二)。
(4)为了第一个双笔码在码键数量上的均衡和减少重码,安排了如下的调配码汉字第一分木旁左配件按首末取双笔码,即取键S;第一分钅旁左配件按笔顺12次序取双笔码,即取键T或对《鼎立世界》码改进的兼容键盘取键为N;汉字第一分口旁或月旁左配件用首划笔型数字码做区码剩余笔划数做位码,即分别取键J或E;第一分氵或车旁左配件则直接取空闲字母键,即取Z;第一分下配件心字底只取一个双笔码;第一分左配件的主体是部首“隹”或字件“页”时,其左配件四划以上输入两个双笔码。
(5)字型码汉字可以分成很多种类型,而且分法各有不同,可以按汉字的读音、形体、某部位的笔形、结构形态等等进行分类。但类型总数以少于《科学简拼》码的单码韵母键的总和为宜,以便用其做引接码。在此为配合KJO型码的需要用汉字的结构形态信息把字型分成如下的十种,()中即为对应于十种KJO型码的单码韵母键的“字型码”的码键左下(V);左上(E);左包(W);左其它(A);右上下(O);右其它(/);下型(N);上型(U);包夹(Y);独体(I)。下面分别于以解释之1.据(2)3.中得到的七种汉字配件型,左配件型汉字数特别多,其次是右配件型,因此按第一分左配件型或右配件型和第二分的配件型,将左配件型分成四种字型,将右配件型分成两种字型。例如“插”,第一分可分出左配件扌,故该字为左配件型。第一分主体可进行第二分分出上配件
,故其第二分为上配件型,因此“插”字为左上型,其字型码的码键为E。
2.据(2)3.中得到的七种汉字配件型,核配件型和壳配件型汉字数比较少,因此将两者合成一种字型——包夹。
3.据(2)3.中得到的七种汉字配件型,独体型汉字数特别少,将五划及五划以下的简单汉字归入独体中。
(6)汉字输入码的构成汉字的输入码,由一个字型码和0-4个双笔码组成,总码数为5。输入时,首先输入一个字型码作引接码。然后每分出一个配件输入一个(第一分有的也输入两个)双笔码,不足四码者用最后主体的双笔码添补,添补不足者用空格或数字选择键完成输入;多于四个双笔码者,用最后一个配件的双笔码做第四双笔码,然后用空格或数字键选择完成输入。当然,如果《配件双笔》码输入法独立使用,因为无须引接码,也可以把字型码放在最后作为重码区分码。例如“插”,恰好四个配件一个最后主体,先输入字型码左上型打码e,然后依次输入左配件扌打码a上配件 打码t核配件非构件 打码g最后输入右配件非构件 打码n,得输入码eatgn看提示行用数字键进行选择便可完成输入。整个过程可以看出,对于最后主体 可以不管不问。再如“谵”,共有六个配件一个最后主体,先输入的字型码也是左上型打码e,然后依次输入左配件讠打码p上配件 打码q壳配件 打码d最后输入第六下配件非构件 打码g,得输入码epqdg看提示行用数字键进行选择便可完成输入。整个过程可以看出,中间四五两个配件 和 虽然分解出但不输入其双笔码,对于最后主体 仍然不管不问。又如“贵”,只有一个配件一个主体,先输入字型码上型打码u,然后输入上配件 打码m然后输入主体的双笔一打码s和 打码v添补之,得输入码umsv看提示行用数字键进行选择便可完成输入。整个过程可以看出,主体只有五划只能添补两个双笔码,共有三个双笔码,如果主体的笔划数在六划以上便能够补足到四个双笔码,如“寨”的编码应该为usvfh。由这个例子可知“是”字的输入码应该是nhwhg,其中下配件非构件 输入两个双笔码,主体字件 添补两个双笔码。
对于独体字型中的纯笔画组合汉字,按无配件型对待取0-4个双笔添补码。对于独体字型中的杂散构件型汉字(包括汉字结构形态序列的最后的杂散构件型主体),先按书写次序每构件取一双笔码,不足四码者把剩余的笔画组合起来取双笔码添补之,多于四码者以最后构件的双笔码作第四码。对于归入独体型的简单汉字中的可分者,仍按配件取双笔码。例如习、心、必、我和垂,它们的输入码分别为ic、ipo、ioi、iwva和itfgj,释、疑和能的输入码分别为ioctf、ivwcc和icmvv,辽和只的输入码分别为ixp和iwm。
(7)词语输入码的构成双字词的输入码由第一字的字型码和前两码加第二字的前两码组成;三字和四字词语的输入码由第一字的字型码和各字的首码组成;五字及五字以上的词语的输入码由第一字的字型码和前三字及最后一字的首码组成。如果《配件双笔》码输入法独立使用,因为无须字型码做引接码,则可以使用词语的最后一字的字型码并放在词语码的最后。
《配件双笔》码对国标GB2312-80的6763个一级二级汉字的编码的重码率为8.13%(被重码合并的汉字数与汉字集总数之比)。其中在523个独体型汉字中因重码而合并的汉字就达229个109组,这主要是因为其中的五划以下的简单汉字的信息量少码短所造成的。但重码汉字的每组字数超过十个者,只有一组(14个)需要翻行选择。如果刨去这523个独体汉字计算,其重码率只有5.14%,而且每组重码汉字没有超过三个的。加上词语后,总编码数达21632的情况下,计算所得重码率为6.31%。如果刨去这523个独体汉字计算,重码率为5.39%。如果对重码汉字按使用频度进行排列,基本上可以实现不看提示行进行汉字及其词语的输入。把UCDOS中的WB.IMD文件(《五笔字型》编码文件)反编译,其总编码数为24167,计算其重码率为6.98%。除去其容错码,得其总编码数为20007,其重码率降低至6.94%。对其进行《配件双笔》编码,然后计算所得的重码率为6.43%。总的说来,从上面的数据比较可知,《配件双笔》最长码比《五笔字型》多一码但重码率比《五笔字型》略低。由于规定汉字的部件以《新华字典》的部首表为标准,本编码不仅适合于简体汉字,也能含盖繁体汉字的编码。如果在更大的汉字集(如中日韩汉字统一编码集)和更大的汉字词语集的情况下(为了提高输入速度,依靠词语输入,是一个很有效的措施,因此扩大词语集是很自然的),一因为其编码空间比《五笔字型》大十倍以上,二因为五划以下的简单汉字的重码的影响会更小,因此可以期望与《五笔字型》比较在相同的条件下重码率相对低得更多的结果,因此可以看出本编码的普适性很强,更适合于更大的汉字及其词语集的编码。
《配件双笔》码除了以上所说的重码率低而外,还可看出,它的基本概念和基本范畴自然而简单,界定确切,符合六书造字规律,符合传统识字教学规范。分解汉字提取配件的规则及双笔码取码定位规则简单而界定确切,容易理解掌握。构件之中,除去字件无需记忆而外,部件(非汉字部首)不过五六十个,其绝大部分是大家所熟知的并不需要查看《新华字典》的部首表,而且在分解汉字提取配件时只作是否构件的判断,并不象其他形码那样进行构件识别取码,因此对这些部件实际上也根本不需要加以记忆。利用本编码输入汉字时,实际上相当于先看字的大体形态打入字型码,然后再深入字的细微结构笔画选打入一些双笔画,符合一般的阅读识字的心理习惯。通过这些可以说明《配件双笔》码,是一种易学好用的汉字及其词语的编码,而且由于其重码率低输入时基本上无须看提示行进行选择,因此其输入速度也可以很快。当然,加上字型码,单字的总码长是1-5码,而且没有安排简码。因此其单字的平均使用码长,可能会稍逊于《五笔字型》,但对于高频字和最常用字,就是拼音基础最不好的人要记住它们的音节码也是不难的,它完全可以替代简码的作用。例如按频度排序前一百个汉字中,科简码的单键字有二十个,三键字有九个,其余都是双键字,而且它们的绝大多数都是可以用空格键代替选择键的。《五笔字型》对应的情况分别是二十五个单键码,八个三键或四键码,其余也是双键码情况基本上相当。应该注意的是,提高输入速度更有效的措施是扩大词语集,在特大词语集的情况下,两种编码的平均使用码长会更加接近。
科简码共有324个音节,其中单键音节31个,双键音节214个,三键音节79个不足总音节数的四分之一。在已经熟练或经过训练的情况下,许多常用的字词的选择键或有印象或已记得,把它当做形码的简码使用,应该说其功能更强,使用科简码还可以输入不会写的字和避免出现别字。反之,许多不常用字、冷僻字和不能认读的,用《配件双笔》码或其他形码又可弥补科简码的重码选择之苦。两种码结合在一起,随意输入而不用切换,自然是一种非常良好的使用状态。
全角标点符号的编码全角标点符号直接使用相对应的西文字符进行编码,从键帽上的符号就可得到其编码或有关全角字符的联想信息,配合数字键选择可输入基本上全部的全角标点符号,现将其全部编码罗列于下,{}外为码键,{}中为可输入的全角标点符号,每一个用空格隔开。
]]{『』};``{、~‘’};’{′″“”};,{,<>};.{。《》……};∥{?!/};;{;§};[[{()〔〕「」〖〗}常用全角字符的编码中文非汉字部首及日本假名,可以用引接码\加其双笔码作编码;常用全角字符可以用引接码\加它们的助记名称的简化KJI码进行编码。如下所示,{}外的助记名称之后为其码串,{}中的为其可输入的全角字符,每个字符间由空格隔开,同名的字符用数字键选择\{丨丿丶};\a{扌匚};\f{艹};\d{丌廾
根据上面的分析可知,现在把全角标点符号和全角字符码与科简码和《配件双笔》码实现三结合,随意输入而不用切换,自然使良好的使用状态更加良好。除了用KJO型码、《配件双笔》码和全角字符码组成《鼎立世界》而外,只要用这十个字型码做引接码,也可以用其他的汉字及其词语的编码替换《配件双笔》码组成《鼎立世界》。例如,将UCDOS中的WB.IMD文件反编译后,在其编码前加入汉字及其词语的首字的字型码,然后与KJO型码及全角字符码组合编译之,便可得到适合会《五笔字型》的人输入的《鼎立世界》。这样做看似增加了一个输入码有些损失,其实会得到许多好处。首先可以看到的是其重码率由6.98%降到了2.5%左右。为了提高录入速度,增加词语数量是一个很有效的措施,但这会使重码率增加,在很大的词语数量的情况下降低重码率就显得特别重要了。另外可以体会到的是,在做创意输入或听读录入时只对少数生僻和不常用字才使用《五笔字型》时,便会体会到音码形码相互取长补短随意输入不用切换的优越性。
《鼎立世界》码的普通英美键盘功能定位,如说明书附图(一),《鼎立世界》码的改进兼容键盘的功能定位,如说明书附图(二),其中只列出了有关的字母及字符键,每一个矩形方格表示一个字母或字符键,在其最上部标出了该键的本然键符,即西文字母字符功能或汉语拼音方案的字母功能,除键N、V、W和Y《科学简拼》码已移作他用而外与《科学简拼》码是相通的。其他的是《科学简拼》码和《配件双笔》码附加的功能,为了简单声母音节码功能没有进行标注,表格中带*的是i、u或ü的零声母或隔音符。可以看出,《鼎立世界》码的改进兼容键盘只是把普通英美键盘的一些字母字符键的位置作了调整,即把KJO码的单码韵母键调整到了数字字符键与声母、零声母及隔音符键间的同一行上,这种键盘既可帮助功能记忆也有利于输入时两手的输入规律移动(音码输入时声母键→韵母键→数字键;形码输入时引接码即韵母键→普通字母字符→键空格键)。两图中附加标注的功能,在实际键帽上并不需要标注,因为其数量很少而且很有规律性,很容易记忆。
本发明在UCDOS 5.0V进行了实施,对GB2312-80的6763个汉字和约一万五千汉字词语进行编码并附加了全角标点符号和常见字符的编码,编译成了NSI.IMD、KJI.IMD、PJ.IMD、DL.IMD和KJWB.IMD五个码表文件。其中NSI是《原始I型》码,KJI是《科简I型》码,都是一种独立使用的《科学简拼》码,后者比前者增加了五个单键化复韵母,前者记忆量最少后者平均使用输入码最短,都能自定义词语,两者的方言适应能力强特别适合于长江流域的北方方言者,前者还可用于DOS文件名及命令汉语拼音化。PJ是独立使用的《配件双笔》码,采用模糊搜索模式,字型码做区分码放在输入码的最后,输入时可不予以输入,学习使用起来更容易一些,有的人对拼音特别困难只学形码的不妨学习使用PJ码。DL是《鼎立世界》码,是本发明最健全的输入编码方案,学习时由NSI到KJI和PJ,再到DL并不会是走弯路,不过循序渐进而已,但直接学习DL也并不难。KJWB是KJO码、《五笔字型》码及全角码组成的《鼎立世界》,是为会《五笔字型》的人想使用《科学简拼》而准备的。
权利要求
1.一种汉字及其词语以及全角字符的编码,可用于计算机输入或用于字词的排序检索或用于用字词命名的事物的排序检索,其特征是音码部分用近音合并、近音缩减和合理缩减还可配合适量的复韵母单键化对汉语拼音方案进行简化,使声母和韵母的字母或字符码是完全分离的,用字符’、;和,分别表示韵母i、u和ü的零声母用字符,表示单码韵母的隔音符,用单码韵母做引接码引接入形码和全角字符码(其中的全角标点符号可直接用相应的西文字符做编码),以实现汉语书面语的全功能输入。
2.根据1.的叙述,其特征为声母c和ch、s和sh、z和zh以及l和n分别近音合并成c、s、z以及l,韵母in和ing近音合并并单键化成[,除beng,peng,meng,feng及复韵母ueng中的韵母eng单键化成/而外其他的韵母en和eng都近音合并近音缩减成n,韵母ai、an、ao、ang、ong和ou分别单键化成v、w、y、]、\和`,韵母uo、ei和儿化韵母er分别近音缩减成o、e和r,音节gu、ku、fu和hu合理缩减其单韵母u其他声母与单韵母i拼得的音节合理缩减其单韵母i声母j、q和x拼得的其他音节也合理缩减其声母后的字母i,用/定义韵母ü,用汉字的第一分或第一与第二分的结构形态信息将下列十个单码韵母定义成字型码以做引接码左下型编码为v、左上型编码为e、左包型编码为w、左其他型编码为a、右上下型编码为o、右其他型编码为/、包夹型编码为y、独型编码为i、下型编码为n、上型编码为u。
3.根据2.的叙述,其特征是改用字母n定义韵母ü,解除/、[、]、\和`的单键化并缩减韵尾字母g,音节leng、nen、neng中的韵母和韵母en的自成音节也用en表示,复韵母iou近音缩减成iu。
4.根据2.或3.的叙述,其特征是使其音码成为独立使用的音码,或不使用零声母’、;、,和隔音符.的情况下使其成为独立使用的音码。
5.根据2.或3.的叙述,其特征是其形码部分的编码是由汉字的结构形态序列中的配件与最后主体的双笔码组成的,而且这些双笔码是双笔数字码在键盘上按区位定位得到的。
6.根据5.的叙述,其特征是定义下列五种笔型数字码横编码为1、竖编码为2、撇挑编码为3、点捺编码为4、弯折钩编码为5,配件或最后主体四划以下用顺序取码法五划以上用变序取码法,每一配件取一个双笔码但第一分右配件、下配件和核配件四划以上取两个双笔码,每一汉字最多取四个双笔码,配件双笔码多于四个者取最后配件双笔码做第四码,配件双笔码不足四个者用最后主体的双笔码添补到最多四码。
7.根据6.的叙述,其特征是有如下的调配码对于普通音美键盘汉字第一分木旁左配件按首末取双笔码,即取键S;第一分钅旁左配件按笔顺12次序取双笔码,即取键T或对于改进的兼容键盘可以取其它键例如N;汉字第一分口旁或月旁左配件用首划笔型数字码做区码剩余笔划数做位码,即分别取键J或E;第一分氵或车旁左配件则直接取空闲字母键,即取Z;第一分下配件心字底只取一个双笔码;第一分左配件的主体是部首“隹”或“页”时,其左配件四划以上输入两个双笔码。
8.根据7.的叙述,其特征是使其形码成为独立使用的形码,或改字型码为词语的最后汉字的字型码并放在编码的最后做区分码使其成为独立使用的形码。
9.一种电子计算机输入键盘,其特征是将普通英美键盘的单码韵母键A、V、N和/掉换到最靠近数值键的一行上,使十个单码韵母键的顺序如下AWEVNYUIO/。
全文摘要
《鼎立世界》码,由汉字及其词语的音码、形码和全角字符码组成,三种编码互不产生重码,随意输入而不用切换,在普通英美键盘或其改进的兼容键盘上实现了汉语书面语的全功能输入。其中的音码的音节1—3码,比形码的一二三级简码的功能更强,三码音节不足总音节数的1/4,单字的平均输入码长比简拼和双拼都短得多学习记忆量也更小,而且方言适应能力强,特别适合于西南和长江流域的北方方言者使用,但又不影响标准普通话者输入。其中的形码,不记构件(字根),在键盘上按区位打入一些双笔码进行输入,规则简单易学好记,它的重码率低熟练后输入速度也可以很快,用它输入不常见和冷僻字词可以避免音码的重码选择之苦。
文档编号G06F3/023GK1264861SQ99120179
公开日2000年8月30日 申请日期1999年9月16日 优先权日1999年9月16日
发明者陈远云 申请人:陈远云