专利名称:六元平拆式形码输入系统的制作方法
技术领域:
本发明涉及计算机的汉字键盘编码输入,它利用经过重新定义的计算机标准键盘来完成计算机的汉字输入。
本发明主要解决汉字编码输入“易学”与“快速”的矛盾,要达到使用极少的字根实现汉字快速输入的目的,同时解决汉字输入法只能在国内使用的局限,实现汉字输入法的国际化和国际大字符集的输入。
在当今计算机互联网飞速发展的年代,人们在互联网上交流、获取信息的要求日益增长,由于目前互联网的带宽所限,人们直接进行语音交流不太可能,在较长的一段时间内,网上的人们还得必须用文字进行浏览、检索、交流。中国人参与其中,就离不开汉字输入。
但是,目前汉字输入的现状是,键盘输入有一部分专业打字员掌握了如五笔字型在内的专业输入法,但这在当前的上网大潮中、计算机普及大军中仅占极少的一部分。很多人都由于汉字输入法难学而被迫采用拼音输入法,这大大影响了交流和使用计算机的效率。
手写输入许多人由于无法学会输入法,转而采用手写输入。手写输入的效率极慢,是个退而求其次的做法。在排版已“告别铅与火迎来光与电”的时代,打字却重新拾起“纸”(手写板)和笔,这无疑是汉字输入和汉字现代化的一个悲哀。
沿音输入目前识别准确性和口音适应性还不准确。语音输入是汉字输入的最终发展方向,但目前由于输入设备和人工智能水平所限,语音输入的精确方便性要完全取代键盘输入尚需时日。
随着计算机的使用越来越普及、大众化,庞大的非专业电脑使用者迫切需要一种方便、快捷的键盘输入方法。而就目前的研究成果和市场上的产品来看,大多数输入法都无法完美地解决“易学”与“快速”的矛盾。为了应付日益庞大的非专业用户的需求,绝大多数的输入法都是牺牲“速度”来换取易学性的。
那么,什么样的编码才能既易学又快速呢?拼音是一种基本上不用学的输入法,但是,由于中国地域辽阔,方言众多,许多人无法很好地掌握拼音。
另外,由于台湾、香港及海外的华人使用的是注音符号而不是拼音,绝大多数人都不会拼音,因此拼音无法实现汉字信息处理的国际化,无法在港澳台等海外普及。
同时,由于汉字的字符集大至2-3万字,但人们通常能认识并正确叫出读音的却只有4千字左右。
综上所述,在编码的三大类音码、音形码、形码中,使用拼音的编码如音码、音型码都不适合编码的国际化和大字符集的输入。
所以本发明就是要发明一个即适合大字符集的输入,又可以在港澳台等海外普及的编码,本人认为,只有在汉字的字形上下功夫才能做到。
在形码中,字根编码打得快是公认的,但是字根的难背记也是尽人皆知的。其实,字根编码的难学还远远不止于背字根。
几十年的实践证明,对于笔画、笔形、字根(部件)、表形、拼音、表意、二维、数码、翻译等等各种汉字编码输入方式,要学习者达到60-100字/分钟的专业速度,“字根”编码方式是所有编码方式中达到时间最短的一种。这是由于“字根”是一个比较直观、固定的字形组合,它与键盘按键容易形成固定对应,如“钅”对应“A”、“木”对应“B”、“火”对应“C”键等,操作者练习一段时间容易形成条件反射。
这也就是为什么90%的快速编码都采用字根方案,光申请专利的字根方案大概就有二、三百种。
但是从传统的字根理论上讲,字根必须达到一定的数量,才能有效地离散编码,降低重码率。这就造成了字根编码的字根多、记忆量大,给非专业用户的学习和普及带来了很大难度。
字根编码的难学,不仅仅是因为它数量多,还在于字根的定义、界线难以确定和划分。
汉字的部件形状极其复杂,有的大小不一,大的十几画,小的只有一画,如“一”和“鬼”;有的还互相嵌套、无明显分界线,如“一”、“十”、“土”和“王”,怎么不能说“王”实际上就是“一”+“土”组成的呢?而“土”不是“十”+“一”吗?那“王”又为什么不能说是“一”+“十”+“一”,或是“三横加一竖”呢?或是“二”+“十”,或是“干”+“一”,或是“二”+“土”,或是……还有多少种拆法?请看现在流行的编码是怎么拆这个“王”字的“王”=“王”+“一”拆分理由键名字+末笔画(还要记住什么是键名字?!)“王”=“王”+“土”拆分理由键名字+末字根“王”=“王”+“王”+“王”+“王”拆分理由键名字,连按四键(哈,一个字就要单独增加一条规则来解释)“王”=“干”+“一”拆分理由取大优先“王”=“三”+“丨”拆分理由取大优先(怎么也是取大优先?)“王”=“一”+“一”+“丨”+“一”拆分理由成字字根,拆成笔画(啊,到底有多少字算是成字字根呀?)那么哪一种拆分是正确的?你就等着编码者一条又一条纷繁复杂、自相矛盾的附加规则给你解释吧。
仅仅是一个“王”字!按字根拆字理论就有十几种拆法!这就是部件输入法无法逾越的技术障碍。
再如“固”字,是拆成“囗十口”还是拆成“囗古””还是“囗十口”?“完”是拆成“宀元”还是“宀二儿”?“田”是拆成“口十”还是“日丨”?“大”是拆成“二人”还是“一大”还是不拆?要想正确的拆分以上汉字,就必须要对系统定义的字根一个不丢地记熟,比如“占是不是字根?”“元是不是字根”“二是不是字根”“儿是不是字根”等等,不是字根的要拆成字根,是字根的不能拆。
而且必须要对字根的规则了如指掌。如光一个“田”字,就有至少四种不同的字根拆分法1、“日丨”(取大优先)2、“口十”3、“口十”(口与口等同一个字根)4、不拆成其它字根,按笔画输入或另定其它规则。
有时候发明人自己都不知道应该怎么拆,这是时候往往发明人是从降低重码率的角度出发选一种方案,而不从规则的角度出发,造成了输入者在学习这个字的拆分时感到莫名其妙。象五笔字型就是一个例子,许多字的拆分并不符合它自己的规则,因而遭致了很多专家的批评。
要知道对于学习者,一个特例就相当于增加了一条规则。一百个特例字就是一百条规则。
前一段时间涌现较多的取字根音首输入的方案和取字根首笔画对输入的方案,看似简单,不用逐个记忆每个字根的键位了,但是它们还是解决不了字根的划分与拆分问题,最终还是简单不了。你想一想,连权威辞典《辞海》、《新华字典》、《康熙字典》、国标字集对部首的划分与分类都不同,何况普通作者对部件、字根的划分呢?字根编码法自提出几十年来,经过几代专家的努力,“字根的难划分与难拆分”这一问题一直无法得到解决,它严重制约了字根输入法的应用与普及,使得字根输入法一直无法占据大众市场。
出于对字根的偏爱,本人一直未舍弃对字根编码的研究,又经过近十年的研究和努力,本人终于找到了解决这一问题的方法,本发明陈述的就是这一方案——既解决了字根多、难记忆的问题,又解决了字根拆分难的问题。
“人人都知字根好,可是字根太多了”。五笔字型130多,四笔声形300多,戴码六笔声形5、6百,最少的五十字元码,说是50个字根,实际上远不止50个。
能不能再少?哪一个发明人不想自己的字根数量尽量的少?可是字根少了重码怎么解决?通过使用计算机作为辅助工具,经过上千个方案的反复计算和筛选,本人终于将字根的数量最终缩小至6个。6个?不产生重码吗?汉字真的可以用这6个字根就囊括吗?这6个字根就是“钅木日月扌口”,输入过程中,如遇到这6个字根,直接按其对应的键位即可。但是,其它的字根、部件又怎么办呢?针对字根拆分难的问题,经过反复的论证和实验,本人独创性地提出“平行拆分”法,将汉字拆成“结构字根”。完满地解决了字根编码拆分的歧义性,去除了编码的拆分难度。
什么是“平行拆分”呢?假设我们要用一把刀按字形分界线将一个汉字切成几块,我们可以切一刀,也可以切两刀、三刀、四刀,但必须保证每一刀之间的切口线是平行的,否则就只能切一刀。对于没有明确形体分界线的字,就不作切分。
如“明”分为“日、月”切分一次“呆”分为“口、木”切分一次“草”分为“艹、日 、十” 切分两次“衔”分为“彳、钅、于” 切分两次“蔓”分为“艹、日、皿、又” 切分三次必须保证每一次的切分线之间是平行的。
再如“保”字,当我们只切一刀时,“亻呆”,没问题,如果再切一刀,即把右边的“呆”字切成“口木”,这第二刀就和第一刀形成直角,这是不正确的,因此“保”字只能切一刀即“亻呆”。
如“药”,正确的分法是“艹、约”,虽然“约”还可以进一步分成“纟”和“勺”,但该拆分将与第一刀形成交叉,故此只能保留第一次切分。
再如“确”,正确的分法是“石、角”,虽然“石”和“角”从字形上都可以进一步拆分,但都将与第一刀形成交叉,故此只能作一次切分。
须注意的是,对于“庆、连、区、凶”等半包围的字,它们的切分线是曲线,“国、因”等全包围的字,它们的切分线是圆圈。
无论全包围的字还是半包围的字,它们不可能与其它的切分线形成平行线,因此,通常全包围结构和半包围结构就只能是里外分成两个结构,不可能分成三个结构。
如“圆”字,“口”和“员”的切分线为圆圈,而要将“员”分成“口贝”的话,是一条直线,两次切分的切分线不形成平行线,故只能作第一次的切分——“口”和“员”。
再如“链”,如果分成“钅车辶”,第一刀和第二刀没有形成平行,因此只能有一种分法“钅连”。
一刀、两刀、三刀、四刀,只要每一刀之间是平行的,就可以一直切分下去,切分几刀都可以。如果切的那一刀的切分线与其它切分线的不平行,就不能进行该切分。这样就完全消除了汉字切分的歧义性。
总的来说,平行拆分就是将汉字按其字形,平行地将其各个部分切分开,对于有两个以上切分口的,应使切分线相互间平行,否则不能作该切分,如各切分线间产生交叉或不平行则切分不成立。
那么,“平行切分”法和传统的按汉字结构拆字有何区别呢?1、传统的汉字结构粗分的话只有上下、左右、全包围、半包围结构,最多分成上中下、左中右三个结构,如果再分细一点,又演变成拆字根了。而“平行切分”法只要符合切分条件就可以无限制的拆分,有很多汉字可以拆到四个以上的结构。拆分原则比较好掌握、界线明确。
2、传统的结构细分的话,又太复杂。如三个结构的字的分法就较复杂,如上左右、下左右、左上下、右上下、里上下、里左右、上中下、左中右等等,有时比较难划分明确的界线,往往需要根据定义好的字根来划分结构。比如“据”字,是分成左右结构“扌居”,还是分成 “扌丨尸占”,还是分成 “扌丨尸十口”?要确定是哪种分法,就必须得确定“居”字以及“古”字是否是字根,还要看具体的拆分规则是不是“取大优先”。通常不同的编码,分法都不相同。
但“平行切分”法就比较简单,根本不用管你谁是不是字根,直接按字形看是否可以平行切分即可。“据”字明显只能切一刀,故一分为二,多简单!真正地脱离字根的约束。
3、“平行切分”法是完全按照字形进行切分的,而传统“汉字结构”的划分需考虑按字形意义拆分,“平行拆分”则不需要。请看以下例字鹏、啊、滩、蔓、幕等等按传统“汉字结构”的观点,他们该是什么结构?左右?上下?还是左中右?上中下?按“形声造字”的观点,是一分为二,但要是不认识该字的人呢?或是不懂“形声造字”原理的人呢?用“平行切分”法就无须考虑这么多,直接“平行切分”就行了。
总之,“平行切分”法简化了对汉字结构的划分,消除了汉字切分的歧义性。
那么何谓“结构字根”呢?“平行拆分”法拆分下来的汉字的结构单元,在这里定义它为“结构字根”,与传统意义上的“字根”相比较,一个结构字根中可能只含有一个字根,也有可能含有两个或三个字根,是几个界线不明显的字根的集合。
本文以下简称“结构字根”为“结构”。
所有的独体字由于是一个整体,无法划分,就将其整体作为一个单独的结构字根。而上下、左右、包围结构等合体字,其上与下、左与右、里与外的自然形体界线正好划分成多结构字根。
如“王”——“王”整体是一个结构字根“田”——“田”整体是一个结构“盘”——分为“舟”“皿”两个结构字根(上下结构,上下分)“略”——分为“田”“各”两个结构(左右结构,左右分)“连”——分为“车”“辶”两个结构(半包围结构,里外分)“国”——分为“囗”“玉”两个结构(全包围结构,里外分)对于上中下、左中右的汉字就按上、中、下或左、中、右分为三个字根“曼”——分为“日”“皿”“又”“鼻”——分为“自”“田”“丌”“鸿”——分为“氵”“工”“鸟”“街”——分为“彳”“圭”“亍”对于一些习惯性、约定俗成的分法予以尊重,同时用标准分法也可以输入“幕”——分为“艹日大巾”(分为上中中下结构)或分为“莫巾”(形声字,按习惯上也可分为“上下”结构)“客”——分为“宀夂口”(分为上中下结构)或分为“宀各”(上下包含,按习惯上也可分为“上下”结构)从以上例字可以看出,拆分汉字再也不是一个难题,不用再为了拆分一个汉字背遍所有的字根,只要掌握“平行拆分”法就能拆分。
但是,拆分出来的结构字根又怎么录入呢?很明显,结构字根都是大字根,比传统意义的字根偏大,经常是几个小字根组成一个结构字根,因此数量较小字根多得多,至少在一千个以上,如何在键盘上定位又比较容易记忆呢?在这里,本发明提出,不用一次按键定位字根,而是用两次按键定位一个结构。每个结构输入其前四笔笔画,第一二笔画一个键、三四笔画一个键。
如“王”——“横横”“竖横”“广”——“点横”“撇”“圭”——“横竖”“横横”“羊”——“点撇”“横横”但这样一来,会不会影响到条件反射的形成呢?这样的取法是不是又回到笔画对、笔形输入法的老路上去呢?不是,笔画对、笔形输入法要么是对整字取笔画对,要么是拆成小字根后取头两笔。对整字取笔画对会造成相同字根在各个字中的打法不一定一样,不能形成条件反射;拆成小字根后取头两笔仍然存在着拆分小字根的困难。
而现在可以轻松地以自然结构为界线将字拆成结构字根,一不存在拆分困难,二不用记字根,三可以保证相同字根结构字根在各个字中的打法相同,笔画对都取自每个字根的头部,容易形成条件反射。同时保证了易学性和快捷性。
比如,如果 横横=H 竖横=G 竖折=A 横竖=J则“王”——“横横”“竖横”=HG“田”——“竖折”“横竖”=AJ那么,我们在每次输入“王”时都输入HG,每次输入“田”时输入AJ,很容易形成条件反射,打熟以后见到“王”就联想到HG两个键,见到“田”就联想到AJ两个键。而且一次就联想到两个键,比传统小字根的条件反射还快。
具体汉字的输入方法如下
每个字最多输入4键,并按均分原则将4键分配到每个字根上。
一、占汉字总量90%以上的字是两个结构的字,象上下、左右、里外结构,每个结构各输两键。
二、占汉字少量的三个结构字根的字,象上中下、左中右结构,第一二个结构每个字根输一个键,第三个结构输两个键。
三、四个及四个以上结构的字,应该输入一二三末结构各一键。
四、单个结构的字,即独体字,输入该字的前六笔画。
输入过程中,我们应该先打哪一字根呢,按照书写笔画顺序,先落笔写的字根先打。
比如“盘”顺序是“舟”“皿”“庆”顺序是“广”“大”“连”顺序是“车”“辶”“式”顺序是“弋”“工”到此,易学性解决了,条件反射问题也解决了。条件反射问题解决了是否就能输入快速呢?不是,条件反射的建立仅仅是快速输入的基础,汉字编码要想快速输入必须重码率要低。
那么按照上述的规则重码率是否就能很满意了呢?不行,那样重码率还是有点高。怎么办呢?增加小字根数量?不可取,不能安排超过6个小字根,那样破坏了易学性。
像五笔字型那样,增加一个补码?要知道,五笔字型的补码是相当复杂和不直观的,由于反应不直接,一定程度上还影响了输入速度。但是,不用补码又不行,重码率会大大增加。
那怎么样才能又不增加字根,又不增加记忆量,又能减少重码率呢?
本发明采用了一个重要概念,末键补齐编码不足4键的字,用指定的键补齐。
许多汉字的笔画很少,这就使许多字都打不足四键,造成了很多重码。通常,几乎每一种形码这时都要增加几条规则,以增加补码,尽量使编码达到四个键,好减少重码。
这时,如何简单而又有效地解决重码又不增加学习难度,就显得非常关键了。
以往的做法通常有四种1、按照字的不同结构,补不同的编码。如独体补A、上下补B、左右补C等等。五笔字型就是采用的这类做法。
2、按照末笔笔顺补编码。如钱码。
3、按照整个字或最后一个字根在一张作者规定的字根表中找一个对应的代码补上。如4、在末尾加拼音。
第1、2种显然不适合同结构、同笔画的独体字;第3种相当于增加了几十、上百个字根,效果倒是有,但是却大大加重了用户的记忆负担;第4种是即简单又有效的办法,但是,编码却成了形音码。用户要使用好,就得会拼音,大大增加了编码的局限性。
易学和快速就真是一对冤家兄弟,要两者都好,真是太困难了。经过反复的设想、论证、论证、设想,经过无数次失败以后,本人突然想出一个方案,发觉完完全全可以以最简单的方法解决这个问题。
能不能用一个固定的按键作为补码,这样不就简单了?我经过用计算机反复测算,计算出除第一键外,使用频率最少的按键。这样,当输入编码少于最大码长时,就使用个键补齐。假设这个键为“R”键,当我们输入一个字的编码少于4个键时,就用R键补齐4键。我们称这个键为补齐键。
使用这个键进行编码后,是什么效果?极其明显的效果。
重码率从5.2%一下子降到了万分之四点四七。
为什么会有这么明显的效果?因为1、首先,补齐键我使用的是罕用键,用补齐键补的编码,不会与其他规则产生的编码相重。
2、其次,它可以有效地区分编码相同的汉字。
设有三个字的编码都是ab,设补齐键是r键,则该三个字的编码应都为abrr abrr abrr经过计算机简码处理后,最常用的字为二级简码ab,次常用的字为三级简码abr,不常用的字编码为abrr,三个字都互不重码。
这一点正是充分利用了电脑的高频先见手段。在实际输入过程中,当我们输入ab时,出现的是最常用的那个字;输入abr时,出现的是次常用的那个字;输入abrr时,出现了最不常用的那个字,当然,其它两个字也排在后面备选,由于默认的字为那个不常用字,所以如果要输入不常用字,不用作任何选择,继续输入下文该字会自动上屏。
这样,用户只要在编码不足4键时,补上r键即可,不用再背记字根图和进行繁琐的编码了。
那么,为什么以前的编码都没有想到这种方法?是因为绝大多数的编码发明人只是稍懂电脑,他们作的都是纯汉字编码的发明,都是为编码而编码,不是为输入而编码。
本发明的出发点则是真正地从输入系统的角度来考虑,而不是从将汉字化成编码符号的角度来考虑。“我们为的是进行输入,而不是为了编码而编码”,这一点与传统编码发明是本质上的差别。
所以本发明能十分充分地利用电脑的智能、计算筛选能力,大大减少了人的脑力劳动和记忆力负担。是真正高效的汉字的计算机输入系统,而不是纯粹地将汉字转化成编码再输入计算机的智力活动。
适合作为补齐键的有哪几个键?经过用电脑反复地计算,本编码适合用作补齐键的有点竖键(R)撇撇键(D)折键(/)还有效果稍差的竖竖键(V)和竖撇键(C)。
例字广——“点横”、“撇”、补输“RR”刘——“点横”、“撇捺”、“竖竖”、补输“R”申——“竖折”、“横横”、“竖”、补输“R”另外,对于二结构的字,本发明还设计了两条补充规则如下一、三笔画取双二结构的字,如果首字根只有三个笔画,则只需输入其头两笔画,第三笔画忽略不输。
如彳、广、山、工、犭、土、忄、氵、宀、马、女、纟……都只要敲一键——头两笔画即可,然后直接跳到下一个字根取码。
这一规则最大的作用是进一步加强了条件反射的对应,用户很容易形成“彳=D、广=T、忄宀=W、工土=J、马=P”的一一对应关系。等于又增加了几十个无需记忆的三笔画小字根,而且这些小字根都是按其头两笔笔画有规律地定义到键盘上。
二、前少后补二结构的字如第一结构只取到一键,则第二结构取三键,即补输第二结构的五六笔画。
如伴——输入撇竖、点撇、横横,补输“竖”编——输入折折、点折、横撇,补输“竖折”
这样,本方案最终在6个字根的基础上达到了五笔字型之类采用130多个字根都没能达到的效果——重码率万分之四。
采用了这些规则后,本编码的重码率仅为万分之四左右,这一数据当中不含有任何特殊编码和特殊规则,是完全按照前面定义的几个规则来编码,一级字库仅重码组17组。如果再给重码的几个常用字作几个特殊编码,就可以使重码率为零。但为了重码率为零而再增加几条规则或几个特殊编码,这在仅仅17组重码、重码率为万分之四的编码中似乎没有必要,不必为此而牺牲易学性。
总之,本编码共提到6个概念,掌握这6个概念就掌握了本编码6个小字根、平行拆分、结构字根、三笔取双、前少后补、末键补齐输入规则总结一、小字根精选出“钅木日月扌口”6个小字根,在输入过程中,如遇这6个小字根,优先输入其对应按键,不许将它们拆成笔画。
二、单字的输入1、单结构字根的字输入头6笔笔画——一二笔一键、三四笔一键、五六笔一键;2、两个结构字根的字(上下、左右、里外结构)每个结构字根各输入两键——一二笔画一键、三四笔画一键;
3、三个结构字根的字(上中下、左中右结构)首、次结构各输一键,末结构输两键;4、四个及四个以上结构字根的字前三个和末结构字根每个结构字根各输一键;5、三笔取双二结构的字,如遇首结构为三笔画,则首结构只取前两笔画输入一键;6、前少后补二结构的字,如前面结构只取到一键,则后面结构就要输入三键——取末结构前六笔画;7、末键补齐不足4键还打不出的字,用指定的补齐键点竖键(R)或撇撇键(D)或单折键(/)补齐4个键。
三、词组的输入二字词各取每字的前两键三字词取前两个字的第一键和最后一字的前两键四字及四字以上词取前三字和最后一个字的第一键四、容错对一些学术界有争议的分法或习惯分法与标准分法不同的字,系统中预备了这种分法的容错码。
输入规则有了,那么,本编码的6个小字根及笔画元素都安排到标准英文键盘上的哪里呢?键盘的安排是否得当,同样影响编码的易学性和速度。如何使得各输入元素的键盘方位容易记忆,又不影响输入速度呢?首先,使用计算机计算出使用频率最高的几个元素,在安排键盘时尽量把它们安排到中排按键和离食指近的地方。
其次,着重6个小字根的安排,用计算机计算出与它们相补、的笔画元素,把它们安排到其中,不会因此产生重码;同时,尽量把它们安排到食指、中指那一排。
以上这些,都要尽量照顾到键盘的记忆规则,使得输入法更加易学。
经过这些计算机的辅助设计,得出键盘的具体安排如下一、笔画的分类前面所提到的笔画是按传统分法、国家标准将汉字的笔画分成“横(含提)、竖(含竖左钩)、撇、点(含捺)、折(含其它所有折、弯、钩)”五大类,将它们的25种双笔画组合和5种单笔画——“横横、横竖、横撇、横点、横折、竖横、竖竖、竖撇、竖点、竖折、撇横、撇竖、撇撇、撇点、撇折、点横、点竖、点撇、点点、点折、折横、折竖、折撇、折点、折折、横、 竖、 撇、 点、 折”共30种笔画组合分别定义到键盘上;二、以区位法定义笔画组合在键盘上的几何定位规律输入按键共30个,取26个英文字母键及最靠近母键位置的“;,./”4个键作为编码输入的按键,将编码元素按照以下规律排列将双笔画对按其起笔笔画分成横、竖、撇、点、折5个区;单笔画单独一个区为单笔画区;将单笔画区定义到键盘的右下角;以右手母键位置为横区作为起始,横、竖、撇、点、折5个区分别按照顺时针定义到剩余的键盘位置上;双笔画分区中第二笔画的位置及单笔画区中笔画的位置称之为“笔画位”;按照英文键盘的传统定义,键盘以“5”和“6”为界线分为左手按键区和右手按键区,并从中间向两边分别为食指按“横、竖”键、中指按撇键、无名指按点键、小指按折键;故笔画位在左手按键区中的排列自右向左,在右手按键区中的排列自左向右;三、六元素的定位“钅木日月扌口”6个偏旁部首分别定义到键盘中的“横、竖、撇、点、折、横点”六个笔画组合的对应键位中;四、根据上述几条规则,标准英文键盘与字根及笔画对应如下Q-点折 W-点点 E-点撇 R-点竖 T-点横 Y-折横 U-折竖 I-折撇 O-折点 P-折折A-撇折 S-撇点 D-撇撇 F-撇竖 G-撇横 H-横横 J-横竖 K-横撇 L-横点_口;-横折Z-竖折 X-竖点 C-竖撇 V-竖竖 B-竖横 N-横_钅M-竖_木,-撇_日,-点_月 /-折_扌例(为解说方便,每个例字的编码都举出了四键,实际输入时,并不需要输全四键就可以输入该字)规——横横、撇点、竖折、撇折——HSZA监——竖竖、撇横、竖折、竖竖——VGZV行——撇撇、横横、竖——DHMR(补R)人——撇捺 ——SRRR(补R)口——口——LRRR(补R)重——撇横、竖折、横横 ——GZHR(单结构字)慢——点点、日、竖折、竖竖 ——W,ZV(补五六笔)曼——日、竖折、折捺——,ZOR(上中下结构)蔓——横竖、日、竖折、折捺 ——J,ZO(上中中下结构)街——撇撇、横竖、横横、竖 ——DJHM(左中右,末字根取两键)题——日、横竖、横撇、竖折——,JKZ连——横折、横竖、点折、捺——;JQ.庆——点横、横撇、捺 ——TK.R贰——横折、横横、竖折——;HZR(注取首结构头两笔与取该字头两笔不同)规则——HSZS (每字各两键)计算机——QGMA(首次字各一键,最后一字两键)众所周知——SDAG(首、次、三、末字各一键)中华人民共和国——ZFSZ(首、次、三、末字各一键)本输入法已经开发成软件,可以在windows95/windows98/windows2000上使用。
本编码的最终技术指标为重码组数17个重码选择率0.44760‰,万分之四简码字总数41951级简码27个 占总字频15.97%2级简码702个 占总字频42.10%3级简码3463个占总字频35.47%在不使用词组输入的情况下,输入每100个字,仅约5.89个汉字需要四个键打出。
由于重码低,无需选择,本编码可以很轻松地实现盲打,输入速度较五笔字型快(五笔字型的重码率比本输入法高)。
在本输入法软件中,为了进一步提高输入速度,我们还定义了指定断码键“点竖”(R键)、“竖竖”(V键)和“竖撇”(C键),一些高频字、词可以在输入一个编码或两个编码后,按这些键直接结束输入并直接上屏,无需加按空格键上屏。
如“连”的编码原为“;JQ.”,现只要输入“;C”,无需按空格键直接上屏,相当于一级简码。
如“规”的编码原为“HSZA”,现只要输入“HSC”,无需按空格键直接上屏,相当于二级简码。
这一方法将一二级简码的空间扩大了2、3倍,极其有效地提高了输入速度,使得本输入法的录入速度远远大于象五笔字型之类字根的编码。
另在该软件中,还设置了一个字库选择按钮,用户可以通过该按钮直接切换编码针对的字库,是高频字字库或者是国标一级字库;也可以在国标字库集和国际大字符集、台湾BIG5码汉字库之间转换。这样可以加快常用字的输入效率。
本发明最主要的创造性所在1、仅6个字根就实现了近乎无重码的技术指标,是目前国内形码中字根最少的一种编码;2、“平行拆分”的引入,完全解决了“字根拆分难”这一形码类编码无法避免的老问题。
它与传统字根相比,解决了字根拆分难的问题。无须将汉字拆得太琐碎、无须仔细分辨字根与字根的分界线、无须记忆嵌套、复杂的拆字规则、无须为了准确地拆分字根而背记所有字根的形状。
它与用结构拆分的编码相比,它更简单、明确地从字形离合度上就可以进行拆分。通常的结构拆分比较复杂,比如三结构的字就有上左右、下左右、左上下、右上下、里上下、里左右等等,而平行拆分则简单地一分为二;传统的结构拆分要拆分好还必须掌握“形声造字”等构字原理,对输入者要求太高,而“平行拆分”却相当简单,只要看字形可不可以平行拆分即可。只要看字形就可以,无须认识该字和懂得造字原理。
3、末尾补齐原理——补齐键的使用。仅使用一个固定字母作为补码,替代了末键补拼音的方案,收到了相当好的效果。这也是编码方案与计算机智能完美结合的一个创新;4、结构字根——大字根理论。本编码中使用的结构字根也是一个比较新的概念,它实际上是一个大字根,与传统意义上的“字根”相比较,一个结构字根中可能只含有一个字根,也有可能含有两个或三个字根,是一个或几个界线不明显的字根的集合。
用6个字根就实现了汉字的近乎无重码高速输入,这是许多编码专家所意想不到的。本发明仅用6个字根就实现了高速低重码输入,同时做到了编码的易学和快速,解决了其它专家几十年都没有解决的问题,具有很大的创造性。
同时,本编码由于不需要拼音,只要会写汉字,就会汉字的计算机输入,使得汉字输入得以国际化,港澳台等海外华人都可以使用同一规则、同一编码进行输入。国内的各方言地区也可方便地用同一编码进行输入,不懂拼音的中老年人也可以方便地用本编码进行输入。
对于汉字的国际大字符集,也可以很方便地用本发明进行编码输入,而无须作规则的修改。
时下简单易学的编码很多,但是,这些易学的编码或多或少都使用拼音进行了编码;而且在规则不作任何修改的情况下能达到专业输入法的输入速度的更是极少。
而本发明不仅相当易学、规范,而且无需输入者懂拼音,输入速度却还能达到和超过五笔字型之类的专业输入法的输入速度,甚至还能用同一规则简单方便地输入国际大字符集繁简汉字。
本人首次提出和引入了“平行拆分”和“结构字根”的概念,完美解决了多年来一直无法解决的字根的拆分问题,具有很高的学术价值。
总之,用6个字根就实现了低重码高速输入,是目前字根输入法中字根最少的,本发明中提到的很多观点和解决技术问题的方法都是比较新颖的,可以为以后他人的发明作借鉴。
同时,本人提出末键补齐和结构大字根的观点,也具行一定的学术价值。
权利要求
1.一种计算机汉字编码输入系统,利用经过重新定义的英文键盘进行汉字计算机输入,其主要特征是只使用了6个字根并采用平行拆分的方法来进行计算机的输入,包括本编码输入系统主要有六个具体特征,在于6个小字根、平行拆分、结构字根、三笔取双、前少后补、末键补齐(一)小字根精选出“钅木日月扌口”6个小字根,在输入过程中,如遇这6个小字根,优先输入其对应按键,不许将它们拆成笔画;(二)平行拆分将汉字按其字形界线,平行地将其各个部分切分开,对于有两个以上切分口的,应使切分线相互间平行,否则不能作该切分,如产生交叉则切分不成立;全包围、半包围结构字的切分线为曲线,一次性分成里、外两个结构;对于没有明显字形界线的字,不拆分,作为单结构字;(三)结构字根用平行拆分法拆分出的每一个字形单元,不论该单元中含有几个传统意义上的部件(字根),在本输入法中都当做一个组字构件单元,称为结构字根;(四)单字的输入1>将汉字按照平行拆分方法将该字拆成结构字根;2>单结构字根字(无明显字形分界线的字)输入该字的头6笔笔画——第一二笔一键、三四笔一键、五六笔一键;3>两个结构字根的字(上下、左右、里外结构)每个结构字根各输入两键——一二笔画一键、三四笔画一键;4>三个结构字根的字(上中下、左中右结构)首、次结构字根各输一键,末字根输两键;5>四个及四个以上结构字根的字一二三末每个结构字根各输一键;(五)两结构字根的字,还有以下两条规则1>三笔取双两结构字根的字,如遇首结构字根为三笔画,则只取两笔画输入一键;2>前少后补两结构字根的字,如前面的结构只取到一键,则后面结构就要输入三键,即取末结构前六笔画;(六)末键补齐对于不满4键的字,用指定的补齐键在编码的末尾补齐;(七)容错对于习惯性的结构分法和有歧义的结构分法,几种分法都允许输入;(八)笔画的分类前面所提到的笔画是按传统分法分类的,将汉字的笔画分成“横、竖、撇、点、折”五大类,将它们的25种双笔画组合和5种单笔画——“横横、横竖、横撇、横点、横折、竖横、竖竖、竖撇、竖点、竖折、撇横、撇竖、撇撇、撇点、撇折、点横、点竖、点撇、点点、点折、折横、折竖、折撇、折点、折折、横、 竖、 撇、 点、 折”共30种笔画组合分别定义到键盘上;(九)根据易记和使高频笔画组合快速输入的原则,将笔画组合定义在键盘上的规律如下输入按键共30个,取26个英文字母键及最靠近母键位置的“;,./”4个键作为编码输入的按键,将编码元素按照以下规律排列将双笔画对按其起笔笔画分成横、竖、撇、点、折5个区;单笔画单独一个区为单笔画区;将单笔画区定义到键盘的右下角;以右手中排的母键位置为横区,作为起始,横、竖、撇、点、、折5个区分别按照顺时针定义到剩余的键盘位置上;双笔画分区中第二笔画的位置及单笔画区中笔画的位置称之为“笔画位”;按照英文键盘的传统定义,键盘以“5”和“6”为界线分为左手按键区和右手按键区,并从中间向两边分别为食指按“横、竖”键、中指按撇键、无名指按点键、小指按折键;故笔画位在左手按键区中的排列自右向左,在右手按键区中的排列自左向右;(十)六小字根的定位根据尽量不产生重码的原则,通过计算机选择常用的“钅木日月扌口”6个偏旁部首分别定义到键盘中的“横、竖、撇、点、折、横点”六个笔画组合的对应键位中;(十一)根据上述几条规则,标准英文键盘重新定义成如下含义Q-点折 W-点点 E-点撇 R-点竖 T-点横 Y-折横 U-折竖 I-折撇 O-折点P-折折A-撇折 S-撇点 D-撇撇 F-撇竖 G-撇横 H-横横 J-横竖 K-横撇 L-横点_口 ;-横折Z-竖折 X-竖点 C-竖撇 V-竖竖 B-竖横 N-横_钅 M-竖_木,-撇_日 .-点_月 /-折_扌
2.权利要求1所述的输入系统,其特征还在于,当取码不足最大码长(四键)时,应在编码的末尾补上指定的补齐键,它们是“点竖”(R)或“撇撇”(D)或“折”(/)或“竖竖”(V)等键。
3.权利要求1所述的输入系统,其特征还在于,系统可以让用户选择定义“指定断码键”“点竖”(R键)、“竖竖”(V键)和“竖撇”(C键),一些高频字、词可以在输入一个编码或两个编码后,按这些键直接结束输入并直接上屏,无需加按空格键上屏。
4.权利要求1所述的输入系统,其特征还在于,其词组输入按以下方式二字词各取每字的前两键三字词取前两个字的第一键和最后一字的前两键四字及四字以上词取前三字和最后一个字的第一键
5.权利要求1所述的输入系统,其特征还在于,本输入系统不仅适合GB2312进行输入,还适合GBK及GB18030等国际大字符集标准中的所有汉字的输入;系统设置一个字库选择按钮,用户可以通过该按钮直接切换编码针对的字库,在高频字库、国标一级、国标一二级、国标扩展字库、台湾BIG5码汉字库之间转换,以加快常用字的输入效率。
全文摘要
本发明是目前字根数最少的字根编码输入系统,它仅用6个字根就实现了低重码高速输入汉字,一般人只要5-10分钟即可学会,极有规律的键盘分布,无须死记硬背。会写字就会输入,无需懂拼音,适于港澳台及海外华人使用,可用于汉字国际大字符集编码。同时,本发明打破了传统字根的概念,提出崭新的“平行拆分”和“结构字根”的理论,极具学术参考价值。
文档编号G06F3/023GK1393760SQ0112224
公开日2003年1月29日 申请日期2001年6月24日 优先权日2001年6月24日
发明者陈劲松 申请人:陈劲松