专利名称:音形义简繁汉输入系统的制作方法
近年来计算机在我国迅速普及,并涌现出了许多种计算机汉字编码输入方案,但是到目前为止,尚存在许多问题未能圆满解决。
一个优秀的编码输入方案,必须达到易学性、重码率和规范性三者的高度统一,才能被所有用户,尤其是人数占绝大多数的非专业打字员所接受;汉字输入的瓶颈才能得到真正解决。
然而目前已有的编码输入方案,往往只偏重一个方面,例如五笔字型拥有很低的重码率,但是学习五笔的难度也严重阻碍了它的普及,其应用范围目前仅局限在专业打字员中;拼音码很易学,但是它的重码率很高,导致使用拼音输入汉字的效率非常低。
本发明的目的是希望能解决易学、低重码和规范性三者之间的矛盾,创造一种广泛适用于从专业打字员到普通使用者的简繁汉字输入系统。
本发明的技术方案说明如下一种音形义简繁汉字输入系统,通过对简繁汉字字形结构的大量统计和分析,并兼顾汉字文化中固有的规范性,优选345个字根;依照字根相互之间的相容关系,即汉字经编码后引起的重码最少,以及字根之间形状、意义的联系,将字根集分为22组,为每组定义一个组名,22组字根的组名为金木水十土、日月人口广、衣食住行、草鱼文子、石手小心,构成简繁汉字输入系统字根集,如图二、图三所示;在所选字根之外的字形,根据其笔划数,分为一画、二画和多画三组散笔,多画包括三画及三画以上字形。三组散笔的组名为一画、二画、多画。把25组字根和散笔对应到标准英文键盘相应的键位上,构成简繁汉字输入系统中文键盘,如图一所示。
字根、散笔的拆分根据汉字书写顺序,并兼顾汉字文化中固有的规范性,字根取字根集中最大字根,散笔取最多笔画数;单个汉字输入该汉字拼音或注音的键盘编码的首编码,以及该汉字的第一,第二和最末字根或散笔的键盘编码,对少于三个字根或散笔的汉字,输入所有字根或散笔编码,构成每个汉字最多4码的输入编码;二字词组输入每字前两个编码,三字词组输入第一个字的前两个编码和后两字的第一个编码,四字词组各取第一、二、三、四字的第一个编码,五字以上词组,各取第一、二、三和最后一字的第一个编码,根据输入编码查询所对应的汉字或词组输入。
本发明是这样实现的对字根集的选取综合考虑各字根的组字概率、规律性分组的可能性和汉字文化固有的规范性,历经一年半的时间,进行了五百多次优化,最后选定345个字根;字根的分组结合字根本身的形状、意义特征,规律性极强,方便记忆;并借助计算机进行了约150亿次优化统计,使其尽量保证分组规律性的同时,汉字编码的重码率最低。
第1组包括与金属有关的基本字根,以及根据基本字根的字型增减少量笔划,或某些笔划通过变形而来的变体字根。如“金、刀、戈、匕、矛”等都是与金属有关的基本字根,而“勿、匆”等是由“刀”变体而来。
第2组包括“木”及其变体字根。
第3组包括与“水”有关的字根及其变体,以及字根“八”及其变体等。
第4组字根的特点是笔划成纵向十字交叉。
第5组字根的特点是笔划纵向十字交叉,且上、下至少一端封口。
第6组字根大部分都是方框中有封闭直线。
第7组包括方框一端开口的字根,及其变体字根。
第8组包括“入、亻”字根及其变体字根。
第9组字根的特点是封闭方框,及其变体。
第10组字根的特点是横、竖向笔划在左上角或右上角联接。
第11组字根大部分与衣着有关,以及一些为降低重码率,根据统计规律选取的字根,如“乍”等。
第12组字根大部分与饮食有关。
第13组字根大部分与住房有关,以及一些由统计规律收入的字根。
第14组字根大部分与“行”有关。
第15组字根的特点是并排至少有2个十字交叉。
第16组字根大部分与动物有关。
第17组包含一些有三角框的字根,以及“言、讠、书”等字根。
第18组字根及其变体大部分与人有关,以及一些统计规律收入的字根,如“ネ”等。
第19组包含与“石”有关的字根,以及一些根据统计规律选择的字根。
第20组有“手、扌、爪”三个字根。
第21组字根的特点是竖笔两边各有点。
第22组包括“心”及其变体字根,以及“火”等字根。
根据字根表、散笔、拼音或注音对简繁汉字分别编码,并建立一定数量词组的编码,构成编码码表。简繁汉字的编码码表可分别用于专门处理简体字或繁体字的系统中,也可共存于同一系统,通过指令指示使用某套码表。输入汉字或词组只需输入其编码,根据输入编码即可查询所对应的汉字或词组输入。
例如“标”字,有“木、小”两个字根,“木”与“小”之间有两横,算散笔“两画”,结合“标”的汉语拼音“biao”的首字母“b”,其输入编码是“bfc,”。
输入举例 汉字词输入编码标 bfc,白 bvh几 jj国家 glji计算机 jesj杜鹃啼血 djtx中华人民共和国 zhrg本发明通过对三千多个常用字编码,简体字的静态重码率约为3.5%,繁体字仅为3%,已可满足盲打的要求,真正实现了易学、低重码和规范性的统一。
可广泛应用于计算机、终端、文字处理机、电子字典等各种信息系统,其编码字序亦可运用于需要文字排序的领域,如检字法、汉字有关的字典、名字编排、电话簿、工商名录等。
图一 简繁汉字输入系统中文键盘图二 简繁汉字输入系统字根集之一图三 简繁汉字输入系统字根集之二
权利要求
1.一种音形义简繁汉字输入系统,将经过选定的字根,依照其相互之间的相容关系,即汉字经编码后引起的重码最少,以及字根之间形状、意义的联系对字根进行分组,在所选字根之外的字形,分为三组散笔,并把25组字根和散笔对应到相应的键位上,单个汉字输入该汉字拼音或注音的键盘编码的首编码,以及该汉字的第一,第二和最末字根或散笔,对少于三个字根或散笔的汉字,输入所有字根或散笔,构成每个汉字最多4码的输入编码,二字词组输入每字前两个编码,三字词组输入第一个字的前两个编码和后两字的第一个编码,四字词组各取第一、二、三、四字的第一个编码,五字以上词组,各取第一、二、三和最后一字的第一个编码,其特征在于选定345个字根并分为22组,在所选字根之外的字形,根据其笔划数分为一画、二画和多画三组,多画包括三画及三画以上字形,每组定义一个组名
至少一个选自下列基团的基团氢原子、卤原子,取代或未取代的低级烷基、低级链烯基、环烷基、芳烷基、芳基、低级烷氧基或低级烷硫基,保护或未保护的羟基,保护或未保护的羟基-低级烷基,保护或未保护的氨基,保护或未保护的低级烷氨基,二-低级烷基氨基,保护或未保护的氨基低级烷基,保护或未保护的低级烷氨基-低级烷基,二-低级烷基氨基-低级烷基,低级亚烷基,氧基,亚氨基和与R4键合的碳原子共同形成环烷的基团;R5代表氢原子,取代或未取代的低级烷基、环烷基、低级烷基磺酰基、芳基磺酰基、酰基或芳基,保护或未保护的氨基-低级烷基,保护或未保护的低级烷氨基-低级烷基,二-低级烷氨基-低级烷基,或保护或未保护的羟基-低级烷基;R6代表氢原子,卤原子,取代或未取代的低级烷基、低级烷氧基或低级烷硫基,保护或未保护的羟基,保护或未保护的氨基或硝基,
代表
或
其中Y代表氢原子,卤原子,取代或未取代低级烷基、低级烷氧基或低级烷硫基,或保护或未保护的羟基,或与R2一起形成下式所示的基团
其中R7代表至少一种选自下列基团的基团氢原子,低级烷基,卤代低级烷基,保护或未保护的羟基-低级烷基,低级亚烷基和与R7所结合的碳原子一起共同形成环烷环的基团,且B代表氧原子、硫原子或可被低级烷基取代的亚氨基;X代表氢原子或卤原子。更优选符合下列条件的上式化合物其中R3代表至少一个选自下列基团的基团氢原子,卤素,取代或未取代的低级烷基,低级烷氧基或低级烷硫基,硝基,氰基,保护或未保护的羟基和保护或未保护的氨基。进一步优选的是符合下列条件的上述化合物,其中R4为至少一个选自下列基团的基团氢原子,取代或未取代的低级烷基,低级亚烷基和与R4键合的碳原子共同形成环烷的基团。再进一步优选的是符合下列条件的上述化合物其中R5代表氢原子,取代或未取代的低级烷基或环烷基。</p>5土a6日h7月j8人k9口l10 广;(分号键)11 衣y12 食u13 住i14 行o15 草t16 鱼r17 文e18 子w19 石n20 手m21 小,(逗号键)22 心。(句号键)23 一画 v24 二画 c25 多画 x
全文摘要
音形义简繁汉字输入系统,将经过选定的字根,综合字根本身的形状、意义特征进行分组,规律性极强,便于记忆;同时借助计算机进行了约150亿次优化统计,使其尽量保证分组规律性,并使汉字编码的重码率最低;结合首位输入键取汉字拼音或注音的键盘编码的首编码,通过对三千多个常用字编码,其简体字的静态重码率约为3.5%,繁体字仅为3%,已可满足盲打的要求,真正实现了易学、低重码的规范性的统一。
文档编号G06F3/023GK1159024SQ9511240
公开日1997年9月10日 申请日期1995年8月14日 优先权日1995年8月14日
发明者王林 申请人:王林