天然码汉字输入编码方案的制作方法

文档序号:6411980阅读:535来源:国知局
专利名称:天然码汉字输入编码方案的制作方法
一种以首音为主(不分平卷舌),以型音为辅的四键汉字输入法(第一键为汉字首音,二键三键为首尾型音,四键为识别码)。该码根据汉字中形声字占半数以上的事实有意对形声字简化取码。该码共26键位(含学习键),最大特点是既符合汉字的语音和书写规范,又极少人为规则。25键型音对应极为简单,过目不忘,充分利用了人们的汉字知识,是一种友好易学、准确高效的汉字输入法。
80年代以来,在计算机汉字编码的发展道路上,无论是音码、型码还是音型码都在朝着一个逐渐明朗的目标迈进即最大限度地减少人为规则,遵从汉字的语音、书写规范,将人们的汉字知识自然渗透到输入法当中,简言之就是要向“无编码”输入法这一极限目标靠进。从最初追求高速度、无重码,到今天的“智能拼音”和各种含有二次编码的“拼音-汉字”整句输入系统,人们对输入法理想境界的追求已经十分迫切了。能否摒弃各种繁索规则,忘掉可恶的字根表,在简易高效并举的同时,又能很好地兼顾“字”与“词”这两个方面(一个偏重词组或整句而忽略单字的编码不是真正意义上的好编码)。比如,我们可以吸取汉字的声母(首音)这一简单的语音要素,再利用汉字的型音(内含的可读部分)作辅助,这样就有了一个既容易把握又符合人们思维习惯的广泛而坚实的用户基础。换句话说,谁把握住了事物的本质,谁就有可能对汉字编码创新和突破。
经验表明,在汉字的自然属性中针对“型”的定性、定量通常是较难把握的,因而众多型码都有字根不统一,拆法不统一,排列无规律(自然规律)等弊端,甚至输入一个极简单的汉字也要大费周折,这是对人工创造规范的无言嘲弄。相反,以语音知识为背景(这里特指汉字的首音和型音而丢弃韵母、声调等其它因素),加上最简单的基本笔划及部首相辅,它的简明易学性是勿容质疑的。正如人们识字,首先是记住它念什么,上边是什么、下边是什么(是尽可能大的分块记忆而不是肢解成许多部件),只有那些笔型零散的汉字(如商、率、飞等)人们才进一步描述其笔划。可以说,这是一种约定成俗的、最自然最流畅的思维方式。请看例子“李”、“国”、“章”三个汉字,按“木、子”,“口、玉”、“立、早”来拆分是最自然不过了。如果第一键加上声母它们的编码就是“LMZ,GKY,ZLZ”。依此规则,下面的汉字“征、招、捉、赃、钻、债、粘、脏”的编码就是“ZRZ,ZTZ,ZTZ,ZBZ,ZJZ,ZRZ,ZMZ,ZYZ”,问题已经明显显露形声字(内含的成字与整个字首音相同)将带来大量的重码,而解决这一问题的最好方法是“内含成字不取全”,即内含成字若是第一型码就取其前半,若是第二型码就取其后半,如此做法顺应了“首、尾取码”的大趋势(这样取码歧义最小),本输入法的核心正在于此。
以下按字、词两个部分叙述本方法主要内容。
一、单字编码所有单字均为四码第一键(首)音码,第二、三键型音码,第四键为识别码。(另有一、二、三级简码)1、音码部分本输入法首音不必区分平卷舌。26个英文字母中,除了“U”、“I”两键不用,“Z”键用作学习键(该键位灵敏度较差),其它键位安排如下用“V”代表首音“z”和“ zh”;用“C”代表首音“c”和“ch”;用“S”代表首音“s”和“sh”,其它首音用原来字母。
2、型码部分(1)非形声字编码“自然拆成两部分,拆得成字取字音,拆不成字取部首,宁大勿小奔两头”。
所谓“自然拆分”即按汉字的书写顺序(从左至右,从上至下,先外后内)把汉字拆成两半(单笔划汉字重复取码)。以下几种情况我们做为规定①某些汉字的中间部分既可算作前一半,又可算作后一半(往上往下都能构成成字),本法约定此种情况一律顾前不顾后。(比如,“天”字分为“二、人”,“卡”字分为“上、卜”,“舌”字分为“千、口”)。②从直观出发,“口”字做为方框内含其它笔划的,按笔顺本应是最后封口。我们约定方框“口”作为一个字根笔顺在前,内含的笔划笔顺在后(比如,“国”字分为“口、玉”)。另外,象“叉”字一类的笔顺也视为“又”在前,“丶”在后。③类似“式、栽”等字中的“戈”和
做为字根笔顺在前,“工”和“木”笔顺在后。④类似“乘、秉”等字中的中间一竖与前两笔的“丿”、“一”组成“千”笔顺在前;类似“重、垂”等(下面含有形似“土”的)字,中间一竖与最后两笔构成“土”笔顺在后。
所谓“拆得成字取字音”,是指自然拆分中遇到的成字我们取其首音。这里需要强调说明,本法所说的成字一律指内含于某个汉字中的“筒单”、“常用”字——所说常用即比较生僻的成字(如苟、酉、缶、圭等)不在此列;所说简单即绝大多数小学生都可认得的字。反之,小学们不常用、不熟悉的字不在此列(如“妾”、“俞”、“厄”等)。另外,遇到多音字的情况,我们取其最常用首音(如“会”取首音“h”,“参”取首音“c”)。以下四个汉字“长、重、朝、乐”两种读音均较常用,故特殊规定这四个字不视为成字。
所谓“拆不成字取部首,宁大勿小奔两头”指若拆得的两半(或其中某一半)构不成字,则按前半靠前取,后半靠后取(两头奔)的方法取其字报或部首(取大为先)。如“疆”字分为“弓、一”。
(Z)形声字编码“形声汉字亦同前,只是声源(声源字)不取全;声源型码分作二,靠前取前后取后”。
所谓“形声字”这里定义为“某字有内含成字且其首间与整个字首音相同(如“纺”、 “浪”等)。
所谓“声源字”印形声字宇的内含成字,它与整个字首音相同(如前面两字内含的“方”和“良”)。
所谓“不取全”即把声源字按整字的拆分原则进一步分半并根据情况取其前半或后半(如“理”分为“王、土”,“想”分为“木、心”)。
3、识别码尽管用前三码可确准大部分单字,但三键之内仍然有一些重码需要第四键进一步搞定。我们按照五种基本笔划将键盘分成五个区,每个区又分成五个(或四个)键位第一区G(横横)F(横竖)D(横撇)S(横点)A(横折)第二区H(竖横)J(竖竖)K(竖撇)N(竖点)M(竖折)
第三区T(撇横)R(撇竖)E(撇撇)W(撇点)Q(撇折)第四区Y(点横)U(点竖)I(点撇)O(点点)P(点折)第五区B(折横)V(折竖)C(折撇)X(折点、折折)识别方法可概括如下“末笔识别不用背,末一是区末二位,”“单笔收口算例外,末一末二往前推。”所谓末笔是指编码的第三键(或者说型码第二键)即型码的末笔。
末一末二是指打入的末笔笔型按书写顺序的第一笔和第二笔(每笔都有横、竖、撇、点、折五种情况)。比如,汉字“拔、扳、播、扮”四个字的前三码都是BTF,而三个字的来笔笔型分别是“发、反、番、分”,按照上面所述的方法“拨”字的末一和末二是“折、撇”(其识别键为C),“扳”字的末一和末二是“撇、撇”(其识别键为E),“播、扮”两字的末一和末二都是“撇、点”(其识别键为W)。
所谓“单笔收口算例外,末一末二往前推”是指类似“太、疆”两字的末笔型分别是“丶”和“一”(是单笔),所以它的末一、末二(不算最后的单笔)要往前推两步即“撇、点”和“竖、横”;另外,凡是以“口”字为末笔的(或日“收口”的),其末一、末二也要(不算口字)倒推两笔。而不论那种情况,若退到头即算第一笔。
4、简码①一级简码在键盘上除Z键外的25个字母键上分别设置一个最常用的汉字,只需击该键一次加空格便可。一级简码25个。
②二级简码二级简码的编码方式是取全码的前两码加上一个空格键即可。
③三级简码三级简码的编码方式是取全码的前三码再加上一个空格键即可。
5、容错码容错码的含义有两个一个是对那些容易由型引起拆码错误的,我们在条件许可的范围内尽量给出相容的编码(即字型容错码)。第二个含义是指针对末笔的容错码,即在打满四键后仍有个别重码的情况下,我们给重码中的第二个侯选字(第一字可不加选择)提供一个“替补码”。它的作用是输入某个第二候选字时,我们可凭经验直接用“替补码”代替原来的识别码,四键打出该字。如“播、扮”的四键都是“BTFW”,由于我们规定了用“L”键做末笔容错码,所以按“BTFL”可直接打出“扮”字。
6、学习键在输入过程中,遇到某些未知的音、型或识别时,可用学习键查寻帮助。
(1)代替型码或识别码例如,对“舞”字的末笔及识别码不清楚,可按WPZZ进行查寻。即“Z”键可代表后三码中的未知部分。
(2)代替音码本输入法中,如果不知道某个字的首音,可用“U”(称左音键)或“I”(右音键)来代替未知的首音。如此做法必要性在于形声汉字的形码部分在不知道首音的情况下将与原编码不同。如“授”字,知道首音打STY,不知道首音时打?TS。如用“Z”键代表首音输入ZTS将查不到原来编码。所以我们规定用U代表“撇、点、拆”起笔的未知汉字首音,用I代表“横、竖”起笔的未知汉字首音,后面的二、三、四码照样用Z代表。比如,我们不知道首音时查寻“锂、冀”两个字,输入UJL和IBG即可。
二、词组编码1、双字调输入双字词取每个字的前两码。
2、三字调输入三字词取三个字的首音加第三字的第二码。
3、多字调输入多字词取前三字加上最后一字的首音。
权利要求
1.一种计算机汉字编码方法,其特征在于1)、是一种四键汉字输入码,其中第一键为汉字首音,二键三键为首尾型音,四键为识别码。2)、关于音码其特征是首音不区分平卷舌。25个英文宇母中,除了“U”、“I”两键不用,“Z”键用作学习键(该键位灵敏度较差),其它键位安排如下用“V”代表首音“z”和“zh”;用“C”代表首音“c”和“ch”;用“S”代表首音“s”和“sh”,其它首音用原来字母。3)、关于型码其特征是(1)非形声字编码“自然拆成两部分,拆得成字取字音,拆不成字取部首,宁大勿小奔两头”。所谓“自然拆分”即按汉字的书写顺序(从左至右,从上至下,先外后内)把汉字拆成两半(单笔划汉字重复取码)。以下几种情况我们做为规定①某些汉字的中间部分既可算作前一半,又可算作后一半(往上往下都能构成成字),本法约定此种情况一律顾前不顾后。(比如,“天”字分为“二、人”,“卡”字分为“上、卜”,“舌”字分为“千、口”)。②从直观出发,“口”字做为方框内含其它笔划的,按笔顺本应是最后封口。我们约定方框“口”作为一个字根笔顺在前,内含的笔划笔顺在后(比如,“国”字分为“口、玉”)。另外,象“叉”字一类的笔顺也视为“又”在前,“丶”在后。③类似“式、栽”等字中的“戈”和
做为字根笔顺在前,“工”和“木”笔顺在后。④类似“乘、秉”等字中的中间一竖与前两笔的“丿”、“一”组成“千”笔顺在前;类似“重、垂”等(下面含有形似“土”的)字,中间一竖与最后两笔构成“土”笔顺在后。所谓“拆得成字取字音”,是指自然拆分中遇到的成字我们取其首音。这里需要强调说明,本法所说的成字一律指内含于某个汉字中的“简单”、“常用”字——所说常用即比较生僻的成字(如苟、酉、缶、圭等)不在此列;所说筒单即绝大多数小学生都可认得的字。反之,小学们不常用、不熟悉的字不在此列(如“妾”、“俞”、“厄”等)。另外,遇到多音字的情况,我们取其最常用首音(如“会”取首音“h”,“参”取首音“c”)。以下四个汉字“长、重、朝、乐”两种读音均较常用,故特殊规定这四个字不视为成字。所谓“拆不成字取部首,宁大勿小奔两头”指若拆得的两半(或其中某一半)构不成字,则按前半靠前取,后半靠后取(两头奔)的方法取其字根或部首(取大为先)。如“疆”字分为“弓、一”。(2)形声字编码“形声汉字亦同前,只是声源(声源字)不取全;声源型码分作二,靠前取前后取后”。所谓“形声字”这里定义为“某字有内含成字且其首音与整个字首音相同(如“纺”、“浪”等)。所谓“声源字”即形声字的内含成字,它与整个字首音相同(如前面两字内含的“方”和“良”)。所谓“不取全”即把声源字按整字的拆分原则进一步分半并根据情况取其前半或后半(如“理”分为“王、土”,“想”分为“木、心”)。4)、关于识别码其特征是针对三键之内仍然有一些重码这一情况,设置第四键为识别码。具体做法是按照五种基本笔划将键盘分成五个区,每个区又分成五个(或四个)键位第一区G(横横)F(横竖)D(横撇)S(横点)A(横折)第二区H(竖横)J(竖竖)K(竖撇)N(竖点)M(竖折)第三区T(撇横)R(撇竖)E(撇撇)W(撇点)Q(撇折)第四区Y(点横)U(点竖)I(点撇)O(点点)P(点折)第五区B(折横)V(折竖)C(折撇)X(折点、折折)识别方法概括为“末笔识别不用背,末一是区末二位,”“单笔收口算例外,末一末二往前推。”所谓末笔是指编码的第三键(或者说型码第二键)即型码的末笔。末一末二是指打入的末笔笔型按书写顺序的第一笔和第二笔(每笔都有横、竖、撇、点、折五种情况)。比如,汉字“拨、扳、播、扮”四个字的前三码都是BTF,而三个字的末笔笔型分别是“发、反、番、分”,按照上面所述的方法“拨”字的末一和末二是“折、撇”(其识别键为C),“扳”字地末一和末二是“撇、撇”(其识别键为E),“播、扮”两字的末一和末二都是“撇、点”(其识别键为W)。所谡“单笔收口算例外,末一末二往前推”是指类似“太、疆”两字的末笔型分别是“丶”和“一”(是单笔),所以它的末一、末二(不算最后的单笔)要往前推两步即“撇、点”和“竖、横”另外,凡是以“口”字为末笔的(或日“收口”的),其末一、末二也要(不算口字)倒推两笔。而不论那种情况,若退到头即算第一笔。5)、关于容错码其特征是定义键盘上的某键(本输入法定为“L”键)为识别码的容错码,用该键代替识别码可四键打出任一重码中的次要候选字。
2.一种适合于简化形声字编码的学习键助手键位法,其特征是在简化形声字编码的一类汉字输入法中,选一个或两个键位来代替学习键“Z”常规意义上第一键(查寻未知首音)的作用。
3.如权利要求一所述汉字编码方法的键盘型、音对应关系,其特征在于采用如说明书附图
(1)、(2)、(3)[或略做变动]进行汉字编码。
4.采用如权利要求一所述的汉字编码方法对繁体汉字进行编码,其特征是采用说明书所述的型、音取码方法(或将键盘上部首转换成繁体部首、以及基本笔型按本法做相似的简繁对应或略做改动)对繁体汉字进行编码。
5.采用如权利要求一所述的汉字编码方法对字典、词典进行编码,其特征是按权利要求一所述汉字编码方法对字典、词典进行编码。
6.采用如权利要求一所述的汉字编码方法对文字资料进行索引,其特征是按权利要求一所述汉字编码方法对文字资料进行索引。
全文摘要
一种以首音为主(不分平卷舌),以型音为辅的四键汉字输入法(第一键为汉字首音,二键三键为首尾型音,四键为识别码)。该码根据汉字中形声字占半数以上的事实有意对形声字简化取码。1、非形声字型码自然拆成两部分,拆得成字取字音;拆不成字取部首,宁大勿小奔两头。2.形声字型码形声汉字亦同前,只是声源不取全,声源型码分作二,靠前取前后取后。该码用26键位(含学习键),最大特点是既符合汉字的语音和书写规范,又极少人为规则。25键型音对应极为简单,过目不忘,充分利用了人们的汉字知识,是一种友好易学、准确高效的汉字输入法。
文档编号G06F3/023GK1166648SQ9710988
公开日1997年12月3日 申请日期1997年5月21日 优先权日1997年5月21日
发明者梁大石, 梁大成 申请人:梁大石
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1