专利名称:汉语音字输入方案的制作方法
技术领域:
本发明为一种汉字的计算机编码输入方法,具体是一种利用汉字的声、韵、调和汉字的四角号码来编码的方案。
现有的汉字计算机输入方式,常用的有“五笔字型”和“智能拼音”。“五笔字型”是用字根来编码,需记忆字根和掌握拆字规则,学习起来有一定难度并且有的汉字不易保持一致性。“智能拼音”是用字音来编码,学习虽容易,但重码较多。
本发明针对现有汉字编码的缺陷,以汉字的字音为基础结合字形来弥补字音编码的不足,以四角号码为依据来区分重码,提供一种易学易用的汉语音字输入方案。
本发明的技术方案如下汉语音字源于《汉语音字方案》(专利申请97107826.2),分为序字和连字两种字体,序字为汉字的转换形式,连字为词语的拼音形式。
因字和词都以声、韵、调结合字形来编码,故本发明(《汉语音字方案》)对汉语拼音的部分内容作了变换1.将汉语拼音做声母替换zh-π、ch-ψ、sh-Φ、ng-η;做韵母替换ai-v、ei-w、ao-k、ou-f、an-h、en-n、ang-g、eng-η、ia-q、ie-b、iao-d、iu-x、ian-m、in-t、iang-j、ing-p、ua-π、uo-o、uai-ψ、ui-Φ、uan-r(üan-r)、un-s(ün-s)、uang-c、ong-z(iong-z)、ü-y、üe-l(ue-l);做音节变换a、o、e开头的音节在前面加字母ε并按“韵母替换”写成单字母韵母,儿化音节在第一个字母之后加符号“”。
2.用字母⊥、Λ、γ作词取码的标调字母,依次表示阴平、阳平、上声,去声不标调,轻声在声母之前加符号“·”。
以下是字和词的编码方法一、字的编码采用3-4码输入,第一码和第二码为声母和韵母,第三码和第四码为区分汉字形体的标调字母和哑音字母。
第三码的字母,采用《汉语音字方案》中序字的六组标调字母来区分汉字形体,第一组为b、p、m、f,第二组为d、t、v、l,第三组为g、k、h、η,第四组为j、q、x、y,第五组为z、c、s、w,第六组为π、ψ、Φ、ε,各组字母均依次表示阴平、阳平、上声、去声,相应的非变读轻声同形汉字,还要在声母之前加符号“·”,只有轻声的汉字按去声确定标调字母并在声母之前加符号“·”。当出现同音字,在第三码不能区分时,需要依据四角号码取第四码。
第三码和第四码的两个字母按《汉字的序字转换》来确定,而《汉字的序字转换》又涉及《汉字序码方案》。
第三、四码四角号码的前两位数以6和26为周期来确定序字的标调字母和哑音字母,但区分同音字可以取前三位数以至前四位数来确定,前四位数仍不能区分则按字母分布来确定。
标调字母,用1到6六个标调数值与《汉语音字方案》中序字的六组标调字母相对应。哑音字母,用1到26二十六个哑音数值按序数与罗马字母相对应,其中的a、o、e、i、u依次用η、Φ、ε、π、ψ来替换。汉字转换序字层次第一层为常用字内的单音节词,第二层为常用字,第三层为通用字内的单音节词,第四层为通用字,第五层为现行字,按层次在前优先占用标调字母来区分同音字。
字的第三、第四码遵循的转换规则如下汉字的序字转换与《汉语音字形体规范》保持一致,所涉及的字量和字形以《规范汉字综合表》(傅永和编,华文出版社,1997年1月)的7000通用汉字及相应的繁体字和异体字为一级转换。一级转换中单音节词以《现代汉语词表》(刘源主编,中国标准出版社,1984年10月)为准,常用字以《现代汉语常用字表》(国家语言文字工作委员会汉字处编,语文出版社,1988年1月)为准并按字表分为2500字和1000字两个子层次(第一层和第二层分别为两个子层次,记作Ⅰ’、Ⅰ”、和Ⅱ’、Ⅱ”)。超越一级转换的定字量定字形的现行汉字为二级转换。A.一级转换规则A-1.“Ⅰ’汉字”表示第一层第一子层的所有汉字,用四角号码确定标调字母,四角号码的第一位至附号依次用a、b、c、d、e来表示,标调字母记作D,相应的序字记作Ⅰ’D,由ab、abc、abcd、abcde、ed、edc、edcb、edcba顺次确定的标调字母依次记作Db、Dc、Dd、De、Dd’、Db’、Da’。
A-2.Ⅰ’汉字按字频排序超过6个的部分并入Ⅰ”汉字处理,由Db得到的无重码的字直接写成Ⅰ’Db作为序字;有重码的字组用四角号码排字序,按重码字组的重码字个数由少到多取每组重码字的第一个汉字用四角号码排组序并按“高频优先”在各组确定一个Ⅰ’Db,再按“前序优先”按序处理各个重码字;处理重码字时,用De到Da’无效的字留在最后按序用Db的下一组字母直至能确定无重码的标调字母;A-3.Ⅰ’D不包括Ⅰ’Db,与Ⅰ”、Ⅱ’、Ⅱ”汉字的Db不重合就能区分同音字时,要避开Ⅰ”Db、Ⅱ’Db、Ⅱ”Db;A-4.Ⅰ”Db、Ⅱ’Db、Ⅰ”Db与Ⅰ’D不重码时,按《汉语音字形体规范》作为相应汉字的序字。
A-5.Ⅰ”、Ⅱ’、Ⅱ”、Ⅲ、Ⅳ汉字用一致的四角号码确定标调字母和哑音字母,哑音字母记作Y,相应的序字记作Ⅰ”DY、Ⅱ’DY、Ⅱ”DY、ⅢDY、ⅣDY,由ab、abc、abcd、abcde、ed、edc、edcb、edcba顺次确定的哑音字母依次记作为Yb、Yc、Yd、Ye、Yd’、Yc’、Yb’、Ya’并顺次对应Db至Da’。
A-6.确定Ⅰ’D、Ⅰ”Db、Ⅱ’Db、Ⅱ”Db后,无重码的汉字直接用DbYb确定序字;有重码的汉字字组,各组按层次排字序,同一层次用四角号码以至四角序码排字序,重序按汉字笔画排序,按重码字组的重码字个数由少到多取每组重码字的第一个汉字用四角号码排组序并用DbYb确定各组第一个汉字的序字,再按“前序优先”按序处理各个重码字。处理重码字时,用DcYc至Da’Ya’无效的字留在最后按序用DbYb的下一个序数的字母直至能确定无重码的哑间勃母,以26为周期顺次用Db的下一组字母作为标调字母,Db的下一组标调字母对应第一周期内的哑音字母;A-7.繁体字或异体字在相应正体字所转换序字的标调字母之后加符号“’”或“””;B.二级转换规则B-1.二级转换(Ⅴ汉字相应的序字记作VDY)与一级转换保持一致的转换方式,但字母分布各为一个独立系统;B-2.二级转换与一级转换重码时,大写VDY的前三个字母;汉字的序字转换实例采用随意列举的方式来得到具体的序字区分形式。区分序字时采用数值码,从左到右第一位为声调数值,第二、第三两位合起来作为哑音数值,实例如下1.A-bào(“-bào”代替所有字音为bào的一级转换汉字)中Ⅰ’-bào(“Ⅰ’-bào”代替所有字音为bào的Ⅰ’汉字)按《汉字的序字转换》A-2得Ⅰ’报-Db-3(“Ⅰ’报-Db-3”表示Ⅰ’汉字“报”采用“Db”来确定序字,其标调数值为“3”),按A-2、A-3得Ⅰ’抱-Dd-1(“Ⅰ’抱Dc”与“Ⅱ’暴Db”重码,“Ⅰ’抱Dc”表示用“Dc”来作为Ⅰ’汉字“抱”的标调字母所成为的序字选择形式);Ⅰ”-bào按A-4得Ⅰ”刨-Db-4,按A-6得Ⅰ”豹-DbYb-301;Ⅱ’-bào按A-4得Ⅱ’暴-Db-6,按A-6得Ⅱ’爆-DbYb-618;Ⅳ-bào按A-6得Ⅳ趵-DbYb-115,Ⅳ鲍-DcYc-111(“Ⅳ鲍DbYb”与“Ⅰ”豹DbYb”重码,“Ⅳ鲍DbYb”表示用“DbYb”来作为Ⅳ汉字“鲍”的标调字母和哑音字母所成为的序字选择形式);Ⅴ-bào按A-7得Ⅴ-Ⅰ’-Db’-3’(“Ⅴ-Ⅰ’报-Db’-3’”表示Ⅴ汉字“ ”改用Ⅰ’汉字“报”配合符号“’”来确定序字),Ⅴ-Ⅳ鲍-Dc’Yc-1’11,Ⅴ-Ⅰ”刨-Db”-4”,Ⅴ-Ⅰ”刨-Db”-4”(同一规范汉字的多个异体字,其序字相同)。
2.Ⅰ’-fú按A-2得Ⅰ’浮-Db-2,Ⅰ’符-Db-4,Ⅰ’福-Db-1(“Ⅰ’扶”按“Ⅰ”扶”处理),Ⅰ’服-Db-5,Ⅰ’伏-Dd-6,Ⅰ’幅-Db’-3。
3.Ⅰ’-fù按A-2得Ⅰ’负-Db-3,Ⅰ’复-Db-2,Ⅰ’副-Db-6,Ⅰ’附-Dc-4,Ⅰ’付-D1-1(Dc至Da’均无效,用D1至D6依次代表6组标调字母,“Ⅰ’付Db”的下一组标调字母为D1),Ⅰ’富-D5-5(“Ⅰ’服”按“Ⅰ”服”处理)。
4.Ⅰ’-biàn按A-2得Ⅰ’变-Db-6,Ⅰ’便-Db-3,Ⅰ’辩-Dc-4,Ⅰ’遍-De-2;Ⅱ’-biàn按A-6得Ⅱ’辨-DbYb-626,Ⅱ’辫-DcYc-404。
5.A-yì确定Ⅰ’亿-Db-3,Ⅰ’译-Db-1,Ⅰ’翼-Db-5,Ⅰ’意-Db-6,Ⅱ’义-Db-4,Ⅱ’艺-Db-2后,均能按A-6、A-7区分每一个汉字(略)。
《汉字的序字转换》使定量定形的汉字有了唯一的字序,就能产生特定的汉字音化形式一序字,7000个通用汉字不出现重码。汉字的序字转换实例采用了数值码,但直接与字母相对应,如“Ⅰ’报-Db-3”、“Ⅳ鲍-DcYc-111”顺次对应键盘输入为“Bkη”、“Bkfk”(序字的视读形式区分了大小写,但键入形式不必区分大小写)。
二、词的编码直接采用字音的声、韵、调来编码,去声不标调,轻声在声母之前加符号“·”,但助词“的、地、得、着、了、过”依次写成“de、di、dε、πe、le、go”。
词码可以不考虑重码,而由屏幕提示行来加以区分,单字词由字码的第三个字母来区分,多字词由各个字码的第三个字母来区分,实际中极秒用到第四个字母。也可以按《汉语音字形体规范》中的“三、连字的单一字母处理”之“1.”(书写单位中非专用标调字母与后一个字母各为一个音节时用符号“””隔开)、之“2.”(专名在末尾加符号“””)、之“3.”(非汉语化外来词在单一罗马化形式的第一个字母之前加符号“’”)使用符号“””、“’”来保持汉语音字的词语效用。
词码也可以采用汉字的形码来区分重码,即按《汉语音字方案》中的普通音节来输入词的规范语音,需要处理重码时采用操作者熟悉的其他形码尤其是“汉字序码”的第一个字母(“汉字序码‘为一键输入汉字左上角和右上角的两位四角号码,比其他形码简易且更为有效)来加以区分,甚至可以不考虑重码只按需要分化的同音词来加以区分。
本发明采用的输入键盘是在计算机标准键盘的数目字键位之下镶入一排“η、π、ψ、Φ、《、》、⊥、γ、ε”等键位(参见专利申请99115070.8),也可以采用计算机标准键盘输入。字母对应的序数用两位数表示,作为字母的数码形式,但标调字母⊥、Λ、γ和表示儿化的符号“”可以用数目字7、8、9、6来代替。
采用计算机标准键盘输入,字母π、ψ、Φ、η、ε、⊥、Λ、γ要变换成罗马字母,即充当声母、标调字母、哑音字母的变换为π-i、ψ-u、Φ-o、η-a、ε-e、⊥-r、Λ-n、γ-’(“γ”、“’”),充当韵母的变换为π-q、ψ-b、Φ-y、η-l(在声母n、l之后为η-c)、ε-e,也可以用数目字键位2、3、4、1、7、8、9、0依次代替π、ψ、Φ、η、⊥、Λ、γ、ε来输入。词码的第一个音节用π、ψ、Φ、η、ε标调(依次表示阴平、阳平、上声、去声、轻声)并按调声韵排列,然后把非罗马字母变换成罗马字母(不包括专用标调字母⊥、Λ、γ)来消除词码之间的空格成为快速键入形式。
词码也可以用3、2、5、4、1和7、8、9、6、0两组数目字来代替首字母π、ψ、Φ、η、ε来标调(专名为3、2、5、4、1,非专名为7、8、9、6、0,均依次表示阴平、阳平、上声、去声、轻声)作为快速键入形式(采用计算机标准键盘要把非罗马字母变换成罗马字母,采用汉语音字键盘则不必变换),以保持汉语音字的词语效用。
本发明利用字音和字形来编码,通用字不存在重码并且具有一致性,通用词不存在不能区分的重码并且可以与汉语的拼音化形式保持一致,采用汉语音字键盘和计算机标准键盘均有快速键入形式并能保持汉语音字的词语效用。因此,本发明的应用不仅是计算机编码输入的人力解放,而且是文化教育的人力解放。
权利要求
1.一种汉语音字输入方案,其特征为(1)字码,由3-4码输入,第一码和第二码为汉字的声母和韵母,第三码和第四码为区分汉字形体的标调字母和哑音字母;①zh、ch、sh、ng做声母替换为π、ψ、Φ、η;②ai、ei、ao、ou、an、en、ang、eng、ia、ie、iao、iu、ian、in、iang、ing、ua、uo、uai、ui、uan、üan、un、ün、uang、ong、iong、ü(u)、üe(ue)做韵母替换为v、w、k、f、h、n、g、η、q、b、d、x、m、t、j、p、π、o、ψ、Φ、r、r、s、s、c、z、z、y、l;③以a、o、e开头的音节在前面加字母ε,儿化音节在第一码之后加符合“”;④第三码和第四码按“汉字的序字转换规则”,由四角号码以6和26为周期来确定;A.一级转换规则A-1.“Ⅰ’汉字”表示第一层第一子层的所有汉字,用四角号码确定标调字母,四角号码的第一位至附号依次用a、b、c、d、e来表示,标调字母记作D,相应的序字记作Ⅰ’D,由ab、abc、abcd、abcde、ed、edc、edcb、edcba顺次确定的标调字母依次记作Db、Dc、Dd、De、Dd’、Db’、Da’。A-2.Ⅰ’汉字按字频排序超过6个的部分并入Ⅰ”汉字处理,由Db得到的无重码的字直接写成Ⅰ’Db作为序字;有重码的字组用四角号码排字序,按重码字组的重码字个数由少到多取每组重码字的第一个汉字用四角号码排组序并按“高频优先”在各组确定一个Ⅰ’Db,再按“前序优先”按序处理各个重码字;处理重码字时,用Dc到Da’无效的字留在最后按序用Db的下一组字母直至能确定无重码的标调字母;A-3.Ⅰ’D不包括Ⅰ’Db,与Ⅰ”、Ⅱ’、Ⅱ”汉字的Db不重合就能区分同音字时,要避开Ⅰ”Db、Ⅱ’Db、Ⅱ”Db;A-4.Ⅰ”Db、Ⅱ’Db、Ⅰ”Db与Ⅰ’D不重码时,按《汉语音字形体规范》作为相应汉字的序字。A-5.Ⅰ”、Ⅱ’、Ⅱ”、Ⅲ、Ⅳ汉字用一致的四角号码确定标调字母和哑音字母,哑音字母记作Y,相应的序字记作Ⅰ”DY、Ⅱ’DY、Ⅱ”DY、ⅢDY、ⅣDY,由ab、abc、abcd、abcde、ed、edc、edcb、edcba顺次确定的哑音字母依次记作为Yb、Yc、Yd、Ye、Yd’、Yc’、Yb’、Ya’并顺次对应Db至Da’;A-6.确定Ⅰ’D、Ⅰ”Db、Ⅱ’Db、Ⅱ”Db后,无重码的汉字直接用DbYb确定序字;有重码的汉字字组,各组按层次排字序,同一层次用四角号码以至四角序码排字序,重序按汉字笔画排序,按重码字组的重码字个数由少到多取每组重码字的第一个汉字用四角号码排组序并用DbYb确定各组第一个汉字的序字,再按“前序优先”按序处理各个重码字。处理重码字时,用DcYc至Da’Ya’无效的字留在最后按序用DbYb的下一个序数的字母直至能确定无重码的哑间勃母,以26为周期顺次用Db的下一组字母作为标调字母,Db的下一组标调字母对应第一周期内的哑音字母;A-7.繁体字或异体字在相应正体字所转换序字的标调字母之后加符号“’”或“””;B.二级转换规则B-1.二级转换(Ⅴ汉字相应的序字记作VDY)与一级转换保持一致的转换方式,但字母分布各为一个独立系统;B-2.二级转换与一级转换重码时,大写VDY的前三个字母;(2)词码由字音的声韵调拼音构成,⊥、Λ、γ依次表示阴平、阳平、上声,去声不标调,轻声在声母之前加符号“·”,区分重码采用相应字码的第三码,字母相应的序数作为词码的数码形式,词码的第一个字用字母π、ψ、Φ、η、ε标调并按调声韵排列成为快速键入形式;(3)采用计算机标准键盘间接输入,即非罗马字母变换成罗马字母①⊥、Λ、γ依次用r、n、“’”来代替;②π、ψ、Φ、η、ε作为声母、区分重码的标调字母、哑音字母依次用i、u、o、a、e来代替,作为韵母依次用q、b、y、l(在n、l之后为c)e来代替;③词码的第一个音节按调声韵排列并用数目字标调,其中专名用3、2、5、4、1标调,非专名用7、8、9、6、0标调,成为快速键入形式并保持汉语音字的词语效用。
全文摘要
汉语音字输入方案,分字码与词码,字码由3-4码输入,第一码和第二码为汉字的声、韵母,第三、四码为区分汉字形体的标调字母和哑音字母。词码由字的声韵调拼音构成,区分重码采用相应字码的第三码,采用计算机标准键盘间接输入。本发明针对现有汉字编码的缺陷,以汉字的字音为基础结合字形来弥补字音编码的不足,以四角号码为依据来区分重码,是一种易学易用的汉字输入方案。
文档编号G06F3/023GK1311474SQ0011271
公开日2001年9月5日 申请日期2000年2月28日 优先权日2000年2月28日
发明者余彦中 申请人:余彦中