专利名称::52键位超大字符集汉字输入法的制作方法52键位超大字符集汉字输入法本发明属于计算机键盘汉字编码输入技术,尤其是利用汉语拼音进行超大字符集汉字编码输入的方法。所谓超大字符集是指字符量为GBK(21003个汉字)3倍以上的字符集。目前,公知的超大字符集汉字输入技术仅"新典码输入法"一种,用于解决方正兰亭《字海》65000字的输入问题。"新典码输入法"根据汉字的部首、笔划、笔顺、笔划数等特征作为输入汉字的检索条件,采用交互式图形界面,通过不断选择目标汉字的特征组合,最终通过鼠标点击实现汉字输入。从汉字编码输入的角度来看,"新典码输入法"是一种没有固定码长,没有确定编码字符的汉字输入方法,输入效率很低,但在不知汉字读音的情况下,作为一种部首笔划检索方案有一定的价值。本发明的目的是使每个汉字至少有一个包括声、韵、调和意义四个要素的拉丁字母编码,实现超大字符集汉字的高效输入。本发明的目的是这样实现的(1)算法选择{同音字符}n{限定字符}={上屏字符}也即,根据同音字符集与限定字符集的交集确定上屏字符集。若使上屏字符唯一,必须使特定的同音字符集和特定的限定字符集只有一个共有元素。(2)输入方法上屏字符读音+限定字符读音=上屏字符现代汉语有双音节化的趋势,故此现代汉语语境可设定上屏字符包括限定字符,这样可使输入的效率更高。(3)读音拼写正体声母+正体韵母=阴平读音正体声母+斜体韵母=阳平读音斜体声母+斜体韵母=上声读音斜体声母+正体韵母=去声读音正体声母+正体韵母'=轻声读音本发明读音拼写的声母和韵母,皆用汉语拼音方案中声韵和韵母在计算机键盘分布中的键位字母表示,声母和韵母的键位分布请参阅发明专利申请说明书《二代区位码汉字输入法》专利号:ZL94115551.X和公开专利申请说明书《中文标准键盘及千字文置换输入法》申请号2006100933678。由于采用上述方案,"上屏字符读音+限定字符读音"所开辟的编码空间理论编码单位有524个,即7311616个。根据实际检索汉字读音所得到的数据,编码单位约有14002个,即1960000个。这一巨大的编码空间可用于超大字符集里所有字符和所有双音节词的编码。编码通过前后两个字符的关联,揭示彼此的意义。编码含有字符的声、韵、调和意义四个要素,具有一种简明的"拼音汉字"的性质。图面说明图1为422音节声韵配位图,纵行表示声母与键位的对应关系,横行表示韵母与键位的对应关系,纵行声母与横行韵母交叉点为一个音节,图的左上角为阴平、阳平、上声、去声和轻声五种声调表示方法的示例。图2为正体、斜体字母在键盘中的分布及声、韵母与键位的对应关系,拉丁字母键位以外键位上标明的天干、地支符号为《千字文》中汉字及键位上标明的其它符号区位码编码输入用符号。下面结合附图和实施例就本发明输入法做详细说明。本发明汉语拼音声母、韵母分布在26个正体字母和26个斜体字4母键位上,同名字母键位分布的声母、韵母相同,参见表l。<table>tableseeoriginaldocumentpage5</column></row><table>表1表l中的声母zh,ch,sh分别用单字母a,i,u表示;e行零声母指所有以e开头的韵母e,g,ei,en,eng,er自成音节时,需要用e补位;a行o行零声母指所有以a或o开头的韵母a,ai,an,ang,ao,o,ou,ong自成音节时,需要用o补位;m,n,ng的零声母指鼻音m,n,ng自成音节时,需要v补位;u行零声母指所有以u开头的韵母u,ua,uai,uan,uang,uei(ui),uen(un),ueng,uo自成音节时,需要w补位;i行U行零声母指所有以i或U开头的韵母i,ia,ian,iang,iao,ie,in,ing,io,iou(iu),iong,ii,Uan,Ue,Un自成音节时,需要y补位;声母ng专用于拼写广东话"唔(我)"ngii(编码为Qt/);韵母栏中的m,n,ng是指这三个音自成音节时,把它们当作韵母看待。本发明用键位字母的正斜体排列组合表示声调参见表2。<table>tableseeoriginaldocumentpage6</column></row><table>本发明用两个拉丁字母拼写一个汉字的读音,这一读音包括声、韵、调三个要素。若"听其音"不能"知其意",则属于同音同调词,如"期中"和"期终"的编码都是QIAY,需进一步限定,编码改写成QIAY-JJ"期中(间)",QIAY-JM"期终(结)",音节分隔符自动生成,"间"和"结"两字在输入时不上屏。一个完整的编码单位具有声、韵、调和意义四个要素。本发明对单音节字符实行双音节编码,其目的就是使每一字符都有一个完整编码单位,具有完整编码单位的字符上屏不需要进行选择。单音节字符双音节化以后,其编码形式与双音节词相同。这里需要解决三个技术6问题(1)编码拼写的区别本发明采用隔音符解决这一问题。例如:"米、米饭"的编码可以是"M/'iT,M/FF"。(2)上屏字符的选择古代汉语及复杂语境单字符自动上屏,现代汉语双字符自动上屏。(3)无音汉字的处理借用读音体系里的一个读音进行编码。本发明在计算机键盘中用52键位输入,实质上将声调作为一种编码输入元素考虑进去,如果正体字母和斜体字母选择有误就会导致声调输入不正确。考虑到超大字符集汉字输入法使用者普通话的实际水平,容错功能的设置是必须的。本发明所谓的容错功能,是指不考虑字母的正体和斜体选择,由这些字母排列指向这些字母严格按正体、斜体字母编码指向子集的并集。例如"UGHS"这一编码若不考虑声调这一编码因素,可以指向"上海、伤害、商海"等编码对象。容错功能往往导致多个可能上屏选择,需要选择上屏。本发明图2中天干、地支键主要用于选择或插入功能,部分功能说明见表3,详细说明见公开专利申请说明书《中文标准键盘及千字文置换输入法》申请号2006100933678(本发明对上述公开说明书中天干、地支键的部分功能做了调整)。键位甲乙丙丁戊己庚辛壬癸子功直接回车Ctrl子单主单回格空格Alt主单Ctrl1能u门删用En/=COCO除问+一X—键位丑寅卯辰巳戊未串酉戌亥功直接2467890,能《》丄〃八€O《》"',、〇」表37表3中字符输入示例在未击字母键的情况下,直接击癸键或子到亥键分别输入"小数点"、"0—9"、"逗号"和"句号";击斜体字母K再击乙键输入"E",击斜体字母Z键,再击丙键输入"《》"等——靠前的字符击r键,靠后的字符击Z键,然后再击字符所在键。下面用表4说明不同音节字符或字符串的输入方法:<table>tableseeoriginaldocumentpage8</column></row><table>表4表4中的声母编码输入,相当于一些输入法中的破碎拼音输入,但本发明的声母编码输入有5个零声母,使声母总数达到26个。正体、斜体的不同也将使编码指向不同的编码对象。现将本发明的技术路线做一简要说明(1)将超大字符集中的每一个字符纳入到一个读音体系。本发明用巳经检索到的422个音节和每个音节的五种读音可能作为读音参照系,赋予每一字符至少一个读音。有公认读音的使用公认读音,没有公认读音的,从读音参照系里借用一个读音。读音拼写参见图1、表1和表2。(2)单音节字符双音节化。本发明将超大字符集里字符的读音作为第一音节,再选择该字符的一个或多个相关字作为限定字,以限定字读音作为第二音节,第二音节的选择应尽可能避免"双音节重码"--个双音节编码有两个或两个以上的编码对象。(3)同音同调双音节词或多音节词的分化。本发明根据双音节词或多音节词中的关键字,再次选择限定字以其读音作为最后一个音节将其分化出来。(4)编码对象和硬件选择。本发明以方正兰亭《字海》65000字为基本编码对象,选择中文标准键盘为输入硬件。(5)编码参考书目选择。本发明选择美国汉学家梅维恒教授聘请国内专家编写的《汉语大词典词目音序索引》和《汉语大字典》作为基本参考书目。(6)终极目标是为方块汉字的拼音化铺平技术道路。本发明的一个完整编码单位就是所谓的拼音汉字,例如"同一个世界,同一个梦想。"的编码为TT-mYIGEt/L/M,TT-HIYIGEMT观权利要求1.52键位超大字符集汉字输入法是一种计算机键盘汉字编码输入技术,其特征是单音节字符双音节编码,双音节编码中通过两个音节的相互限定揭示编码的意义,每一个汉字编码都含有声、韵、调和意义四个要素。2.根据权利要求1所述的52键位超大字符集汉字输入法,通过标有正体和斜体字母的两类不同键位输入声母和韵母,在输入声母和韵母的过程中自动输入声调。全文摘要52键位超大字符集汉字输入法属于计算机键盘汉字编码输入技术,采用单音节字符双音节编码的方法分化同音字,通过双音节中两个音节的相互限定揭示编码的意义,使一个完整的编码单位含有声、韵、调和意义四个要素,具有简明拼音汉字的性质,古代汉语和复杂语境设定单音节字符自动上屏,现代汉语语境设定双音节字符自动上屏,使超大字符集中汉字的输入快速准确。文档编号G06F3/023GK101650601SQ200810210460公开日2010年2月17日申请日期2008年8月14日优先权日2008年8月14日发明者舒从如申请人:舒从如;舒正福