汉字简易编码输入法的制作方法

文档序号:6599370阅读:607来源:国知局
专利名称:汉字简易编码输入法的制作方法
汉字简易编码输入法隶属于汉字终端处理技术领域。目前,编码输入汉字尚是信息处理和汉字终端技术的重要构成部分,但当今的各编码方案多有这样那样的不足,离最优化,标准化尚有距离,不能解决“容易学的输入慢,输入快的不容易学”这一问题,关键还在于上述编码没有抓住汉字音形义方面的本质特征,笔者认为其特征是每个汉字是由若干汉字单元构成的,即组成汉字的每一部分也是汉字!而部件及基本笔画则是汉字的一种特殊形式,鉴于此,笔者在现有技术水平上,采纳其他方案的成功之处,充分利用汉字音形义方面的特殊性设计了如下方案,希望能促使汉字输入技术向更普及,更高效的方面发展。
方案如下文[2.1]基本原则[2.1.1]汉字汉语拼音双拼形式的声码与其韵码及义码的组合为基本编码形式,即声码+韵码+义码。(参见表1)[2.1.2]义码指汉字常见偏旁部首或书写序中尽可能不与字韵母相同的第一成字部件的声母代码或字第一基本笔划的声母代码之一。
说明(1)“声码+韵码+义码”码元为A~Z26个拉丁字母码位为三位,因此,码组合可能(20~26)3大于GB2312-80共收6763字数,具备构码的必要条件;另外,每音节含有的常用字量,大致是均匀的,义码的标记分布大致也是均匀的,(也存在特殊性,如“i”韵部),因此,GB2312-80,特别是其一级字库3755个汉字,基本能被一一对应到码映射上,故用上述263形式来给汉字编码是可能的,其它编码或许也能做到这一点,但多不能解决前述“容易学的输入慢,输入快的不容易学”这一问题,而本编码可以较容易的解决这一难题。
说明对[2.1.2].义码见表(1),其中,成字部件是指其本身是汉字者,但这里指经(或不经)过变形的充当所组成字的一部分的字形,包括部分独,合体字,基本笔划横竖撇点折以及上述常用偏旁部首,后者因为使用累频较高,因此单独列出,此定义是笔者首创。具体编码规则,见表(2),表(1)为具体编码的预备资料[2.2.1]对表(1)说明。表中A~Z26个拉丁字母表示需输入所在行信息时必须键入的相应键位即码元。声母-声,义码列中,键A,E,I,U分别用来表示韵母为I(或U)时字声调的阴平,阳平,上声和去声,上述U韵部指fu,gu,ku,hu等音节;i韵部指所有以i为韵母的音节,此为减少重码的有效方法之一,键O用来表示零声母,键v定义为学习键,键c用来表示声母c和ch,键z,s功能同,其余声母与同名键相对应。韵母-韵码列中,韵母用同名键或其他非元音字母键代替;但如韵母en,eng用同一键G表示,此为一码双韵法,下同,笔者有意识的将数组读音相近的两韵母归纳在同一码上实践证明,此法更有利于汉字的快速输入。常用偏旁部首列中,一般常用部首用声母同名键表示,如钅→金字旁→丁。扌、艹、氵、木。等因其组成字多,分别用元音键A,E,I,U等表示,基本笔画横、竖、撇、点、折分别用同名键H、S、P、D、Z表示。下文对表(2)说明,先说明字输入形式。一般形式,同[2.1.1]为字输入的基本式,而其他则为其在特殊情况时的具体应用。零声母,用韵母键O表示零声码,其他同[2.2.2.1],[2.2.2.3]I,U韵部,参见[2.2.1.2],后续字声码及义码。
上述字输入方式出现重码时处理情况参见[2.3]。高频字,指使用累频相对较高的二十余个最常用字(词),累频达10%左右,打一键加空格即可输入(内容见表(1))[2.2.2.5]最常用字(约400字),设计每个音节中使用累频相对最高的单字(词)为音节字,即最常用字,不包括高频字形式,打声韵两码加空格即可输入,与高频字一样,不含重码,设计此类字亦可用[2.2.2.1]节声韵义码一般形式输入,但出现重码时,系统会采用静态先见技术自动优先输入,使用累频达60~70%。不认识的字,这是一个模糊区域,因各操作者的文化层次不同而有不同的内容,其输入方法是V+声1+声2+声末(或韵2),然后根据重码选择,实际上,此类字以GB2312-80二级字为主,出现累频<1%,此形式也适用于繁体字的输入,声1、声2等分别为组成字的成字部件的声码(或韵码)。
本编码根据汉字本身的特征采用字词混合输入方式,采用等长四码,不足时采用空格补足或示终,以下为词语输入可能形式。二字词,前述任何形式之一加第二字声码加空格键,使用累频约达40%。三字词,见表(2)。多字词,主要指四字及以上词,如成语、诗句等,见表(2)。重码处理技术。笔者分析发现“I”韵部,部分“U”韵部之音节内含同音字数量相对较多,如果按照前述“声码+韵码+义码”法来编码,重码率肯定高于其他音节,根据这种特殊性,笔者设计在不增加码位情况下,增加声调识别信号,使每音节区别力达26×4>100之多,方法参表(2)规定A,E,I,U四元音字在编码组合首位时,分别表示“I”韵部分音节“FU”,“GU”,“KU”,“HU”等的声调阴平、阳平、上声和去声,而此时韵母“I”,“U”不再以韵码形式表现出来,这样,由于解决了矛盾的特殊性,便整个编码的重码率大为降低。采用上述技术后,对GB2312-80一级汉字,在每音节组合中,仍平均有2~3对重码,以声韵义三码不能充分给出区别,必须增加识别码,笔者考虑,可用二字词的第二字声码来作为第一字的重码时的识别码,主要因为,语言是以词语为记录载体的,我们汉语则尤以二字词为主;很有可能,我们要输入的恰是以其字所构成的一条词语,因此,如果正需输入该词,打一下,“间隔”即可,否则,继续输入下一字代码,则该重码字也可被选择与输入了,记录时,可用个别代码(如第四码)的大小写形式来区别词语或重码字。其他,可采用静态高频字先见技术,重码时,令累频高者置于优先输入地位,若不给予反对或不追加信息,则系统可自然输入该字,或可采用声音信号或屏幕提示信号打入选择序或字后续信息来输入汉字,重码状态时,系统不会误会输入信息而出错,词语出现重码可能要少得多,重码时还可按上述处理。容错处理技术.
在方言语系,往往把某些声(韵)母间相混淆,因此,本编码在安排声母、韵母代码时,作了容错处理,把分辨力不强的声(韵)母音素在不增加重码的前提下安排到同一键位上,这样,编码对人的语音要求变得模糊而简单了,但输入速度反而得以提高,(见表(1))。键盘鉴于国际标准化和便于推广普及的原则,本编码拟采用标准键盘,当然,其他键盘上也可应用。“汉字简易码”的技术特点。对GB2312-80而言,在标准键盘上本编码是能够实现的最短编码之一,平均动态码长为1.8~2.0键每字,含(间隔键),并且,兼具有见字知码和见码识字的特点,[2.6.2]创造性的设计了义码,利用它来给汉字或其词语编码,义码与其他以部首作形识别码者之区别所在,也是本编码成功原因之一。编码本身与字词有本质联系,属有理码,没有众多烦难而不标准的规则,不涉及所谓“字根”的拆分,没有“Z-ZH”、“in-ing”等分辨力不强的音素之间的区分,而可以容错输入,对方言语系或低水平者输入汉字尤显便利,标准而又模糊,既效率高而又适于推广普及,这是一般编码所无法比拟的。与汉语言文字拼音化方面一致,编码本身即不失为一种优秀的拼音文字,并且,因大多数繁体汉字与简化字的“简易码”是相同的,这也为文字拼音化方向和书同文方向奠定了基础。将简易码按拉丁字母顺序排列,可广泛用于文字排序,图书情报检索,档案管理,信息传输等领域,可用来编制“简易码汉字查字表”,可以象西文一样直接翻阅查字,比部首查字法等要简捷的多。
附参考资料,(1).现代汉语 甘肃人民出版社 黄伯荣等(2).汉字终端技术入门 人民邮电出版社 周关兴(3).汉字信息处理系统 东南大学出版社 曾庆辉(4).中文信息 90~92.
(5).GB2312-80.
(6).语言文字规范手册 语言出版社编


权利要求
一种汉字编码输入法,以“双拼”为基础构成,其技术特征是“义码”规律、及其编码基本形式,声码+韵码+义码。(表1、表2)。
全文摘要
汉字简易编码输入法隶属于汉字终端处理技术领域,当今的各类编码有这样或那样的不足,尚未真正解决“容易学的输入慢,输入快的不容易学”的问题,关键还在于没有抓住汉字音形义的本质特征,鉴于此,笔者通过“义码”的设立使得对GB2312-80在拼音形式下用三码进行标记成为可能,(2文档编号G06F3/023GK1099493SQ9310443
公开日1995年3月1日 申请日期1993年4月13日 优先权日1993年4月13日
发明者严文魁 申请人:严文魁
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1