嵌合字根式中文输入法的制作方法

文档序号:6375881阅读:210来源:国知局
专利名称:嵌合字根式中文输入法的制作方法
技术领域
本发明关于一种在电子装置的键盘上输入中文文字方法,特别是关于一种建立于特殊键盘对应规则的输入法。
背景技术
如何将中文输入计 算机或其他电子设备一直是令人困扰的问题。由于中文字并非由字母组成,中文输入必须仰赖一层额外的转换才能将一组键盘键入的顺序(输入键组)对应到内存的中文字。传统上,我们以两种方式实践这个对应一是以字的读音为标准,将音转换成拼音符号,再以简单的键盘对应输入。拼音式输入法的最大优点是容易学习,每个人根据日常口语的使用习惯便可轻易上手。但是拼音式输入法也有一些缺点,其中最严重的是使用者必须分心在众多同音字中挑选出正确的字,使得这类输入法的速度无法提升。另一种输入法的途径是将中文字依照特定的规则拆解成若干字根,再将字根分组,对应到键盘位置。这类字形式输入法的速度相对较快,但是有一个致命的缺点难学易忘。以字形为基础的输入法在台湾有仓颉、大易、呒虾米等,在中国大陆有五笔、郑码、二笔等输入法。中文字的构造遵循着若干基本规则。一个字往往能够用直觉拆解成一些基本的构件,例如「明」可拆成「日」「月」、「呆」可拆成「口」「木」,符合直观,每个人都能操作。也有某些输入法为了避免庞大字根表的记忆困难,主张以基本笔划、或是两个基本笔划合并的组合作为拆字的单元。但是用笔划拆字,并不符合我们对中文字的直观。我们相信,如果要超越中文众多同音字的限制,仍必须以字根为单元将每个字拆分编码。以字形为基础的输入法包含两套关键规则将文字拆解成字根的「拆字规则」,与将字根对应到键盘位置的「对应规则」。如果要使「拆字规则」符合直观、好记好学,所使用的中文字根数目一般在一百以上。如何将这许多看似无关的字根对应到实际键盘位置是一个棘手的问题。这一部分往往也是初学一种输入法的人最难以克服的障碍。为了方便学习,各种拆字式输入法都设计了某种便于记忆学习的字根对应规则。一般的做法是先确定每个键的代表中文字,称之为「码元」,然后再将形状类似的字根指定到同一码元的位置。以仓颉输入法为例,其码元是日(A)、月(B)、金(C)、木(D)、水(E)、火(F)、土(G)、竹(H)、戈(I)、十(J)、大(K)、中(L)、一(M)、弓(N)、人(O)、心(P)、手(Q)、口(R)、尸(S)、廿(T)、山(U)、女(V)、田(W)、卜(Y)。通常码元与其对应的英文字母并无关,为了让用户容易记忆,作者或许会设计一些可供联想的口诀。例如仓颉码有一种口诀是「日头、月饼、金星…」;“头”表示“头一个字母”,即是A ;“饼”与“星”则依谐音对应到B与C。一旦码元与字根的对应确立后,可以依照不同拆码原则产生各式输入法。以仓颉码为例,它衍生出速成、快仓、全仓、易颉、大新、乱仓打鸟、轻松等众多输入法。而基于五笔键盘衍生出的输入法也有极点五笔、华夏五笔、搜狗五笔等等。由此看来,键盘对应规则可说是输入法的灵魂。

发明内容
为了克服一般字根表难背难学的缺点,本发明提出一种将字根嵌合成一般中文字,使字根能符合直观地对应到键盘字母的方法。若要以字根为单元拆解中文字,大致需要上百个字根才能符合直观。换言之,如果只用26个英文字母键进行编码,每一个键位必需对应数个字根。如果能够找出一组25或26个中文字,每一个字分别能与一个英文字母产生联想,同时其本身又由一组字根构成,那么我们就可以轻易地记忆这些字根以及它们所对应的键盘位置。本发明提出一种符合直观的字根键盘设计方法。许多中文字是直接由字根嵌合而成,换言之,其本身可以拆解成若干个符合直观的字根。而这个中文字本身的意义又可以直接译成英文然后自然地对应到键盘。举例来说“早"这个字由“日"与“十"两个字根组成。通过[早一 Early]的中英对照,我们可以很直观地将“日"与"十"这两个字根对 应到“E "这个键盘位置。又如“钓"可以拆成“金"、“勹"与“、",而“钓鱼"的英译是“Fishing ",因此键盘上的“F "就代表“金"、“勹"与“、"这三个字根。我们考虑所有常用的嵌合式中文字,在其中挑出一组作为码元,它们必须同时符合二个条件(一)嵌合出这组码元的字根无重复,(二)每一个码元对应到一个字词,这个字词的英文翻译的头一个字母无重复。例如根据这个方法,可以选出如图1所示的25个码元,分别对应到不同的英文字母(“X "保留为其他用途),因此使用者只要记熟这25个字与其英文意涵,便掌握了键盘上六十多个字根的位置。相较于一般输入法,本发明不但降低了将字根对应到码元的记忆负担,同时因为码元本身代表的六十多个字根提供了更广泛的模拟基础,未被码元涵盖的字根可以更直觉地经由联想与码元连接。在拆字规则方面,本发明舍弃将每一个字完全拆分成字根的传统模式,对于每一个中文字,依其第一笔划与最末笔划所属的字根取两码,再加上由其读音的声母对应的键盘,这三码即形成此一中文字的编码。虽然这种固定三码长度的法则会产生若干重码,但是拆字的规则大为简化,便于学习。三码可以产生一万多种组合,相较于拼音式输入法只有一千多种发音组合,选字需求将大幅降低,使用者可进一步依赖智能选字系统满足所需。


图1显示依本发明较佳实施例的键盘对应。图2显示依本发明较佳实施例的英文联想规则。图3A,3B, 3C,3D显示依本发明较佳实施例的字根涵盖对应规则。图4显示本发明寻找一组对应于英文键盘的码元的算法预先建立的「候选字库」示意图。图5显示依本发明寻找一组对应于英文键盘的码元的算法流程图。图6A,6B,6C显示若干依本发明算法所产生的对应码元。附图标记说明510--------选出一组嵌合字「候选字库」520--------记录每个字包含的字根
530--------附加对应的英文意义并记录首字母540--------随机由「候选字库」中选取一字加入「选定字集」550-------将「候选字库」中具有与「选定字集」相同字根的字移除560--------「选定字集」的字数是否已达25570--------以匹配程序(matching)检查「选定字集」中每个字是否可对应到一
不同的英文首字母571--------输出「选定字集」580--------「候选字库」中是否仍有字可选
590--------加载原始「候选字库」
具体实施例方式要依照嵌合字根原理设计一套输入法首先必须选出认为可用的简单中文字,同时将其包含的字根与可能对应的英文字母表列出来。我们称这些字为「候选字库」。例如我们考虑“案”这个字,它可以直观地被拆解成女”、“木”这三个字根,而通过[案例一Case]与[答案一 Answer]这两项中英对应,我们可以选择C或A作为“案"的代表键。当然,如果有需要,我们也可以考虑更多相对比较不自然的中英文对照以寻求更多的键盘对应,例如可以加入[提案一 Proposal]让P也可能代表“案"。图4列出更多的例子,但是它只显示可供我们选择的众多候选字中的一小部分,我们省略了较罕用字(如“嵌”)、不能直觉地被拆解的字(如“世”)、找不到妥适英文对应的字(如“系”)、字根数过多的字(如“虑”);实际上考虑的「候选字库」超过三百个字。接着必须就每一个英文字母对应的中文字中选定一个作为码元,要求所选出的码元中没有重复字根。为此,我们建立一个「随机算法」(Randomized Algorithm)。开始时,建立一个空的「选定字集」,然后在不引进重复字根的条件下,随机从「候选字库」中挑出一个字加入。如此反复,直到「选定字集」中包含了 25个字为止。此时再以「匹配」(Matching)算法检查这25个字是否能对应到不同的英文字母。以上过程中如果失败或遇到无字可选的情况,就重新开始。流程图如图5。实务上,我们也可以先以人工选定一些较符合直观的字,再以计算机辅助完成剩余的选择。图1显示一组依照以上规则所选出的键盘对应规则。实践本发明的方法,可以产生多种不同的码元组合。图6显示了更多例子。选定码元组合后,我们的键盘上就对应了数十个字根。但是数目还不够。以图1的码元组合为例,“工"、“乙”、“刀”等字根就在基本字根的涵盖之外。但是我们可以将它们指派到形状相似的字根上,例如以“土”代表“工"、以“1_”代表“乙”、以“力”代表“刀”。如此规定后,几乎所有常用字根都能被直觉地对应到基本字根。图3显示了一个将各种字根变化对应到基本字根的规则。因为本发明并不将每一个中文字完全拆解取码,而是取包含首尾两笔划的两个字根,即使少了某些在其他输入法中被使用的字根,单是由笔划也能够得出合理的编码。任何一个中文输入系统无非只是一个码表。依照规定的字根对应与简单的取码规则对所有中文字建立出码表后,我们的工作就接近完成。剩下的工作是建立一个智能选字的机制;包括对大量语料库进行分析统计,找出字与字之间出现的机率,以及对单一使用者新输入的字进行学习。这些工作都有大量公开且成熟的技术与文件可参考,因此不再赘言。上述实施例仅为例示性说明本发明的原理及其功效,而非用于限制本发明。本发明亦可藉由其他不同的具体实例加以实施或应用,任何熟悉此技术的人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与变化。因此,本发明的权利保护范围,应如所述的申请专利范围所列。
权利要求
1.一种中文输入法,执行于具有各式键盘的电子装置,其特征在于用一种使用嵌合字根方法将字根组合为中文字,再依其英文翻译对应到键盘位置,其步骤包括有设计一键盘对应表,供用户记忆键盘与字根的对应关系;规定取码的拆解规则,并依此规则建立中文字集的码表;接收使用者的输入键组,由码表中找出对应中文字。
2.如权利要求1项所述的嵌合字根式输入法,其特征在于字根与键盘对应规则来自将数个字根嵌合为一个中文字,再依该字的英文意涵对应至键盘位置。
全文摘要
一种便于记忆的键盘对应规则的产生方法及衍生出的输入法,执行于具有数字输入组件及英文字母输入组件的电子装置,该电子装置中存储有与按键上的字码相对应的中文字库,该方法包括如下步骤创造一个对应表,令其相对于每一个英文键盘有一个便于记忆的中文字,而此中文字又可以直接被拆解为数个字根;将中文文字依其第一笔画、最后笔画、与读音的声母,分别对应为“首字根”、“尾字根”、与“音字根”三码,每一码由一个键盘位置产生;使用者输入三码后可调出预存的对应中文字组选择所需的输入字。
文档编号G06F3/023GK102999169SQ201210313088
公开日2013年3月27日 申请日期2012年8月29日 优先权日2011年9月16日
发明者马自恒 申请人:马自恒
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1