一种笔画容错输入法及输入装置的制造方法

文档序号:10569557阅读:355来源:国知局
一种笔画容错输入法及输入装置的制造方法
【专利摘要】本发明涉及一种汉字输入方法及输入装置。汉字输入方法,包括如下步骤:接收用户输入的笔画序列;将用户输入的笔画序列与汉字模块进行匹配;其中至少一个或多于一个所述汉字模块对应于多于一种笔画序列;以及根据用户输入的笔画序列与汉字模块的匹配结果,显示一个或多于一个候选汉字。
【专利说明】
一种笔画容错输入法及输入装置
技术领域
[0001 ]本发明涉及输入法领域,尤其涉及一种笔画容错输入法及输入装置。
【背景技术】
[0002] 笔画输入法是一种常见的输入法。因为符合汉字的书写习惯,并且不必记忆大量 的字根,笔画输入法受到了人们的喜爱。特别是在可移动电子设备上,笔画输入法在各种输 入法中占有很高比例。但是,现有的笔画输入法并不具备容错的功能,输入效率仍有待提 尚。

【发明内容】

[0003] 针对本领域中技术问题,提出了一种汉字输入方法,包括如下步骤:接收用户输入 的笔画序列;将用户输入的笔画序列与汉字模块进行匹配;其中至少一个或多于一个所述 汉字模块对应于多于一种笔画序列;以及根据用户输入的笔画序列与汉字模块的匹配结 果,显示一个或多于一个候选汉字。
[0004]如上所述的方法,其中所述汉字模块是笔画、部首、或汉字或不属于笔画、部首和 汉字的汉字的一部分。
[0005] 如上所述的方法,所述汉字模块是按照汉字本身结构进行拆分而得出的结果。
[0006] 如上所述的方法,所述汉字模块是在将所有汉字对应的笔画序列的集合作为数据 空间按照搜索数学模型得出的,所述搜索数学模型的搜索条件如下:
[0007] 待搜索的笔画序列的长度为2-15个笔画;
[0008] 该待搜索的笔画序列在数据空间上出现的频率最高;
[0009 ]该待搜索的笔画序列在数据空间上占有的面积最大。
[0010]如上所述的方法,其中每个汉字对应于一个汉字模块序列,所述用户输入的笔画 序列与汉字模块的匹配结果是一个或多于一个汉字模块序列;所述方法进一步包括根据汉 字模块序列确定候选汉字。
[0011] 如上所述的方法,其中将用户输入的笔画序列与汉字模块进行匹配的步骤包括:
[0012] 对输入的笔画序列进行划分;
[0013] 针对划分后得到的输入笔画序列的一个或多个部分中的每个部分,得出每个部分 匹配的汉字模块;以及
[0014] 将每个部分匹配的汉字模块按照输入笔画序列的顺序组合得出匹配的汉字模块 序列。
[0015] 如上所述的方法,其中将用户输入的笔画序列与汉字模块进行匹配的步骤包括:
[0016] 从输入的笔画序列的第一笔画开始,确定第一笔画与第二笔画是否属于一个已知 的汉字模块;如果是,则继续判断直到某一笔画,从第一笔画到这一笔画的笔画序列不可能 属于一个已知的汉字模块,则获取这一笔画之前的笔画序列对应的第一汉字模块;
[0017] 从剩余部分的第一笔画开始,直到确定剩余部分的第一笔画到某一笔画不可能属 于一个已知的汉字模块,则获取这一笔画之前的笔画序列对应的第二汉字模块;以及
[0018]重复上一步骤,获得包括第一汉字模块和第二汉字模块的汉字模块序列。
[0019]如上所述的方法,进一步包括:
[0020] 从输入的笔画序列的第一笔画开始,确定第一笔画与第二笔画是否属于一个已知 的汉字模块且该已知的汉字模块不同于第一模块;如果是,直到某一笔画,从第一笔画到这 一笔画的笔画序列不可能属于一个已知的汉字模块且该已知的汉字模块不同于第一模块, 则获取这一笔画之前的笔画序列对应的第三汉字模块;
[0021] 从剩余部分的第一笔画开始,直到确定剩余部分的第一笔画到某一笔画的笔画序 列不可能属于一个已知的汉字模块,则获取这一笔画之前的笔画序列对应的第四汉字模 块;以及
[0022]重复上一步骤,获得包括第三汉字模块和第四汉字模块的汉字模块序列。
[0023] 如上所述的方法,其中每个候选汉字都被指定了一个权重值,所述方法进一步包 括,通过比较所述候选汉字权重值确定优先地展示给使用者的候选汉字。
[0024] 如上所述的方法,其中每个汉字的优先级包括一个固定权重值和可变权重值。
[0025] 根据本发明的另一个方面,提出一种汉字输入方法,包括:接收用户输入的第一笔 画;以及根据第一笔画,检索第一笔为第一笔画的汉字模块;根据第一笔为第一笔画的汉字 模块,检索可能的汉字模块序列;根据可能的汉字模块序列确定候选的汉字;以及比较候选 汉字的权重值,向用户显示一个或多个候选汉字。
[0026]如上所述的方法,进一步包括:
[0027] 接收用户输入的第二笔画;
[0028] 检索第一笔为第一笔画且第二笔为第二笔画的汉字模块,进一步根据第一笔为第 一笔画且第二笔为第二笔画的汉字模块,检索第一可能的汉字模块序列,根据第一可能的 汉字模块序列确定第一类候选的汉字;
[0029] 检索所有第一笔为第二笔画的汉字模块,再进一步根据仅包括第一笔画的汉字模 块和第一笔为第二笔画的汉字模块组成的汉字模块序列检索第二可能的汉字模块序列,根 据第二可能的汉字模块序列确定第二类候选的汉字;以及
[0030] 比较第一类和第二类候选汉字的权重值,向用户显示一个或多个候选汉字。
[0031]如上所述的方法,进一步包括:
[0032]接收用户输入的第三笔画;
[0033]检索第一笔为第一笔画、第二笔为第二笔画且第三笔为第三笔画的汉字模块,再 进一步根据所有第一笔为第一笔画、第二笔为第二笔画且第三笔为第三笔画的汉字模块检 索第一可能的汉字模块序列,根据第一可能的汉字模块序列确定第一类候选的汉字;
[0034]检索第一笔为第二笔画且第二笔为第三笔画的汉字模块,根据仅包括第一笔画的 汉字模块和第一笔为第二笔画且第二笔为第三笔画的汉字模块组成的汉字模块序列检索 第二可能的汉字模块序列,根据第二可能的汉字模块序列确定第二类候选的汉字;
[0035]检索所有第一笔为第三笔画的汉字模块,再进一步根据仅包括第一笔画和第二笔 画的汉字模块和第一笔为第三笔画的汉字模块组成的第三汉字模块序列检索第三可能的 汉字模块序列,根据第三可能的汉字模块序列确定第三类候选的汉字;
[0036]比较第一类、第二类和第三类可能汉字的权重值,向用户显示一个或多个候选汉 字。
[0037] 根据本发明的另一个方面,提出一种输入装置,包括:键盘;显示界面;以及与所述 键盘和显示界面连接的处理装置;其中,所述处理装置执行如上任意所述的方法。
【附图说明】
[0038] 通过下面结合附图给出的详细说明和随附的权利要求,本公开的前述特征以及其 它特征将变得更加清晰。应理解的是,这些附图仅描绘了依照本公开的多个实施例,因此, 不应视为对本发明范围的限制,将通过利用附图结合附加的具体描述和细节对本公开进行 说明,在附图中:
[0039] 图1是根据本发明实施例的手机端笔画输入法一种典型的键盘示意图;
[0040] 图2是根据本发明的一个实施例的汉字输入方法的示意图;
[0041] 图3是根据本发明的一个实施例的输入笔画序列与汉字模块匹配方法的示意图;
[0042] 图4是根据本发明的另一个实施例的输入笔画序列与汉字模块匹配方法的示意 图;
[0043]图5是根据本发明的一个实施例的显示候选汉字方法的示意图;
[0044] 图6是根据本发明的另一个实施例的汉字输入法的示意图;以及
[0045] 图7是根据本发明的一个实施例的输入装置的示意图。
【具体实施方式】
[0046] 现在,详细描述本发明的实施例,其示例在附图中表示,其中,相同的标号始终表 示相同的部件。以下通过参考附图描述实施例以解释本发明。
[0047] 在接下来的描述中,即使在相同的附图中,相同的附图标号用于相同的部件。在说 明书中定义的内容,例如详细的构造和部件只是提供用于帮助全面理解本发明。因此,很明 显,无需那些定义的内容来实现本发明。此外,由于已知功能或构造将在不必要的细节上模 糊本发明,因此将不对其进行详细描述。
[0048]图1是手机端笔画输入法的一种典型的键盘示意图。应当理解,本发明并不仅仅应 用于手机端的笔画输入法,也可以应用于PC端、Pad端、其他移动电子产品(如TOA)或其他固 定的电子产品(如门禁系统)中,用于输入汉字。换言之,一切可以利用键盘(包括电子键盘) 输入汉字的电子产品都可以应用本发明的技术方案。进一步地,也应当理解,本发明也不仅 仅应用于如图1所示的键盘中。如图1所示的键盘仅用以举例的方式说明本发明的技术方 案,本发明同样可以应用于例如包括全部字母的全键盘或其他普通键盘或特种键盘。
[0049] 按国家语委的规定,将汉字的各种笔画都可以归类为横、竖、撇、点、折五种基本笔 画。如图1所示,数字键1、2、3、4和5分别代表了笔画横、竖、撇、点、折,8卩"一"、"丨"、",、"、" 和。在以下的例子中,分别以数字1-5表不对应的输入键。
[0050] 现有的笔画输入法,通常是为每一个汉字分配唯一对应的编码,即每一个汉字具 有唯一的笔画顺序。例如:"天"字笔画为:一、一、/、、(即1134);"九"字笔画为:/、厶(即 35)。无论是笔画输入错误还是笔顺输入错误都无法匹配到正确的汉字。然而,对于很多汉 字,用户习惯的笔画顺序和正确的笔画顺序是不同的。在输入这部分汉字时,由于习惯的影 响,用户很难打出所要的结果,输入效率低。
[0051] 更为严重的是,现有的输入法的笔画库都使用早期的数据内容,存在错误数据。已 经发现一些汉字在各种输入法中,都存在笔画错误的情况,而这部分汉字由于用户无法推 断笔画库中保存的笔画内容,而无法使用笔画进行输入。
[0052] 图2是根据本发明的一个实施例的汉字输入方法的示意图。如图2所示,汉字输入 方法200包括以下步骤:在步骤210,接收用户输入的笔画序列。根据本发明的一个实例,笔 画序列包括一个笔画或多于一个具有顺序的笔画集合。应当理解,笔画序列可以包括如上 例子中的"一"、"丨"、"y "、"、"和"厶"(即1、2、3、4和5),也可以包括不同于以上输入法例子 的笔画输入法中使用的其他笔画。更进一步地,笔画序列中还可能包括辅助符号。辅助符号 并不代表笔画,可以用于划分输入的笔画序列。辅助符合包括例如标点符号或者单引号"'" 或其他符号。
[0053] 在步骤220,将用户输入的笔画序列与汉字模块进行匹配;其中至少一个或多于一 个所述汉字模块对应于多于一种笔画序列。
[0054]在步骤230,根据用户输入的笔画序列与汉字模块的匹配结果,显示一个或多于一 个候选汉字。
[0055] 本发明涉及将汉字进行拆分。例如,将复杂的汉字拆分成多个汉字模块。汉字模块 对应于一个或多于一个笔画。汉字模块可以是笔画,例如"一"、"丨"、"y"、"、"和"厶"都可以 是汉字模块的实例。汉字模块可以是汉字的偏旁部首,例如、"M"、"子"、"足"、"笋" 等等。汉字模块也可以汉字,例如"心"、"弓"、"火"、"丁"等等。举例而言,"打"拆分为"子"和 "丁"而"炎"拆分为"火"和"火"。
[0056] 根据本发明的一个实施例,现有的任何一种汉字的拆分方式都可以应用于本发明 的输入法中,而得出本发明的汉字模块。现有的非拼音非纯笔画汉字输入法中几乎都涉及 对汉字进行拆分,以提高汉字的输入效率。
[0057] 以五笔输入法为例,五笔输入法包括一系列的字根。每一个汉字都被拆分成字根 的组合或者字根与非字根的组合。举例而言,五笔输入法中,"幕"字的打法为:*A+日J+大D +丨H=AJDH,即"幕"字被拆分为〃*日大丨〃四个字根的组合。而"废"字的打法为广Y+ AN+ 7 T +、Y = YNYT,实际上,"废"字被拆分为〃广人/又、〃五个部分;其中前三个部分和末笔部分构 成了五笔输入法的输入编码,〃又〃部分虽然未包括在输入编码中,但也是"废"字被拆分后 的一个部分。根据本发明的一个实施例,五笔输入法中的全部字根以及按五笔输入法对汉 字进行拆分后剩余部分都可以是本发明的汉字模块的实例。
[0058] 五笔输入法的拆分方式仅用作举例的目的,对于本发明五笔输入法的汉字拆分方 式并不是一种较好的拆分方式。举例而言,"嬲"字五笔拆法为:田L+力L+女V+力L =嬲LLVL。 当然,更合理的拆分方式是"嬲=男+女+男"。
[0059]根据本发明的一个实施例,按照汉字本身的结构(如汉字构形理论)将汉字拆分成 汉字模块。将全部的汉字进行拆分后得到的汉字模块的集合即构成本发明的汉字模块。 [0060]举例而言,汉字本身的结构可以包括:左右结构、上下结构、内外结构、上中下结 构、左中右结构,以及这些结构的组合。例如,"藏"可以认为是上下结构臧"和内外结 构-11,,+"臣"的组合。对于汉字的结构拆分,可以参考文献《汉字构形理据与现代汉字部件 拆分》,王宁,《语文建设》,1997(3) :4-9。根据本发明的一个实施例,常用的2万个左右汉字 经过拆分后得到的汉字模块大约为1000个左右。
[0061 ]以下是一些汉字按本身结构拆分的举例:
[0062] f| :$+〈〈〈+田 [0063]鵑:〈〈〈+田 +鳥
[0064] 韁:革+-+ 田 +-+ 田 +-
[0065] 避:尸+ 口 +辛+!_
[0066] 与汉字字形输入法不同,本发明的输入法虽然涉及汉字的拆分,但是对于使用者 而言,这种拆分实际上是不可见的。也就是说,使用者仅仅是按照汉字输入了笔画序列,而 不必关心汉字是如何拆分成模块的,也不必关心笔画序列是如何与汉字模块之间进行匹配 的。因此,使用者无需记忆任何的字根,也无需去了解汉字的拆分是否合理。这为汉字的拆 分带来了很大的灵活性。
[0067] 根据本发明的一个实施例,利用检索匹配技术实现汉字的拆分。举例而言,将所有 汉字对应的笔画序列的集合作为一个数据空间。在这一数据空间上建立一个搜索数学模 型,执行笔画序列的搜索。例如,搜索模型的搜索条件如下:
[0068] 1 ?笔画序列的长度为2-15个笔画;
[0069] 2.该笔画序列在数据空间上出现的频率最高;
[0070] 3.该笔画序列在数据空间上占有的面积最大。
[0071]通过以上定义的检索模型,检索将得出在当前数据空间上的最优汉字模块。接下 来,将当前最优的汉字模块的笔画序列从数据空间中减去而形成新的数据空间。然后,按照 以上的搜索模型再次执行最优汉字模块的搜索,得出当前数据空间(即原数据空间减去上 一次最优汉字模块后形成的数据空间)的最优汉字模块。重复迭代搜索,直到覆盖整个数据 空间。这样获得的所有最优汉字模块所组成的集合也可以是本发明的汉字模块的实例。这 也同样代表了一种汉字的模块化拆分方式。
[0072]以上通过三个具体的实施例介绍了本申请中汉字模块的含义。本领域技术人员应 当理解,本发明的汉字模块可以是任意的汉字拆分方式得出的笔画、部首、汉字的一部分、 或者汉字本身。
[0073] 根据本发明的一个实施例,至少一个或多个汉字模块对应于多于一个笔画序列。 由此,本发明的输入方法中针对该汉字模块引入了输入容错的功能。
[0074] 引入容错功能最为直接的方式是针对每一个汉字都设置多于一个笔画序列。也就 是说,当用户输入的笔画或笔顺错误时,输入法仍然能够根据包括错误的笔画或笔顺的输 入序列得出正确的汉字。然而,这种容错方法增加了输入法中汉字与笔画序列之间的对应 关系,增加了数据库的存储体积,使得输入法要占用更大的存储空间。对于例如移动设备的 存储空间有限的设备而言,这种方法是不可取的。通过引入了汉字模块,并且在汉字模块的 层面设置容错机制,即用于输入的笔画或笔顺错误时,仍能对应到正确的汉字模块,本发明 大大减少了容错功能需要增加的对应关系的数量,使得占用的存储空间变得非常有限,从 而解决了这一技术问题。
[0075] 更为重要的是,通过引入汉字模块,汉字不再如现有的笔画输入法中对应于笔画 序列,而是对应于汉子模块序列。由于汉字模块序列中汉字模块的数量远远小于笔画序列 中笔画的数量,存储汉字对应关系的数据库的体积也被减小,占用更少的存储空间。以上面 2万个常用汉字对应于1000个左右汉字模块的拆分方法为例,以本发明的输入法所占用的 存储空间,即使包括了容错功能,也比原有的笔画输入法占用的存储空间(不包括容错功 能)减小了 25 %。
[0076] 表1是根据本发明的一个实施例的汉字模块和对应笔画方案举例。从表1可以看 出,对于比较容易输入错误的汉字模块"f',本发明设置了两种笔画序列"442"和"424"。因 此,无论使用者按照哪一种笔顺来输入,本发明的输入法都可以对应到正确的汉字模块 "个"。同样地,汉字模块"卜、丹、方"等也都设置了多于一种的笔画序列。
[0077] 表1: 汉字模块举例 对应笔画序列(1) 对应笔画序列(2) 十 442 424 白 32511 贝 2534 貝2511134
[0078] 必 45434 卜 24 42 册 35351 冊 25221 厂 15 辰 13U534 尺 5134 jl| 322 寸 124 丹 3541 K14 刁 51 .而 112522 乏 3454 :方 4153 4135 '夫 113:4.
[0079] 飞. 534 I (敖左半) 11215:3 合(於右半) M44 誦 '(啬上部) 12431 麵1::(畏下部) 1534 屬:(寅下半) 12512134 '秀(殷左半) :33:5:11.5 篸(鬭内左) 15125515121 215152515121 I (辦右半) 4143113: 紙-(飛下半) 353432
[0080] 图3是根据本发明的一个实施例的输入笔画序列与汉字模块匹配方法的示意图。 如图3所示,匹配方法300包括如下步骤:在步骤310,对输入的笔画序列进行划分;在步骤 320,针对划分后得到的输入笔画序列的一个或多个部分中的每个部分,在汉字模块及其对 应笔画序列的数据库中进行检索,得出每个部分匹配的汉字模块;以及,在步骤330将匹配 的汉字模块按照输入笔画序列的顺序组合得出匹配的汉字模块序列。应当理解,在步骤320 中,如果某个部分对应于多个匹配的汉字模块,将所有可能的汉字模块都作为检索的结果, 而应用于步骤330的组合步骤。
[0081] 应当注意,输入的笔画序列可能有多个划分方式。但是,并不是每一种划分方式都 存在与其对应的汉字模块序列。举例而言,划分步骤310可以包括获取所有可能的划分方式 以及排除不存在对应的汉字模块序列的划分方式。
[0082] 根据本发明的一个实施例,对于输入的笔画序列,判断全部笔画序列是否属于一 个汉字模块,如果是,则保留全部划分为一个汉字模块的划分方式;
[0083] 接下来,对于输入的笔画序列,判断不包括第一笔画剩余笔画序列是否属于一个 汉字模块,如果是,则再判断仅包括第一笔画的汉字模块与不包括第一笔画剩余笔画序列 对应的汉字模块组成的汉字模块序列是否属于一个汉字,如果是,则保留这种划分方式;
[0084] 以此类推,直到获得全部可能属于一个汉字的划分方式。
[0085] 图4是根据本发明的另一个实施例的输入笔画序列与汉字模块匹配方法的示意 图。如图4所示,匹配方法400不包括划分步骤,而是从输入序列的第一笔画开始直接进行匹 配。
[0086]匹配方法400包括,在步骤410,从输入的笔画序列的第一笔画开始,确定第一笔画 与第二笔画是否属于一个已知的汉字模块;如果是,继续判断第一笔画、第二笔画与第三笔 画是否属于一个已知的汉字模块;如果是,则继续判断直到某一笔画,从第一笔画到这一笔 画不可能属于一个已知的汉字模块,则获取这一笔画之前的笔画序列的汉字模块(即第一 汉字模块);在步骤420,从剩余部分的第一笔画开始,确定第一笔画到某一笔画不可能属于 一个已知的汉字模块,则获取这一笔画之前的笔画序列的汉字模块(即第二汉字模块);在 步骤430,重复步骤420,直到获得了所有的汉字模块;在步骤440,将第一汉字模块、第二汉 字模块、和步骤430获得的所有汉字模块组合,得到输入序列对应的汉字模块序列。应当理 解,如果临近输入序列的末尾,剩余部分可能会对应多个汉字模块,则获得所有可能的汉字 模块,以应用于步骤440的组合步骤中。根据本发明的一个实施例,在步骤430,可以直接检 索包括第一汉字模块和第二汉字模块的全部可能的汉字序列,然后在重复步骤420,以加快 整个匹配过程。
[0087]根据本发明的一个实施例,匹配方法400包括再匹配步骤:步骤450,从输入的笔画 序列的第一笔画开始,确定第一笔画与第二笔画是否属于一个已知的汉字模块且该已知的 汉字模块不同于第一模块;如果是,则继续判断直到某一笔画,从第一笔画到这一笔画不可 能属于一个已知的汉字模块且该已知的汉字模块不同于第一模块,则获取这一笔画之前的 笔画序列的汉字模块(即第三汉字模块);在步骤460,从剩余部分的第一笔画开始,确定第 一笔画到某一笔画不可能属于一个已知的汉字模块,则获取这一笔画之前的笔画序列的汉 字模块(即第四汉字模块);在步骤470,重复步骤460,直到获得了所有的汉字模块;在步骤 480,将第三汉字模块、第四汉字模块、和步骤470获得的所有汉字模块组合,得到输入序列 对应的汉字模块序列。根据本发明的一个实施例,在步骤470,可以直接检索包括第三汉字 模块和第四汉字模块的全部可能的汉字序列,然后在重复步骤460,以加快整个匹配过程。 [0088] 应当注意,根据本发明的实施例,以上的再匹配步骤还可以应用于步骤420中减去 第一汉字模块后的剩余部分,以获得减去第一汉字模块后的剩余部分的另外的汉字模块组 合方式。这些另外的汉字模块组合方式与第一汉字模块组合能够获得输入序列的其他汉字 模块序列。也就是说,对于任何的输入序列剩余部分(无论减去了那个汉字模块),都应当执 行再匹配步骤以穷尽所有可能的汉字模块序列。
[0089]图3和图4的实施例详细地公开了两种对于输入的笔画序列穷尽其所对应的汉字 模块序列的方法。本领域技术人员应当理解,对于以上的方法通过遍历输入笔画序列的方 式穷尽了所有可能的汉字模块组合,从而得出了汉字模块序列。当然,其他的遍历方式而穷 尽所有汉字模块序列的方法也同样可以应用于本发明的方案中。
[0090]举例而言,当输入笔画序列为44232511,通过匹配可以得出442是汉字模块"个", 32511是汉字模块"白",而汉字"怕"的模块组合正是T'和"白",因此44232511对应的汉字 即为"怕"。由于T的笔顺容易出错,因此"怕"也可能被输入成42432511。在其他输入法中 是无法识别出任何汉字的。由于本发明的输入法具有容错功能,424也是是汉字模块T'的 一种对应笔画序列,因此仍可以将424识别成汉字模块"f'。同样地,42432511也能够实现 "怕"字的输出。一个更为复杂的例子是,输入笔画序列2521325111212151534354。经过匹配 后唯一的汉字模块组合是"山、一、(夔中部)、(俊右下)",而与其对应的汉字是崾。
[0091]图5是根据本发明的一个实施例显示候选汉字方法的示意图。如图5所示,显示方 法500,包括:在步骤510,根据输入笔画序列对应的汉字模块序列,获得对应的汉字;以及在 步骤530,将对应的汉字显示给使用者。
[0092] 如前面所介绍的,通过汉字的拆分方法,每个汉字对应一个汉字模块序列。因此, 通过汉字模块序列可以获得对应的汉字。同样地,用户输入序列可能对应多个汉字模块序 列,那么将多个汉字模块序列对应的多个汉字都显示给使用者以供使用者选择。
[0093] 这种情况在使用者的输入笔画序列比较短的时候非常明显。使用者输入的笔画序 列可能对应数量非常多的可能的汉字模块序列。而显示界面能够向用户展示的候选汉字的 数量却是有限的,一般不超过9个。
[0094] 根据本发明的一个实施例,每个汉字都被指定了一个权重值。汉字的权重值意味 着汉字模块序列的优先级。显示方法500进一步包括,在步骤520,通过比较权重值,能够确 定汉字展示给使用者的顺序。
[0095] 当需要向使用者展示候选汉字的时候,比较输入的笔画序列的所有汉字模块序列 (或汉字)的权重值,将所有汉字模块序列(或汉字)排序,根据希望向使用者展示的候选汉 字的数量,显示所需数量的排序中最优先的汉字。
[0096] 根据本发明的一个实施例,每个汉字的权重值包括一个固定权重值和可变权重 值。固定权重值是根据汉字的使用频率、使用者所指定的专业领域、和/或者使用的时间和 地域等信息确定的权重值。可变权重值是根据使用者的输入频率、上下文、历史输入记录等 个性化信息确定的权重值。固定权重值和可变权重值的影响相互叠加,形成当前汉字的权 重值。
[0097] 举例而言,固定权重值和可变权重值可以各占一定的比例而形成当前汉字的权重 值,例如3:7。或者,固定权重值和可变权重值可以相加而获得当前汉字的权重值。其他合理 可行的方式同样地可以应用于本发明的方案中而使得使用者获得更好的输入体验。
[0098] 图6是根据本发明的一个实施例的汉字输入方法的示意图。如图6所示,输入方法 600包括:
[0099]在步骤610,接收用户输入的第一笔画;
[0100]在步骤620,根据第一笔画,检索第一笔为第一笔画的汉字模块;再进一步根据第 一笔为第一笔画的汉字模块,检索可能的汉字模块序列,根据可能的汉字模块序列确定候 选的汉字;以及比较所有候选汉字的权重值,按权重值由高到低向用户显示一个或多个候 选汉字;
[0101] 在步骤630,接收用户输入的第二笔画;
[0102] 在步骤640,检索第一笔为第一笔画且第二笔为第二笔画的汉字模块,进一步根据 第一笔为第一笔画且第二笔为第二笔画的汉字模块检索第一可能的汉字模块序列,根据第 一可能的汉字模块序列确定第一类候选的汉字;
[0103]检索所有第一笔为第二笔画的汉字模块,再进一步根据仅包括第一笔画的汉字模 块和第一笔为第二笔画的汉字模块组成的汉字模块序列检索第二可能的汉字模块序列,根 据第二可能的汉字模块序列确定第二类候选的汉字;以及
[0104]比较第一类和第二类候选汉字的权重值,按权重值由高到低向用户显示一个或多 个候选汉字;
[0105]在步骤650,接收用户输入的第三笔画;
[0106]在步骤660,检索第一笔为第一笔画、第二笔为第二笔画且第三笔为第三笔画的汉 字模块,再进一步根据所有第一笔为第一笔画、第二笔为第二笔画且第三笔为第三笔画的 汉字模块检索第一可能的汉字模块序列,根据第一可能的汉字模块序列确定第一类候选的 汉字;
[0107] 检索第一笔为第二笔画且第二笔为第三笔画的汉字模块,根据仅包括第一笔画的 汉字模块和第一笔为第二笔画且第二笔为第三笔画的汉字模块组成的汉字模块序列检索 第二可能的汉字模块序列,根据第二可能的汉字模块序列确定第二类候选的汉字;
[0108] 检索所有第一笔为第三笔画的汉字模块,再进一步根据仅包括第一笔画和第二笔 画的汉字模块和第一笔为第三笔画的汉字模块组成的汉字模块序列检索第三可能的汉字 模块序列,根据第三可能的汉字模块序列确定第三类候选的汉字;
[0109] 比较第一类、第二类和第三类可能汉字的权重值,按权重值由高到低向用户显示 一个或多个候选汉字。
[0110] 以此类推,随着用户输入笔画的增加,候选汉字的数量会越来越少。如果用户希望 的汉字的权重足以使得其被显示给用户时,用户即可以通过选择希望的汉字结束该汉字的 输入过程。
[0111] 在实际应用中,使用者的输入速度可能快于输入装置的处理速度,也可能慢于输 入装置的处理速度。根据本发明的一个实例,当使用者的输入速度较快时,按照输入的笔画 序列进行处理(例如图3和图4的方法);当使用者的输入速度较慢时,按照单个笔画逐次输 入进行处理(例如图6的方法),以提供给客户更好的输入体验。
[0112] 图7是根据本发明的一个实施例的输入装置的示意图。如图7所示,输入装置700包 括:键盘701、显示界面702和处理装置703,其中键盘701、显示界面702分别连接到处理装置 703〇
[0113]根据本发明的一个实施例,输入装置700是具有处理器的任何计算设备,包括但不 限于PC、手机、Pad、PDA等设备。键盘701既可以是物理键盘也可以虚拟键盘。显示界面702的 一个实例是输入法的软件界面或者显示器或显示屏幕与输入法软件界面的结合。处理装置 703可以输入装置700中的处理器。
[0114]使用者通过键盘701输入笔画序列。处理装置703从键盘701接收输入的笔画序列。 进一步地,处理装置执行如本发明以上实施例所表述的对输入笔画序列的处理方法以获得 候选的汉字,包括将输入笔画序列与汉字模块进行匹配,获得对应的一个或多个汉字模块 序列;根据汉字模块序列,获得候选的汉字。处理装置703将获得的获选汉字发送到显示界 面702以展示给使用者。
[0115]尽管已经参照其示例性实施例具体显示和描述了本发明,但是本领域的技术人员 应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对其进行形式 和细节上的各种改变。
【主权项】
1. 一种汉字输入方法,包括如下步骤: 接收用户输入的笔画序列; 将用户输入的笔画序列与汉字模块进行匹配;其中至少一个或多于一个所述汉字模块 对应于多于一种笔画序列;以及 根据用户输入的笔画序列与汉字模块的匹配结果,显示一个或多于一个候选汉字。2. 如权利要求1所述的方法,其中所述汉字模块是笔画、部首、或汉字或不属于笔画、部 首和汉字的汉字的一部分。3. 如权利要求1所述的方法,所述汉字模块是按照汉字本身结构进行拆分而得出的结 果。4. 如权利要求1所述的方法,所述汉字模块是在将所有汉字对应的笔画序列的集合作 为数据空间按照搜索数学模型得出的,所述搜索数学模型的搜索条件如下: 待搜索的笔画序列的长度为2-15个笔画; 该待搜索的笔画序列在数据空间上出现的频率最高; 该待搜索的笔画序列在数据空间上占有的面积最大。5. 如权利要求1所述的方法,其中每个汉字对应于一个汉字模块序列,所述用户输入的 笔画序列与汉字模块的匹配结果是一个或多于一个汉字模块序列;所述方法进一步包括根 据汉字模块序列确定候选汉字。6. 如权利要求1所述的方法,其中将用户输入的笔画序列与汉字模块进行匹配的步骤 包括: 对输入的笔画序列进行划分; 针对划分后得到的输入笔画序列的一个或多个部分中的每个部分,得出每个部分匹配 的汉字t旲块;以及 将每个部分匹配的汉字模块按照输入笔画序列的顺序组合得出匹配的汉字模块序列。7. 如权利要求6所述的方法,其中将用户输入的笔画序列与汉字模块进行匹配的步骤 包括: S10:从输入的笔画序列的第一笔画开始,确定第一笔画与第二笔画是否属于一个已知 的汉字模块;如果是,则继续判断直到某一笔画,从第一笔画到这一笔画的笔画序列不可能 属于一个已知的汉字模块,则获取这一笔画之前的笔画序列对应的第一汉字模块; S20:从剩余部分的第一笔画开始,直到确定剩余部分的第一笔画到某一笔画不可能属 于一个已知的汉字模块,则获取这一笔画之前的笔画序列对应的第二汉字模块;以及 S30:重复步骤S20获得包括第一汉字模块和第二汉字模块的汉字模块序列。8. 如权利要求7所述的方法,进一步包括: Sll:从输入的笔画序列的第一笔画开始,确定第一笔画与第二笔画是否属于一个已知 的汉字模块且该已知的汉字模块不同于第一模块;如果是,直到某一笔画,从第一笔画到这 一笔画的笔画序列不可能属于一个已知的汉字模块且该已知的汉字模块不同于第一模块, 则获取这一笔画之前的笔画序列对应的第三汉字模块; S12:从剩余部分的第一笔画开始,直到确定剩余部分的第一笔画到某一笔画的笔画序 列不可能属于一个已知的汉字模块,则获取这一笔画之前的笔画序列对应的第四汉字模 块;以及 S13:重复步骤S12获得包括第三汉字模块和第四汉字模块的汉字模块序列。9. 根据权利要求1所述的方法,其中每个候选汉字都被指定了一个权重值,所述方法进 一步包括,通过比较所述候选汉字权重值确定展示给使用者的候选汉字。10. 根据权利要求9所述的方法,其中每个汉字的优先级包括一个固定权重值和可变权 重值。11. 一种汉字输入方法,包括: 接收用户输入的第一笔画;以及 根据第一笔画,检索第一笔为第一笔画的汉字模块; 根据第一笔为第一笔画的汉字模块,检索可能的汉字模块序列; 根据可能的汉字模块序列确定候选的汉字;以及 比较候选汉字的权重值,向用户显示一个或多个候选汉字。12. 如权利要求11所述的方法,进一步包括: 接收用户输入的第二笔画; 检索第一笔为第一笔画且第二笔为第二笔画的汉字模块,进一步根据第一笔为第一笔 画且第二笔为第二笔画的汉字模块,检索第一可能的汉字模块序列,根据第一可能的汉字 模块序列确定第一类候选的汉字; 检索所有第一笔为第二笔画的汉字模块,再进一步根据仅包括第一笔画的汉字模块和 第一笔为第二笔画的汉字模块组成的汉字模块序列检索第二可能的汉字模块序列,根据第 二可能的汉字模块序列确定第二类候选的汉字;以及 比较第一类和第二类候选汉字的权重值,向用户显示一个或多个候选汉字。13. 如权利要求12所述的方法,进一步包括 接收用户输入的第三笔画; 检索第一笔为第一笔画、第二笔为第二笔画且第三笔为第三笔画的汉字模块,再进一 步根据所有第一笔为第一笔画、第二笔为第二笔画且第三笔为第三笔画的汉字模块检索第 一可能的汉字模块序列,根据第一可能的汉字模块序列确定第一类候选的汉字; 检索第一笔为第二笔画且第二笔为第三笔画的汉字模块,根据仅包括第一笔画的汉字 模块和第一笔为第二笔画且第二笔为第三笔画的汉字模块组成的汉字模块序列检索第二 可能的汉字模块序列,根据第二可能的汉字模块序列确定第二类候选的汉字; 检索所有第一笔为第三笔画的汉字模块,再进一步根据仅包括第一笔画和第二笔画的 汉字模块和第一笔为第三笔画的汉字模块组成的第三汉字模块序列检索第三可能的汉字 模块序列,根据第三可能的汉字模块序列确定第三类候选的汉字; 比较第一类、第二类和第三类可能汉字的权重值,向用户显示一个或多个候选汉字。14. 一种输入装置,包括: 键盘; 显示界面;以及 与所述键盘和显示界面连接的处理装置; 其中,所述处理装置执行权利要求1-13中任意一项所述的方法。
【文档编号】G06F3/023GK105929977SQ201610389105
【公开日】2016年9月7日
【申请日】2016年6月2日
【发明人】田野, 孟可丰, 张东栋
【申请人】百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1