一种对输入法候选项进行调频排序的控制方法及控制装置的制造方法_2

文档序号:9374844阅读:来源:国知局
查找对应的N个候选词编码, 其中N多1。更为具体地,所述输入信息包括用户使用输入设备向所述输入法编辑器发送的 指令信息。更进一步地,所述输入设备包括计算机普通键盘、手机键盘、IPAD等触摸式虚拟 键盘。更进一步地,所述指令信息包括与所述输入信息对应的输入码。优选地,所述输入码 基于汉语拼音表示。优选地,所述汉语拼音包括全拼和简拼。优选地,所述汉语拼音还包括 全拼简拼混合输入。在一个优选例中,用户基于汉语拼音通过所述计算机普通键盘输入一 串字符,则所述计算机处理系统接收到所述输入信息后,将所述输入信息中的输入码发送 给所述输入法编辑器,例如,用户输入拼音"BAO",则所述输入码即为"BAO"。
[0084] 优选地,所述核心词库通过预先分析大量网页语料获得。优选地,所述输入法编辑 器通过分析互联网历史语料获得词与词、字与字之间的关系,并基于自然语言习惯获取大 量词组或者短语,然后计算所述词组或短语在互联网历史中出现的频率。在一个优选例中, 所述输入法编辑器首先计算互联网上所有出现过的词的出现频率获取其中出现频率最高 的T个词,然后再基于当前互联网用户使用情况调整所述T个词的频率,最终构成所述核心 词库。优选地,所述频率按如下公式调整:
[0085] y = Yi+H
[0086] 其中,yi为基础频率,H为单位时间下的修正参数。
[0087] 优选地,所述71通过分析所述词在第一阈值时间内在一个或多个历史语料库中出 现的频率获得,例如,所述输入法编辑器基于搜索引擎获取"你好"一词在过去10年内共出 现过500万次,则所述Y 1= 500000次/年。
[0088] 优选地,所述H用于对所述yl进行修正从而使所述频率y更准确,本领域技术人 员理解,所述Y 1是对所述词在互联网很长一段时间跨度内出现频率的计算结果,无法灵活 体现当前时段互联网热门词语的频率变化,例如,"冏"一词为2年前刚出现的一个新词,则 按照所述yl的计算公式,所述词"冏"的基础频率yl可能非常低,但作为最近两年的热门词 语,用户输入该词的实际频率是很高的。本领域技术人员理解,互联网出现的词语一部分基 于用户语言习惯长久以来被频繁使用,例如"你好"等日常用语,其频率以年为单位变化不 大;另一部分则为某一特别时间段内突然频繁地被用户使用,例如"马航"这一词语在2014 年以前的出现频率基本为几十万次/年,而在2014年3月8日以后出现频率猛增,仅网页 浏览一项每天的出现频率就达百万级,则此时所述Y 1对于所述词语"马航"的频率描述就出 现了偏差,不利于所述输入法编辑器对所述词语"马航"进行正确排序,则所述输入法编辑 器引入所述H来对所述频率 71进行修正。优选地,所述H基于如下相关度公式计算:
[0089] H = h*f (C1, Y1)
[0090] 其中,h为基准参数,(^通过分析所述词在第二阈值时间内在一个或多个历史语料 库中出现的频率获得。
[0091] 优选地,所述f函数标示基于数学模型架构下的,所述词最近一段时间在互联网 上的出现频率与所述词对应的基础频率的相关度,该相关度取值范围在[_1,1]区间内。在 一个优选例中,所述f函数基于如下公式计算:
[0092]
[0093] 优选地,所述基准参数h为100000,所述第一阈值时间为10年,所述第二阈值时间 为30天。
[0094] 例如,f(50,5) = 0.9,对应H = 90000,其用于标示一词语,其基于所述搜索引擎 检索获得最近30天内的出现频率为50次/天,过去10年内出现频率为5次/天,则可以 认为所述词语为当前时段的热门词语,基于所述H数值对所述频率y进行增加式修正以使 所述频率 y更贴近当前时段所述词语的出现频率。
[0095] 又例如,f(4,40) = -0. 9,对应H = -90000,其用于标示一词语,其基于所述搜索 引擎检索获得最近30天内的出现频率为4次/天,过去10年内出现频率为40次/天,则 可以认为所述词语为当前时段的生僻词语,基于所述H数值对所述频率y进行减少式修正 以使所述频率y更贴近当前时段所述词语的出现频率。
[0096] 优选地,所述历史语料库包括词库、句库、互联网上全部文章组成的集合中的任一 种或任多种。
[0097] 本领域技术人员理解,若基于互联网语料分析获取的所述词语为当前时段的热门 词语对应当前频率C 1,而所述词语的历史出现频率yi偏低,则确认所述c i与所述y 相关, 基于上述f函数计算得到的所述修正参数H值为正,其用于增加所述词语的频率y ;若基于 互联网语料分析获取的所述词语为当前时段的生僻词语对应当前频率C1,而所述词语的历 史出现频率 yi偏高,则确认所述c i与所述y i负相关,基于上述f函数计算得到的所述修正 参数H值为负,其用于减少所述词语的频率y,从而达到对所述频率y随当前互联网用户语 言习惯而修正的目的,这是现有技术中不采用的技术方案,能够使所述输入法编辑器的所 述核心词库中收录词语的排序更准确,尤其使一些最近突然频繁输入的词能够被优选地收 录到所述核心词库中。
[0098] 优选地,所述搜索引擎包括人工搜索和软件抓取。本领域技术人员理解,所述数值 h、A和B的取值可以根据实际需要变化出更多实施例,这并不影响本发明的技术内容。
[0099] 优选地,所述T为99999个。在一个优选例中,所述核心词库中所有词基于汉语拼 音字母排列,其中,首先按每个词第一位字的汉语拼音字母排列,首位字相同再按各个词第 二位字的汉语拼音字母排列,依次类推,对于同音词则按照每个词对应的频率由高到低排 列。本领域技术人员理解,所述词组或短语基于用户语言习惯能够代表特定含义,通过多个 字组成一相互有关联关系的词组或者短语,例如,"母女"一般用于描述亲子关系具有特定 含义,可以作为所述词收录到所述核心词库中。优选地,所述词还可以基于用户输入习惯在 单位时间内连续输入的多个字组成。本领域技术人员理解,所述T的数值可以根据实际需 要变化出更多实施例,在此不予赘述。
[0100] 优选地,所述核心词库包括词编码和所述词编码对应的频率。优选地,所述词编码 由多个字编码组成。优选地,所述字编码基于国标码字符集("中华人民共和国国家标准 信息交换汉字编码",标准代号GB2312-80)的规则表示,其将所有国标汉字及符号分配在一 个94行、94列的方阵中,所述方阵的每一行称为一个"区",每一列称为一个"位",所述方阵 中的每一个汉字和符号所在的区号和位号组合在一起形成的四位阿拉伯数字为所述汉字 或符号对应的"区位码",其用于唯一确定一个汉字或符号,例如,汉字"母"字的区位码是 3624,表明它在方阵的36区24位,问号"? "的区位码为0331,则它在03区31位。在一个 优选例中,所述区位码以0-9共十个阿拉伯数字表示,每个汉字或符号的码长均为等长的 四个数码组成,一个四位编码代表一个字编码,例如,"母女"对应区位码36243714,由"母" 的区位码3624和"女"的区位码3714两个字编码组成。优选地,所述词编码对应的频率基 于上述基于数学模型下的公式计算而得,所述输入法编辑器通过计算互联网历史中出现的 大量词组或短语获得其对应的出现频率,并将所述词组或短语中出现频率最高的T个词的 词编码以及每个词编码对应的频率存储到所述核心词库中。优选地,所述核心词库存储在 所述输入法编辑器语料库中。优选地,所述语料库预置在所述输入法编辑器客户端所在的 计算机系统内,以单独文件形式存储在所述输入法编辑器客户端根目录中,当所述输入法 编辑器处于使用状态时自动加载所述语料库到所述输入法编辑器内存中。本领域技术人员 理解,与现有技术基于用户输入信息实时分析网页语料获得候选字词的技术方案,本实施 例将所述核心词库预置在所述输入法编辑器客户端内的方法是现有技术中并不采用的技 术方案,而该实施例的实施极大地提高了用户操作的便捷性,允许用户在断网或网络信号 差的情况下同样流畅地完成字符输入,给予用户更好的操作感受。
[0101] 优选地,所述客户端安装在计算机、手机或者IPAD等移动终端上,本领域技术人 员可以根据实际需要变化出更多实施例,在此不予赘述。本领域技术人员理解,所述核心词 库的数量T可以根据实际需要由本领域技术人员变化出更多实施例,在此不予赘述。
[0102] 在一个优选例中,所述输入法编辑器基于汉语拼音接收所述用户输入信息,并基 于汉语拼音规则对所述用户输入信息包括的输入码进行判断,若所述输入码为多个字拼音 组成的词拼音,则在所述核心词库中查找对应的候选词编码。本领域技术人员理解,汉字 中包括许多同音字,所述输入法编辑器接收到所述输入信息包括的基于汉语拼音的输入码 后,可能在所述核心词库中搜索到N个符合条件的区位码,其中N多1,例如,用户通过计算 机键盘输入"wenhua",则所述输入法编辑器基于所述输入码"wenhua"在所述核心词库中 查找到的对应区位码可能是46362715,对应词组"文化",还可能对应区位码46422716,对 应词组"问话",则所述46362715和所述46422716即为与所述输入信息对应的候选词编码。 优选地,所述输入法编辑器将所述N个候选词编码对应的编码信息存储在所述输入法编辑 器内存中,其中,所述编码信息包括所述N个候选词编码和所述N个候选词编码分别对应的 频率。
[0103] 在另一个优选例中,所述词编码还可以基于电报码、双音编码、五笔字型等多种形 式,所述核心词库还可以保存在后台线程或云存储装置等存储装置中。在又一个优选例中, 所述输入设备包括但不限于:手写输入装置,其借由计算机认字功能通过识别用户的手写 字体来辨别文字或其他符号从而实现文字输入;语音输入装置,其通过话筒和语音识别软 件来辨别输入文字;OCR扫描阅读器,其采用内置系统对图形进行识别来输入文字或符号; 速录机,其一般采用专用速录键盘和设备,通过采用并击手术实现每按一次就出来整一个 单词的输入方式,本领域技术人员可以根据实际需要变化出更多实施例,在此不予赘述。
[0104] 在一个非优选例中,所述输入法编辑器还可以基于汉字笔画接收所述用户输入信 息,则所述输入码为汉字笔画顺序,所述核心词库中所有词基于所述汉字笔画顺序排列,用 户通过手写输入装置向所述输入法编辑器发送输入信息,所述输入法编辑器根据用户手写 输入的笔画顺序在所述核心词库中查找对应的N个候选词编码。本领域技术人员理解,所 述核心词库中所有词的排列顺序基于所述输入法编辑器接收到的用户输入信息而变化,本 领域技术人员可以根据实际需要变化出更多实施例,在此不予赘述,例如,用户还可以将汉 字笔画数作为输入信息发送给所述输入法编辑器,则所述输入法编辑器接收到所述笔画数 后,在基于汉字笔画数排列的所述核心词库中查找对应的N个候选词编码。
[0105] 然后进入步骤S102执行,判断所述用户输入信息在所述核心词库中是否有对应 候选词编码。具体地,所述核心词库保存在所述输入法编辑器客户端。更为具体地,所述核 心词库中所有词基于汉语拼音字母顺序排列。更进一步地,所述输入法编辑器基于所述用 户输入信息对应的输入码在所述核心词库中查找所述对应候选编码。优选地,所述输入码 基于汉语拼音表示。在一个优选例中,首先判断所述用户输入信息在所述核心词库中是否 有对应候选词编码,若所述用户输入信息在所述核心词库中有对应候选词编码,则所述步 骤S102的判断结果是肯定的;否则,则所述步骤S102的判断结果是否定的。进一步地,若 所述步骤S102的判断结果是肯定的,则进入步骤S103执行;若所述步骤S102的判断结果 是否定的,即所述用户输入信息在所述核心词库中没有对应候选词编码,则接下来进入步 骤S106执行。
[0106] 具体地,在所述步骤S103中,计算每个所述候选词编码的总频率F。更为具体地, 所述总频率F用于表示所述候选词编码基于用户语言习惯在单位时间内出现的次数。更进 一步地,所述输入法编辑器基于如下公式计算所述总频率F :
[0107]
[0108] 其中,X为所述候选词编码被输入的次数,y为语料库中所述候选词编码的频率,k 为所述候选词编码在单位时间内的输入次数;
[0109] 优选地,所述次数X表示所述候选词编码本次被用户作为候选项之前在所述输入 法编辑器客户端上被确定输入的次数。优选地,所述候选词编码和所述候选词编码对应的 所述次数X以列表形式存储在所述输入法编辑器内存中,所述输入法编辑器基于所述候选 词编码在所述列表中查找对应的所述次数X。优选地,所述列表中所述候选词编码对应的所 述次数X基于用户每次确定输入的结果而变化,例如,用户基于所述N个候选词编码确定其 中某一候选词编码为需要输入的候选词编码,则所述输入法编辑器即基于所述被确定输入 的候选词编码的词编码在所述列表中查找对应的数据行,将所述被确定输入的候选词编码 对应的次数X数值加1,更新所述列表。优选地,所述列表还可以保存在所述输入法编辑器 后台线程或云存储装置等存储装置中,本领域技术人员可以根据实际需要变化出更多实施 例,在此不予赘述。
[0110] 在另一个优选例中,所述X表示用户本次输入之前所述候选词编码在互联网中被 确定输入的次数,所述输入法编辑器基于所述搜索引擎在互联网语料中实时统计所述候选 词编码出现的次数,并将所述统计结果作为所述X数值带入所述总频率F公式进行计算。
[0111] 优选地,所述频率y为所述核心词库中所述候选词编码对应的频率,其基于上述 步骤SlOl中的频率计算公式y = yjH计算得到。
[
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1