词条的获取方法及装置制造方法
【专利摘要】本发明提供一种词条的获取方法及装置。本发明实施例通过对用户的眼球进行跟踪操作,以获得所述用户的感兴趣区域,进而获取所述感兴趣区域内的文本信息,并对所述文本信息进行切词操作,以获得候选词条,使得能够选择至少一个候选词条,以作为新词和/或热词,由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息,进行候选词条的获取操作,因此,能够基于这些文本信息及时地识别出新词和/或热词,从而提高了词条获取的及时性。
【专利说明】词条的获取方法及装置
【【技术领域】】
[0001]本发明涉及输入法技术,尤其涉及一种词条的获取方法及装置。
【【背景技术】】
[0002]输入法,是指为将各种字符输入终端而采用的编码方法,不同语言、国家、或地区,有多种不同的输入法,例如,搜狗拼音输入法、百度输入法、QQ拼音输入法等。一般来说,输入法软件的客户端可以采用加载的字典即词库和字典中包含的词频,向用户展现各类候选词条的排序,以方便用户的输入。现有技术中,为了满足用户的输入需求,通过服务器定期采集词条和词条的使用频率即词频,以更新各类专业字典,例如,将新出现的词条识别为新词添加到字典中,或者,再例如,将一些使用频率高的词条识别为热词,等。
[0003]然而,在一些情况下,新词和/或热词会大量涌现,例如,网络语言的出现如酱紫(这样子)、表(不要)、杯具(悲剧)等,或者,再例如,突发事件如台风海燕,等,现有的技术方案无法及时地将这些新词和/或热词识别出来更新输入法所加载的各类专业字典即输入法字典,从而导致了词条获取的及时性的降低。
【
【发明内容】
】
[0004]本发明的多个方面提供一种词条的获取方法及装置,用以提高词条获取的及时性。
[0005]本发明的一方面,提供一种词条的获取方法,包括:
[0006]对用户的眼球进行跟踪操作,以获得所述用户的感兴趣区域;
[0007]获取所述感兴趣区域内的文本信息;
[0008]对所述文本信息进行切词操作,以获得候选词条;
[0009]选择至少一个候选词条,以作为新词和/或热词。
[0010]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述对用户的眼球进行跟踪操作,以获得所述用户的感兴趣区域,包括:
[0011]获取所述眼球的视频信息;
[0012]根据所述视频信息,确定所述眼球的位置区域;
[0013]根据所述视频信息,确定所述眼球的可运动路径,以及根据所述可运动路径,确定所述眼球的可移动区域;
[0014]根据所述眼球的位置区域和所述眼球的可移动区域,确定所述眼球的关注区域,以作为所述用户的感兴趣区域。
[0015]如上所述的方 面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述眼球的位置和所述眼球的可移动区域,确定所述眼球的关注区域,以作为所述用户的感兴趣区域,包括:
[0016]将所述眼球的位置区域在所述眼球的可移动区域内的部分,确定为所述眼球的关注区域;[0017]若所述眼球的关注区域满足关注条件,确定所述眼球的关注区域为所述用户的感兴趣区域。
[0018]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述关注条件包括关注时间和关注频次中的至少一项。
[0019]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述选择至少一个候选词条,以作为新词和/或热词,包括:
[0020]将没有出现在预先配置的输入法字典中的候选词条确定为新词。
[0021]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述选择至少一个候选词条,以作为新词和/或热词,包括:
[0022]将出现在预先配置的输入法字典中的候选词条,确定为候选热词;
[0023]根据所述候选热词出现的词频,确定所述候选热词的热度值;
[0024]将热度值大于或等于热度阈值的候选热词,确定为热词。
[0025]本发明的一方面,提供一种词条的获取装置,包括:
[0026]跟踪单元,用于对用户的眼球进行跟踪操作,以获得所述用户的感兴趣区域;
[0027]获取单元,用于获取所述感兴趣区域内的文本信息;
[0028]切词单元,用于对所述文本信息进行切词操作,以获得候选词条;
[0029]选择单元,用于选择至少一个候选词条,以作为新词和/或热词。
[0030]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述跟踪单元,具体用于
[0031]获取所述眼球的视频信息;
[0032]根据所述视频信息,确定所述眼球的位置区域;
[0033]根据所述视频信息,确定所述眼球的可运动路径,以及根据所述可运动路径,确定所述眼球的可移动区域;以及
[0034]根据所述眼球的位置区域和所述眼球的可移动区域,确定所述眼球的关注区域,以作为所述用户的感兴趣区域。
[0035]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述跟踪单元,具体用于
[0036]将所述眼球的位置区域在所述眼球的可移动区域内的部分,确定为所述眼球的关注区域;以及
[0037]若所述眼球的关注区域满足关注条件,确定所述眼球的关注区域为所述用户的感兴趣区域。
[0038]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述关注条件包括关注时间和关注频次中的至少一项。
[0039]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述选择单元,具体用于
[0040]将没有出现在预先配置的输入法字典中的候选词条确定为新词。
[0041]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述选择单元,具体用于
[0042]将出现在预先配置的输入法字典中的候选词条,确定为候选热词;[0043]根据所述候选热词出现的词频,确定所述候选热词的热度值;以及
[0044]将热度值大于或等于热度阈值的候选热词,确定为热词。
[0045]由上述技术方案可知,本发明实施例通过对用户的眼球进行跟踪操作,以获得所述用户的感兴趣区域,进而获取所述感兴趣区域内的文本信息,并对所述文本信息进行切词操作,以获得候选词条,使得能够选择至少一个候选词条,以作为新词和/或热词,由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息,进行候选词条的获取操作,因此,能够基于这些文本信息及时地识别出新词和/或热词,从而提高了词条获取的及时性。
[0046]另外,采用本发明提供的技术方案,能够及时地利用所识别出的新词和/或热词更新输入法所加载的各类专业字典即输入法字典,能够进一步有效提高输入法的字典的准确性。
【【专利附图】
【附图说明】】
[0047]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0048]图1为本发明一实施例提供的词条的获取方法的流程示意图;
[0049]图2为本发明另一实施例提供的词条的获取装置的结构示意图。
【【具体实施方式】】
[0050]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。
[0051]需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant, PDA)、无线手持设备、平板电脑(Tablet Computer)>个人电脑(Personal Computer, PC)、MP3播放器、MP4播放器等。
[0052]另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0053]图1为本发明一实施例提供的词条的获取方法的流程示意图,如图1所示。
[0054]101、对用户的眼球进行跟踪操作,以获得所述用户的感兴趣区域。
[0055]可选地,在本实施例的一个可能的实现方式中,在101中,具体可以在用户界面上对用户的眼球进行跟踪操作。其中,所述用户界面可以为终端所显示的万维网(World WideWeb, Web)页面,或者还可以为终端所显示的应用文档,例如,电子邮件、WORD文档、TXT文档、PDF文档等,本发明对此不进行特别限定。
[0056]102、获取所述感兴趣区域内的文本信息。 [0057]103、对所述文本信息进行切词操作,以获得候选词条。[0058]104、选择至少一个候选词条,以作为新词和/或热词。
[0059]需要说明的是,101?104的执行主体可以是识别装置,可以位于本地的客户端中,以进行离线识别,或者还可以位于网络侧的服务器中,以进行在线识别,或者也可以部分功能位于客户端中,部分功能位于服务器中,以进行离线与在线结合识别,本实施例对此不进行限定。
[0060]可以理解的是,所述客户端可以是安装在终端上的输入法应用程序,或者还可以是浏览器的一个网页,只要能够实现词条获取,以提供识别新词和/或热词的客观存在形式都可以,本实施例对此不进行限定。
[0061]这样,通过对用户的眼球进行跟踪操作,以获得所述用户的感兴趣区域,进而获取所述感兴趣区域内的文本信息,并对所述文本信息进行切词操作,以获得候选词条,使得能够选择至少一个候选词条,以作为新词和/或热词,由于采用用户当前的阅读行为所关注的区域所提取的用户感兴趣的文本信息,进行候选词条的获取操作,因此,能够基于这些文本信息及时地识别出新词和/或热词,从而提高了词条获取的及时性。
[0062]另外,采用本发明提供的技术方案,能够及时地利用所识别出的新词和/或热词更新输入法所加载的各类专业字典即输入法字典,能够进一步有效提高输入法的字典的准确性。
[0063]可选地,在本实施例的一个可能的实现方式中,在101中,具体可以获取所述眼球的视频信息。其中,所述眼球的视频信息可以由若干帧图像组成,可以利用摄像头进行采集。进而,根据所述视频信息,确定所述眼球的位置区域。然后,根据所述视频信息,确定所述眼球的可运动路径,以及根据所述可运动路径,确定所述眼球的可移动区域。由于人眼球的运动弧度范围在一个固定区间内,因此,可以根据该视频信息确定眼球对应的可运动路径。该运动路径可以是一个精确的值,也可以是一个运动区间。通过该可运动路径,可以进一步计算出基于该可运动路劲的可到达面积,该可到达面积即为所述眼球的可移动区域。最后,则可以根据所述眼球的位置区域和所述眼球的可移动区域,确定所述眼球的关注区域,以作为所述用户的感兴趣区域。
[0064]具体地,可以将所述眼球的位置区域在所述眼球的可移动区域内的部分,确定为所述眼球的关注区域。若所述眼球的关注区域满足关注条件,确定所述眼球的关注区域为所述用户的感兴趣区域。
[0065]其中,所述关注条件可以包括但不限于关注时间和关注频次中的至少一项。
[0066]例如,若所述眼球的关注区域在所述眼球的可移动区域内的停留时间大于或等于3秒,则可以确定所述眼球的关注区域为所述用户的感兴趣区域。
[0067]或者,再例如,若所述眼球的关注区域在所述眼球的可移动区域内的停留次数大于或等于2次,或2次/分钟,则可以确定所述眼球的关注区域为所述用户的感兴趣区域。
[0068]可选地,在本实施例的一个可能的实现方式中,在102中,具体可以采用现有技术中的各种文本识别方法,获取所述感兴趣区域内的文本信息,本发明对此不进行特别限定。
[0069]例如,可以获取所述感兴趣区域在具有文本信息的用户界面上包围的局部屏幕截图,然后,则可以对获取到的局部屏幕截图进行文本识别,以获取到所述感兴趣区域内的文本信息。
[0070]或者,再例如,可以获取所述感兴趣区域的位置信息,根据该位置信息,确定对应的文本信息,以作为所述感兴趣区域内的文本信息。
[0071]另外,文本识别的详细描述可以参见现有技术中的相关内容,此处不再赘述。
[0072]可选地,在本实施例的一个可能的实现方式中,在103中,具体可以采用现有技术中的各种切词方法,对所获取到的文本信息进行切词操作。例如,基于字符串匹配的分词方法,或者,再例如,基于理解的分词方法,或者,再例如,基于统计的分词方法,本发明对此不进行特别限定。切词方法的详细描述可以参见现有技术中的相关内容,此处不再赘述。
[0073]可选地,在本实施例的一个可能的实现方式中,在104中,具体可以将没有出现在预先配置的输入法字典中的候选词条确定为新词。
[0074]具体地,可以获取切词操作所获得的候选词条中的任一候选词条。如果该候选词条没有出现在预先配置的输入法字典中,则可以将该候选词条确定为新词。
[0075]需要说明的是,预先配置的输入法字典可以配置在网络侧的服务器,或者还可以配置在本地的客户端,本实施例对此不进行特别限定。
[0076]可选地,在本实施例的一个可能的实现方式中,在104中,具体可以将出现在预先配置的输入法字典中的候选词条,确定为候选热词。进而,根据所述候选热词出现的词频,确定所述候选热词的热度值。然后,则可以将热度值大于或等于热度阈值的候选热词,确定为热词。
[0077]具体地,可以获取切词操作所获得的候选词条中的任一候选词条。如果该候选词条已经出现在预先配置的输入法字典中,则可以将该候选词条标记为候选热词。然后,可以根据所述输入法字典,获取 候选热词在指定时间范围之内出现的词频,并根据该词频,确定所述候选热词的热度值。最后,则可以将热度值大于或等于热度阈值的候选热词,确定为热
ο
[0078]例如,具体可以根据公式,即候选热词的热度值=(所有候选热词的平均得分*所有候选热词的平均词频+候选热词的得分*候选热词在总统计时间内的总词频)/ (所有候选热词的平均词频+候选热词在总统计时间内的总词频),确定候选热词的热度值。其中,
[0079]候选热词的得分=候选热词在最近一个单位统计时间内的词频/候选热词在总统计时间内的总词频。
[0080]以下结合具体的实施例对上述实施过程进行详细说明,假设四个候选热词即候选热词A、候选热词B、候选热词C和候选热词D,以及单位统计时间为一天,总统计时间为两天。在2013-12-18和2013-12-19这两天内出现的词频如下表所示:
[0081]
【权利要求】
1.一种词条的获取方法,其特征在于,包括: 对用户的眼球进行跟踪操作,以获得所述用户的感兴趣区域; 获取所述感兴趣区域内的文本信息; 对所述文本信息进行切词操作,以获得候选词条; 选择至少一个候选词条,以作为新词和/或热词。
2.根据权利要求1所述的方法,其特征在于,所述对用户的眼球进行跟踪操作,以获得所述用户的感兴趣区域,包括: 获取所述眼球的视频信息; 根据所述视频信息,确定所述眼球的位置区域; 根据所述视频信息,确定所述眼球的可运动路径,以及根据所述可运动路径,确定所述眼球的可移动区域; 根据所述眼球的位置区域和所述眼球的可移动区域,确定所述眼球的关注区域,以作为所述用户的感兴趣区域。
3.根据权利要求2所述的方法,其特征在于,所述根据所述眼球的位置和所述眼球的可移动区域,确定所述眼球的关注区域,以作为所述用户的感兴趣区域,包括: 将所述眼球的位置区域在所述眼球的可移动区域内的部分,确定为所述眼球的关注区域; 若所述眼球的关注区域满足关注条件,确定所述眼球的关注区域为所述用户的感兴趣区域。
4.根据权利要求3所述的方法,其特征在于,所述关注条件包括关注时间和关注频次中的至少一项。
5.根据权利要求1~4任一权利要求所述的方法,其特征在于,所述选择至少一个候选词条,以作为新词和/或热词,包括: 将没有出现在预先配置的输入法字典中的候选词条确定为新词。
6.根据权利要求1~4任一权利要求所述的方法,其特征在于,所述选择至少一个候选词条,以作为新词和/或热词,包括: 将出现在预先配置的输入法字典中的候选词条,确定为候选热词; 根据所述候选热词出现的词频,确定所述候选热词的热度值; 将热度值大于或等于热度阈值的候选热词,确定为热词。
7.—种词条的获取装置,其特征在于,包括: 跟踪单元,用于对用户的眼球进行跟踪操作,以获得所述用户的感兴趣区域; 获取单元,用于获取所述感兴趣区域内的文本信息; 切词单元,用于对所述文本信息进行切词操作,以获得候选词条; 选择单元,用于选择至少一个候选词条,以作为新词和/或热词。
8.根据权利要求7所述的装置,其特征在于,所述跟踪单元,具体用于 获取所述眼球的视频信息; 根据所述视频信息,确定所述眼球的位置区域; 根据所述视频信息,确定所 述眼球的可运动路径,以及根据所述可运动路径,确定所述眼球的可移动区域;以及根据所述眼球的位置区域和所述眼球的可移动区域,确定所述眼球的关注区域,以作为所述用户的感兴趣区域。
9.根据权利要求8所述的装置,其特征在于,所述跟踪单元,具体用于 将所述眼球的位置区域在所述眼球的可移动区域内的部分,确定为所述眼球的关注区域;以及 若所述眼球的关注区域满足关注条件,确定所述眼球的关注区域为所述用户的感兴趣区域。
10.根据权利要求9所述的装置,其特征在于,所述关注条件包括关注时间和关注频次中的至少一项。
11.根据权利要求7~10任一权利要求所述的装置,其特征在于,所述选择单元,具体用于 将没有出现在预先配置的输入法字典中的候选词条确定为新词。
12.根据权利要求7~10任一权利要求所述的装置,其特征在于,所述选择单元,具体用于 将出现在预先配置的输入法字典中的候选词条,确定为候选热词; 根据所述候选热词出现的词频,确定所述候选热词的热度值;以及 将热度值大于或等于热度·阈值的候选热词,确定为热词。
【文档编号】G06F3/01GK103823849SQ201410047094
【公开日】2014年5月28日 申请日期:2014年2月11日 优先权日:2014年2月11日
【发明者】陈晓昕, 吴先超, 肖日新 申请人:百度在线网络技术(北京)有限公司