关键字匹配方法及其装置、服务器和系统的制作方法
【专利摘要】本发明公开了一种关键字匹配方法及其装置、服务器和系统,所述关键字匹配方法包括步骤接收一查询词或查询词组;检测所述查询词或查询词组是否需要纠错,若需要纠错则修正所述查询词或查询词组;从一热词数据库中查找是否存在映射对应所述查询词或查询词组的热词,若存在,取出所述热词;从一关键词关联数据库中查找与所述查询词或查询词组关联的关键词,并按照关联度从大到小的顺序从所述关键词中取出数量为一预设数值的关键词;将取出的各个关键词或各个关键词和热词按照关联度或关联度和热词频率排序并输出。本发明还公开了一种使用或对应关键字匹配方法的装置、服务器和系统。本发明提高了检索的准确性,以及及时准确的反应检索倾向等。
【专利说明】关键字匹配方法及其装置、服务器和系统
【技术领域】
[0001]本发明涉及一种关键字匹配方法及其装置、服务器和系统,特别是涉及一种网络检索的关键字匹配方法及其装置、服务器和系统。
【背景技术】
[0002]在当前的互联网商业模式中,用户根据自己的需求在产品展示平台上进行搜索、挑选进而完成交易的自助式销售方式已经成为了最主要的销售模式,但是,由于用户对本身需求的不明确,无法给出完整并且准确的搜索条件。因此,如何根据客户模糊的、不完整的甚至是错误的输入,给出满足客户真正需求的关键字的提示,对于用户的体验以及业务提升有着非常重要的意义。
[0003]当前在需要根据客户的模糊、不完整甚至错误的输入做出智能判断及关键字提示的公司或业务部门,特别是产品种类繁多、用户无法完全明确本身需求的而造成的输入不确定的情况下,现在的搜索提示功能实现的都比较初级,检索结果往往和用户输入的模糊程度类似,从而导致检索结果不准确,而且无法准确把握用户检索倾向,从而不能够及时准确地反应检索倾向性变化,进而导致进一步地检索结果的不准确,甚至是错误,因此极大地影响了用户的使用体验,继而影响到公司的业务水平。
【发明内容】
[0004]本发明要解决的技术问题是为了克服现有技术的检索方式的检索结果不准确、不能够及时准确地反应检索倾向性变化等缺陷,提供一种关键字匹配方法及其装置、服务器和系统,通过热词和关键字结合检索的方式来提高检索的准确性,以及通过历史数据更新数据库来及时准确的反应检索倾向等。
[0005]本发明是通过下述技术方案来解决上述技术问题的:
[0006]本发明提供了一种关键字匹配方法,其特点是,包括以下步骤:
[0007]S1、接收一查询词或查询词组;
[0008]本发明中所述查询词或查询词组是用户或客户端需要查询或查找的文字或符号等,其中所述查询词组由多个查询词组成,并且多个查询词组成词组的方式可以是任意的,例如按照一定顺序,或者集合的方式等等。
[0009]S2、检测所述查询词或查询词组是否需要纠错,若需要纠错则修正所述查询词或查询词组,否则进入步骤S3 ;
[0010]其中所述纠错是目前现有技术中常用的语言处理方式中常用的语义或拼写等的纠错和校正方式,所以本发明不再详细赘述所述纠错的原理和纠错过程。
[0011]本发明中为了保证后续关键词和热词查找的准确度,特别地需要预先检查获得的查询词或查询词组的语义或拼写是否正常,并对对存在拼写等问题的查询词或词组进行校正等修改。
[0012]S3、从一热词数据库中查找是否存在映射对应所述查询词或查询词组的热词,若存在,取出所述热词,若不存在进入步骤S4 ;
[0013]所述热词就是现有技术中尤其是网络搜索技术中表征在一定时间期间内被查询或查找次数很高的词或词组,所以所述热词数据库就是用于存储这些被查询或查找次数很高的词或词组的数据库。
[0014]本发明还对查询词和查询词组的查找还与特定时间期间的热词相关联,进而提高查找的准确度。
[0015]S4、从一关键词关联数据库中查找与所述查询词或查询词组关联的关键词,并按照关联度从大到小的顺序从所述关键词中取出数量为一预设数值的关键词;
[0016]所述关键词同样也是现有技术中尤其是网络搜索技术中预先存储的用于作为商品或服务等的索引的词语,其中所述关联度为表征关键词与其有关联或对应关系的词语之间的匹配程度,而且所述关联度的设定以及取值等都可以是根据实际需要进行设定的,而且具体的设定方式可以利用现有网络搜索技术的关联度等设定方式,所以本发明中并不对关联度的设定做任何的限定,本发明中只要使得关键词以及与其关联的词语之间能够通过关联度表征即可。
[0017]S5、将取出的各个关键词或各个关键词和热词按照关联度或关联度和热词频率排序并输出。
[0018]本发明通过热词和关键词的共同来获得与查询词或词组最匹配的关键词和热词的组合,进而提供查询的准确性。而且上述排序方式可以是基于关联度和热词频率的任意一种现有的排序方式。
[0019]较佳地,步骤SI中还包括:获取所述查询词或查询词组的来源处的地理位置信息,并将所述地理位置信息加入所述查询词或查询词组。
[0020]本发明中从获取查询词或词组的来源处获得所述来源的地理位置信息,并用所述地理位置信息作为查找的辅助信息来进一步提高检索的准确性。其中所述地理位置信息是指由现有技术中尤其是导航定位的该【技术领域】中能够表征来源处的地理位置等内容构成的信息。
[0021]较佳地,在步骤S5之后还包括以下步骤:
[0022]S6、接收反馈信息,检测反馈信息中是否包含了取出的各个关键词或各个关键词和热词中一个或多个,若是,记录所述查询词或查询词组和反馈信息中的关键词或关键词和热词,否则记录所述查询词或查询词组和取出的各个关键词或各个关键词和热词。
[0023]本发明中还通过来自用户或客户端的反馈信息的内容判断用户是否选择了输出的用于提示的关键词和热词,并在选择了输出的用于提示的关键词和热词时,将用户或客户端选择的关键词和热词和查询词或查询词组整体作为成功案例记录下来,否则作为失败案例,将查询词或查询词组和查询得到的各个关键词和热词作为整体记录下来。通过这种记录为后续数据的分析和比较提供数据来源。
[0024]优选地,所述步骤S6之后还包括以下步骤:
[0025]S71、当距离上一次关键词关联数据库更新时间超过一预设时间周期时,基于上一次关键词关联数据库更新时间到当前时间内记录的所述查询词或查询词组和反馈信息中的关键词和/或所述查询词或查询词组和取出的各个关键词以及记录的时间点计算并更新所述关键词关联数据库中各个关键词的关联度。
[0026]其中本发明中所述关键词的关联度的计算方法可以使用任意现有的关联度计算算法或公式等等。本发明利用在一定时间段内记录的查询成功案例和失败案例来调整关键词关联数据库中各个关键词的关联度,从而进一步地优化查询的准确性。由于这种更新方式中数据样本大,所以能够更佳精确地修正各个关键词的关联度。
[0027]优选地,所述步骤S71为:
[0028]当距离上一次关键词关联数据库更新时间超过一预设时间周期且当前时间处于一许可时间段内时,基于上一次关键词关联数据库更新时间到当前时间内记录的所述查询词或查询词组和反馈信息中的关键词和/或所述查询词或查询词组和取出的各个关键词以及记录的时间点计算并更新所述关键词关联数据库中各个关键词的关联度。
[0029]其中所述许可时间段是用户可以根据系统等空闲程度需要来任意设定,由于整体更新关键词关联数据库会花费大量时间系统资源,所以本发明中将这种更新安排在特定时间段内来避免系统繁忙等情况对更新和其他应用的影响。
[0030]优选地,所述步骤S6之后还包括以下步骤:
[0031]S72、基于记录的所述查询词或查询词组和反馈信息中的关键词或所述查询词或查询词组和取出的各个关键词计算并更新所述关键词关联数据库中各个关键词的关联度。
[0032]同样所述关键词的关联度的计算方法可以使用任意现有的关联度计算算法或公式等,本发明还可以实时地更新关键词关联数据库各个被查询地关键词的关联度,通过这种方式能够以最快地速度来更新关键词的关联度,从而使得整个系统的能够及时地对用户的查询结果进行反应。
[0033]优选地,所述步骤S71或S72或S6之后还包括以下步骤:
[0034]S73、从外部搜索引擎和/或所述关键词关联数据库中获取访问频率大于等于一访问频率阈值的词语,并在热词数据库中记录所述词语和所述词语的访问频率。
[0035]本发明中不但利用关键词关联数据库中访问频率高的词来更新热词数据库,还可以通过外部搜索引擎来获取更新热词数据库,从而保持热词的实时性,进而提高查询准确性。
[0036]本发明中所述外部搜索引擎是现有搜索引擎中的任意一个或多个,例如谷歌、百度以及雅虎等等。
[0037]优选地,所述步骤S73为:
[0038]从外部搜索引擎和/或所述关键词关联数据库中获取距离当前时间不同时间长度的多个时间段内访问频率分别大于等于分别对应于各个所述时间段的访问频率阈值的词语,并在热词数据库中记录所述词语和所述词语的访问频率。
[0039]也就是说,本发明中分别检测在不同时间长度内,访问频率高的词语并记录至热词数据库中,并且由于热词的访问频率增高速度特别快的特点,为各个不同长度的时间段分别设置了不同的访问频率阈值,从而进一步来识别热词。
[0040]本发明还提供了一种关键字匹配装置,其特点是,所述关键字匹配装置包括:
[0041]一接收模块,用于接收一查询词或查询词组;
[0042]一纠错模块,用于检测所述查询词或查询词组是否需要纠错,若需要纠错并修正所述查询词或查询词组;
[0043]一热词检索模块,用于从一热词数据库中查找并取出映射对应所述查询词或查询词组的热词;
[0044]—关键词检索模块,用于从一关键词关联数据库中查找与所述查询词或查询词组关联的关键词,并按照关联度从大到小的顺序从所述关键词中取出数量为一预设数值的关键词;
[0045]一排序输出模块,用于将取出的各个关键词或各个关键词和热词按照关联度或关联度和热词频率排序并输出。
[0046]较佳地,所述热词检索模块还用于获取所述查询词或查询词组的来源处的地理位置信息,并将所述地理位置信息加入所述查询词或查询词组。
[0047]较佳地,所述关键字匹配装置还包括:
[0048]一反馈信息检测记录模块,用于接收反馈信息,检测反馈信息中是否包含了取出的各个关键词或各个关键词和热词中一个或多个,若是,记录所述查询词或查询词组和反馈信息中的关键词或关键词和热词,否则记录所述查询词或查询词组和取出的各个关键词或各个关键词和热词。
[0049]优选地,所述关键字匹配装置还包括:
[0050]一关键词关联数据库更新模块,用于当距离上一次关键词关联数据库更新时间超过一预设时间周期时,基于上一次关键词关联数据库更新时间到当前时间内记录的所述查询词或查询词组和反馈信息中的关键词和/或所述查询词或查询词组和取出的各个关键词以及记录的时间点计算并更新所述关键词关联数据库中各个关键词的关联度。
[0051]优选地,所述关键词关联数据库更新模块还用于当距离上一次关键词关联数据库更新时间超过一预设时间周期且当前时间处于一许可时间段内时,基于上一次关键词关联数据库更新时间到当前时间内记录的所述查询词或查询词组和反馈信息中的关键词和/或所述查询词或查询词组和取出的各个关键词以及记录的时间点计算并更新所述关键词关联数据库中各个关键词的关联度。
[0052]优选地,所述关键字匹配装置还包括:
[0053]一实时关键词关联数据库更新模块,用于基于记录的所述查询词或查询词组和反馈信息中的关键词或所述查询词或查询词组和取出的各个关键词计算并更新所述关键词关联数据库中各个关键词的关联度。
[0054]优选地,所述关键字匹配装置还包括:
[0055]一热词数据库更新模块,用于从外部搜索引擎和/或所述关键词关联数据库中获取访问频率大于等于一访问频率阈值的词语,并在热词数据库中记录所述词语和所述词语的访问频率。
[0056]优选地,所述热词数据库更新模块还用于从外部搜索引擎和/或所述关键词关联数据库中获取距离当前时间不同时间长度的多个时间段内访问频率分别大于等于分别对应于各个所述时间段的访问频率阈值的词语,并在热词数据库中记录所述词语和所述词语的访问频率。
[0057]本发明还提供了一种检索服务器,其特点是,所述检索服务器使用如上所述的关键字匹配方法。
[0058]较佳地,所述检索服务器为小型计算机、大型计算机或分布式计算机系统。
[0059]本发明还提供了一种关键字匹配系统,其特点是,所述关键字匹配系统包括一服务器和若干客户端;所述服务器包括一热词数据库、一关键词关联数据库和一处理单元;
[0060]其中所述处理单元从所述客户端接收一查询词或查询词组,并检测所述查询词或查询词组是否需要纠错,若需要纠错则修正所述查询词或查询词组;
[0061]所述处理单元还分别从所述热词数据库中查找并取出映射对应所述查询词或查询词组的热词,从所述关键词关联数据库中查找与所述查询词或查询词组关联的关键词,并按照关联度从大到小的顺序从所述关键词中取出数量为一预设数值的关键词,然后将取出的各个关键词或各个关键词和热词按照关联度或关联度和热词频率排序并输出至所述客户端。
[0062]较佳地,所述处理单元还用于获取输出所述查询词或查询词组的客户端的地理位置信息,并将所述地理位置信息加入所述查询词或查询词组。
[0063]较佳地,所述服务器还包括一记录单元,所述处理单元从所述客户端接收反馈信息,并检测反馈信息中是否包含了取出的各个关键词或各个关键词和热词中一个或多个,若是,所述记录单元记录所述查询词或查询词组和反馈信息中的关键词或关键词和热词,否则所述记录单元记录所述查询词或查询词组和取出的各个关键词或各个关键词和热词。
[0064]优选地,所述处理单元在当距离上一次关键词关联数据库更新时间超过一预设时间周期时,基于上一次关键词关联数据库更新时间到当前时间内所述记录单元记录的所述查询词或查询词组和反馈信息中的关键词和/或所述查询词或查询词组和取出的各个关键词以及记录的时间点计算并更新所述关键词关联数据库中各个关键词的关联度。
[0065]优选地,所述处理单元在当距离上一次关键词关联数据库更新时间超过一预设时间周期且当前时间处于一许可时间段内时,基于上一次关键词关联数据库更新时间到当前时间内记录单元记录的所述查询词或查询词组和反馈信息中的关键词和/或所述查询词或查询词组和取出的各个关键词以及记录的时间点计算并更新所述关键词关联数据库中各个关键词的关联度。
[0066]优选地,所述处理单元基于记录单元记录的所述查询词或查询词组和反馈信息中的关键词或所述查询词或查询词组和取出的各个关键词计算并更新所述关键词关联数据库中各个关键词的关联度。
[0067]优选地,所述处理单元从外部搜索引擎和/或所述关键词关联数据库中获取访问频率大于等于一访问频率阈值的词语,并在热词数据库中记录所述词语和所述词语的访问频率。
[0068]优选地,所述处理单元从外部搜索引擎和/或所述关键词关联数据库中获取距离当前时间不同时间长度的多个时间段内访问频率分别大于等于分别对应于各个所述时间段的访问频率阈值的词语,并在热词数据库中记录所述词语和所述词语的访问频率。
[0069]优选地,所述客户端为移动终端。当然本发明中所述客户端并不仅仅局限于移动终端,还可以任意种类的电子设备。
[0070]为了便于描述,本发明将所述服务器按照功能划分为各种模块进行分别描述,所以在实施本发明时,可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0071]在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
[0072]本发明的积极进步效果在于:
[0073]本发明的关键字匹配方法及其装置、服务器和系统,通过热词和关键字结合检索的方式来提高检索的准确性,以及通过历史数据更新数据库来及时准确的反应检索倾向等,即实现检索的智能化。
[0074]从而提高搜索提示功能的智能化水平,提升用户体验,尤其是对移动用户有较好的支持,具体言之有:用户通过不确定的输入能够成功获得满足其真正需要关键词的提示的比例增加,用户的真正选择的关键字在所有的提示序列中占据的平均位置提前,以及关键字提示结果可以根据用户的反馈进行可持续的动态优化等等。
【专利附图】
【附图说明】
[0075]图1为本发明的实施例1的关键字匹配系统的结构示意图。
[0076]图2为本发明的实施例1的关键字匹配方法的流程图。
【具体实施方式】
[0077]下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
[0078]本发明主要包括以下两个方面:
[0079]第一方面,如何构建和更新关键字关联数据库以及热词数据库,S卩如何设计关键字来源作为知识库,并接收本地查询的历史关键字同时也会主动记录来自于搜索引擎等其他外部入口的相应查询关键字。
[0080]第二方面,如何设计更加准确的检索方式,即引入了位置信息维度作为查询的附加条件。将提示项的关联度排序算法做了迎合即时热点的设计优化。
[0081]通过本发明的关键字匹配得到的效果是提示的搜索结果的准确性有了显著提高,用户体验也较原有的搜索结果提示方式有了很大的提升。具体而言通过本发明的关键字匹配后,用户在不确定的输入之后能够有90%以上的概率得到真正想要的关键字的对应搜索结果,输出提示用户选择的搜索结果以较高的频率出现在搜索结果序列的前几位,用户反馈机制提供了可持续的搜索优化。
[0082]下面通过下述实施例来对本发明进行进一步地详细地说明。
[0083]实施例1
[0084]如图1所述,本实施例的关键字匹配系统包括一服务器I和一移动终端2,其中所述移动终端的数量可以是任意的,而且本实施的关键字匹配系统的服务器I还可以与其他电子设备进行数据交互。
[0085]而且所述服务器I可以为小型计算机、大型计算机或分布式计算机系统等等适用于服务器的硬件设备。
[0086]本实施例中所述服务器I包括一热词数据库11、一关键词关联数据库12、一处理单元13和一记录单元14。
[0087]所述热词数据库11和关键词关联数据库12分别记录了热词和关键词及其关联度等信息。
[0088]所述处理单元13从所述移动终端2接收一查询词,并检测所述查询词是否需要纠错,若需要纠错则修正所述查询词或查询词组。
[0089]所述处理单元13还分别从所述热词数据库11中查找并取出映射对应所述查询词的热词,从所述关键词关联数据库12中查找与所述查询词关联的关键词,并按照关联度从大到小的顺序从所述关键词中取出数量为预设数值N的关键词,例如取出5个关键词,然后将取出的关键词或关键词和热词按照关联度或关联度和热词频率排序并输出至所述移动终端2。
[0090]而且其中所述处理单元13能够获取所述移动终端2的地理位置信息,并将所述地理位置信息加入所述查询词。
[0091]所述记录单元14在所述处理单元13检测从所述移动终端2接收反馈信息中是否包含了取出的各个关键词或各个关键词和热词中部分或全部时,若是,所述记录单元14记录所述查询词和反馈信息中的关键词或关键词和热词,否则所述记录单元14记录所述查询词和所述处理单元13输出的各个关键词或各个关键词和热词。
[0092]本实施例中处理单元13还能够更新所述关键词关联数据库12所包含内容,具体地说,所述处理单元13在当距离上一次更新关键词关联数据库12的时间超过预设时间周期T且当前时间处于许可时间段T’内时,基于上一次更新时间到当前时间的时间段Tt内所述记录单元14记录的所述查询词和反馈信息中的关键词和/或所述查询词和取出的各个关键词以及上述数据的记录的时间点计算并更新所述关键词关联数据库12中各个关键词的关联度。
[0093]上述的更新方式是以一种数据库整体更新方式,更新后的数据能够显著地反应用户查询词或词组的变化趋势,但是这种更新时间长,占用资源多,所以在另一实施例中所述处理单元13还可以根据所述记录单元14记录的内容实时地更新数据库,虽然不能完全实现反应用户查询词或词组的变化趋势,但是能够更快地对用户查询词或词组的变化作出相应。
[0094]具体地说,所述处理单元13基于记录单元14记录的所述查询词和反馈信息中的关键词或所述查询词和取出的各个关键词计算并更新所述关键词关联数据库12中各个关键词的关联度。
[0095]此外本实施例中所述处理单元13从外部搜索引擎和/或所述关键词关联数据库12中获取距离当前时间不同时间长度的多个时间段内访问频率分别大于等于分别对应于各个所述时间段的访问频率阈值P的词语,并在热词数据库11中记录所述词语和所述词语的访问频率。
[0096]也就是说,所述处理单元13分别检测在不同时间长度内,访问频率高的词语并记录至热词数据库11中。
[0097]因此具体地说,如图2所示,本实施例的关键字匹配系统的关键字匹配方法的包括以下步骤流程:
[0098]S1、服务器I接收移动终端2输入的一查询词,并获取移动终端2的地理位置信息,并将所述地理位置信息加入所述查询词。
[0099]S2、处理单元13检测所述查询词是否需要纠错,若需要纠错则修正所述查询词,否则进入步骤S3。如果需要纠错,例如将拼音“rujia酒店”处理为“如家酒店”等。
[0100]S3、处理单元13从热词数据库11中查找是否存在映射对应所述查询词的热词,若存在,取出所述热词,若不存在进入步骤S4。
[0101]S4、处理单元13从关键词关联数据库12中查找与所述查询词关联的关键词,并按照关联度从大到小的顺序从所述关键词中取出数量为预设数值N的关键词。例如取出数量5个的关键词。
[0102]S5、处理单元13将取出的各个关键词或各个关键词和热词按照关联度或关联度和热词频率排序并输出至移动终端2。
[0103]S6、处理单元13接收反馈信息,检测反馈信息中是否包含了取出的各个关键词或各个关键词和热词中一个或多个,若是,记录单元14记录所述查询词和反馈信息中的关键词或关键词和热词,否则记录所述查询词和取出的各个关键词或各个关键词和热词。
[0104]例如如果用户选择了输出的检索结果中某个关键词或关键词和热词,系统将相应数据记录下,即记录为成功案例。如果用户选择了重新输入,系统也将相应数据记录下,即记录为失败案例。
[0105]S7、当距离上一次关键词关联数据库12更新时间超过预设时间周期T且当前时间处于许可时间段T’内时,处理单元13基于上一次关键词关联数据库12更新时间到当前时间的时间段Tt内记录的所述查询词和反馈信息中的关键词和/或所述查询词和取出的各个关键词以及记录的时间点计算并更新所述关键词关联数据库12中各个关键词的关联度。
[0106]S8、处理单元13从外部搜索引擎和/或所述关键词关联数据库12中获取距离当前时间不同时间长度的多个时间段内访问频率分别大于等于分别对应于各个所述时间段的访问频率阈值P的词语,并在热词数据库11中记录所述词语和所述词语的访问频率。
[0107]例如步骤S8中从外部搜索引擎和/或所述关键词关联数据库12中拉取任意词,检查词的访问频率在I分钟内是否多于1000次,如果是,则加入热词数据库11,而且还检查词频是否在I小时内高于I万次,如果是,加入热词数据库11,并且还进一步地检查词频是否在I天内高于20万次,如果是,加入热词数据库11。此外本领域技术人员可以对检测的时间点、时间长度、以及访问频率阈值P做任意的设置和调节,进而可以进一步地优化对热词出抓取的准确性和实时性。
[0108]所述步骤S7如上所述是一种全面更新的处理步骤,为了加强对用户查询的反应速度,在另外一个实施例中所述步骤S7’是处理单元13基于记录的所述查询词和反馈信息中的关键词或所述查询词和取出的各个关键词计算并更新所述关键词关联数据库12中各个关键词的关联度。
[0109]是各类提示项和关联度的集合,是在动态变化的量值,也是算法每次迭代的结果
[0110]具体地说,步骤S7这种全面更新的处理步骤中,首先检查是不是满足完全更新条件,通过时间来确定,查看距离最近的一次全更新的时间间隔是不是到达了预定值,一般是24小时,然后会拉取数据库内历史数据中的数据进行关联度演算,生成新的值,同时也会根据时间属性进行相应的权值调整,而且安全更新一般设定在O点到3点之间的系统较为空闲的时间段内进行,完成计算后会更新基本上所有的提示项及关联度。
[0111]步骤S7’是增量更新步骤,增量更新主要是计算当前热点查询数据,拉取的数据主要来自未被计算的短期记录增量,数据量比较小,计算的耗时比较小,但是对即时查询热点的响应由很大的提升效果,完成计算后也会更新相应的提示项及关联度
[0112]此外步骤S7’也可以通过时间来判断是否需要更新,但是此时时间间隔比较短,一般在分钟级别。
[0113]而其本领域技术人员也应该注意到步骤S7、S7’和S8是一直执行的,用以维持提示数据库的数据的时效性和正确性。
[0114]其中本领域技术人员应该注意到步骤S7、S7,和S8也可以同时使用,即在整个关键词匹配流程中,可以使用到步骤S7、S7’和S8。此外步骤S7、S7’和S8之间的顺序是可以任意的,不仅限于本实施例所指出的特定顺序。
[0115]经过本实施例处理后的检索结果的一些评价指标的变化如下:检索结果的命中率,也就是用户在第一次输入后可以从检索结果中找到想要的准确服务或者商品而不需要第二次手动输入的概率,从原有的71%提高到了 93%左右。
[0116]检索结果平均位次,指的是用户选择的检索结果项在所有的检索结果项中的排序位次。按照一般的理论,用户不会喜欢超过10条以上的提示,而且更加倾向于排序在前的提示。在这个度量上,用户选择的提示从平均4.5 (意味着用户基本查看了所有的选项)降到了 2.1次(意味着用户可以在第一眼确定选项)左右。
[0117]通过以上的关键字匹配系统的【具体实施方式】的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如R0M/RAM (只读存储器/随机存取存储器)、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
[0118]本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、月艮务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC (个人电脑)、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
[0119]本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0120]虽然以上描述了本发明的【具体实施方式】,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
【权利要求】
1.一种关键字匹配方法,其特征在于,所述关键字匹配方法包括以下步骤: 51、接收一查询词或查询词组; 52、检测所述查询词或查询词组是否需要纠错,若需要纠错则修正所述查询词或查询词组,否则进入步骤S3 ; 53、从一热词数据库中查找是否存在映射对应所述查询词或查询词组的热词,若存在,取出所述热词,若不存在进入步骤S4 ; 54、从一关键词关联数据库中查找与所述查询词或查询词组关联的关键词,并按照关联度从大到小的顺序从所述关键词中取出数量为一预设数值的关键词; 55、将取出的各个关键词或各个关键词和热词按照关联度或关联度和热词频率排序并输出。
2.如权利要求1所述的关键字匹配方法,其特征在于,所述步骤SI中还包括:获取所述查询词或查询词组的来源处的地理位置信息,并将所述地理位置信息加入所述查询词或查询词组。
3.如权利要求1所述的关键字匹配方法,其特征在于,在步骤S5之后还包括以下步骤: 56、接收反馈信息,检测反馈信息中是否包含了取出的各个关键词或各个关键词和热词中一个或多个,若是,记录所述查询词或查询词组和反馈信息中的关键词或关键词和热词,否则记录所述查询词或查询词组和取出的各个关键词或各个关键词和热词。
4.如权利要求3所述的关键字匹配方法,其特征在于,所述步骤S6之后还包括以下步骤: 571、当距离上一次关键词关联数据库更新时间超过一预设时间周期时,基于上一次关键词关联数据库更新时间到当前时间内记录的所述查询词或查询词组和反馈信息中的关键词和/或所述查询词或查询词组和取出的各个关键词以及记录的时间点计算并更新所述关键词关联数据库中各个关键词的关联度。
5.如权利要求4所述的关键字匹配方法,其特征在于,所述步骤S71为: 当距离上一次关键词关联数据库更新时间超过一预设时间周期且当前时间处于一许可时间段内时,基于上一次关键词关联数据库更新时间到当前时间内记录的所述查询词或查询词组和反馈信息中的关键词和/或所述查询词或查询词组和取出的各个关键词以及记录的时间点计算并更新所述关键词关联数据库中各个关键词的关联度。
6.如权利要求3所述的关键字匹配方法,其特征在于,所述步骤S6之后还包括以下步骤: 572、基于记录的所述查询词或查询词组和反馈信息中的关键词或所述查询词或查询词组和取出的各个关键词计算并更新所述关键词关联数据库中各个关键词的关联度。
7.如权利要求4-6中任一项所述的关键字匹配方法,其特征在于,所述步骤S71或S72或S6之后还包括以下步骤: 573、从外部搜索引擎和/或所述关键词关联数据库中获取访问频率大于等于一访问频率阈值的词语,并在热词数据库中记录所述词语和所述词语的访问频率。
8.如权利要求7所述的关键字匹配方法,其特征在于,所述步骤S73为: 从外部搜索引擎和/或所述关键词关联数据库中获取距离当前时间不同时间长度的多个时间段内访问频率分别大于等于分别对应于各个所述时间段的访问频率阈值的词语,并在热词数据库中记录所述词语和所述词语的访问频率。
9.一种关键字匹配装置,其特征在于,所述关键字匹配装置包括: 一接收模块,用于接收一查询词或查询词组; 一纠错模块,用于检测所述查询词或查询词组是否需要纠错,若需要纠错并修正所述查询词或查询词组; 一热词检索模块,用于从一热词数据库中查找并取出映射对应所述查询词或查询词组的热词; 一关键词检索模块,用于从一关键词关联数据库中查找与所述查询词或查询词组关联的关键词,并按照关联度从大到小的顺序从所述关键词中取出数量为一预设数值的关键词; 一排序输出模块,用于将取出的各个关键词或各个关键词和热词按照关联度或关联度和热词频率排序并输出。
10.如权利要求9所述的关键字匹配装置,其特征在于,所述热词检索模块还用于获取所述查询词或查询词组的来源处的地理位置信息,并将所述地理位置信息加入所述查询词或查询词组。
11.如权利要求9所述的关键字匹配装置,其特征在于,所述关键字匹配装置还包括: 一反馈信息检测记录模块,用于接收反馈信息,检测反馈信息中是否包含了取出的各个关键词或各个关键词和热词中一个或多个,若是,记录所述查询词或查询词组和反馈信息中的关键词或关键词和热词,否则记录所述查询词或查询词组和取出的各个关键词或各个关键词和热词。
12.如权利要求11所述的关键字匹配装置,其特征在于,所述关键字匹配装置还包括: 一关键词关联数据库更新模块,用于当距离上一次关键词关联数据库更新时间超过一预设时间周期时,基于上一次关键词关联数据库更新时间到当前时间内记录的所述查询词或查询词组和反馈信息中的关键词和/或所述查询词或查询词组和取出的各个关键词以及记录的时间点计算并更新所述关键词关联数据库中各个关键词的关联度。
13.如权利要求12所述的关键字匹配装置,其特征在于,所述关键词关联数据库更新模块还用于当距离上一次关键词关联数据库更新时间超过一预设时间周期且当前时间处于一许可时间段内时,基于上一次关键词关联数据库更新时间到当前时间内记录的所述查询词或查询词组和反馈信息中的关键词和/或所述查询词或查询词组和取出的各个关键词以及记录的时间点计算并更新所述关键词关联数据库中各个关键词的关联度。
14.如权利要求11所述的关键字匹配装置,其特征在于,所述关键字匹配装置还包括: 一实时关键词关联数据库更新模块,用于基于记录的所述查询词或查询词组和反馈信息中的关键词或所述查询词或查询词组和取出的各个关键词计算并更新所述关键词关联数据库中各个关键词的关联度。
15.如权利要求11所述的关键字匹配装置,其特征在于,所述关键字匹配装置还包括: 一热词数据库更新模块,用于从外部搜索引擎和/或所述关键词关联数据库中获取访问频率大于等于一访问频率阈值的词语,并在热词数据库中记录所述词语和所述词语的访问频率。
16.如权利要求15所述的关键字匹配装置,其特征在于,所述热词数据库更新模块还用于从外部搜索引擎和/或所述关键词关联数据库中获取距离当前时间不同时间长度的多个时间段内访问频率分别大于等于分别对应于各个所述时间段的访问频率阈值的词语,并在热词数据库中记录所述词语和所述词语的访问频率。
17.一种检索服务器,其特征在于,所述检索服务器使用如权利要求1-8中任一项所述的关键字匹配方法。
18.如权利要求17所述的检索服务器,其特征在于,所述检索服务器为小型计算机、大型计算机或分布式计算机系统。
19.一种关键字匹配系统,其特征在于,所述关键字匹配系统包括一服务器和若干客户端;所述服务器包括一热词数据库、一关键词关联数据库和一处理单元; 其中所述处理单元从所述客户端接收一查询词或查询词组,并检测所述查询词或查询词组是否需要纠错,若需要纠错则修正所述查询词或查询词组; 所述处理单元还分别从所述热词数据库中查找并取出映射对应所述查询词或查询词组的热词,从所述关键词关联数据库中查找与所述查询词或查询词组关联的关键词,并按照关联度从大到小的顺序从所述关键词中取出数量为一预设数值的关键词,然后将取出的各个关键词或各个关键词和热词按照关联度或关联度和热词频率排序并输出至所述客户端。
20.如权利要求19所述的关键字匹配系统,其特征在于,所述处理单元还用于获取输出所述查询词或查询词组的客户端的地理位置信息,并将所述地理位置信息加入所述查询词或查询词组。
21.如权利要求19所述的关键字匹配系统,其特征在于,所述服务器还包括一记录单元,所述处理单元从所述客户端接收反馈信息,并检测反馈信息中是否包含了取出的各个关键词或各个关键词和热词中一个或多个,若是,所述记录单元记录所述查询词或查询词组和反馈信息中的关键词或关键词和热词,否则所述记录单元记录所述查询词或查询词组和取出的各个关键词或各个关键词和热词。
22.如权利要求21所述的关键字匹配系统,其特征在于,所述处理单元在当距离上一次关键词关联数据库更新时间超过一预设时间周期时,基于上一次关键词关联数据库更新时间到当前时间内所述记录单元记录的所述查询词或查询词组和反馈信息中的关键词和/或所述查询词或查询词组和取出的各个关键词以及记录的时间点计算并更新所述关键词关联数据库中各个关键词的关联度。
23.如权利要求22所述的关键字匹配系统,其特征在于,所述处理单元在当距离上一次关键词关联数据库更新时间超过一预设时间周期且当前时间处于一许可时间段内时,基于上一次关键词关联数据库更新时间到当前时间内记录单元记录的所述查询词或查询词组和反馈信息中的关键词和/或所述查询词或查询词组和取出的各个关键词以及记录的时间点计算并更新所述关键词关联数据库中各个关键词的关联度。
24.如权利要求21所述的关键字匹配系统,其特征在于,所述处理单元基于记录单元记录的所述查询词或查询词组和反馈信息中的关键词或所述查询词或查询词组和取出的各个关键词计算并更新所述关键词关联数据库中各个关键词的关联度。
25.如权利要求21所述的关键字匹配系统,其特征在于,所述处理单元从外部搜索引擎和/或所述关键词关联数据库中获取访问频率大于等于一访问频率阈值的词语,并在热词数据库中记录所述词语和所述词语的访问频率。
26.如权利要求25所述的关键字匹配系统,其特征在于,所述处理单元从外部搜索引擎和/或所述关键词关联数据库中获取距离当前时间不同时间长度的多个时间段内访问频率分别大于等于分别对应于各个所述时间段的访问频率阈值的词语,并在热词数据库中记录所述词语和所述词语的访问频率。
27.如权利要求19-26中任一项所述的关键字匹配系统,其特征在于,所述客户端为移动终端。
【文档编号】G06F17/30GK104424342SQ201310413491
【公开日】2015年3月18日 申请日期:2013年9月11日 优先权日:2013年9月11日
【发明者】叶亚明 申请人:携程计算机技术(上海)有限公司