一种基于用户行为的搜索方法及系统的制作方法【专利摘要】本发明提供了一种基于用户行为的搜索方法及系统,该方法包括:基础搜索服务器依据用户在搜索引擎中输入的搜索词生成搜索结果页;排序服务器依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结果页划分为一类;排序服务器依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用户。根据本发明提供的技术方案,能够向用户提供有针对性和个性化的搜索结果,提高搜索效率。【专利说明】一种基于用户行为的搜索方法及系统【【
技术领域:
】】[0001]本发明涉及互联网领域的搜索技术,尤其涉及一种基于用户行为的搜索方法及系统。【【
背景技术:
】】[0002]目前,搜索引擎都是依据用户在搜索引擎中的点击行为和相关搜索词对搜索结果的顺序进行调整,例如,在前十个搜索结果中,如果用户点击第五个搜索结果的数量远远超过前四个搜索结果,表示第五个搜索结果与前四个搜索结果相比,与搜索词更加匹配;或者,用户连续输入“苹果”和“苹果手机”两个搜索词,表示用户的真实需求是搜索“苹果手机”,而第一个搜索词的搜索结果并没有给出用户满意的搜索结果,因此,搜索引擎通过这样的方式获得用户行为反馈,对搜索结果进行调整。[0003]但是,在搜索引擎对搜索结果进行调整时获取的用户的信息量较少,而且有效性较低,例如,搜索引擎只能获得用户是否打开某个搜索结果的信息,而不知道用户对该搜索结果的满意程度;而且,搜索引擎是对大规模用户数据进行分析,进而调整搜索结果,因此是对通用搜索需求的搜索结果进行调整,不能有效区分统一搜索词的不同语义信息,不能根据用户的兴趣爱好进行倾向性的调整,因此没有实现向用户提供更具有针对性和个性化的搜索结果,搜索引擎的个性化服务水平较低,用户需要在搜索结果中筛选感兴趣的搜索结果,增加搜索引擎的负担,搜索效率较低;例如,对于具有不同语义的搜索词“苹果”,该搜索词包含两个语义信息:水果和手机,大规模用户数量的调整将导致一个需求较大的语义信息覆盖另一个语义信息。【【
发明内容】】[0004]本发明提供了一种基于用户行为的搜索方法及系统,能够向用户提供有针对性和个性化的搜索结果,提高搜索效率。[0005]本发明的具体技术方案如下:[0006]根据本发明一优选实施例,一种基于用户行为的搜索方法,包括:[0007]基础搜索服务器依据用户在搜索引擎中输入的搜索词生成搜索结果页;[0008]排序服务器依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结果页划分为一类;[0009]排序服务器依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用户。[0010]上述方法中,生成映射关系的方法为:[0011]网页服务器从搜索结果页的正文提取高频词并生成高频词集合,将搜索结果页与高频词集合的映射关系保存到网页数据库;[0012]当用户输入搜索词后收藏搜索结果页并标注标签时,搜索信息挖掘服务器依据搜索结果页与闻频词集合的映射关系生成搜索词、闻频词集合和标签的映射关系,并将搜索词、高频词集合和标签的映射关系保存到映射信息数据库。[0013]上述方法中,所述从搜索结果页的正文提取高频词具体包括:[0014]从搜索结果页中提取候选正文,并将候选正文中链接文本数目与总文本数目的比值大于预设阈值的文本删除,得到搜索结果页的正文;[0015]对所述正文进行分词处理,得到一个以上单词;[0016]依据预设的停用词表从得到的单词中过滤掉停用词,得到搜索结果页的高频词。[0017]上述方法中,生成用户的兴趣类别的方法为:[0018]兴趣挖掘服务器从用户数据库的搜索历史记录和标签历史记录中获取用户的搜索词和标签;[0019]兴趣挖掘服务器依据预设的兴趣类别与对应的网页,以及搜索结果页与高频词集合的对应关系,获得兴趣类别对应的高频词集合;[0020]兴趣挖掘服务器将获得的用户的搜索词和标签与兴趣类别的高频词集合进行比对,当搜索词和标签与高频词集合的匹配率大于预设阈值时,将所述高频词集合对应的兴趣类别作为所述用户的兴趣类别,并将搜索词、高频词集合和标签的映射关系保存到映射信息数据库。[0021]上述方法中,所述在预先生成的映射关系中获取对应的标签具体包括:[0022]排序服务器在所述映射关系中查找用户输入的搜索词对应的所有标签和高频词集合;或,[0023]排序服务器依据用户的兴趣类别和用户的标签,为用户划分兴趣用户组;将输入搜索词的用户的兴趣类别下或搜索结果页所述的兴趣类别下人数最多的用户兴趣组中其他用户的标签作为输入搜索词的用户的标签,依据其他用户的标签在所述映射关系中查找对应的高频词集合。[0024]上述方法中,获得搜索结果页与标签的相似度的方法为:[0025]利用搜索词对应的高频词集合组成搜索词的语义空间,并分别将搜索结果页的高频词集合和标签在语义空间中进行匹配,得到搜索结果页和标签在所述语义空间中的向量,并利用所述向量计算得到搜索结果页与标签的相似度。[0026]上述方法中,利用如下公式增加匹配到的标签所对应的搜索结果页的权重值:[0027]Valuenew=ValueoldXk[0028]其中,Valuetjld为原始的搜索结果页的权重值,Valuenew为搜索结果页权重值增加后的新权重值,k为调权因子且k大于I。[0029]一种基于用户行为的搜索系统,包括:基础搜索服务器和排序服务器;其中,[0030]基础搜索服务器,用于依据用户在搜索引擎中输入的搜索词生成搜索结果页;[0031]排序服务器,用于依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结果页划分为一类;还用于依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用户。[0032]上述系统中,该系统还包括网页服务器、网页数据库、搜索信息挖掘服务器和映射信息数据库;其中,[0033]网页服务器,用于从搜索结果页的正文提取高频词并生成高频词集合,将搜索结果页与高频词集合的映射关系保存到网页数据库;[0034]搜索信息挖掘服务器,用于当用户输入搜索词后收藏搜索结果页并标注标签时,依据搜索结果页与高频词集合的映射关系生成搜索词、高频词集合和标签的映射关系,并将搜索词、高频词集合和标签的映射关系保存到映射信息数据库。[0035]上述系统中,所述网页服务器在从搜索结果页的正文提取高频词时,具体包括:[0036]从搜索结果页中提取候选正文,并将候选正文中链接文本数目与总文本数目的比值大于预设阈值的文本删除,得到搜索结果页的正文;[0037]对所述正文进行分词处理,得到一个以上单词;[0038]依据预设的停用词表从得到的单词中过滤掉停用词,得到搜索结果页的高频词。[0039]上述系统中,该系统还包括:兴趣挖掘服务器和兴趣数据库;其中,[0040]兴趣挖掘服务器,用于从用户数据库的搜索历史记录和标签历史记录中获取用户的搜索词和标签;依据预设的兴趣类别与对应的网页,以及搜索结果页与高频词集合的对应关系,获得兴趣类别对应的高频词集合;将获得的用户的搜索词和标签与兴趣类别的高频词集合进行比对,当搜索词和标签与高频词集合的匹配率大于预设阈值时,将所述高频词集合对应的兴趣类别作为所述用户的兴趣类别,将用户与兴趣类别的对应关系保存到兴趣数据库。[0041]上述系统中,所述排序服务器在预先生成的映射关系中获取对应的标签时,具体包括:[0042]在所述映射关系中查找用户输入的搜索词对应的所有标签和高频词集合;或,[0043]依据用户的兴趣类别和用户的标签,为用户划分兴趣用户组;将输入搜索词的用户的兴趣类别下或搜索结果页所述的兴趣类别下人数最多的用户兴趣组中其他用户的标签作为输入搜索词的用户的标签,依据其他用户的标签在所述映射关系中查找对应的高频词集合。[0044]上述系统中,所述排序服务器在获得搜索结果页与标签的相似度时,具体包括:[0045]利用搜索词对应的高频词集合组成搜索词的语义空间,并分别将搜索结果页的高频词集合和标签在语义空间中进行匹配,得到搜索结果页和标签在所述语义空间中的向量,并利用所述向量计算得到搜索结果页与标签的相似度。[0046]上述系统中,所述排序服务器利用如下公式增加匹配到的标签所对应的搜索结果页的权重值:[0047]Valuenew=ValueoldXk[0048]其中,Valueold为原始的搜索结果页的权重值,Valuenew为搜索结果页权重值增加后的新权重值,k为调权因子且k大于I。[0049]由以上技术方案可以看出,本发明提供的具有以下有益效果:[0050]依据用户的收藏行为和标注行为,对搜索引擎提供的搜索结果页的显示顺序进行调整,将用户感兴趣的搜索结果页优先显示在所有搜索结果页中,实现向用户提供更具有针对性和个性化的搜索结果,提升搜索引擎的个性化服务水平,减少用户与搜索引擎的交互操作,降低搜索引擎的负担,提高搜索效率。【【专利附图】【附图说明】】[0051]图1是本发明实现基于用户行为的搜索方法的优选实施例的流程示意图;[0052]图2是本发明生成高频词集合的方法的示例图;[0053]图3是本发明挖掘搜索数据系统架构示例图;[0054]图4是本发明搜索词、标签和闻频词集合的映射不例图;[0055]图5是本发明搜索结果页排序处理时系统架构示例图;[0056]图6是本发明实现基于用户行为的搜索系统的优选实施例的结构示意图。【【具体实施方式】】[0057]本发明的基本思想是:基础搜索服务器依据用户在搜索引擎中输入的搜索词生成搜索结果页;排序服务器依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结果页划分为一类;排序服务器依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用户。[0058]为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。[0059]本发明提供一种基于用户行为的搜索方法,图1是本发明实现基于用户行为的搜索方法的优选实施例的流程示意图,如图1所示,该优选实施例包括以下步骤:[0060]步骤101,网页服务器从搜索结果页的正文提取高频词并生成高频词集合,将搜索结果页与高频词集合的映射关系保存到网页数据库。[0061]具体的,对于搜索引擎提供的所有搜索结果页,搜索引擎的网页服务器进行对应的高频词的提取,下面以搜索结果页PaS例说明从搜索结果页的正文提取高频词并生成高频词集合的方法:[0062]第一步,如图2所示,网页服务器从搜索结果页中提取正文,提取正文时先要从搜索结果页中过滤出候选正文,对于HTML网页而言,其正文一般包含在标签名为〈table〉、<div>和的标签中,因此网页服务器依据预设的标签名〈table>、〈diV>和J^HTML网页的源码进行过滤,只保留这些标签名以及标签内容,如表1所示:[0063]表1[0064]【权利要求】1.一种基于用户行为的搜索方法,其特征在于,该方法包括:基础搜索服务器依据用户在搜索引擎中输入的搜索词生成搜索结果页;排序服务器依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结果页划分为一类;排序服务器依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用户。2.根据权利要求1所述的方法,其特征在于,生成映射关系的方法为:网页服务器从搜索结果页的正文提取高频词并生成高频词集合,将搜索结果页与高频词集合的映射关系保存到网页数据库;当用户输入搜索词后收藏搜索结果页并标注标签时,搜索信息挖掘服务器依据搜索结果页与闻频词集合的映射关系生成搜索词、闻频词集合和标签的映射关系,并将搜索词、闻频词集合和标签的映射关系保存到映射信息数据库。3.根据权利要求2所述的方法,其特征在于,所述从搜索结果页的正文提取高频词具体包括:从搜索结果页中提取候选正文,并将候选正文中链接文本数目与总文本数目的比值大于预设阈值的文本删除,得到搜索结果页的正文;对所述正文进行分词处理,得到一个以上单词;依据预设的停用词表从得到的单词中过滤掉停用词,得到搜索结果页的高频词。4.根据权利要求1所述的方法,其特征在于,生成用户的兴趣类别的方法为:兴趣挖掘服务器从用户数据库的搜索历史记录和标签历史记录中获取用户的搜索词和标签;兴趣挖掘服务器依据预设的兴趣类别与对应的网页,以及搜索结果页与高频词集合的对应关系,获得兴趣类别对应的高频词集合;兴趣挖掘服务器将获得的用户的搜索词和标签与兴趣类别的高频词集合进行比对,当搜索词和标签与高频词集合的匹配率大于预设阈值时,将所述高频词集合对应的兴趣类别作为所述用户的兴趣类别,将用户与兴趣类别的对应关系保存到兴趣数据库。5.根据权利要求1所述的方法,其特征在于,所述在预先生成的映射关系中获取对应的标签具体包括:排序服务器在所述映射关系中查找用户输入的搜索词对应的所有标签和高频词集合;或,排序服务器依据用户的兴趣类别和用户的标签,为用户划分兴趣用户组;将输入搜索词的用户的兴趣类别下或搜索结果页所述的兴趣类别下人数最多的用户兴趣组中其他用户的标签作为输入搜索词的用户的标签,依据其他用户的标签在所述映射关系中查找对应的闻频词集合。6.根据权利要求1所述的方法,其特征在于,获得搜索结果页与标签的相似度的方法为:利用搜索词对应的高频词集合组成搜索词的语义空间,并分别将搜索结果页的高频词集合和标签在语义空间中进行匹配,得到搜索结果页和标签在所述语义空间中的向量,并利用所述向量计算得到搜索结果页与标签的相似度。7.根据权利要求1所述的方法,其特征在于,利用如下公式增加匹配到的标签所对应的搜索结果页的权重值:Valuenew=ValueoldXk其中,Valuetjld为原始的搜索结果页的权重值,Valuenew为搜索结果页权重值增加后的新权重值,k为调权因子且k大于I。8.一种基于用户行为的搜索系统,其特征在于,该系统包括:基础搜索服务器和排序服务器;其中,基础搜索服务器,用于依据用户在搜索引擎中输入的搜索词生成搜索结果页;排序服务器,用于依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结果页划分为一类;还用于依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用户。9.根据权利要求8所述的系统,其特征在于,该系统还包括网页服务器、网页数据库、搜索信息挖掘服务器和映射信息数据库;其中,网页服务器,用于从搜索结果页的正文提取高频词并生成高频词集合,将搜索结果页与高频词集合的映射关系保存到网页数据库;搜索信息挖掘服务器,用于当用户输入搜索词后收藏搜索结果页并标注标签时,依据搜索结果页与高频词集合的映射关系生成搜索词、高频词集合和标签的映射关系,并将搜索词、高频词集合和标签的映射关系保存到映射信息数据库。10.根据权利要求9所述的系统,其特征在于,所述网页服务器在从搜索结果页的正文提取高频词时,具体包括:从搜索结果页中提取候选正文,并将候选正文中链接文本数目与总文本数目的比值大于预设阈值的文本删除,得到搜索结果页的正文;对所述正文进行分词处理,得到一个以上单词;依据预设的停用词表从得到的单词中过滤掉停用词,得到搜索结果页的高频词。11.根据权利要求8所述的系统,其特征在于,该系统还包括:兴趣挖掘服务器和兴趣数据库;其中,兴趣挖掘服务器,用于从用户数据库的搜索历史记录和标签历史记录中获取用户的搜索词和标签;依据预设的兴趣类别与对应的网页,以及搜索结果页与高频词集合的对应关系,获得兴趣类别对应的高频词集合;将获得的用户的搜索词和标签与兴趣类别的高频词集合进行比对,当搜索词和标签与高频词集合的匹配率大于预设阈值时,将所述高频词集合对应的兴趣类别作为所述用户的兴趣类别,将用户与兴趣类别的对应关系保存到兴趣数据库。12.根据权利要求8所述的系统,其特征在于,所述排序服务器在预先生成的映射关系中获取对应的标签时,具体包括:在所述映射关系中查找用户输入的搜索词对应的所有标签和高频词集合;或,依据用户的兴趣类别和用户的标签,为用户划分兴趣用户组;将输入搜索词的用户的兴趣类别下或搜索结果页所述的兴趣类别下人数最多的用户兴趣组中其他用户的标签作为输入搜索词的用户的标签,依据其他用户的标签在所述映射关系中查找对应的高频词集合。13.根据权利要求8所述的系统,其特征在于,所述排序服务器在获得搜索结果页与标签的相似度时,具体包括:利用搜索词对应的高频词集合组成搜索词的语义空间,并分别将搜索结果页的高频词集合和标签在语义空间中进行匹配,得到搜索结果页和标签在所述语义空间中的向量,并利用所述向量计算得到搜索结果页与标签的相似度。14.根据权利要求8所述的系统,其特征在于,所述排序服务器利用如下公式增加匹配到的标签所对应的搜索结果页的权重值:Valuenew=ValueoldXk其中,Valuetjld为原始的搜索结果页的权重值,Valuenew为搜索结果页权重值增加后的新权重值,k为调权因子且k大于I。【文档编号】G06F17/30GK104035927SQ201310068715【公开日】2014年9月10日申请日期:2013年3月5日优先权日:2013年3月5日【发明者】闫泽华申请人:百度在线网络技术(北京)有限公司