专利名称:一种识别搜索需求的方法和装置的制作方法
一种识别搜索需求的方法和装置技术领域:
本发明涉及计算机技术领域,特别涉及一种识别搜索需求的方法和装置。背景技术:
随着互联网在全球范围内的迅速发展与成熟,网络上的信息资源不断丰富,信息数据量也在飞速膨胀,通过搜索引擎获取信息已经成为现代人获取信息的主要方式。为了向用户提供更加便捷、准确地查询服务是搜索引擎技术在当今和未来的发展方向。
在搜索引擎技术中,对用户的搜索需求进行识别是提高搜索准确性和有效性的重要一环,特别在结构化搜索(即垂直搜索)中作用显著。现有的搜索需求识别通常简单的采用匹配预置关键词的方式,例如,对应视频需求预置一些关键词“在线观看”、“在线下载”、 “点播”、“高清观看”等,如果一个搜索请求(query)中包含某一个关键词,诸如query “家常菜高清观看”,则可以识别出该query具有视频需求。但这种方式具有以下缺陷
缺陷一、如果query中不包含预置关键词,贝U无法识别出query的需求类型,例如如果query仅仅为“家常菜”,就很难直接根据该query判断出该query的需求。
缺陷二、无法体现query需求的时效性。某些query的需求会随着时间的推移而发生改变,例如,“家常菜”这一 query,在电视剧《家常菜》未上映之前,该query的主要需求为菜谱类和美食类,但电视剧《家常菜》上映时,该query的主要需求可能就改变为视频类,而菜谱类和美食类可能变为次要需求。而当电视剧《家常菜》结束热映后,人们对于该电视剧的关注度下降,这时该query的主要需求又重新变回菜谱类和美食类。现有的搜索需求识别方法显然无法体现出这一变化。
上述两个缺陷最终都会导致搜索需求识别的准确性较低,造成针对该query的搜索结果无法准确地满足搜索需求,用户需要花费较多的时间和资源找到需要的内容。
发明内容
本发明提供了一种识别搜索需求的方法和装置,解决因query不包含预置关键词造成的需求无法识别以及无法体现query需求的时效性的缺陷,提高搜索需求识别的准确性。
具体技术方案如下
一种识别搜索需求的方法,该方法包括
S1、接收到待识别query后,获取所述待识别query的搜索结果;
S2、利用分类器基于预设的搜索结果文本特征对各搜索结果进行需求分类;
S3、对各搜索结果的需求分类结果进行融合,根据融合结果确定所述待识别query 的需求类型。
根据本发明一优选实施例,所述步骤SI具体包括
接收到待识别query后,将所述待识别query提供给搜索引擎进行搜索,从搜索引擎获取搜索结果中排在前N个的搜索结果;或者,
接收到待识别query后,对所述待识别query进行扩展,将待识别query与扩展词的组合提供给搜索引擎进行搜索,并从搜索引擎获取所述待识别query与扩展词的组合对应的搜索结果中排在前N个的搜索结果,所述扩展词为预设的各需求类别的需求词;
其中所述N为预设的正整数。
根据本发明一优选实施例,在所述步骤S2中采用一个以上的分类器且每一个分类器分别采用不同的搜索结果文本特征。
根据本发明一优选实施例,所述分类器包括针对网页标题建立的分类器、针对网页摘要建立的分类器或者针对网址的分类器。
根据本发明一优选实施例,所述针对网页标题建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征
网页标题中是否出现所述待识别query以及出现所述待识别query的次数;
由网页标题确定出的η元词组n-gram与各需求类型的核心词向量的重叠状况;以及;
搜索日志中网页标题对应所述待识别query时被点击的次数占所述待识别query 对应所有网页标题的被点击总次数的比率。
根据本发明一优选实施例,所述针对网页摘要建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征
网页摘要中出现所述待识别query的句子个数或比率;以及,
网页摘要中包含的n-gram与需求类型核心词向量间的重叠状况。
根据本发明一优选实施例,所述针对网址建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征
网址对应搜索结果的排序值;
网址对应的页面类型;以及,
搜索日志中网址对应所述待识别query时被点击的次数与所述待识别query对应所有网址的被点击总次数的比率。
根据本发明一优选实施例,所述需求类型的核心词向量的建立包括
Al、获取所述需求类型的种子query ;
A2、针对所述需求类型的各种子query进行搜索,分别获取排在前NI个的搜索结果,所述NI为预设的正整数;
A3、对获取的搜索结果的文本进行分词处理,获取所有n-gram ;
A4、根据词频tf*逆向文件频率idf值确定各n-gram的权重,获取权重值排在前 N2个的n-gram作为所述需求类型的核心词向量,所述N2为预设的正整数。
根据本发明一优选实施例,所述步骤Al包括
获取通过人工方式配置的所述需求类型的种子query ;或者,
获取采用人工方式在搜索日志中标注的所述需求类型的种子query ;或者,
从所述需求类型垂直搜索的搜索日志中,获取搜索次数高于预设第一阈值的 query作为所述需求类型的种子query ;或者,
从所述需求类型的网页搜索的搜索日志中,获取对应于点击了所述搜索类型的网站或点击了包含所述需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query作为所述需求类型的种子query。
根据本发明一优选实施例,所述分类器为最大熵分类器或者支持向量机分类器。
根据本发明一优选实施例,如果所述分类器为一个,则所述S3为根据需求分类结果中,各分类包含的搜索结果数量确定所述待识别query的需求类型;
如果所述分类器为多个,则在所述步骤S3中采用基于boosting的融合方法,或者采用线性加权的多分类器融合方法。
一种识别搜索需求的装置,该装置包括
结果获取单元,用于接收到待识别query后,获取所述待识别query的搜索结果;
分类器,用于基于预设的搜索结果文本特征对所述结果获取单元获取的各搜索结果进行需求分类;
需求融合单元,用于对所述各搜索结果的需求分类结果进行融合,根据融合结果确定所述待识别query的需求类型。
根据本发明一优选实施例,所述结果获取单元接收到待识别query后,将所述待识别query提供给搜索引擎进行搜索,从搜索引擎获取搜索结果中排在前N个的搜索结果; 或者,
接收到待识别query后,对所述待识别query进行扩展,将待识别query与扩展词的组合提供给搜索引擎进行搜索,并从搜索引擎获取所述待识别query与扩展词的组合对应的搜索结果中排在前N个的搜索结果,所述扩展词为预设的各需求类别的需求词;
其中所述N为预设的正整数。
根据本发明一优选实施例,该装置采用一个以上的分类器且每一个分类器分别采用不同的搜索结果文本特征。
根据本发明一优选实施例,所述分类器包括针对网页标题建立的分类器、针对网页摘要建立的分类器或 者针对网址的分类器。
根据本发明一优选实施例,所述针对网页标题建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征
网页标题中是否出现所述待识别query以及出现所述待识别query的次数;
由网页标题确定出的η元词组n-gram与各需求类型的核心词向量的重叠状况;以及;
搜索日志中网页标题对应所述待识别query时被点击的次数占所述待识别query 对应所有网页标题的被点击总次数的比率。
根据本发明一优选实施例,所述针对网页摘要建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征
网页摘要中出现所述待识别query的句子个数或比率;以及,
网页摘要中包含的n-gram与需求类型核心词向量间的重叠状况。
根据本发明一优选实施例,所述针对网址建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征
网址对应搜索结果的排序值;
网址对应的页面类型;以及,
搜索日志中网址对应所述待识别query时被点击的次数与所述待识别query对应所有网址的被点击总次数的比率。
根据本发明一优选实施例,该装置还包括用于建立需求类型的核心词向量的向量建立单元;
所述向量建立单元具体包括
种子query获取子单元,用于获取所述需求类型的种子query ;
搜索结果获取子单元,用于针对所述需求类型的各种子query进行搜索,分别获取排在前NI个的搜索结果,所述NI为预设的正整数;
词组获取子单元,用于对所述搜索结果获取子单元获取的搜索结果的文本进行分词处理,获取所有n-gram ;
向量建立子单元,用于根据词频tf*逆向文件频率idf值确定各n-gram的权重, 获取权重值排在前N2个的n-gram作为所述需求类型的核心词向量,所述N2为预设的正整数。
根据本发明一优选实施例,所述种子query获取子单元获取通过人工方式配置的所述需求类型的种子query ;或者,
获取采用人工方式在搜索日志中标注的所述需求类型的种子query ;或者,
从所述需求类型垂直搜索的搜索日志中,获取搜索次数高于预设第一阈值的 query作为所述需求类型的种子query ;或者,
从所述需求类型的网页搜索的搜索日志中,获取对应于点击了所述搜索类型的网站或点击了包含所述需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query作为所述需求类型的种子query。
根据本发明一优选实施例,所述分类器为最大熵分类器或者支持向量机分类器。
根据本发明一优选实施例,如果所述分类器为一个,则所述需求融合单元根据需求分类结果中,各分类包含的搜索结果数量确定所述待识别query的需求类型;
如果所述分类器为多个,则所述需求融合单元采用基于boosting的融合方法,或者采用线性加权的多分类器融合方法。
由以上技术方案可以看出,本发明获取待识别query的搜索结果后,通过对搜索结果进行需求分类,再进一步对需求分类结果进行融合确定待识别query的需求类型。这种方式完全不会受到待识别query中是否包含预设关键词的影响,对任何待识别query都能够实现需求识别;另外,由于用户搜索需求的时效性通常体现在搜索结果上,因此通过本发明的方式识别出的需求类型能够充分体现出搜索需求的时效性,从而提高了搜索需求识别的准确性。
图
图
图
图
图1为本发明实施例一提供的识别搜索需求的方法流程图;2为本发明实施例二提供的需求类型的核心词向量的建立方法流程图 3为本发明实施例三提供的识别搜索需求的装置结构图;4为本发明实施例提供的搜索需求识别用于大搜索排序的实例图;5为本发明实施例提供的搜索需求识别用于垂直搜索的实例图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
实施例一、
图1为本发明实施例一提供的识别搜索需求的方法流程图,如图1所示,该方法可以包括以下步骤
步骤101 :接收到待识别query后,获取待识别query的搜索结果。
接收到待识别query后,将待识别query提供给搜索引擎进行检索,获取搜索结果中排在前N个的搜索结果。
其中,在将待识别query提供给搜索引擎进行检索时,可以仅将该待识别query 提供给搜索引擎,并从搜索引擎获取该待识别query的搜索结果。优选地,可以对待识别 query进行扩展,将待识别query与扩展词的组合提供给搜索引擎,并从搜索引擎获取该待识别query与扩展词的组合对应的搜索结果,其中扩展词为需求类别的预设需求词。由于这些预设需求词需要的数量较小,通常为几十个即可,因此可以采用人工方式配置。
例如,视频类需求的预设需求词包括视频、电视剧、电影、高清观看等。菜谱类需求的预设需求词包括菜谱、食谱、美食等。那么对于待识别query“家常菜”,则可以得到如下待识别query与扩展词的组合
“家常菜视频”、“家常菜电视剧”、“家常菜电影”、“家常菜高清在线观看”、“家常菜菜谱”、“家常菜食谱”、“家常菜美食”等。将这些组合提供给搜索引擎后,搜索引擎进行搜索后返回综合的搜索结果,然后从这些搜索结果中获取排在前N个的搜索结果,当然也可以从搜索引擎针对每一个组合返回的搜索结果中均获取排在前面的搜索结果,从而总共获取 N个搜索结果。
使用扩展后的待识别query进行搜索获取搜索结果的目的在于克服某些query 的前N个搜索结果的需求过于集中从而造成的需求识别不准确的问题。例如,query “章子怡”有很多需求,单独搜索“章子怡”时,图片类的搜索结果可能在排在前N个的搜索结果中出现较少,就很难判断出该query具有强图片需求,但如果将该query扩展成“章子怡照片”后,搜索结果中与图片需求相关的结果就会更多的出现在排在前N个的搜索结果中,这对于后续识别query搜索需求的准确性有很大帮助。
步骤102 :利用分类器基于预设的搜索结果文本特征对各搜索结果进行需求分类。
在本步骤中对搜索结果进行需求分类时,可以采用一个以上的分类器,每一个分类器分别采用不同的搜索结果文本特征。在本实施例中可以针对搜索结果的网页标题、网页摘要和网址中的至少一种建立分类器,在此以建立三个分类器为例,分别称为标题分类器、摘要分类器和网址分类器。下面分别对这三种分类器采用的分类器特征进行描述。
I)对于标题分类器可以采用如下三种搜索结果文本特征中的至少一种作为分类器特征
第一种网页标题中是否出现待识别query以及出现待识别query的次数。
这一特征衡量的是搜索结果的网页标题与待识别query的相关性,如果网页标题中出现待识别query,则说明该搜索结果与待识别query越相关,越能够对识别待识别query的搜索需求造成贡献。例如,某搜索结果的网页标题为“最常见的家常菜菜谱-家常菜的做法美食天下·家常菜”,待识别query为“家常菜”,该网页标题中出现该待识别 query,且出现了 3次,说明该搜索结果对识别该query的需求有较大贡献。
第二种由网页标题确定出的n-gram与各需求类型的核心词向量的重叠状况。
所谓n-gram就是最小粒度的η个词语按顺序出现的组合,其中η为预设的一个或多个正整数。以网页标题“最常见的家常菜菜谱-家常菜的做法美食天下 家常菜”为例, 如果选取η为I和2,则由该网页标题确定出的n-gram为
1-gram :最、常见、的、家常菜、菜谱、家常菜、的、做法、美食、天下、家常菜
2-gram :最常见、常见的、的家常菜、家常菜菜谱、菜谱家常菜、家常菜的、的做法、 做法美食、美食天下、天下家常菜
各需求类型的核心词向量的建立可以采用人工配置的方式,也可以采用自动挖掘的方式,自动挖掘的方式参见实施例二。
假设针对菜谱类需求执行实施例二所示流程后,得到的菜谱类需求的核心词向量可以如下,核心词向量中包括核心词及对应权重
家常菜0.82家常菜菜谱1.00 菜谱大全1.00家常菜谱大全1.00食谱0.92做菜首选0.56菜谱0.98菜谱大全0.87家常菜的做法1.00美食0.95常见的家常菜菜谱1.00
在由网页标题确定出的n-gram与各需求类型的核心词向量的重叠状况时,该重叠状况可以是重叠次数或者重叠率。
接续上例,n-gram与菜谱类的核心词向量的重叠次数如表I所示。
表I
n-gram重叠次数家常菜权利要求
1.一种识别搜索需求的方法,其特征在于,该方法包括51、接收到待识别query后,获取所述待识别query的搜索结果;52、利用分类器基于预设的搜索结果文本特征对各搜索结果进行需求分类;53、对各搜索结果的需求分类结果进行融合,根据融合结果确定所述待识别query的需求类型。
2.根据权利要求1所述的方法,其特征在于,所述步骤SI具体包括接收到待识别query后,将所述待识别query提供给搜索引擎进行搜索,从搜索引擎获取搜索结果中排在前N个的搜索结果;或者,接收到待识别query后,对所述待识别query进行扩展,将待识别query与扩展词的组合提供给搜索引擎进行搜索,并从搜索引擎获取所述待识别query与扩展词的组合对应的搜索结果中排在前N个的搜索结果,所述扩展词为预设的各需求类别的需求词;其中所述N为预设的正整数。
3.根据权利要求1所述的方法,其特征在于,在所述步骤S2中采用一个以上的分类器且每一个分类器分别采用不同的搜索结果文本特征。
4.根据权利要求1所述的方法,其特征在于,所述分类器包括针对网页标题建立的分类器、针对网页摘要建立的分类器或者针对网址的分类器。
5.根据权利要求4所述的方法,其特征在于,所述针对网页标题建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征网页标题中是否出现所述待识别query以及出现所述待识别query的次数;由网页标题确定出的η元词组n-gram与各需求类型的核心词向量的重叠状况;以及;搜索日志中网页标题对应所述待识别query时被点击的次数占所述待识别query对应所有网页标题的被点击总次数的比率。
6.根据权利要求4所述的方法,其特征在于,所述针对网页摘要建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征网页摘要中出现所述待识别query的句子个数或比率;以及,网页摘要中包含的n-gram与需求类型核心词向量间的重叠状况。
7.根据权利要求4所述的方法,其特征在于,所述针对网址建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征网址对应搜索结果的排序值;网址对应的页面类型;以及,搜索日志中网址对应所述待识别query时被点击的次数与所述待识别query对应所有网址的被点击总次数的比率。
8.根据权利要求5或6所述的方法,其特征在于,所述需求类型的核心词向量的建立包括Al、获取所述需求类型的种子query ;A2、针对所述需求类型的各种子query进行搜索,分别获取排在前NI个的搜索结果,所述NI为预设的正整数;A3、对获取的搜索结果的文本进行分词处理,获取所有n-gram ;A4、根据词频tf*逆向文件频率idf值确定各n-gram的权重,获取权重值排在前N2个的n-gram作为所述需求类型的核心词向量,所述N2为预设的正整数。
9.根据权利要求8所述的方法,其特征在于,所述步骤Al包括获取通过人工方式配置的所述需求类型的种子query ;或者,获取采用人工方式在搜索日志中标注的所述需求类型的种子query ;或者,从所述需求类型垂直搜索的搜索日志中,获取搜索次数高于预设第一阈值的query作为所述需求类型的种子query ;或者,从所述需求类型的网页搜索的搜索日志中,获取对应于点击了所述搜索类型的网站或点击了包含所述需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query作为所述需求类型的种子query。
10.根据权利要求1至7任一权项所述的方法,其特征在于,所述分类器为最大熵分类器或者支持向量机分类器。
11.根据权利要求1至7任一权项所述的方法,其特征在于,如果所述分类器为一个,则所述S3为根据需求分类结果中,各分类包含的搜索结果数量确定所述待识别query的需求类型;如果所述分类器为多个,则在所述步骤S3中采用基于boosting的融合方法,或者采用线性加权的多分类器融合方法。
12.—种识别搜索需求的装置,其特征在于,该装置包括结果获取单元,用于接收到待识别query后,获取所述待识别query的搜索结果;分类器,用于基于预设的搜索结果文本特征对所述结果获取单元获取的各搜索结果进行需求分类;需求融合单元,用于对所述各搜索结果的需求分类结果进行融合,根据融合结果确定所述待识别query的需求类型。
13.根据权利要求12所述的装置,其特征在于,所述结果获取单元接收到待识别query后,将所述待识别query提供给搜索弓I擎进行搜索,从搜索引擎获取搜索结果中排在前N个的搜索结果;或者,接收到待识别query后,对所述待识别query进行扩展,将待识别query与扩展词的组合提供给搜索引擎进行搜索,并从搜索引擎获取所述待识别query与扩展词的组合对应的搜索结果中排在前N个的搜索结果,所述扩展词为预设的各需求类别的需求词;其中所述N为预设的正整数。
14.根据权利要求12所述的装置,其特征在于,该装置采用一个以上的分类器且每一个分类器分别采用不同的搜索结果文本特征。
15.根据权利要求12所述的装置,其特征在于,所述分类器包括针对网页标题建立的分类器、针对网页摘要建立的分类器或者针对网址的分类器。
16.根据权利要求15所述的装置,其特征在于,所述针对网页标题建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征网页标题中是否出现所述待识别query以及出现所述待识别query的次数;由网页标题确定出的η元词组n-gram与各需求类型的核心词向量的重叠状况;以及;搜索日志中网页标题对应所述待识别query时被点击的次数占所述待识别query对应所有网页标题的被点击总次数的比率。
17.根据权利要求15所述的装置,其特征在于,所述针对网页摘要建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征网页摘要中出现所述待识别query的句子个数或比率;以及,网页摘要中包含的n-gram与需求类型核心词向量间的重叠状况。
18.根据权利要求15所述的装置,其特征在于,所述针对网址建立的分类器采用以下搜索结果文本特征中的至少一种作为分类器特征网址对应搜索结果的排序值;网址对应的页面类型;以及,搜索日志中网址对应所述待识别query时被点击的次数与所述待识别query对应所有网址的被点击总次数的比率。
19.根据权利要求16或17所述的装置,其特征在于,该装置还包括用于建立需求类型的核心词向量的向量建立单元;所述向量建立单元具体包括种子query获取子单元,用于获取所述需求类型的种子query ;搜索结果获取子单元,用于针对所述需求类型的各种子query进行搜索,分别获取排在前NI个的搜索结果,所述NI为预设的正整数;词组获取子单元,用于对所述搜索结果获取子单元获取的搜索结果的文本进行分词处理,获取所有n-gram ;向量建立子单元,用于根据词频tf*逆向文件频率idf值确定各n-gram的权重,获取权重值排在前N2个的n-gram作为所述需求类型的核心词向量,所述N2为预设的正整数。
20.根据权利要求19所述的装置,其特征在于,所述种子query获取子单元获取通过人工方式配置的所述需求类型的种子query ;或者,获取采用人工方式在搜索日志中标注的所述需求类型的种子query ;或者,从所述需求类型垂直搜索的搜索日志中,获取搜索次数高于预设第一阈值的query作为所述需求类型的种子query ;或者,从所述需求类型的网页搜索的搜索日志中,获取对应于点击了所述搜索类型的网站或点击了包含所述需求类型特征词的标题的query,并将获取的query中搜索次数高于预设第二阈值的query作为所述需求类型的种子query。
21.根据权利要求12至18任一权项所述的装置,其特征在于,所述分类器为最大熵分类器或者支持向量机分类器。
22.根据权利要求12至18任一权项所述的装置,其特征在于,如果所述分类器为一个,则所述需求融合单元根据需求分类结果中,各分类包含的搜索结果数量确定所述待识别query的需求类型;如果所述分类器为多个,则所述需求融合单元采用基于boosting的融合方法,或者采用线性加权的多分类器融合方法。
全文摘要
本发明提供了一种识别搜索需求的方法和装置,其中方法包括接收到待识别query后,获取所述待识别query的搜索结果;利用分类器基于预设的搜索结果文本特征对各搜索结果进行需求分类;对各搜索结果的需求分类结果进行融合,根据融合结果确定所述待识别query的需求类型。这种方式完全不会受到待识别query中是否包含预设关键词的影响,对任何待识别query都能够实现需求识别;另外,由于用户搜索需求的时效性通常体现在搜索结果上,因此通过本发明的方式识别出的需求类型能够充分体现出搜索需求的时效性,从而提高了搜索需求识别的准确性。
文档编号G06F17/30GK103020066SQ201110282840
公开日2013年4月3日 申请日期2011年9月21日 优先权日2011年9月21日
发明者黄际洲 申请人:北京百度网讯科技有限公司