基于聚类和查询行为的检索结果排序方法
【专利摘要】本发明涉及一种基于聚类和查询行为的检索结果排序方法,包括如下步骤:计算文档与查询的相关度,选取候选文档集合;对候选文档集合进行聚类分析,计算每个聚类与查询的相关度;根据文档的相关度和文档所在聚类的相关度,计算文档的排序Rank(di);根据用户点击文档的反馈信息更新文档的相关度和聚类的相关度;更新文档的排序Rank(di)。本发明能够根据用户的点击行为,挖掘用户查询所蕴含的各种潜在意图,可以动态的调整文档的排列顺序,从而更好地满足了用户的多样化需求。
【专利说明】基于聚类和查询行为的检索结果排序方法
【技术领域】
[0001]本发明涉及一种信息检索领域的方法,特别是涉及一种基于聚类和查询行为的检索结果排序方法。
【背景技术】
[0002]搜索引擎在用户输入一个查询后,返回一个“相关”结果的列表,然而这个检索结果列表往往不能让用户满意。一方面由于用户查询的不确定性,例如查询词有多义性,存在多种解释,搜索引擎无法确定用户的需求;另一方面,对于搜索引擎返回的大量结果,用户通常只选择浏览ToplO的检索结果,由于检索结果没有进行合理的总结与组织,而仅仅是简单的罗列,ToplO的检索结果可能是不全面的,因此用户获取到的信息可能是不全面的。
[0003]目前有一些研究通过采用对检索结果聚类来解决上面所阐述的问题,一方面对于有歧义的查询,通过检索结果聚类,可以按照不同语义将检索结果聚成不同类别;另一方面,检索结果聚类能够对检索结果进行全面的分析处理,可以给出一个全面的关于被查询对象的介绍。但是现有的检索结果聚类排序方法大多是对文档的查询相关度与文档间的相似性的线性组合优化问题进行求解。这类相对静态的方法是从系统的角度对用户意图进行挖掘,无法真正把握用户的查询意图。
【发明内容】
[0004]本发明的目的在于提供一种基于聚类和查询行为的检索结果排序方法,根据用户点击文档的反馈信息进行在线学习,可以动态的调整类别的排列顺序以及类别内文档的选择,能够更好地满足用户的多样化需求。
[0005]实现本发明目的的技术方案:
[0006]一种基于聚类和查询行为的检索结果排序方法,其特征在于:
[0007]步骤1:计算文档与查询的相关度Sim(q,(Ii),并根据相关度选取候选文档集合;
[0008]步骤2:对候选文档集合进行聚类分析,计算每个聚类与查询的相关度Sim (q, Clui);
[0009]步骤3:根据步骤I中获得的文档的相关度Sim(q,(Ii)和步骤2中获得的文档所在聚类的相关度Sim(q, Clui),计算文档的排序Rank(Cli);
[0010]步骤4:根据用户点击文档的反馈信息更新文档的相关度Sim(q,(Ii)和聚类的相关度 Sim (q, Clui):
[0011]步骤5:根据步骤4中更新的文档的相关度Sim(q,(Ii)和文档所在聚类的相关度Sim (q, Clui),更新计算文档的 Rank(Cli)。
[0012]步骤4中,如果用户点击文档,则文档的相关度SimhcgzSimhcg + e,文档所在聚类的Sim(q, Clui) =Sim(q, Clui) +β ;如果用户没有点击文档,文档的相关度Sim(q, (Ii)=Sim(q, φ)_β ,文档所在聚类的 Sim(q, Clu^SinKq, Clui)-^ ;式中 β 为参数,0〈β〈I。[0013]通过如下公式计算文档的排序Rank(Cli):
[0014]Rank (Cli) = λ *Sim(q, (Ii) + (1- λ ) Sim(q, Clui)
[0015]式中,λ=0.7。
[0016]本发明的有益效果:
[0017]本发明根据文档的相关度Sim(q,(Ii)和文档所在聚类的相关度Sim(q,Clui),计算文档的排序Rank(Cli);对于有歧义的查询,能够对检索结果进行全面的分析处理,可以给出一个全面的关于被查询对象的介绍。
[0018]本发明根据用户点击文档的反馈信息更新文档的相关度Sim(q,(Ii)和聚类的相关度Sim (q,Clui),继而更新文档的排序Rank(Cli),能够根据用户的点击行为,挖掘用户查询所蕴含的各种潜在意图,可以动态的调整文档的排列顺序,从而更好地满足了用户的多样化需求。
【专利附图】
【附图说明】
[0019]图1为本发明基于聚类和查询行为的检索结果排序方法的流程图。
【具体实施方式】
[0020]下面结合附图和【具体实施方式】对本发明的实施过程作进一步详细的描述。
[0021 ] 参照图1,本发明提出了一种基于聚类和查询行为的检索结果排序方法,该方法包括下述几个步骤:
[0022]步骤1:计算文档与查询的相关度Sim(q,(Ii),并根据相关度选取候选文档集合,具体包括以下步骤:
[0023]步骤1.1:对整个文档集进行去停用词、词干化等预处理,构建基于向量空间模型的文本数据库和整个文档集的总特征词库。
[0024]步骤1.2:将输入的查询内容进行去停用词、词干化等预处理,剩下的词构成查询的向量形式Q。
[0025]步骤1.3:采用余弦函数来代表两个向量数据的相关度,即
【权利要求】
1.一种基于聚类和查询行为的检索结果排序方法,其特征在于: 步骤1:计算文档与查询的相关度Sim(q,(Ii),并根据相关度选取候选文档集合; 步骤2:对候选文档集合进行聚类分析,计算每个聚类与查询的相关度Sim(q,Clui); 步骤3:根据步骤I中获得的文档的相关度Sim(q,(Ii)和步骤2中获得的文档所在聚类的相关度Sim (q, Clui),计算文档的排序Rank(Cli); 步骤4:根据用户点击文档的反馈信息更新文档的相关度Sim(q,(Ii)和聚类的相关度Sim (q, Clui): 步骤5:根据步骤4中更新的文档的相关度Sim(q,(Ii)和文档所在聚类的相关度Sim (q, Clui),更新计算文档的 Rank(Cli)。
2.根据权利要求1所述的基于聚类和查询行为的检索结果排序方法,其特征在于:步骤4中,如果用户点击文档,则文档的相关度Sim(q,Cli) =Sim(q, cQ + β,文档所在聚类的Sim (q, Clui) =Sim (q, Clui) + β ;如果用户没有点击文档,文档的相关度Sim(q, (Ii)=Sim(q, φ)_β ,文档所在聚类的 Sim(q, Clu^SinKq, Clui)-^ ;式中 β 为参数,0〈β〈I。
3.根据权利要求2所述的基于聚类和查询行为的检索结果排序方法,其特征在于:通过如下公式计算文档的排序Rank(Cli):
Rank(Cli) = λ *Sim(q, (Ii) + (1-λ ) Sim(q, Clui)式中,λ =0.7。
【文档编号】G06F17/30GK103902694SQ201410122930
【公开日】2014年7月2日 申请日期:2014年3月28日 优先权日:2014年3月28日
【发明者】杨静, 刘宁, 张健沛 申请人:哈尔滨工程大学