专利名称:一种信息检索自适应数据融合方法
技术领域:
本发明涉及ー种信息检索方法,尤其是一种自适应数据融合方法。
背景技术:
自适应数据融合方法适合于动态检索环境,其中数据集或成员信息检索系统随时间发生显著的变化。该方法工作原理如下:假设有一组成员信息检索系统Ir1, ir2,...,it,对于每一个查询,每个成员系统都会提供相应的文档排名列表作为检索結果。通过ー些数据融合方法将这些排名列表进行融合。同时,假设针对每个查询,任何成员系统的检索结果都会立即被评估,从而可以直 接知晓这些系统的检索效果。对于交互式系统,这是ー种合理的假设。而对于其他类型的系统,仍可以使用某种形式的反馈信息,如可由用户通过点击提供,然后大致估计信息检索系统的性能。自适应数据融合方法的工作方式如下:在开始阶段,由于没有任何成员系统或者结果的相关知识,只能对所有成员系统进行同样的处理。当处理完第一个查询,就知道了少量的有关这个查询的结果(也就是相应的成员检索系统的性能)。由此,就能为线性组合方法更新权重。当进行第二个、第三个、以至于更多个查询处理时,就能获取越来越多的相关知识,并且可采用不同的权重更新方式。在现有的研究中,适用于在动态检索环境下能自动调整、适应的融合方法不多。文献[I]中所介绍的两种方法均是通过线形组合的方法来进行结果的融合。文献[I]中公开的第一种方法是简单的性能平方更新法(PSU)。PSU方法和性能指标的平方加权有关,使用公式(I)为每个成员系统更新权重:
权利要求
1.一种信息检索自适应数据融合方法,其特征在于包括以下步骤: 第一步,依以下方法计算任意两个检索结果(A,B)的差异度.S.1,,.4 SH
全文摘要
本发明公开了一种信息检索自适应数据融合方法。对一组成员检索系统Li(1≤i≤t),该方法包括以下步骤1、计算任意两个检索系统所对应的结果的差异度;2、依据第一步的结论计算每一个系统Li(1≤i≤t)的差异性权重;3、使用性能平方加权方案计算每个系统的性能权重;4、结合第二步和第三步方法的结论,计算每一个系统的最终权重;5、将第四步计算出的权重应用线性组合方法进行检索结果融合。本发明的权值更新方法既考虑了各个成员检索模型的性能,又考虑了各个成员检索模型之间的差异性;权值更新只需要很少的数据,例如从单个查询所产生的结果即可。本发明即使在数据量小的情况下也能保证融合结果的有效性,适于信息检索自适应数据融合。
文档编号G06F17/30GK103116623SQ201310034799
公开日2013年5月22日 申请日期2013年1月29日 优先权日2013年1月29日
发明者吴胜利 申请人:江苏大学