一种基于改进tf-idf的多索引合并排序算法
【技术领域】
[0001] 本发明涉及多索引合并排序算法技术领域。
【背景技术】
[0002] 近年来,随着社会的发展,信息呈现出爆炸增长的趋势[1]。科技领域的资源信息作 为一种特定的信息,同样在快速增长并具有鲜明的类别特征,如微生物资源、农作物种质资 源等。基于单一索引的检索在面向海量科技资源时,逐渐显现出一些不足,如响应速度慢、 资源维护困难、检索结果排序准确性不高等,因此,结合科技资源明显的类别特征,可以将 科技资源按其类别进行分类索引,检索时分别检索每一类的索引,再对结果进行合并排序。
[0003] 在信息检索中,检索结果排序一般依据的是用户检索意图与返回文档的相关程 度,其中,TF-IDF作为衡量检索词在文档中的权重信息,被广泛采用。经典的TF-IDF算法 能根据文档中特征词出现频率以及在文档集中包含该特征词的文档数来计算特征权重。根 据主观判断,这种算法计算出的结果符合实际情况。但TF-IDF还存在一些不足,如结构简 单,容易产生计算偏差;无法反映一些关键词语的重要程度;没有考虑特征词的分布情况 等。这就导致其在实际应用中不能很好地满足用户的需要。
[0004] 因此,本文提出一种改进的TF-IDF算法,充分考虑特征词的重要程度以及分布情 况;在此基础之上,通过《知网》计算的词语相似度,提出一种多索引合并排序算法,从而达 到更好的检索效果。
[0005] 1.单索引TF-IDF算法
[0006] LI TF-IDF 特征权重
[0007] 为了能够更好的表示某个特征词在整个文档集中的重要程度,Salton于1988 年提出了单文本词汇频率--逆文本频率TF-IDF(Term Frequency-Inverse Document Frequency)[5]的概念。其中,TF的意义是"包含词(Term)多的文档(Document)应该比包 含词少的文档更相关";IDF的意义是,"一个词表示文档主题的能力越强,那么它对文档的 区分能力越突出,权重就越大;反之,权重就越小"。所以TF-IDF的意义是:"如果特征词在 所有文本中出现的频率越高,那么它所包含的信息熵就越少;如果特征词的出现较为集中, 只有少量文本中有较高的出现频率,那么它就会有较高的信息熵"。词的权重数学描述为:
[0008] w (t, d) = tf (t, d) *idf (t, d) (1)
[0009] 其中w(t, d)表示词t在文档d中的权重;tf (t, d)表示词t的tf值,即文档d中 出现词t的次数;idf (t,d)表示词t的idf值,即所有出现词t的文档的倒数。
[0010] 公式(1)给出了计算词的权重的最基本形式。而目前计算此权重较为常用的公式 如下式所示:
【主权项】
1. 一种基于改进TF-IDF的多索引合并排序算法,运用于文本检索,其特征在于包括如 下步骤: 步骤1.针对经典TF-IDF算法和Lucene中TF-IDF打分公式算法的不足,对TF-IDF算 法进行了改进,改进方面包括考虑词序、词距因素,以及引入查询词扩展,用公式表示为:
其中score是指针对查询词terms,文档的最终得分; TF-IDF是指利用Lucene中的TF-IDF打分公式得出的文档得分;distance(terms)是所有terms之间的词序和词距因子,它由两部分构成,分别是词 序因子和词距因子,其计算公式如下: distance(terms) =t.seq*t.dis,其中,t.seq是词序因子,t.dis是词距因子;boost(term)是特征词权重因子,能够根据检索词的重要程度进行修改,如引入同义词 扩展时,可适当减小该值的权重; decrease是指衰减因子,目的是削减查询扩展词对原始查询词的影响; 步骤2.按照科技资源领域不同将科技资源进行分类,构建多个索引;由于用户输入的 检索词具有领域偏向性,为了保证在多索引情况下合并查询结果后返回给用户的结果也具 有领域偏向性,先计算出用户输入的查询词和领域特征词的相似度,将此相似度引入到最 终结果计算中;所述词语相似度算法采用的是基于知网的词语相似度计算,即根据词语在 义元层次树中的层次关系,其计算公式如下:
其中H是指义元层次树的高度,dis(〇i,Oj)是义元(^和Oj在同一棵义元层次树中的路 径长度; 步骤3.基于改进的TF-IDF算法以及词语相似度计算方法,提出了多索引情况下的索 引合并排序算法,用公式表示为: weight = indexDecrease氺indexBoost氺score 其中weight表示文档的最终得分; indexDecrease是索引权重衰减因子,用于调节最终结果; indexBoost是索引权重因子,是用户输入关键词与该类资源的所有特征词的相似度的 算术平均值,其计算公式如下:
其中Qterm是用户输入的检索词,Dterm是该 类资源的特征词,n是用户输入的检索词的个数,N是该类资源的特征词的个数;score是根据步骤1中公式计算出的权重值。
【专利摘要】本发明涉及一种基于改进TF-IDF的多索引合并排序算法。它利用特征词的TF-IDF权重及夹角余弦值计算文档向量和查询向量的相似度,以此来确定返回给用户的排序结果。用户往往只关心Top-n的查询结果,采用合理的排序算法对查询结果进行优化排序,能够有效地改善系统的查询效果与用户体验。针对单索引情况,综合考虑了多个检索词之间的词序、词距、扩展词权重等因素,对TF-IDF算法进行了改进,进一步对基于TF-IDF的多索引合并排序算法进行了研究。实验证明,采用该算法后,系统的查全率有大幅提升,整体性能也有所提升。
【IPC分类】G06F17-30
【公开号】CN104778276
【申请号】CN201510212072
【发明人】彭升辉, 张辉
【申请人】北京航空航天大学
【公开日】2015年7月15日
【申请日】2015年4月29日