基于矩阵加权关联规则前后件混合扩展的文本检索方法与流程

文档序号：16782993发布日期：2019-02-01 19:16阅读：177来源：国知局

本发明属于信息检索领域，具体是基于矩阵加权关联规则前后件混合扩展的文本检索方法。

背景技术：

如何高效、准确地从信息的汪洋大海里找到更多所需的信息，一直是信息检索领域研究的热点问题。当前出现的web搜索引擎在一定程度上缓解了人们在互联网检索信息的困难，但是，目前的搜索引擎或者web信息检索系统往往是基于关键词机械式符号匹配的检索，很难避免信息过载和词不匹配等问题，例如，查询词是“计算机”，尽管“电脑”描述的是几乎相同的含义，但是，对于信息检索系统而言，“电脑”、“计算机”被认为是不同的检索词，这样，仅仅含有关键词“电脑”，而不含“计算机”的文档由于词不匹配问题不会被检索出来。

技术实现要素：

为了解决上述问题，本发明提出了基于矩阵加权关联规则前后件混合扩展的文本检索方法，适用于信息检索领域，提高和改善信息检索性能，解决信息检索中查询主题漂移和词不匹配问题。

本发明采用如下技术方案：

基于矩阵加权关联规则前后件混合扩展的文本检索方法，包括下列步骤：

步骤1.用户查询检索文档集，根据用户相关反馈判断构建初检用户相关文档集，对所述相关文档集进行预处理，具体步骤：

(1)用户查询检索文档集得到初检前列文档，用户对初检前列n篇文档进行相关性判断得到初检相关文档，构建初检用户相关文档集。

(3)预处理初检用户相关文档集，构建文档索引库和特征词库，然后转入步骤2。

初检用户相关文档集预处理内容是：去除停用词，提取特征词，计算特征词权值，最后构建文档索引库和特征词库。

本发明提出初检用户相关文档集中特征词权值wij的计算公式，如式(1)所示。

式(1)中，wij表示文档di中特征词tj的权值，dfj表示含有特征词tj的文档数量，n表示初检用户相关文档集的文档总数，tfj,i表示特征词tj在文档di中的词频，max(tfi)表示文档di中出现的最大词频。

式(1)表明，在初检用户相关文档集中，含有某个特征词的初检用户相关文档数量越多，则该特征词与原查询越相关，越重要，所述特征词的权值就越高。

步骤2.将项集权值和频度与初检用户相关文档集的特征词总权值和文档总数融合，从初检用户相关文档集中挖掘含有原查询词项的特征词频繁项集，通过项权值排序对特征词项集进行剪枝，具体步骤如下：

(1)挖掘特征词1_频繁项集l1，具体为如下3个步骤：

(1.1)从特征词库中提取特征词作为1_候选项集c1；

(1.2)扫描文档索引库以便统计文档索引库中文档总数n和累加所有特征词权值的总和w，统计特征词1_候选项集c1在文档索引库的权值及其出现次数计算c1的加权支持度wsup(c1)，如式(2)所示。

(1.3)如果wsup(c1)≥ms，ms为最小支持度阈值，则c1就是特征词1_频繁项集l1，添加到特征词频繁项集集合fis(frequentitemset)。

(2)构建权值排序k_候选项集，对k_候选项集进行剪枝,挖掘出特征词k_频繁项集，所述k≥2，具体为如下8个步骤：

(2.1)采用aproiri连接方法将特征词(k-1)_频繁项集lk-1进行自连接得到特征词k_候选项集ck，所述k≥2；

aproiri连接方法详见文献(agrawalr,imielinskit,swamia.miningassociationrulesbetweensetsofitemsinlargedatabase[c]//proceedingsofthe1993acmsigmodinternationalconferenceonmanagementofdata,washingtondc,usa,1993:207-216.)

(2.2)如果k＝2，删除没有包含原查询词项的特征词k_候选项集ck，将包含有原查询词项的ck留下，然后，转入步骤(2.3)；如果k>2，则直接转入步骤(2.3)。

(2.3)统计特征词k_候选项集ck在文档索引库的项权值(w1,w2,…,wk)，并且排降序，使得w1≥w2≥…≥wk，这样就得到特征词权值排序k_候选项集ck＝(i1,i2,…,ik)。

(2.4)对权值排序k_候选项集ck＝(i1,i2,…,ik)的子项集c1＝(i1)，c12＝(i1,i2)，c123＝(i1,i2,i3)，…，c123…k-1＝(i1,i2,…,ik-1)进行考察，如果存在某个子项集是非频繁的，则该项集ck是非频繁的，剪除该项集ck；

(2.5)对于余下的权值排序k_候选项集ck，如果则该项集ck是非频繁的，剪除该项集ck，所述为权值排序k_候选项集ck在文档索引库中的出现次数，所述n为文档索引库中的文档总数，所述w为在文档索引库中累加所有特征词权值的总和，ms为最小支持度阈值；

(2.6)对剪枝后余下的权值排序k_候选项集ck，根据权值排序k_候选项集ck在文档索引库中的出现次数和所述ck的权值计算ck的加权支持度wsup(ck)，如式(3)所示。

式(3)中，n为文档索引库中的文档总数，w为在文档索引库中累加所有特征词权值的总和，为权值排序k_候选项集ck的各个项权值(w1,w2,…,wk)之和，所述为权值排序k_候选项集ck的项集长度，所述项集长度是指该项集所包含的项个数。

(2.7)如果wsup(ck)≥ms，则该权值排序k_候选项集ck就是特征词k_频繁项集lk，添加到特征词频繁项集集合fis。

(2.8)若特征词k_频繁项集lk为空集，则特征词频繁项集挖掘结束，转入如下步骤3，否则，k加1后转入步骤(2.1)继续循环。

步骤3.采用置信度-相关系数评价框架从特征词频繁项集集合fis中挖掘特征词加权关联规则，具体步骤如下：

(3.1)对于特征词频繁项集集合fis中每一个加权k_频繁项集lk，所述k≥2，构建任意一个lk的所有真子集项集集合；

(3.2)从真子集项集集合中任意取出两个真子集项集qt和et，且qt∪et＝lk，qen为原查询词项集合，计算项集(qt,et)的相关系数(weighteditemsetcorrelationcoefficient,wicc)wicc(qt,et)，如式(4)所示。

式(4)中，k1、k2项k12分别为特征词项集qt、et以及项集(qt,et)的项集长度，n1、n2和n12分别为特征词项集qt、et以及项集(qt,et)在文档索引库中出现的次数，w1、w2和w12分别为特征词项集qt、et以及项集(qt,et)在文档索引库中的项集权值，n为文档索引库中的文档总数，w为在文档索引库中累加所有特征词权值的总和。

(3.3)如果wicc(qt,et)>0，则计算特征词加权关联规则置信度(weightedassociationruleconfidence,warc)warc(qt→et)和warc(et→qt)。

若warc(qt→et)≥最小置信度阈值mc，则关联规则qt→et是特征词强加权关联规则模式，加入到特征词加权关联规则模式集合war(weightedassociationrule)。

若warc(et→qt)≥mc，则关联规则et→qt是特征词强加权关联规则模式，加入到war。

warc(qt→et)和warc(et→qt)的计算公式如式(5)和(6)所示。

式(5)和(6)中，k1、k2、k12、n1、n2、n12、w1、w2和w12同式(4)的。

(3.4)如果lk的真子集项集集合中每个真子集项集当且仅当都被取出一次，则转入如下步骤(3.5)，否则，转入步骤(3.2)再顺序进行各个步骤。

(3.5)从特征词频繁项集集合fis中重新取出另一个加权k_频繁项集lk，转入步骤(3.1)进行新一轮特征词加权关联规则模式挖掘，直到fis中每一个k_频繁项集lk都被取出为止，这时特征词加权关联规则模式挖掘结束，转入如下步骤4。

步骤4.从特征词加权关联规则模式集合war中提取那些后件是原查询词项的关联规则et→qt的前件项集et以及前件是原查询词项的关联规则qt→et的后件项集et作为扩展词，计算扩展词权值。

从特征词加权关联规则模式集合war中提取每个关联规则et→qt的前件et和关联规则qt→et的后件et作为查询扩展词，所述扩展词的权值we计算公式如式(7)所示。

we＝max(warc)+max(wicc)(7)

式(7)中，max(warc)和max(wicc)分别表示特征词加权关联规则置信度和相关系数中的最大值。当扩展词重复出现在多个加权关联规则模式时，会存在多个置信度和相关系数的情况，这时取最大值max(warc)和max(wicc)用来计算该扩展词的权值。

步骤5.扩展词与原查询词组合为新查询再次检索文档得到最后检索结果文档并返回给用户。

本发明与现有技术相比，具有以下有益效果：

(1)本发明提出一种基于矩阵加权关联规则前后件混合扩展的文本检索方法。该发明方法将项集权值和频度与初检用户相关文档集的特征词总权值和文档总数融合，从初检用户相关文档集中挖掘含有原查询词项的特征词频繁项集，通过项权值排序对特征词候选项集进行剪枝，采用置信度-相关系数评价框架从特征词频繁项集中挖掘特征词加权关联规则，最后，将那些后件是原查询词项的关联规则前件项集以及前件是原查询词项的关联规则后件项集作为扩展词，扩展词与原查询词组合为新查询再次检索文档得到最终检索结果文档并返回给用户。实验结果表明，本发明采用基于项权值排序的剪枝方法，提高了挖掘效率，采用了加权规则前后件混合扩展技术，信息检索性能得到很好的改善，有很好的应用价值和推广前景。

(2)选择国际上普遍使用的标准数据集ntcir-5clir的英文文本语料作为本发明方法实验语料。实验结果表明，与3种现有的方法比较，本发明方法的检索结果p@5和p@10值都比3个对比方法的检索结果高，效果显著，说明本发明方法的检索性能均优于现有的对比方法，能提高文本信息检索性能，减少信息检索中查询漂移和词不匹配问题，具有很高的应用价值和广阔的推广前景。

附图说明

图1为本发明基于矩阵加权关联规则前后件混合扩展的文本检索方法的流程示意图。

具体实施方式

为了更好地说明本发明的技术方案，下面将本发明涉及的相关概念介绍如下：

1.特征词关联规则的前件和后件：设x、y是任意的特征词项集，将形如x→y的蕴含式称为特征词关联规则，其中，x称为规则前件，y称为规则后件。

2.加权规则前后件混合扩展：

加权规则前后件混合扩展指的是扩展词来源于加权关联规则的前件和后件项集。并且，当扩展词来自于前件项集时，该规则后件一定是查询词项集合，同理，当扩展词属于后件项集时，其规则前件一定是查询词项集合。

3.特征词项集支持度

假设初检用户相关文档集由d1,d2,…,dn等文档组成，每篇文档特征词表示为t1,t2,…,tm，其对应的特征词权值为wi1,wi2,…,wim，则本发明提出特征词项集t支持度(weighteditemsetsupport,wis)的计算方法，如式(8)所示。

其中，nt、wt分别为特征词项集t在初检用户相关文档集中出现的频度和项集权值累加总和值，w为初检用户相关文档集中所有特征词权值总和值，n是初检用户相关文档集的文档总数，ki为项集t的长度(即项个数)。

式(7)的支持度计算公式将项集权值和频度与初检用户相关文档集的特征词总权值和文档总数融合，克服了现有加权支持度计算的缺陷。

假设最小支持度阈值为ms，若wis(t)≥ms，则项集t是频繁项集。

4.加权关联规则置信度和相关系数

本发明提出特征词加权关联规则(t1→t2)置信度(weightedassociationruleconfidence,warc)计算方法如式(9)所示。

其中，i＝i1∪i2，n1、w1分别为项集i1在初检用户相关文档集中出现的频度和项集权值累加总和值，k1为项集i1的长度，ni、wi和ki定义对应同式(8)的nt、wt和ki。

本发明提出特征词项集相关系数(weighteditemsetcorrelationcoefficient,wicc)的计算方法如式(10)所示。

式(10)中，k1、k2项k12分别为特征词加权项集t1、t2以及项集(t1,t2)的项集长度，n1、n2和n12分别为特征词加权项集t1、t2以及项集(t1,t2)在文档索引库中出现的次数，w1、w2和w12分别为特征词加权项集t1、t2以及项集(t1,t2)在文档索引库中的项集权值，w和n定义同式(8)。

假设最小置信度阈值为mc，若warc(i1→i2)≥mc，且wicc(i1，i2)>0，则是i1→i2强加权关联规则模式。

5.初检用户相关文档集中特征词权值的计算

本发明提出初检用户相关文档集中特征词权值wij的计算公式，如式(11)所示。

式(11)中，wij表示文档di中特征词tj的权值，dfj表示含有特征词tj的文档数量，n表示初检用户相关文档集的文档总数，tfj,i表示特征词tj在文档di中的词频，max(tfi)表示文档di中出现的最大词频。

式(11)表明，在初检用户相关文档集中，含有某个特征词的初检用户相关反馈文档数量越多，则该特征词与原查询越相关，越重要，所述特征词的权值就越高。

6.扩展词权值的计算

本发明将加权置信度(warc)和相关系数(wicc)作为衡量扩展词权值重要依据，提出扩展词权值we的计算公式，如式(12)所示。

we＝max(warc)+max(wicc)(12)

式(12)中，max(warc)和max(wicc)分别表示关联规则置信度和相关系数中的最大值。当扩展词重复出现在多个加权关联规则模式时，会存在多个置信度和相关系数的情况，这时取最大值max(warc)和max(wicc)用来计算该扩展词的权值。

如图1所示，基于矩阵加权关联规则前后件混合扩展的文本检索方法，包括下列步骤：

步骤1.用户查询检索文档集，根据用户相关反馈判断构建初检用户相关文档集，对所述相关文档集进行预处理，具体步骤：

(1)用户查询检索文档集得到初检前列文档，用户对初检前列n篇文档进行相关性判断得到初检相关文档，构建初检用户相关文档集。

(3)预处理初检用户相关文档集，构建文档索引库和特征词库，然后转入步骤2。

初检用户相关文档集预处理内容是：去除停用词，提取特征词，计算特征词权值，最后构建文档索引库和特征词库。

本发明提出初检用户相关文档集中特征词权值wij的计算公式，如式(13)所示。

式(13)中，wij表示文档di中特征词tj的权值，dfj表示含有特征词tj的文档数量，n表示初检用户相关文档集的文档总数，tfj,i表示特征词tj在文档di中的词频，max(tfi)表示文档di中出现的最大词频。

式(13)表明，在初检用户相关文档集中，含有某个特征词的初检用户相关文档数量越多，则该特征词与原查询越相关，越重要，所述特征词的权值就越高。

(1)挖掘特征词1_频繁项集l1，具体为如下3个步骤：

(1.1)从特征词库中提取特征词作为1_候选项集c1；

(1.2)扫描文档索引库以便统计文档索引库中文档总数n和累加所有特征词权值的总和w，统计特征词1_候选项集c1在文档索引库的权值及其出现次数计算c1的加权支持度wsup(c1)，如式(14)所示。

(1.3)如果wsup(c1)≥ms，ms为最小支持度阈值，则c1就是特征词1_频繁项集l1，添加到特征词频繁项集集合fis(frequentitemset)。

(2)构建权值排序k_候选项集，对k_候选项集进行剪枝,挖掘出特征词k_频繁项集，所述k≥2，具体为如下8个步骤：

(2.1)采用aproiri连接方法将特征词(k-1)_频繁项集lk-1进行自连接得到特征词k_候选项集ck，所述k≥2；

(2.2)如果k＝2，删除没有包含原查询词项的特征词k_候选项集ck，将包含有原查询词项的ck留下，然后，转入步骤(2.3)；如果k>2，则直接转入步骤(2.3)。

(2.3)统计特征词k_候选项集ck在文档索引库的项权值(w1,w2,…,wk)，并且排降序，使得w1≥w2≥…≥wk，这样就得到特征词权值排序k_候选项集ck＝(i1,i2,…,ik)。

(2.6)对剪枝后余下的权值排序k_候选项集ck，根据权值排序k_候选项集ck在文档索引库中的出现次数和所述ck的权值计算ck的加权支持度wsup(ck)，如式(15)所示。

式(15)中，n为文档索引库中的文档总数，w为在文档索引库中累加所有特征词权值的总和，为权值排序k_候选项集ck的各个项权值(w1,w2,…,wk)之和，所述为权值排序k_候选项集ck的项集长度，所述项集长度是指该项集所包含的项个数。

(2.7)如果wsup(ck)≥ms，则该权值排序k_候选项集ck就是特征词k_频繁项集lk，添加到特征词频繁项集集合fis。

(2.8)若特征词k_频繁项集lk为空集，则特征词频繁项集挖掘结束，转入如下步骤3，否则，k加1后转入步骤(2.1)继续循环。

步骤3.采用置信度-相关系数评价框架从特征词频繁项集集合fis中挖掘特征词加权关联规则，具体步骤如下：

(3.1)对于特征词频繁项集集合fis中每一个加权k_频繁项集lk，所述k≥2，构建任意一个lk的所有真子集项集集合；

(3.2)从真子集项集集合中任意取出两个真子集项集qt和et，且qt∪et＝lk，qen为原查询词项集合，计算项集(qt,et)的相关系数(weighteditemsetcorrelationcoefficient,wicc)wicc(qt,et)，如式(16)所示。

式(16)中，k1、k2项k12分别为特征词项集qt、et以及项集(qt,et)的项集长度，n1、n2和n12分别为特征词项集qt、et以及项集(qt,et)在文档索引库中出现的次数，w1、w2和w12分别为特征词项集qt、et以及项集(qt,et)在文档索引库中的项集权值，n为文档索引库中的文档总数，w为在文档索引库中累加所有特征词权值的总和。

(3.3)如果wicc(qt,et)>0，则计算特征词加权关联规则置信度(weightedassociationruleconfidence,warc)warc(qt→et)和warc(et→qt)。

若warc(qt→et)≥最小置信度阈值mc，则关联规则qt→et是特征词强加权关联规则模式，加入到特征词加权关联规则模式集合war(weightedassociationrule)。

若warc(et→qt)≥mc，则关联规则et→qt是特征词强加权关联规则模式，加入到war。

warc(qt→et)和warc(et→qt)的计算公式如式(17)和(18)所示。

式(17)和(18)中，k1、k2、k12、n1、n2、n12、w1、w2和w12同式(16)的。

(3.4)如果lk的真子集项集集合中每个真子集项集当且仅当都被取出一次，则转入如下步骤(3.5)，否则，转入步骤(3.2)再顺序进行各个步骤。

从特征词加权关联规则模式集合war中提取每个关联规则et→qt的前件et和关联规则qt→et的后件et作为查询扩展词，所述扩展词的权值we计算公式如式(19)所示。

we＝max(warc)+max(wicc)(19)

式(19)中，max(warc)和max(wicc)分别表示特征词加权关联规则置信度和相关系数中的最大值。当扩展词重复出现在多个加权关联规则模式时，会存在多个置信度和相关系数的情况，这时取最大值max(warc)和max(wicc)用来计算该扩展词的权值。

步骤5.扩展词与原查询词组合为新查询再次检索文档得到最后检索结果文档并返回给用户。

实验设计与结果：

为了说明本发明方法的有效性，特进行了基于本发明方法和对比方法的信息检索实验，比较本发明方法和对比方法的检索性能。

实验语料：

以信息检索领域中国际上普遍使用的标准数据集ntcir-5clir的英文文本语料(见网址：http://research.nii.ac.jp/ntcir/permission/ntcir-5/perm-en-clir.html)作为本发明方法的实验语料，即选择ntcir-5clir语料中的英文文档集mainichidailynews2000、2001年和koreatimes2001年的新闻文本，共有26224篇英文文档作为本发明实验数据，具体是mainichidailynews2000的新闻文本6608篇(简称m0数据集)，mainichidailynews2001的5547篇(简称m1数据集)和koreatimes2001年的14069篇(简称k1数据集)。

ntcir-5clir语料有文档测试集、50个查询主题集及其对应的结果集，其中，每个查询主题类型有title、desc、narr和conc等4种类型，结果集有2种评价标准，即高度相关，相关的rigid标准和高度相关、相关和部分相关的relax标准。本发明实验用的查询主题类型选择title和desc类型，title查询属于短查询，以名词和名词性短语简要描述查询主题，desc查询属于长查询，以句子形式简要描述查询主题。

本发明实验结果的评价指标是p@5和p@10。所述p@5是指对于测试查询返回的前5个结果的准确率，所述p@10是指对于测试查询返回的前10个结果的准确率。

对比方法介绍如下：

(1)对比方法1：基于加权关联模式挖掘和查询扩展的英文文本信息检索方法。

所述对比方法1是采用文献(黄名选.基于加权关联模式挖掘的越-英跨语言查询扩展[j].情报学报,2017,36(3):307-318.)的加权关联模式挖掘方法对英文文本首次检索结果的用户相关反馈文档集进行挖掘，得到含有原查询词项的英文特征词关联规则，提取前件为原查询词项的关联规则后件作为扩展词，扩展词和原查询组合为新查询，进行第二次检索，得到最终检索结果。实验参数是：最小置信度阈值mc为0.01,最小兴趣度阈值mi为0.0001,最小置信度阈值ms为0.007,0.008,0.009,0.01,0.011。

(2)对比方法2：基于完全加权正负关联规则挖掘和查询扩展的英文文本信息检索方法。

所述对比方法2采用文献(周秀梅,黄名选.基于项权值变化的完全加权正负关联规则挖掘[j].电子学报,2015,43(8):1545-1554.)的完全加权正负关联规则挖掘技术对英文文本首次检索结果的用户相关反馈文档集挖掘特征词正负关联规则，将正关联规则前件是原查询词项的规则后件作为候选扩展词，将负关联规则前件是原查询词项的规则后件作为负扩展词，从候选扩展词中剪除负扩展词后得到最终的查询扩展词，扩展词和原查询组合为新查询再进行第二次检索，得到最终检索结果。实验参数是：最小置信度阈值mc为0.5，最小支持度阈值ms分别为0.2,0.25,0.3,0.35,0.4，最小兴趣度阈值mi为0.02。

(3)对比方法3：基于完全加权关联规则挖掘和查询扩展的英文文本信息检索方法。

所述对比方法3采用文献(黄名选.完全加权模式挖掘与相关反馈融合的印尼汉跨语言查询扩展.小型微型计算机系统,2017,38(8):1783-1791.)的完全加权关联规则挖掘技术对英文文本首次检索结果的用户相关反馈文档集挖掘特征词关联规则，将规则前件是原查询词项的关联规则后件作为扩展词，扩展词和原查询组合为新查询再进行第二次检索，得到最终检索结果。实验参数是：最小置信度阈值mc为0.1，最小支持度阈值ms分别为0.8,1.0,1.3,1.5,1.7。

实验方法和结果如下：

运行本发明方法和对比方法的源程序，提交50个英文查询主题的title和desc查询在3个英文数据集m0、m1和k1中进行英文文本信息检索实验。实验时，对初检前列50篇英文文档进行用户相关反馈后得到初检用户相关反馈文档(为了简便，本文实验中，将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档)。通过实验，得到本发明方法和对比方法的检索结果p@5和p@10值分别如表1至表4所示，实验时挖掘到3_项集，其中，本发明方法的实验参数是：最小置信度阈值mc＝0.1，最小支持度阈值ms分别为0.0009,0.001,0.002,0.003,0.004,0.005。

表1本发明方法与对比方法的检索结果p@5值比较(title查询主题)

表2本发明方法与对比方法的检索结果p@10值比较(title查询主题)

表3本发明方法与对比方法的检索结果p@5值比较(desc查询主题)

表4本发明方法与对比方法的检索结果p@10值比较(desc查询主题)

表1至表4表明，本发明方法的检索结果p@5和p@10值都比3个对比方法的检索结果高，效果显著。实验结果表明，本发明方法是有效的，确实能提高文本信息检索性能，具有很高的应用价值和广阔的推广前景。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄名选
技术所有人：广西财经学院
我是此专利的发明人

上一篇：一种具有SOC优化的光伏微网储能控制方法与流程
上一篇：一种食品原料清洗装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。