一种基于问答系统的伪相关反馈的扩展查询方法与流程

文档序号：23800537发布日期：2021-02-02 12:56阅读：来源：国知局

技术特征：
1.一种基于问答系统的伪相关反馈的扩展查询方法，其特征在于，包括：步骤1、根据查询q对文档集d进行初次检索；步骤2、取出初次检索结果中的前k篇作为伪相关文档集合d’，其中的词作为候选扩展词；步骤3、通过基于问答系统的模块，计算所述查询q与伪相关文档集合d’的语义交互信息得出每个所述候选扩展词被扩展的概率；步骤4、通过基于统计学特征的模块，提取所述候选扩展词的归一化词频、逆文档频率，并通过神经网络预测扩展概率；步骤5、将所述步骤3、所述步骤4得出的候选扩展词及其权重进行线性融合，最终提取出前n个查询扩展词；步骤6、将所述查询q与所述查询扩展词线性加权融合生成新的查询q’；步骤7、根据的所述查询q’进行第二次检索，生成最终查询结果。2.如权利要求1所述的扩展查询方法，其特征在于，所述步骤2中，所述初次检索结果作为候选的伪相关文档集，计算所述候选的伪相关文档集中每一个文档的bm25分数，根据bm25分数对文档进行降序排列，提取出前k篇文档作为所述伪相关文档集合d’，所述候选扩展词就是这个文档集中文档所包含的所有词。3.如权利要求1所述的扩展查询方法，其特征在于，所述步骤3中，所述基于问答系统的模块包括输入层，其输入为所述查询q和一篇伪相关文档d
u
，通过fasttext预训练模型得到其中每一个词项的对应词嵌入向量，加上对应的位置编码，即可得到下一层的输入向量q＝{q1，q2，...，q
n
}与d
u
＝{d
u，1
，d
u，2
，...，d
u，m
}，其中n为原始查询长度，m为文档集中的文档长度。4.如权利要求3所述的扩展查询方法，其特征在于，所述步骤3中，所述基于问答系统的模块包括注意力层，所述注意力层中通过多头注意力层得到上下文相关语义向量来挖掘文本内部语义信息，所述多头注意力层通过自注意力机制的堆叠实现，即：其中dim
k
为词嵌入向量维度，词嵌入向量{d
u，1
，d
u，2
，...，d
u，m
}在输入注意力层前需要经过参数矩阵做一次乘法运算；将多个这样的自注意力模块堆叠即可得到多头注意力层的输出。5.如权利要求4所述的扩展查询方法，其特征在于，所述步骤3中，所述基于问答系统的模块包括注意力流层，所述注意力流层采用双向注意力机制；首先，对于一篇伪相关反馈文档以及查询中的词项集，建立一个相似性矩阵矩阵中的每一列分别表示文档中的词项，每一行分别表示查询中的词项，每一项的值表示一个查询词项和一个文档词项的相关度；文档-查询注意力表示哪一个查询词项与伪相关文档中的每一个词项是最相关的，对查询矩阵每一行通过softmax进行归一化a
i
：＝softmax(s
i
：)，再将查询词项的语义向量通过该归一化权重带权相加就可以得到文档-查询注意力矩阵：a
i
：＝σ
j
a
ij
r
j
其中r
j
表示查询经过多头注意力层的输出，查询-文档注意力则表示文档中的哪一个词与查询中的每一个词是最相关的，其权重矩阵为：得到的注意力向量矩阵为：其中，o
i
表示伪相关文档经过多头注意力层的输出，这里的复制m次即可得最终的矩阵将两个方向的注意力矩阵与原始文档词项集语义向量组成的矩阵求平均值即可得到所述注意力流层的输出：6.如权利要求5所述的扩展查询方法，其特征在于，所述步骤3中，所述基于问答系统的模块包括输出层指针网络，所述输出层指针网络用来限制语义模块的输出一定来自伪相关文档，具体形式为：文档，具体形式为：其中w1，w2，w3为可训练参数矩阵，表示查询语义向量，e
i
：为注意力层的输出，这里的p
pointer
(d
u，i
|q，d
u
)表示第u篇伪相关文档d
u
中第i个词项d
u，i
被扩展的概率；将k篇伪相关文档的结果累加，即为基于问答系统模块结果7.如权利要求6所述的扩展查询方法，其特征在于，所述步骤3中，所述基于问答系统的模块的训练通过交叉熵损失函数来实现，对于每一个候选词项，该词为正例当且仅当原始查询扩展该词后，排序相关指标ndcg有提升，否则为负例，具体交叉熵损失函数为：8.如权利要求7所述的扩展查询方法，其特征在于，所述步骤4中，先为每一个所述候选扩展词建立统计学特征向量：其中，表示词项w在查询q的归一化词频，表示逆文档频率，表示在w伪相关文档d
u
中的归一化词频，表示词项w在文本中的词频，c表示文档总数，c
w
表示出现过词项w的文档总数，avg
l
表示平均文档长度，α为可设
置的超参数；通过神经网络对特征向量进行预测，预测每一个所述候选扩展词被扩展的概率：w
prf
(w|q)p
lambda
(w|q)＝sigmoid(w4·
relu(w5·
fv(w，q)+b5)+b6)。9.如权利要求8所述的扩展查询方法，其特征在于，所述步骤4中，所述基于统计学特征的模块的训练方法为：在训练前对每一个候选词项的标签进行判断，如果该词项被扩展后可以使得排序指标ndcg提高，则这个词为正例样本，否则为负例样本，使用的成对损失函数计算方法为：其中，s
i
和s
j
分别表示神经网络对于词项i和词项j被扩展概率的预测分数，和分别表示对于所述查询q扩展词项i和j后ndcg的提升值。10.如权利要求9所述的扩展查询方法，其特征在于，所述步骤6中，根据每个所述候选扩展词的分数w(w|q)选出排在前m为的词项为扩展词项，使用这些查询对所述查询q进行扩展后得到所述新的查询q’为：p(w|q
′
)＝(1-β)p(w|q)+β其中β为超参数。

完整全部详细技术资料下载

当前第2页1 2 3