本申请涉及计算机,特别是涉及一种文档查询方法、装置、计算机设备和存储介质。
背景技术:
1、长文档检索是信息检索领域的一项基本任务,其特点是:目标候选文档文本平均长度较长,不同段落间往往包含多个主题,而用户检索意图可能只与文档中的少数几个段落具有强相关性。在给定用户查询情况下,长文档检索模型需要在大量候选长文档中准确检索到与用户查询最相关的目标文档。
2、传统技术中,文档管理系统为分层管理,按照主题,主题细分及文档主题和关键词、标签等方式进行管理和查询,用户查询到所需文档的路径长,操作多,而且查询到之后通常需要阅读文本大部分内容后才能获取所需知识,效率较低。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提高查询效率的文档查询方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供一种文档查询方法,所述方法包括:
3、获取查询语句,并将所述查询语句转换为查询向量;
4、将所述查询向量与预先生成的段落向量进行匹配得到候选段落;
5、基于所述候选段落确定目标候选文档,并获取所述目标候选文档中各段落的段落向量;
6、通过自注意力机制计算所述目标候选文档中各段落的段落向量相对于所述查询向量的候选段落向量;
7、基于所述候选段落向量以及所述查询向量确定目标文档。
8、在其中一个实施例中,所述基于所述候选段落向量以及所述查询向量确定目标文档,包括:
9、基于双塔匹配模型分别计算每一候选段落向量和所述查询向量的相似度;
10、基于所述目标候选文档中各段落对应的候选段落向量和所述查询向量的相似度,计算所述目标候选文档与所述查询向量的相似度;
11、基于所述目标候选文档与所述查询向量的相似度,确定目标文档。
12、在其中一个实施例中,所述基于所述候选段落向量以及所述查询向量确定目标文档,包括:
13、确定所述查询语句对应的用户标识以及所述目标候选文档对应的文档标识;
14、获取基于用户点击行为生成的异构图;
15、基于所述异构图生成与所述用户标识对应的用户嵌入向量,以及与所述文档标识对应的文档嵌入向量;
16、将所述用户嵌入向量和所述查询向量融合得到查询融合向量;
17、将所述文档嵌入向量和所述候选段落向量融合得到段落融合向量;
18、基于所述查询融合向量和所述段落融合向量确定目标文档。
19、在其中一个实施例中,所述获取基于用户点击行为生成的异构图,包括:
20、获取用户历史点击事件,所述点击事件包括用户标识、文档标识以及用户标识和文档标识的点击关系;
21、将所述用户标识和文档标识作为异构图节点,将点击关系作为异构图的边生成异构图。
22、在其中一个实施例中,所述将所述查询语句转换为查询向量之前,还包括:
23、基于文档关键词和/或标签以及所述查询语句对文档进行筛选得到初始候选文档;
24、所述将所述查询向量与预先生成的段落向量进行匹配得到候选段落,包括:
25、获取与所述初始候选文档对应的预先生成的段落向量;
26、将所述查询向量与所述初始候选文档对应的预先生成的段落向量,进行匹配得到候选段落。
27、在其中一个实施例中,所述基于文档关键词和/或标签以及所述查询语句对文档进行筛选得到初始候选文档之前,还包括:
28、获取各用户的阅读行为信息,基于所述阅读行为信息确定文档热度信息;
29、基于所述文档热度信息和/或文档的主题生成文档标签。
30、在其中一个实施例中,所述将所述查询向量与预先生成的段落向量进行匹配得到候选段落之前,还包括:
31、将文档按照段落进行划分得到多个段落,对多个段落进行句子提取得到句子;
32、基于语义模型得到各所述句子的句子向量;
33、将所述段落中的句子对应的所述句子向量进行拼接得到段落向量。
34、第二方面,本申请还提供一种文档查询装置,所述装置包括:
35、查询向量生成模块,用于获取查询语句,并将所述查询语句转换为查询向量;
36、第一匹配模块,用于将所述查询向量与预先生成的段落向量进行匹配得到候选段落;
37、段落向量获取模块,用于基于所述候选段落确定目标候选文档,并获取所述目标候选文档中各段落的段落向量;
38、候选段落向量生成模块,用于通过自注意力机制计算所述目标候选文档中各段落的段落向量相对于所述查询向量的候选段落向量;
39、目标文档确定模块,用于基于所述候选段落向量以及所述查询向量确定目标文档。
40、第三方面,本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的任意一个实施例中的方法的步骤。
41、第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。
42、第五方面,本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。
43、上述文档查询方法、装置、计算机设备、存储介质和计算机程序产品,将查询语句转换为查询向量,并与预先生成的段落向量进行匹配得到候选段落,基于候选段落确定目标候选文档,进而得到目标候选文档中各个段落的段落向量,然后通过自注意力机制计算所述目标候选文档中各段落的段落向量相对于所述查询向量的候选段落向量,这样基于候选段落向量以及所述查询向量确定目标文档,不需要人工一节一节的查询,整个过程自动化处理,提高了查询效率。
1.一种文档查询方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述候选段落向量以及所述查询向量确定目标文档,包括:
3.根据权利要求1所述的方法,其特征在于,所述基于所述候选段落向量以及所述查询向量确定目标文档,包括:
4.根据权利要求3所述的方法,其特征在于,所述获取基于用户点击行为生成的异构图,包括:
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述将所述查询语句转换为查询向量之前,还包括:
6.根据权利要求5所述的方法,其特征在于,所述基于文档关键词和/或标签以及所述查询语句对文档进行筛选得到初始候选文档之前,还包括:
7.根据权利要求1所述的方法,其特征在于,所述将所述查询向量与预先生成的段落向量进行匹配得到候选段落之前,还包括:
8.一种文档查询装置,其特征在于,所述装置包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。