本发明涉及文档检索,尤其涉及一种问答系统中计算机领域文档的检索方法、装置及设备。
背景技术:
1、现有的智能运维领域的问答系统一般会集成多种问答功能,如任务型问答,闲聊型问答,文档型问答。其中文档型问答功能可以帮助用户从问答系统配套的知识库中通过用户输入的查询关键词或关键句检索所需文档,并按照相似度将结果进行从高到低的排序。
2、常用的检索技术可以采用基于关键词的布尔模型或者基于机器学习的向量空间模型。向量空间模型采用机器学习算法将文档内容与查询语句转换为特征向量,计算文档与查询语句之间的相似性便可得出查询结果。
3、布尔模型无法细粒度对文档进行排序,需要进一步耗时细化排名;向量空间模型在算法效果上限依赖人工标注数据的质量和数量,且易受文档内容中专业领域词汇的影响,导致向量转化结果不够准确。因此,现有问答系统中对计算机领域文档检索存在准确度较低、效率低下的问题。
技术实现思路
1、本发明提供一种问答系统中计算机领域文档的检索方法、装置及设备,用以解决现有技术中在问答系统中对计算机领域文档检索存在的效率低下、准确度较低的问题,实现在问答系统中对计算机领域文档检索效率与准确度的提升。
2、本发明提供一种问答系统中计算机领域文档的检索方法,包括:
3、基于查询语句,查询知识库中多个文档对应的混合倒排索引,得到包括至少一个候选文档的候选文档集合;
4、针对所述候选文档集合中各所述候选文档,基于所述查询语句对应的关键词在所述候选文档中的匹配特征,确定所述候选文档对应的候选匹配向量;
5、基于预设标准匹配向量及所述候选文档对应的候选匹配向量,确定所述候选文档与所述查询语句的相似度;
6、基于所述候选文档集合中各所述候选文档与所述查询语句的相似度,对各所述候选文档进行排序,得到各所述候选文档的排序结果。
7、根据本发明提供的一种问答系统中计算机领域文档的检索方法,所述匹配特征包括标题特征与正文特征;
8、所述基于所述查询语句对应的关键词在所述候选文档中的匹配特征,确定所述候选文档对应的候选匹配向量,包括:
9、基于所述查询语句对应的关键词在所述候选文档中的标题特征与正文特征,以及标题权重系数与正文权重系数,确定所述候选文档对应的候选匹配向量。
10、根据本发明提供的一种问答系统中计算机领域文档的检索方法,所述方法还包括:
11、将预先获取的计算机领域关键词字典添加至elasticsearch的分词器中;
12、基于所述查询语句,对所述知识库中多个文档通过elasticsearch自动构建混合倒排索引;
13、其中,所述混合倒排索引包括:常规倒排索引与基于所述计算机领域关键词字典的倒排索引。
14、根据本发明提供的一种问答系统中计算机领域文档的检索方法,所述方法还包括:
15、使用tf-idf算法收集历史文档中的关键词;
16、使用sifrank算法收集所述历史文档中的关键短语;
17、基于所述关键词与所述关键短语,构建所述预设计算机领域关键词字典。
18、根据本发明提供的一种问答系统中计算机领域文档的检索方法,所述方法还包括:
19、对所述历史文档进行预处理;所述预处理包括删除所述历史文档中的代码片段与结构化查询语言sql语句。
20、根据本发明提供的一种问答系统中计算机领域文档的检索方法,所述方法还包括:
21、基于所述候选文档集合中各所述候选文档的更新时间和/或点击次数,更新所述排序结果。
22、根据本发明提供的一种问答系统中计算机领域文档的检索方法,所述查询知识库中多个文档对应的混合倒排索引,包括:
23、基于所述混合倒排索引,采用elasticsearch对所述知识库中多个文档进行分布式集群检索。
24、本发明还提供一种问答系统中计算机领域文档的检索装置,包括:
25、文档集合获取模块,用于基于查询语句,查询知识库中多个文档对应的混合倒排索引,得到包括至少一个候选文档的候选文档集合;
26、匹配向量确定模块,用于针对所述候选文档集合中各所述候选文档,基于所述查询语句对应的关键词在所述候选文档中的匹配特征,确定所述候选文档对应的候选匹配向量;
27、相似度确定模块,用于基于预设标准匹配向量及所述候选文档对应的候选匹配向量,确定所述候选文档与所述查询语句的相似度;
28、文档排序模块,用于基于所述候选文档集合中各所述候选文档与所述查询语句的相似度,对各所述候选文档进行排序,得到各所述候选文档的排序结果。
29、本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述的问答系统中计算机领域文档的检索方法。
30、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的问答系统中计算机领域文档的检索方法。
31、本发明提供的一种问答系统中计算机领域文档的检索方法、装置及设备,通过查询语句,查询知识库中多个文档对应的混合倒排索引,得到候选文档集合;针对候选文档集合中的每个候选文档,基于查询语句对应的关键词在所述候选文档中的匹配特征,确定候选匹配向量;基于预设标准匹配向量及候选文档对应的候选匹配向量,确定所述候选文档与所述查询语句的相似度;基于相似度,对候选文档进行排序并输出排序结果。通过设计文档匹配向量方法,更细粒度的对混合倒排索引的粗筛结果进行再排序,提升了文档检索的准确度。
1.一种问答系统中计算机领域文档的检索方法,其特征在于,包括:
2.根据权利要求1所述的问答系统中计算机领域文档的检索方法,其特征在于,所述匹配特征包括标题特征与正文特征;
3.根据权利要求1所述的问答系统中计算机领域文档的检索方法,其特征在于,所述方法还包括:
4.根据权利要求3所述的问答系统中计算机领域文档的检索方法,其特征在于,所述方法还包括:
5.根据权利要求4所述的问答系统中计算机领域文档的检索方法,其特征在于,所述方法还包括:
6.根据权利要求1所述的问答系统中计算机领域文档的检索方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的问答系统中计算机领域文档的检索方法,其特征在于,所述查询知识库中多个文档对应的混合倒排索引,包括:
8.一种问答系统中计算机领域文档的检索装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的问答系统中计算机领域文档的检索方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的问答系统中计算机领域文档的检索方法。