一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质与流程

文档序号:27245318发布日期:2021-11-03 19:48阅读:来源:国知局

技术特征:
1.一种基于知识图谱的问答库生成方法,其特征在于,包括:从知识图谱中获取实体关系组合;对所述实体关系组合中的实体进行随机掩码,抽取掩码后的部分实体关系组合,生成微调数据;利用所述微调数据对预先训练得到的预训练模型进行微调,得到问题生成模型;基于掩码后的全量实体关系组合和所述问题生成模型,生成问答数据集。2.根据权利要求1所述的方法,其特征在于,所述从知识图谱中获取实体关系组合,进一步包括:基于启发式规则来处理知识图谱中的三元组,作为所述实体关系组合;所述启发式规则包括:匹配实体的一度关系的模板;匹配实体的二度关系的模板;和/或将两个实体进行联合且关系为一度的模板。3.根据权利要求1所述的方法,其特征在于,所述预训练模型是按照下述方式预先训练得到的:获取阅读理解语料库和百科语料库;利用所述阅读理解语料库中的段落和答案生成问题得到第一训练数据集;对所述百科语料库中标记有超链接的实体进行掩码预测,得到第二训练数据集;利用所述第一训练数据集和第二训练数据集对特定模型进行预训练得到所述预训练模型。4.根据权利要求1所述的方法,其特征在于,所述生成微调数据,进一步包括:对于所抽取的掩码后的部分实体关系组合,通过人工提问的方式得到问题,然后将每个掩码后的实体关系组合和对其提问的问题作为一条问答数据,生成所述微调数据。5.根据权利要求1所述的方法,其特征在于,所述利用所述微调数据对所述预训练模型进行微调,得到问题生成模型,进一步包括:基于所生成的微调数据,利用掩码后的实体关系组合作为所述预训练模型的编码器端的输入,利用所述微调数据中的问题作为所述预训练模型的解码器端的输出,对预训练模型进行端对端的微调,得到从掩码后的实体关系组合生成问题的问题生成模型。6.根据权利要求1所述的方法,其特征在于,所述基于掩码后的全量实体关系组合和所述问题生成模型,生成问答数据集,进一步包括:将所述掩码后的全量实体关系组合输入所述问题生成模型的编码器端,对于每个输入的掩码后的实体关系组合,由所述问题生成模型的解码器端输出对应的问题,以每个实体关系组合中被掩码的实体作为答案,将所述问题和答案进行关联,形成所述问答数据集。7.一种基于知识图谱的问答方法,其特征在于,包括:接收用户输入的问题;根据所述问题在问答语料库中进行检索,得到问答对,所述问答语料库是根据权利要求1

6中任一所述的方法基于知识图谱生成的;将所述问答对中的答案返回给所述用户。8.一种基于知识图谱的问答库生成装置,其特征在于,包括:
获取模块,从知识图谱中获取实体关系组合;处理模块,对所述实体关系组合中的实体进行随机掩码,抽取掩码后的部分实体关系组合,生成微调数据;微调模块,利用所述微调数据对预先训练得到的预训练模型进行微调,得到问题生成模型;生成模块,基于掩码后的全量实体关系组合和所述问题生成模型,生成问答数据集。9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1至7任一所述的方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1至7任一所述的方法。

技术总结
本发明公开了一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质,该方法包括:从知识图谱中获取实体关系组合;对实体关系组合中的实体进行随机掩码,抽取掩码后的部分实体关系组合,生成微调数据;利用微调数据对预先训练得到的预训练模型进行微调,得到问题生成模型;基于掩码后的全量实体关系组合和问题生成模型,生成问答数据集。本发明的方案降低了问答数据集建设成本,确保问答数据集的准确性和质量,通过数据库检索匹配即可实现KBQA任务。KBQA任务。KBQA任务。


技术研发人员:赵撼宇 袁莎 冷佳泓 唐杰 曹岗
受保护的技术使用者:北京智源人工智能研究院
技术研发日:2021.08.09
技术公布日:2021/11/2
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1