本发明涉及数据处理,尤其涉及一种图谱关系生成方法、终端及存储介质。
背景技术:
1、知识图谱本质上是一种语义网络,用图的形式描述客观事物。知识图谱是有节点和边组成,知识图谱中的节点表示概念和实体,概念是抽象出来的事物,实体是具体的事物,概念可以是同种特征的实体构成的集合,边表示事物之间的关系。因此,建立两两概念之间的关系是构建知识图谱的一个重要特征。
2、由于知识图谱中概念之间的关系往往需要较强的专业知识,因此,目前大部分是采用人工的方式构建知识图谱中概念之间的关系。并且由于知识图谱中概念的数量庞大,涉及不同的领域,故目前往往需要雇佣不同领域的专家或者以众包的形式去人工的判断概念之间的关系,需要耗费大量资源和时间成本且容易出现错误,其效率和准确度低。
技术实现思路
1、本发明的主要目的在于提供一种图谱关系生成方法、终端及计算机可读存储介质,旨在解决现有技术中对于知识图谱中概念之间关系的构建耗费大量资源和时间成本,其构建效率、准确度低的问题。
2、为了实现上述目的,本发明实施例提供了一种图谱关系生成方法,其包括:
3、获取预设目标关系以及确定待构建知识图谱中的头概念;所述预设目标关系用于表示概念与概念之间的关系;
4、基于所述头概念以及所述预设目标关系,通过已训练生成式语言模型以及集束搜索算法,生成与所述头概念对应的若干候选尾概念;
5、基于所述头概念、所述预设目标关系以及对应的候选尾概念,生成目标知识图谱。
6、可选地,所述基于所述头概念、所述预设目标关系以及对应的候选尾概念,生成目标知识图谱,具体包括:
7、基于所述头概念、所述预设目标关系以及对应的候选尾概念,生成对应的第一三元组和第二三元组;
8、其中,第一三元组由所述头概念、所述预设目标关系以及对应的候选尾概念组成;第二三元组掩盖第一三元组中的预设目标关系,由头概念、预设关系掩码令牌以及对应的候选尾概念组成;
9、基于所述第二三元组通过第一预训练生成式语言模型,生成所述头概念与所述候选尾概念的预测目标关系;
10、基于所述第一三元组与对应的第三三元组,确定目标三元组,以根据所述目标三元组生成目标知识谱图;
11、其中,所述第三三元组包括:所述头概念、所述预测目标关系以及所述候选尾概念。
12、可选地,所述基于所述第一三元组与对应的第三三元组,确定目标三元组,以基于所述目标三元组生成目标知识谱图,具体包括:
13、确定所述第一三元组和对应的第三三元组的语义相似度;
14、在所述语义相似度大于预设阈值的情况下,将所述第三三元组或所述第一三元组作为目标三元组;
15、基于所述目标三元组生成目标知识图谱。
16、可选地,在确定所述第一三元组和对应的第三三元组的语义相似度之后,所述方法还包括:
17、在所述语义相似度小于所述预设阈值的情况下,删除与所述第三三元组对应的第一三元组。
18、可选地,所述基于所述第二三元组通过第一预训练生成式语言模型,生成所述头概念与所述候选尾概念的预测目标关系,具体包括:
19、根据所述第二三元组,通过第一预训练生成式语言模型以及贪婪搜索算法,生成所述头概念与所述候选尾概念的预测目标关系。
20、可选地,基于所述头概念以及所述预设目标关系,通过已训练生成式语言模型以及集束搜索算法,生成与所述头概念对应的若干候选尾概念,具体包括:
21、根据所述待构建知识图谱中的所有概念生成词典树;
22、基于所述头概念以及所述预设目标关系,通过所述已训练生成式语言模型以及所述集束搜索算法,从所述词典树的根节点开始搜索,以生成所述头概念对应的若干候选尾概念;
23、所述候选尾概念为所述待构建知识图谱中的概念。
24、可选地,所述已训练生成式语言模型通过以下方式生成:
25、从样本知识图谱中,抽取多个样本三元组;其中,所述样本三元组包括:样本头概念、样本目标关系以及对应的样本尾概念;
26、根据所述样本三元组中的样本头概念、样本目标关系,通过第二预训练生成式语言模型,得到所述样本头概念对应的生成尾概念;
27、根据所述样本头概念对应的样本尾概念和生成尾概念,对所述第二预训练生成式语言模型进行调整;
28、并继续执行根据下一所述样本三元组中的样本头概念、样本目标关系,通过第二预训练生成式语言模型,得到下一所述样本三元组中样本头概念对应的生成尾概念的步骤,直至所述第二预训练生成式语言模型满足预设条件,得到已训练生成式语言模型。
29、可选地,所述根据所述样本头概念对应的样本尾概念和生成尾概念,对所述第二预训练生成式语言模型进行调整,具体包括:
30、根据所述样本头概念对应的样本尾概念和生成尾概念,通过对数似然函数,确定所述第二预训练生成式语言模型的损失函数值;
31、根据所述损失函数值,对所述第二预训练生成式语言模型进行调整。
32、为了实现上述目的,本发明实施例还提供了一种终端,包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如上任意一项所述的图谱关系生成方法中的步骤。
33、此外,为了实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任意一项所述的图谱关系生成方法中的步骤。
34、在本发明实施例中,通过已训练生成式语言模型以及集束算法,可以根据待构建知识图谱的头概念以及获取的预设目标关系,得到头概念对应的若干候选尾概念,从而得到目标知识图谱。也就是说,一个头概念可以得到多个与之关系为预设目标关系的候选尾概念,无需遍历知识图谱中所有的概念对,很大程度的提高了构建图谱中概念之间关系的效率,显著提高了准确度和图谱概念的覆盖率。
1.一种图谱关系生成方法,其特征在于,所述图谱关系生成方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述头概念、所述预设目标关系以及对应的候选尾概念,生成目标知识图谱,具体包括:
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一三元组与对应的第三三元组,确定目标三元组,以基于所述目标三元组生成目标知识谱图,具体包括:
4.根据权利要求3所述的方法,其特征在于,在确定所述第一三元组和对应的第三三元组的语义相似度之后,所述方法还包括:
5.根据权利要求2所述的方法,其特征在于,所述基于所述第二三元组通过第一预训练生成式语言模型,生成所述头概念与所述候选尾概念的预测目标关系,具体包括:
6.根据权利要求1所述的方法,其特征在于,基于所述头概念以及所述预设目标关系,通过已训练生成式语言模型以及集束搜索算法,生成与所述头概念对应的若干候选尾概念,具体包括:
7.根据权利要求1所述的方法,其特征在于,所述已训练生成式语言模型通过以下方式生成:
8.根据权利要求7所述的方法,其特征在于,所述根据所述样本头概念对应的样本尾概念和生成尾概念,对所述第二预训练生成式语言模型进行调整,具体包括:
9.一种终端,其特征在于,所述终端包括:处理器和存储器;所述存储器上存储有可被所述处理器执行的计算机可读程序;所述处理器执行所述计算机可读程序时实现如权利要求1-8任意一项所述的图谱关系生成方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-8任意一项所述的图谱关系生成方法中的步骤。