一种扩充知识图谱的方法、电子设备及存储介质与流程

文档序号：23350744发布日期：2020-12-18 16:56阅读：来源：国知局

技术特征：

1.一种扩充知识图谱的方法，其特征在于，包括：

获取关键词；

根据所述关键词，在预设数据库中查找出所述关键词所在的本体，所述本体包括与所述关键词相关的上位类别和与所述关键词相关的下位类别，所述上位类别下的一实体和所述下位类别下的一实体构成一个所述本体中的实体对；

根据所述关键词所在的本体和知识图谱，获取待处理文本数据中的第一类语句和第二类语句，其中，所述第一类语句中的实体对为所述本体中的实体对，且所述第一类语句中的实体对存在于所述知识图谱中，所述第二类语句中的实体对为所述本体中的实体对，但所述第二类语句的实体对未存在于所述知识图谱中；

根据所述知识图谱，对所述第一类语句标注第一三元组，所述第一三元组包括所述第一类语句中的实体对以及所述第一类语句中的实体对中的两个实体之间的关系；

利用标注有所述第一三元组的第一类语句进行训练，以学习所述第一类语句与所述第一三元组之间的关联关系，得到关系识别模型；

利用所述关系识别模型识别所述第二类语句，确定所述第二类语句对应的第二三元组；

将所述第二三元组添加至所述知识图谱。

2.根据权利要求1所述的方法，其特征在于，所述根据所述关键词，在预设数据库中查找出所述关键词所在的本体，包括：

获取所述关键词的类别；

根据所述关键词的类别，获取所述关键词的类别的上位类别，和/或,所述关键词的类别的下位类别；

分别获取所述关键词的类别的上位类别下的至少一个实体和所述关键词的类别下的至少一个实体，和/或，所述关键词的类别的下位类别下的至少一个实体和所述关键词的类别下的至少一个实体；

将所述关键词的类别下的一实体和所述关键词的类别的上位类别下的一实体构成所述本体中的一实体对，和/或，将所述关键词的类别下的一实体和所述关键词的类别的下位类别下的一实体构成所述本体中的一实体对。

3.根据权利要求1所述的方法，其特征在于，所述根据所述关键词所在的本体和所述知识图谱，获取待处理文本数据中的第一类语句和第二类语句，包括：

遍历所述本体，获取所述本体中的各个实体对；

遍历所述待处理文本数据中的每一个语句；

如果目标语句中包含目标实体对对应的两个实体，且所述目标实体对存在于所述知识图谱中，则确定所述目标语句为第一类语句，所述目标语句为所述待处理文本数据中的任一语句，所述目标实体对为所述本体中的任一实体对；

如果所述目标语句中包含目标实体对对应的两个实体，且所述目标实体对未存在于所述知识图谱中，则确定所述目标语句为第二类语句。

4.根据权利要求3所述的方法，其特征在于，所述根据所述知识图谱，对所述第一类语句标注第一三元组，包括：

根据所述目标实体对，在所述知识图谱中查找所述目标实体对对应的三元组；

利用所述目标实体对对应的三元组标注所述第一类语句。

5.根据权利要求1所述的方法，其特征在于，所述对所述标注有所述第一三元组的第一类语句进行训练，以学习所述第一类语句与所述第一三元组之间的关联关系，得到关系识别模型，包括：

对所述第一类语句进行第一特征处理，获取特征向量样本，所述特征向量样本对应的标签为所述第一三元组中的关系；

对所述特征向量样本以及所述特征向量样本对应的标签进行训练，以学习所述第一类语句与所述第一三元组之间的关联关系，得到关系识别模型。

6.根据权利要求5所述的方法，其特征在于，所述对所述第一类语句进行第一特征处理，获取特征向量样本，包括：

根据所述第一三元组，获取所述第一三元组对应的至少一个第三类语句，所述第三类语句包括所述第一三元组对应的两个实体；

对所述至少一个第三类语句进行第二特征处理，分别获取所述至少一个第三类语句各自对应的子特征向量；

组合所述子特征向量获得所述特征向量样本。

7.根据权利要求6所述的方法，其特征在于，所述组合所述子特征向量获得所述特征向量样本，包括：

根据所述预设数据库，获取所述第一三元组对应的两个实体的类别之间的关系；

如果所述第一三元组对应的两个实体的类别之间的关系至少存在两种，则确定所述特征向量样本为所述子特征向量的加权和；

如果所述第一三元组对应的两个实体的类别之间的关系有且只有一种，则确定所述特征向量样本为所述子特征向量的平均值。

8.根据权利要求1所述的方法，其特征在于，在所述将所述第二三元组添加至所述知识图谱的步骤之前，还包括：

对所述第二三元组进行校对。

9.一种电子设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器，其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8任一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使电子设备执行如权利要求1-8任一项所述的方法。

技术总结
本发明实施例涉及知识图谱技术领域，公开了一种扩充知识图谱的方法、电子设备及存储介质，该方法通过获取关键词，在预设数据库中查找出所述关键词所在的本体，根据所述关键词所在的本体和所述知识图谱，获取待处理文本数据中的第一类语句和第二类语句，根据所述知识图谱，对所述第一类语句标注对应的第一三元组，利用标注有所述第一三元组的第一类语句进行训练，以学习所述第一类语句与所述第一三元组之间的关联关系，得到关系识别模型，利用所述关系识别模型识别所述第二类语句，确定所述第二类语句对应的第二三元组，最后，将所述第二类语句对应的第二三元组添加至所述知识图谱。也即，能通过某领域的关键词，自动抽取该领域下的三元组，添加至所述知识图谱中，以扩充所述知识图谱。

技术研发人员：曾钢欣
受保护的技术使用者：深圳数联天下智能科技有限公司
技术研发日：2020.08.17
技术公布日：2020.12.18

完整全部详细技术资料下载

当前第2页1 2