一种知识图谱构建和动态扩展方法、装置、设备及介质与流程

文档序号:34975928发布日期:2023-08-01 21:48阅读:92来源:国知局
一种知识图谱构建和动态扩展方法、装置、设备及介质与流程

本技术属于知识图谱,具体而言涉及一种知识图谱构建和动态扩展方法、装置、设备及介质。


背景技术:

1、各个领域的科技术语知识图谱提供了有价值的知识来支持许多现实应用程序,例如对话系统、搜索和个性化推荐。对于研究人员来说,各领域的科技术语知识可以帮助他们快速了解该领域的基础知识以及前沿技术,为研究人员带来了极大地便利。

2、现有的构建科技术语知识图谱不是完全从零开始构建,在由专家提供的种子科技术语知识图谱基础上只在叶子节点上扩展。由于涌现大量新的科技术语,对于从零开始构建,每次有新增新的科技术语都要从头开始重新构建整个科技术语知识图谱,这使得大量科技术语知识图谱的构建变的异常困难。对于只在叶子节点上扩展,新的科技术语只能在叶子节点上扩展,由于种子科技术语知识图谱的不完整性,不能保证新的科技术语只在叶子节点上扩展而不是在中间节点上扩展。而且需要提前设置大量不同的关系,对于扩展不同领域的科技术语知识图谱并不具有通用性。


技术实现思路

1、鉴于上述的分析,本发明实施例旨在提供一种知识图谱构建和动态扩展方法、装置、设备及介质,用以解决现有技术中对于知识图谱的构建和动态扩展中通用性差的问题。

2、本技术第一方面实施例提供一种知识图谱构建和动态扩展方法,包括以下步骤:

3、构建第一知识图谱;

4、定义所述第一知识图谱的边为正三元组,根据所述第一知识图谱为所述正三元组进行负采样进而生成若干负三元组,以构建自监督数据集;

5、采用不同的关系内容对所述自监督数据集中的三元组进行数据转换以生成训练样本;

6、将所述训练样本输入预训练模型进行三元组分类任务,以对所述预训练模型进行微调进而获得链接预测模型,根据生成所述训练样本采用的所述关系和所述三元组分类任务的预测概率确定预测关系;

7、获取待链接术语,将所述待链接术语和所述第一知识图谱输入所述链接预测模型,以预测所述待链接术语在所述第一知识图谱中的链接位置;

8、根据所述待链接术语和所述链接位置完成对所述第一知识图谱的扩展以获得第二知识图谱。

9、在一些实施例中,所述第一知识图谱包括种子知识图谱或者所述第二知识图谱,所述种子知识图谱包括由专家构建的具有根节点的至少三层结构。

10、在一些实施例中,所述根据所述第一知识图谱为所述正三元组进行负采样进而生成若干负三元组,以构建自监督数据集,包括:

11、s21、选定所述第一知识图谱的正三元组,所述正三元组表示为(h,r,t),其中h表示头部术语,t表示尾部术语,r表示头部术语和尾部术语的关系;

12、s22、在所述第一知识图谱中对所述正三元组进行负采样以生成k个所述负三元组,包括:

13、获取所述头部术语在所述第一知识图谱中的垂直路径,定义所述垂直路径为包括从根节点到所述头部术语的节点序列;

14、基于所述第一知识图谱排除所述垂直路径的部分节点术语进行采样以获得k个伪头部术语;

15、根据所述关系r和所述尾部术语t分别与k个所述伪头部术语形成所述负三元组,所述负三元组表示为(,r,t);

16、s23、重复步骤s21-s22以遍历至少部分所述正三元组,生成所述自监督数据集。

17、在一些实施例中,所述训练样本的数据格式包括文本和标签,所述文本包括三元组的头部术语、关系内容和尾部术语,所述标签的值包括0或1,所述正三元组的标签值为1,负三元组的标签值为0。

18、在一些实施例中,所述对所述预训练模型进行微调进而获得链接预测模型,包括:

19、将lora模型与所述预训练模型相结合以形成微调模型;

20、将所述文本输入所述微调模型以输出三元组类别预测结果和预测概率,根据所述预测结果和所述标签之间的差异确定损失;

21、根据所述损失对所述微调模型进行微调以获得所述链接预测模型,所述链接预测模型用于对三元组进行类别预测;

22、根据所述预测概率确定综合预测概率最高的所述关系内容作为预测关系;

23、所述预训练模型包括bert、roberta或者deberta xxl中的一种或多种的组合。

24、在一些实施例中,所述获取待链接术语,将所述待链接术语和所述第一知识图谱输入所述链接预测模型,以预测所述待链接术语在所述第一知识图谱中的链接位置,包括:

25、s51、从设定的文献库中抽取待链接术语;

26、s52、构建第一预测三元组(h,r,t),其中t表示所述待链接术语,r表示所述预测关系,h表示所述第一知识图谱的节点术语,对所述第一预测三元组进行所述数据转换以生成第一预测样本;

27、s53、将所述第一预测样本输入所述链接预测模型以获得第一链接预测结果,若所述第一链接预测结果大于设定阈值则将所述节点术语作为备选链接位置;

28、s54、重复步骤s52-s53以遍历所述第一知识图谱的至少部分所述节点术语,确定得分最高的所述备选链接位置作为所述链接位置,所述得分为所述备选链接位置的也被作为所述备选链接位置的直接父节点和间接父节点的个数;

29、s55、构建第二预测三元组(h1,r,t1),其中t1表示链接位置子节点术语,r表示所述预测关系,h1表示所述待链接术语,对所述第二预测三元组进行所述数据转换以生成第二预测样本;

30、s56、将所述第二预测样本输入所述链接预测模型以获得第二链接预测结果,若所述第二链接预测结果大于设定阈值则将所述待链接术语链接至所述链接位置和所述链接位置子节点之间,否则将所述待链接术语链接至所述链接位置之下。

31、在一些实施例中,在步骤s52之前通过动量对比学习对所述待链接术语进行消歧处理,包括:

32、构建所述待链接术语的正样本和负样本,所述正样本包括所述待链接术语的同义词、缩略词或者样式改写,所述负样本包括所述第一知识图谱中的至少部分所述节点术语;

33、将所述待链接术语输入第一预训练模型生成第一向量,将所述正样本和所述负样本依次输入第二预训练模型生成第二向量,所述第一预训练模型和所述第二预训练模型为相同初始化的所述预训练模型;

34、基于infonce loss确定所述第一向量和所述第二向量之间的对比损失,基于所述对比损失和样本类型之间的差异对所述第一预训练模型进行梯度回传更新;

35、动量更新所述第二预训练模型以使得所述对比损失和所述样本类型相匹配。

36、本技术第二方面实施例提供的知识图谱构建和动态扩展装置,包括:

37、图谱构建模块,用于构建第一知识图谱;

38、数据集构建模块,定义所述第一知识图谱的边为正三元组,根据所述第一知识图谱为所述正三元组进行负采样进而生成若干负三元组,以构建自监督数据集;

39、数据转换模块,采用不同的关系内容对所述自监督数据集中的三元组进行数据转换以生成训练样本;

40、分类训练模块,用于将所述训练样本输入预训练模型进行三元组分类任务,以对所述预训练模型进行微调进而获得链接预测模型,根据生成所述训练样本采用的所述关系和所述三元组分类任务的预测概率确定预测关系;

41、链接预测模块,用于获取待链接术语,将所述待链接术语和所述第一知识图谱输入所述链接预测模型,以预测所述待链接术语在所述第一知识图谱中的链接位置;

42、链接扩展模块,根据所述待链接术语和所述链接位置完成对所述第一知识图谱的扩展以获得第二知识图谱。

43、本技术第三方面实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时实现如上任一实施例所述的知识图谱构建和动态扩展方法。

44、本技术第四方面实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一实施例所述的知识图谱构建和动态扩展方法。

45、本发明实施例至少具有以下有益效果:

46、本发明实施例基于扩展前的第一知识图谱进行正三元组采样以及对应的负采样构建自监督数据集,使得知识图谱的扩展无需借用外部数据,同时通过改进负采样并采用不同的关系生成训练样本,一方面提高了微调后的模型对于预测任务结果的准确性,另一方面设置不同的关系内容可以提高图谱构建的通用性。此外,还通过改进的链接位置匹配算法中考虑到垂直路径和得分的关系以及第一知识图谱的不完整性,提高知识图谱扩展时的链接位置和链接方式的准确性和通用性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1