一种基于知识图谱的机构名称规范方法和相关设备

文档序号:38109374发布日期:2024-05-28 19:30阅读:22来源:国知局
一种基于知识图谱的机构名称规范方法和相关设备

本技术属于自然语言处理与人工智能,尤其涉及一种基于知识图谱的机构名称规范方法和相关设备。


背景技术:

1、文献题录信息中的机构名称通常是作者填写的,常常存在不标准、不规范的情况,因此需要将文献题录信息中的机构名称进行标准化、规范化,以方便文献的查询和使用。

2、传统技术提供的一般是基于词向量模型的机构名称规范方法,该方法存在规范处理准确率低的问题,易使最终所得的机构名称规范化结果不够准确。


技术实现思路

1、有鉴于此,本技术公开一种基于知识图谱的机构名称规范方法和相关设备,通过采用知识图谱表示学习方法进行机构名称规范,来有效提升机构名称规范处理的准确率。

2、具体方案如下:

3、一种基于知识图谱的机构名称规范方法,包括:

4、获取待处理的文献题录信息;所述文献题录信息包括至少一个实体,所述至少一个实体包括待转换为标准机构名称的非标准机构名称;

5、构建至少包含缺失头实体的第一三元组的模型输入信息;所述第一三元组中的尾实体、缺失的头实体以及关系,分别为所述非标准机构名称、所述非标准机构名称对应的待预测标准机构名称以及所述非标准机构名称与所述标准机构名称之间的关系;若所述文献题录信息包括多个实体,所述模型输入信息还包括相应数量的第二三元组,每个第二三元组中的头实体、尾实体和关系,分别为所述非标准机构名称、所述文献题录信息中所述非标准机构名称以外的其它实体,以及所述其它实体与所述非标准机构名称之间的关系;

6、将所述模型输入信息分别输入第一预测模型和第二预测模型,以由所述第一预测模型和所述第二预测模型分别对所述非标准机构名称进行标准机构名称预测,得到所述第一预测模型输出的第一预测结果,和所述第二预测模型输出的第二预测结果;

7、根据所述第一预测结果和所述第二预测结果,确定所述非标准机构名称对应的标准机构名称;

8、其中,所述第一预测模型和所述第二预测模型分别使用不同的知识图谱表示学习算法学习得到实体和关系的向量表示,基于学习得到的实体和关系的向量表示预测非标准机构名称对应的标准机构名称。

9、可选的,所述至少一个实体还包括所述非标准机构名称对应的机构地址、邮编、作者、研究领域中的至少之一。

10、可选的,所述第一预测模型和所述第二预测模型分别对所述非标准机构名称进行标准机构名称预测,包括:

11、所述第一预测模型基于所述模型输入信息以及通过第一知识图谱表示学习算法得到的实体和关系的向量表示,通过链接预测方式确定所述第一三元组中缺失的头实体,得到所述第一预测结果;

12、所述第二预测模型基于所述模型输入信息以及通过第二知识图谱表示学习算法得到的实体和关系的向量表示,通过链接预测方式确定所述第一三元组中缺失的头实体,得到所述第二预测结果。

13、可选的,所述第一预测结果包括第一标准机构名称集合,所述第一标准机构名称集合包括所述第一预测模型为所述非标准机构名称预测的评分前topk1的各个候选标准机构名称;所述第二预测结果包括第二标准机构名称集合,所述第二标准机构名称集合包括所述第二预测模型为所述非标准机构名称预测的评分前topk2的各个候选标准机构名称;所述k1、k2分别为大于0的整数;

14、所述根据所述第一预测结果和所述第二预测结果,确定所述非标准机构名称对应的标准机构名称,包括:

15、根据所述第一标准机构名称集合中各个候选标准机构名称对应的评分和评分的排序序位中的至少之一,以及所述第二标准机构名称集合中各个候选标准机构名称对应的评分和评分的排序序位中的至少之一,确定满足评分条件和序位条件中至少之一的候选标准机构名称,得到所述非标准机构名称对应的标准机构名称。

16、可选的,所述第一知识图谱表示学习算法为平移距离模型transr算法,所述第二知识图谱表示学习算法为语义匹配模型rescal算法。

17、可选的,所述第一预测模型的构建过程包括:

18、获取多条文献题录信息样本;每条文献题录信息样本包括多个实体,所述多个实体包括非标准机构名称和对应的标准机构名称,以及还包括所述非标准机构名称对应的机构地址、邮编、作者、研究领域中的至少之一;

19、将每条文献题录信息样本中的非标准机构名称与对应的标准机构名称关联,以及非标准机构名称以外的各个实体分别与所述非标准机构名称关联,以构建三元组,得到由各条文献题录信息样本对应的各个三元组形成的知识图谱;

20、将所述知识图谱中的三元组作为正样本,对所述知识图谱内三元组所包含实体和关系中的至少之一进行负采样生成负样本,以得到包括至少部分所述正样本和至少部分所述负样本的训练集;

21、基于所述训练集,通过在第一知识图谱表示学习算法根据对应的优化目标学习投影映射矩阵,得到实体和关系的向量表示;所述第一预测模型为所述第一知识图谱表示学习算法学习实体和关系的向量表示后所得的模型;

22、其中,所述投影映射矩阵用于将三元组中实体的实体向量映射到关系所在空间;所述第一知识图谱表示学习算法对应的优化目标为:最大化第一评分函数对所述训练集中正样本的评分,最小化所述第一评分函数对所述训练集中负样本的评分。

23、可选的,所述第二预测模型的构建过程包括:

24、获取多条文献题录信息样本;每条文献题录信息样本包括多个实体,所述多个实体包括非标准机构名称和对应的标准机构名称,以及还包括所述非标准机构名称对应的机构地址、邮编、作者、研究领域中的至少之一;

25、将每条文献题录信息样本中的非标准机构名称与对应的标准机构名称关联,以及非标准机构名称以外的各个实体分别与所述非标准机构名称关联,以构建三元组,得到由各条文献题录信息样本对应的各个三元组形成的知识图谱;

26、将所述知识图谱中的三元组作为正样本,对所述知识图谱内三元组所包含实体和关系中的至少之一进行负采样生成负样本,以得到包括至少部分所述正样本和至少部分所述负样本的训练集;

27、基于所述训练集,通过在第二知识图谱表示学习算法根据对应的优化目标基于三阶张量优化模型参数,得到实体和关系的向量表示;所述第二预测模型为所述第二知识图谱表示学习算法学习实体和关系的向量表示后所得的模型;

28、其中,所述三阶张量包括所述训练集内各个样本中每个关系对应的二维切平面,每个关系对应的二维切平面包括所述训练集提供的各个头实体和各个尾实体之间的头尾实体组合向量表示;若头实体和尾实体之间存在所述关系,在所述关系对应的二维切平面中,所述头实体和尾实体的头尾实体组合向量表示为1,若头实体和尾实体之间不存在所述关系,在所述关系对应的二维切平面中,所述头实体和尾实体的头尾实体组合向量表示为0;所述第二知识图谱表示学习算法对应的优化目标为:最大化第二评分函数对所述训练集中正样本的评分,最小化所述第二评分函数对所述训练集中负样本的评分。

29、可选的,在得到所述知识图谱后,所述方法还包括:

30、将所述知识图谱与标准化本体进行数据融合,以将所述知识图谱的三元组中的相应实体进行标准化。

31、一种基于知识图谱的机构名称规范装置,包括:

32、获取模块,用于获取待处理的文献题录信息;所述文献题录信息包括至少一个实体,所述至少一个实体包括待转换为标准机构名称的非标准机构名称;

33、构建模块,用于构建至少包含缺失头实体的第一三元组的模型输入信息;所述第一三元组中的尾实体、缺失的头实体以及关系,分别为所述非标准机构名称、所述非标准机构名称对应的待预测标准机构名称以及所述非标准机构名称与所述标准机构名称之间的关系;若所述文献题录信息包括多个实体,所述模型输入信息还包括相应数量的第二三元组,每个第二三元组中的头实体、尾实体和关系,分别为所述非标准机构名称、所述文献题录信息中所述非标准机构名称以外的其它实体,以及所述其它实体与所述非标准机构名称之间的关系;

34、预测模块,用于将所述模型输入信息分别输入第一预测模型和第二预测模型,以由所述第一预测模型和所述第二预测模型分别对所述非标准机构名称进行标准机构名称预测,得到所述第一预测模型输出的第一预测结果,和所述第二预测模型输出的第二预测结果;

35、确定模块,用于根据所述第一预测结果和所述第二预测结果,确定所述非标准机构名称对应的标准机构名称;

36、其中,所述第一预测模型和所述第二预测模型分别使用不同的知识图谱表示学习算法学习得到实体和关系的向量表示,基于学习得到的实体和关系的向量表示预测非标准机构名称对应的标准机构名称。

37、一种电子设备,包括:

38、存储器,用于至少存储一组计算机指令集;

39、处理器,用于通过执行所述存储器中存储的所述指令集,实现如上文任一项所述的基于知识图谱的机构名称规范方法。

40、综上所述,本技术提供了一种基于知识图谱的机构名称规范方法和相关设备,该方法和相关设备预先构建了第一预测模型和第二预测模型,两个模型分别使用不同的知识图谱表示学习算法得到实体和关系的向量表示,基于学习得到的实体和关系的向量表示预测非标准机构名称对应的标准机构名称。在构建有第一预测模型和第二预测模型的基础上,对于至少包括待规范的非标准机构名称的文献题录信息,通过构建至少包含缺失头实体的第一三元组的模型输入信息;所述第一三元组中的尾实体、缺失的头实体以及关系,分别为所述非标准机构名称、所述非标准机构名称对应的待预测标准机构名称以及所述非标准机构名称与所述标准机构名称之间的关系,并通过将所述模型输入信息分别输入第一预测模型和第二预测模型,来使用第一预测模型和第二预测模型分别对所述非标准机构名称进行标准机构名称预测,得到第一预测模型输出的第一预测结果和第二预测模型输出的第二预测结果,最终根据所述第一预测结果和所述第二预测结果,确定所述非标准机构名称对应的标准机构名称。

41、可见,本技术提出并实现了一种采用知识图谱表示学习方法进行机构名称规范的解决方案,与传统基于词向量模型的基于知识图谱的机构名称规范方法相比,采用知识图谱表示学习方法进行机构名称规范,可实现更丰富全面的知识挖掘、关联与推理,从而可以有效提升机构名称规范的准确率,进而可使得最终所得的机构名称规范化结果更为准确。除此之外,本技术实施例通过利用两个预测模型进行基于知识图谱表示学习的联合推理/预测,进一步提升了机构名称规范的准确率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1