基于知识图谱的人物实体对齐方法及装置与流程

文档序号:19155731发布日期:2019-11-16 00:44阅读:来源:国知局

技术特征:

1.一种基于知识图谱的人物实体对齐方法,其特征在于,

a)将人物数据块中属性值链接到知识图谱实体;

b)根据知识图谱实体关系衡量属性相关性,并获取属性标识度;

c)依据属性相关性和属性标识度,得到人物数据块之间的相似度,依据相似度进行人物实体对齐。

2.根据权利要求1所述的基于知识图谱的人物实体对齐方法,其特征在于,a)中,利用知识图谱属性值低维向量表示知识图谱实体,具体为:经过实体链接得到涵盖属性值的知识图谱子图,将子图上每个实体以及实体关系映射到用于表示知识图谱实体间关系信息的低维空间向量上,属性值的表示向量为在知识图谱中对应实体表示向量。

3.根据权利要求1或2所述的基于知识图谱的人物实体对齐方法,其特征在于,a)将人物数据块中属性值链接到知识图谱实体,包含:

a1)将各数据来源中的属性值链接到知识图谱上,依据属性值在知识图谱中的对应节点、与其邻近节点以及节点间关系,获取知识图谱子图;

a2)将实体与实体关系分别映射到不同空间向量表示上,得到知识图谱子图的向量表示。

4.根据权利要求1所述的基于知识图谱的人物实体对齐方法,其特征在于,b)中,利用信息熵衡量属性值分布,基于信息熵计算每个属性的标识度。

5.根据权利要求1或4所述的基于知识图谱的人物实体对齐方法,其特征在于,b)中基于信息熵计算每个属性的标识度时,通过属性信息熵与整个数据集上最大信息熵比值来获取。

6.根据权利要求1或4所述的基于知识图谱的人物实体对齐方法,其特征在于,b)中基于信息熵计算每个属性的标识度时,依据数据量大小,判断属性值是否相同来进行分区操作,并依据分区结果来计算同一个分区中数据块之间的相似度。

7.根据权利要求1所述的基于知识图谱的人物实体对齐方法,其特征在于,c)中依据属性相关性进行数据块剪枝;将剪枝后的数据块,综合数据块属性标识度,利用属性值表示向量进行相似度计算。

8.根据权利要求1所述的基于知识图谱的人物实体对齐方法,其特征在于,c)中获取人物数据块之间的相似度,包含如下内容:

c1)保留数据块中存在属性相关性的属性值对,舍弃其他无关性属性,对数据块进行剪枝操作;

c2)利用属性标识度作为权值,对经过剪枝后的数据块属性值的表示向量进行加权求和,每个数据块得到一个表示向量;

c3)利用余弦相似度计算数据块向量的相似度。

9.根据权利要求1或7或8所述的基于知识图谱的人物实体对齐方法,其特征在于,若两个数据块之间的相似度大于设定阈值,则判定该两个数据块描述同一个人物实体。

10.一种基于知识图谱的人物实体对齐装置,其特征在于,包含:处理模块一、处理模块二和处理模块三,其中,

处理模块一,用于将人物数据块中属性值链接到知识图谱实体;

处理模块二,用于根据知识图谱实体关系衡量属性相关性,并获取属性标识度;

处理模块三,用于依据属性相关性和属性标识度,得到人物数据块之间的相似度,依据相似度进行人物实体对齐。


技术总结
本发明属于数据融合处理技术领域,特别涉及一种基于知识图谱的人物实体对齐方法及装置,该方法包含:将人物数据块中属性值链接到知识图谱实体;根据知识图谱实体关系衡量属性相关性,并获取属性标识度;依据属性相关性和属性标识度,得到人物数据块之间的相似度,依据相似度进行人物实体对齐。本发明针对当前实体对齐方法对不同名但相关的人物属性的相似度衡量不准确的问题,基于人物知识图谱,将人物属性值链接到知识图谱中的实体,从语义层面准确度量两个相关人物属性,有效优化人物实体对齐结果可信度与准确度;经过两个数据集实验对比分析,不仅准确率高,而且对数据集的适应性强,不受数据集类型以及属性值的分布影响,具有较好应用前景。

技术研发人员:尹美娟;刘晓楠;罗军勇;郑燕;王灿;李扬;秦栋洁
受保护的技术使用者:中国人民解放军战略支援部队信息工程大学
技术研发日:2019.07.05
技术公布日:2019.11.15
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1