1.一种基于知识图谱的人物实体对齐方法,其特征在于,
a)将人物数据块中属性值链接到知识图谱实体;
b)根据知识图谱实体关系衡量属性相关性,并获取属性标识度;
c)依据属性相关性和属性标识度,得到人物数据块之间的相似度,依据相似度进行人物实体对齐。
2.根据权利要求1所述的基于知识图谱的人物实体对齐方法,其特征在于,a)中,利用知识图谱属性值低维向量表示知识图谱实体,具体为:经过实体链接得到涵盖属性值的知识图谱子图,将子图上每个实体以及实体关系映射到用于表示知识图谱实体间关系信息的低维空间向量上,属性值的表示向量为在知识图谱中对应实体表示向量。
3.根据权利要求1或2所述的基于知识图谱的人物实体对齐方法,其特征在于,a)将人物数据块中属性值链接到知识图谱实体,包含:
a1)将各数据来源中的属性值链接到知识图谱上,依据属性值在知识图谱中的对应节点、与其邻近节点以及节点间关系,获取知识图谱子图;
a2)将实体与实体关系分别映射到不同空间向量表示上,得到知识图谱子图的向量表示。
4.根据权利要求1所述的基于知识图谱的人物实体对齐方法,其特征在于,b)中,利用信息熵衡量属性值分布,基于信息熵计算每个属性的标识度。
5.根据权利要求1或4所述的基于知识图谱的人物实体对齐方法,其特征在于,b)中基于信息熵计算每个属性的标识度时,通过属性信息熵与整个数据集上最大信息熵比值来获取。
6.根据权利要求1或4所述的基于知识图谱的人物实体对齐方法,其特征在于,b)中基于信息熵计算每个属性的标识度时,依据数据量大小,判断属性值是否相同来进行分区操作,并依据分区结果来计算同一个分区中数据块之间的相似度。
7.根据权利要求1所述的基于知识图谱的人物实体对齐方法,其特征在于,c)中依据属性相关性进行数据块剪枝;将剪枝后的数据块,综合数据块属性标识度,利用属性值表示向量进行相似度计算。
8.根据权利要求1所述的基于知识图谱的人物实体对齐方法,其特征在于,c)中获取人物数据块之间的相似度,包含如下内容:
c1)保留数据块中存在属性相关性的属性值对,舍弃其他无关性属性,对数据块进行剪枝操作;
c2)利用属性标识度作为权值,对经过剪枝后的数据块属性值的表示向量进行加权求和,每个数据块得到一个表示向量;
c3)利用余弦相似度计算数据块向量的相似度。
9.根据权利要求1或7或8所述的基于知识图谱的人物实体对齐方法,其特征在于,若两个数据块之间的相似度大于设定阈值,则判定该两个数据块描述同一个人物实体。
10.一种基于知识图谱的人物实体对齐装置,其特征在于,包含:处理模块一、处理模块二和处理模块三,其中,
处理模块一,用于将人物数据块中属性值链接到知识图谱实体;
处理模块二,用于根据知识图谱实体关系衡量属性相关性,并获取属性标识度;
处理模块三,用于依据属性相关性和属性标识度,得到人物数据块之间的相似度,依据相似度进行人物实体对齐。