技术特征:
1.一种用于面向多源媒资数据的知识图谱构建的方法,包括:从多源数据中抽取媒资信息,以形成以实体为中心的知识图谱三元组,其中抽取媒资信息包括实体抽取、关系抽取和实体属性抽取,所述多源数据来自包括半结构化数据的网页和/或包括非结构化数据的网页,所述三元组具有{实体,关系,属性}的形式;对所述媒资信息进行信息融合,以形成经更新的三元组,其中,所述信息融合包括实体对齐和属性统一,其中所述实体对齐采用基于注意力机制的卷积神经网络的实体匹配模型;基于经更新的三元组来构建所述知识图谱。2.如权利要求1所述的方法,其中,所述实体分为视听类实体、非视听类实体和人物实体。3.如权利要求1所述的方法,其中,抽取媒资信息进一步包括:利用textrank算法对网页的文本进行实体关键词提取,以构建媒资标签库。4.如权利要求3所述的方法,其中,所述实体对齐进一步包括:对所述实体进行二级分类。5.如权利要求4所述的方法,其中,所述实体对齐进一步包括:基于各个分类下的实体,通过基于注意力机制的卷积神经网络的实体匹配模型对实体、实体属性和实体关键词进行语义匹配。6.如权利要求3所述的方法,其中,所述属性统一进一步包括:对来自不同数据源的属性词汇进行统一,以更新以实体为中心的三元组。7.如权利要求6所述的方法,其中,所述信息融合进一步包括将所述实体关键词作为属性词汇补充,以更新以实体为中心的三元组。8.一种用于面向多源媒资数据的知识图谱构建的系统,包括:信息抽取模块,所述信息抽取模块被配置为:从多源数据中抽取媒资信息,以形成以实体为中心的知识图谱三元组,其中抽取媒资信息包括实体抽取、关系抽取和实体属性抽取,所述多源数据来自包括半结构化数据的网页和/或包括非结构化数据的网页,所述三元组具有{实体,关系,属性}的形式;信息融合模块,所述信息融合模块被配置为:对所述媒资信息进行信息融合,以形成经更新的三元组,其中,所述信息融合包括实体对齐和属性统一,其中所述实体对齐包括采用基于注意力机制的卷积神经网络的实体匹配模型;知识图谱构建模块,所述知识图谱构建模块被配置为基于经更新的三元组来构建所述知识图谱。9.如权利要求8所述的系统,其中,抽取媒资信息进一步包括:利用textrank算法对网页的文本进行实体关键词提取,以构建媒资标签库。10.一种用于面向多源媒资数据的知识图谱构建的计算设备,包括:处理器;存储器,所述存储器存储有指令,所述指令在被所述处理器执行时能执行如权利要求1-7任一所述的方法。
技术总结
本发明涉及一种基于TextRank算法结合卷积神经网络模型的多源媒资知识图谱构建的方法。本发明主要包括信息抽取、信息融合和知识图谱构建。由于媒资数据的多源性,本发明在构建面向多源媒资数据的知识图谱时,在实体对齐中引入TextRank关键词提取算法、实体属性二级分类、卷积神经网络和注意力机制,能够更好地理解实体和属性之间的语义关联,提高媒资实体对齐准确度。对齐准确度。对齐准确度。
技术研发人员:凌佩云 王霄雨 袁凯 袁晨晖 戴世诚 傅雨婷 沈鹏
受保护的技术使用者:天翼数字生活科技有限公司
技术研发日:2021.12.27
技术公布日:2022/8/15