基于噪音检测和噪音感知的实体对齐方法及装置与流程

文档序号:30844269发布日期:2022-07-23 01:51阅读:130来源:国知局
基于噪音检测和噪音感知的实体对齐方法及装置与流程

1.本发明涉及数据处理技术领域,尤其涉及一种基于噪音检测和噪音感知的实体对齐方法及装置。


背景技术:

2.实体对齐主要是判断多个不同信息来源的实体是否指向真实世界中同一个对象。如果多个实体表征同一个对象,也需要在这些实体之间构建对齐关系,对实体包含的关系进行融合和聚集。
3.在进行实体对齐时,可能会出现噪声数据,噪声数据可以是多种情况,例如其中一个实体的描述信息中存在错误语句,或者是多个不同的知识图谱中对一个实体某个维度的描述信息是互斥的,进而使得不同知识图谱对于同一个实体的描述存在相应的分歧。
4.所以,在对多个不同信息来源的知识图谱进行实体对齐时,需要主动的噪音检测、噪音感知,进行相应的噪音去除,使得实体对齐后的融合图谱内不存在相应的噪音数据。


技术实现要素:

5.本发明实施例提供一种基于噪音检测和噪音感知的实体对齐方法及装置,能够在对相同领域的数据库进行实体对齐时,对相应的描述信息能够进行主动的噪音检测、噪音感知,使得不仅能够进行实体对齐,还能够自动对描述信息进行噪音去除,使得实体对齐后的融合图谱内不存在相应的噪音数据。
6.本发明实施例的第一方面,提供一种基于噪音检测和噪音感知的实体对齐方法,包括:获取第一知识图谱处目标对齐实体的第一描述信息,以及第二知识图谱处目标对齐实体的第二描述信息;对所述第一描述信息和第二描述信息进行噪音检测,确定第一描述信息和第二描述信息中存在语句错误的第一噪音数据,根据所述第一噪音数据对第一描述信息和第二描述信息按照第一对齐方式进行处理;对第一描述信息和第二描述信息按照描述维度进行分解得到多个第一子描述信息和第二子描述信息,对相同描述维度的第一子描述信息和第二子描述信息进行互斥信息的噪音感知,得到互斥的目标子描述信息及互斥维度;若判断存在至少一个第三知识图谱具有对所述互斥维度描述的第三子描述信息,则基于所述第三子描述信息对所述第一子描述信息和第二子描述信息按照第二对齐方式进行处理;若判断第三知识图谱中不存在与所述互斥维度描述相对应的第三子描述信息,则根据所述第一知识图谱和第二知识图谱的图谱属性对所述第一子描述信息和第二子描述信息按照第二对齐方式进行处理。
7.可选地,在第一方面的一种可能实现方式中,所述对所述第一描述信息和第二描
述信息进行噪音检测,确定第一描述信息和第二描述信息中存在语句错误的第一噪音数据,根据所述第一噪音数据对第一描述信息和第二描述信息按照第一对齐方式进行处理,包括:对所述第一描述信息和第二描述信息分词处理得到多个描述名词,将所述描述名词与电力行业语料库进行比对,确定错误的描述名词和电力行业语料库中的正确名词,基于错误的描述名词生成第一噪音数据;获取第一噪音数据中每个错误的描述名词所对应的正确名词,将所述正确名词对第一描述信息和第二描述信息中错误的描述名词进行替换处理,得到第一对齐方式处理后的第一描述信息和第二描述信息。
8.可选地,在第一方面的一种可能实现方式中,所述对所述第一描述信息和第二描述信息分词处理得到多个描述名词,将所述描述名词与电力行业语料库进行比对,确定错误的描述名词和电力行业语料库中的正确名词,基于错误的描述名词生成第一噪音数据,包括:将描述名词与电力行业语料库中的语料名词进行比对,若判断描述名词与电力行业语料库中的所有语料名词都不相同,且描述名词与部分语料名词的部分字、子的位置相同,则对所述描述名词进行扣字处理得到多个少字名词,每个少字名词的少字位置不同;确定与少字名词中所存在的字、字的位置完全相对应的语料名词,若所述语料名词为一个,则将所述语料名词作为与所述描述名词相对应的正确名词;若所述语料名词为多个,则获取所述目标对齐实体的实体属性,将与所述实体属性相对应的描述名词作为与所述描述名词相对应的正确名词。
9.可选地,在第一方面的一种可能实现方式中,所述确定与少字名词中所存在的字、字的位置完全相对应的语料名词,若所述语料名词为一个,则将所述语料名词作为与所述描述名词相对应的正确名词,包括:获取与所述描述名词相同字数的语料名词;依次选中少字名词中的每个第一字以及每个第一字对应的第一位置;确定相同字数的语料名词中与所述第一位置相同的第二位置,提取所述第二位置处的第二字;若每个相对应的第一位置和第二位置所对应的第一字和第二字完全相同,则确定所述语料名词与少字名词完全相对应。
10.可选地,在第一方面的一种可能实现方式中,还包括:若不存在与所述实体属性相对应的描述名词,则将历史选中次数最高的语料名词作为当前时刻的正确名词。
11.可选地,在第一方面的一种可能实现方式中,所述对第一描述信息和第二描述信息按照描述维度进行分解得到多个第一子描述信息和第二子描述信息,对相同描述维度的第一子描述信息和第二子描述信息进行互斥信息的噪音感知,得到互斥的目标子描述信息及互斥维度,包括:基于预先设置的维度名词对第一描述信息和第二描述信息按照描述维度分解,得到多个第一子描述信息和第二子描述信息;若相同维度名词的第一子描述信息和第二子描述信息为数值信息,且第一子描述
信息和第二子描述信息的数值不同,则噪音感知为第一子描述信息和第二子描述信息为互斥信息;若相同维度名词的第一子描述信息和第二子描述信息为文字信息,第一子描述信息和第二子描述信息的数量不同,且第一子描述信息完全包涵第二子描述信息或第一子描述信息属于第二子描述信息,则判断第一子描述信息和第二子描述信息为包含信息;若第一子描述信息不完全包含第二子描述信息或第一子描述信息不属于第二子描述信息,则判断第一子描述信息和第二子描述信息为互斥信息。
12.可选地,在第一方面的一种可能实现方式中,所述若判断存在至少一个第三知识图谱具有对所述互斥维度描述的第三子描述信息,则基于所述第三子描述信息对所述第一子描述信息和第二子描述信息按照第二对齐方式进行处理,包括:统计与第一子描述信息和第二子描述信息分别对应的第三子描述信息的第一数量和第二数量;若第一数量大于第二数量,则将所述第一子描述信息作为目标对齐实体的描述信息;若第一数量小于第二数量,则将所述第二子描述信息作为目标对齐实体的描述信息。
13.可选地,在第一方面的一种可能实现方式中,还包括:若第一数量等于第二数量,则获取第一子描述信息、第二子描述信息以及第三子描述信息分别对应的第一数据源、第二数据源以及第三数据源;基于预先构建的数据可信度树获取每个第一数据源、第二数据源以及第三数据源所对应的可信度系数,权限越高的数据源所对应的可信度权重越大;统计第一子描述信息所对应的可信度系数之和得到第一总系数,统计第二子描述信息所对应的可信度系数之和得到第二总系数;若第一总系数大于第二总系数,则将所述第一子描述信息作为目标对齐实体的描述信息;若第一总系数小于第二总系数,则将所述第二子描述信息作为目标对齐实体的描述信息。
14.可选地,在第一方面的一种可能实现方式中,若判断第三知识图谱中不存在与所述互斥维度描述相对应的第三子描述信息,则根据所述第一知识图谱和第二知识图谱的图谱属性对所述第一子描述信息和第二子描述信息按照第二对齐方式进行处理,包括:获取数据可信度树中第一知识图谱所对应的第一数据源的第一可信度系数、以及第二知识图谱所对应的第一数据源的第二可信度系数;若第一可信度系数大于第二可信度系数,则将所述第一子描述信息作为目标对齐实体的描述信息;若第一可信度系数小于第二可信度系数,则将所述第二子描述信息作为目标对齐实体的描述信息。
15.可选地,在第一方面的一种可能实现方式中,通过以下步骤构建数据可信度树,包括:根据所有数据源所属数据库的不同权限构建初始可信度树,初始可信度树中的每
个节点对应一个数据源;随机抽取每个数据源内预设数量的样本实体及所对应的描述信息对工作人员进行显示,接收工作人员对所述数据源所反馈的正确标签数量和错误标签数量;基于每个正确标签数量和错误标签数量生成相应数据源的初始可信度系数,并根据所述初始可信度系数和对应的可信度权重得到可信度系数。
16.本发明实施例的第二方面,提供一种基于噪音检测和噪音感知的实体对齐装置,包括:获取模块,用于获取第一知识图谱处目标对齐实体的第一描述信息,以及第二知识图谱处目标对齐实体的第二描述信息;第一对齐模块,用于对所述第一描述信息和第二描述信息进行噪音检测,确定第一描述信息和第二描述信息中存在语句错误的第一噪音数据,根据所述第一噪音数据对第一描述信息和第二描述信息按照第一对齐方式进行处理;分解模块,用于对第一描述信息和第二描述信息按照描述维度进行分解得到多个第一子描述信息和第二子描述信息,对相同描述维度的第一子描述信息和第二子描述信息进行互斥信息的噪音感知,得到互斥的目标子描述信息及互斥维度;第二对齐模块,用于若判断存在至少一个第三知识图谱具有对所述互斥维度描述的第三子描述信息,则基于所述第三子描述信息对所述第一子描述信息和第二子描述信息按照第二对齐方式进行处理;处理模块,用于若判断第三知识图谱中不存在与所述互斥维度描述相对应的第三子描述信息,则根据所述第一知识图谱和第二知识图谱的图谱属性对所述第一子描述信息和第二子描述信息按照第二对齐方式进行处理。
17.有益效果:1、本发明技术方案会在对相同领域的数据库进行实体对齐时,对相应的描述信息能够进行主动的噪音检测、噪音感知,使得不仅能够进行实体对齐,还能够自动对描述信息进行噪音去除,使得实体对齐后的融合图谱内不存在相应的噪音数据;去除噪音的过程中,本方案会先根据不同情况而采用两种不同的处理方式,可以有针对性的快速实现噪音的去除;2、本发明技术方案在第一对齐方式的处理中,采用了扣字处理的方式,并且对得到的结果结合实体属性进行判断,得到较为精准的处理结果;在第二对齐方式的处理中,本方案结合了描述维度对描述信息进行分解,并利用第三知识图谱来协助判断,可以较为精准的实现第二对齐方式;3、本发明技术方案考虑到在某些专属领域,相应的名词、描述、语句往往都是固定的,在专属领域中如果按照普通的实体对齐方式来进行处理则数据处理量大、处理效率较低、易出错,因此,本方案采用与电力行业对应的电力行业语料库,可以高效率的确定出描述名词所对应的正确名词和错误名词,且数据处理量较小;4、本发明技术方案在进行第二对齐方式时,还引入了数据可信度树,可以依据对应节点的可信度来得到第一数据源、第二数据源以及第三数据源所对应的可信度系数,按照可信度系数来确定目标对齐实体的描述信息,可以准确性较高的找到正确的描述信息。
附图说明
18.图1是本发明实施例提供的一种基于噪音检测和噪音感知的实体对齐方法的流程示意图;图2是本发明实施例提供的一种基于噪音检测和噪音感知的实体对齐装置的结构示意图;图3是本发明实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
19.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
20.本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
21.应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
22.应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
23.应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含a、b和c”、“包含a、b、c”是指a、b、c三者都包含,“包含a、b或c”是指包含a、b、c三者之一,“包含a、b和/或c”是指包含a、b、c三者中任1个或任2个或3个。
24.应当理解,在本发明中,“与a对应的b”、“与a相对应的b”、“a与b相对应”或者“b与a相对应”,表示b与a相关联,根据a可以确定b。根据a确定b并不意味着仅仅根据a确定b,还可以根据a和/或其他信息确定b。a与b的匹配,是a与b的相似度大于或等于预设的阈值。
25.取决于语境,如在此所使用的“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。
26.下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
27.参见图1,是本发明实施例提供的一种基于噪音检测和噪音感知的实体对齐方法的流程示意图,图1所示方法的执行主体可以是软件和/或硬件装置。本技术的执行主体可以包括但不限于以下中的至少一个:用户设备、网络设备等。其中,用户设备可以包括但不限于计算机、智能手机、个人数字助理(personal digital assistant,简称:pda)及上述提
及的电子设备等。网络设备可以包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机组成的一个超级虚拟计算机。本实施例对此不做限制。该方法包括步骤s101至步骤s105,具体如下:s101,获取第一知识图谱处目标对齐实体的第一描述信息,以及第二知识图谱处目标对齐实体的第二描述信息。
28.本方案会对多个不同的知识图谱进行融合,在融合过程中,需要对多个不同信息来源的知识图谱进行实体对齐,需要主动的噪音检测、噪音感知,进行相应的噪音去除,使得实体对齐后的融合图谱内不存在相应的噪音数据。
29.其中,第一知识图谱所对应的内容例如可以是对应安装人员的数据库;目标对齐实体例如可以是“变压器”等,第一描述信息可以是对应“变压器”的描述,例如可以是“变压器的位置为1区a点”;第二知识图谱所对应的内容例如可以是维修人员的数据库,目标对齐实体例如可以是“变压器”等,第二描述信息可以是对应“变压器”的描述,例如可以是“变压器的位置为1区a点”。
30.s102,对所述第一描述信息和第二描述信息进行噪音检测,确定第一描述信息和第二描述信息中存在语句错误的第一噪音数据,根据所述第一噪音数据对第一描述信息和第二描述信息按照第一对齐方式进行处理。
31.本方案在对目标对齐实体进行对齐时,需要对第一描述信息和第二描述信息进行噪音检测,确定第一描述信息和第二描述信息中存在语句错误的第一噪音数据,利用第一噪音数据对第一描述信息和第二描述信息按照第一对齐方式进行处理。
32.示例性的,目标对齐实体可以是“变压器”,第一描述信息为“变压器的位置为1区a点”,第二描述信息为“变变器的位置为1区a点”,本方案会对第一描述信息和第二描述信息进行检测,可以确定出第一描述信息和第二描述信息中存在语句错误的第一噪音数据,例如可以是第二描述信息中的“变变器”,然后利用第一噪音数据对第一描述信息和第二描述信息按照第一对齐方式进行处理。
33.在一些实施例中,所述对所述第一描述信息和第二描述信息进行噪音检测,确定第一描述信息和第二描述信息中存在语句错误的第一噪音数据,根据所述第一噪音数据对第一描述信息和第二描述信息按照第一对齐方式进行处理,包括步骤s111-s112:s111,对所述第一描述信息和第二描述信息分词处理得到多个描述名词,将所述描述名词与电力行业语料库进行比对,确定错误的描述名词和电力行业语料库中的正确名词,基于错误的描述名词生成第一噪音数据。
34.首先,本方案会对第一描述信息和第二描述信息分词处理得到多个描述名词,例如,描述名词例如可以是第一描述信息中的“变压器”以及第二描述信息中的“变变器”。
35.然后,本方案会将描述名词与电力行业语料库进行比对,找到电力行业语料库中的正确名词,基于错误的描述名词生成第一噪音数据。例如,电力行业语料库中的正确名词为“变压器”,那么“变变器”就是错误的描述名词,此时会根据“变变器”生成第一噪音数据。
36.需要说明的是,在某些专属领域,相应的名词、描述、语句往往都是固定的,在专属领域中如果按照普通的实体对齐方式来进行处理则数据处理量大、处理效率较低、易出错。本方案采用与电力行业对应的电力行业语料库,可以高效率的确定出描述名词所对应的正
确名词和错误名词,且数据处理量较小。
37.s112,获取第一噪音数据中每个错误的描述名词所对应的正确名词,将所述正确名词对第一描述信息和第二描述信息中错误的描述名词进行替换处理,得到第一对齐方式处理后的第一描述信息和第二描述信息。
38.本方案会获取第一噪音数据中每个错误的描述名词所对应的正确名词,例如“变压器”,然后利用“变压器”对第一描述信息和第二描述信息中错误的“变变器”进行替换处理,得到第一对齐方式处理后的第一描述信息和第二描述信息。
39.本方案通过上述方式,可以对存在语句错误的噪音数据进行修正,使得融合后的图谱内的数据是准确的。
40.在一些实施例中,所述对所述第一描述信息和第二描述信息分词处理得到多个描述名词,将所述描述名词与电力行业语料库进行比对,确定错误的描述名词和电力行业语料库中的正确名词,基于错误的描述名词生成第一噪音数据,包括步骤a-c:a,将描述名词与电力行业语料库中的语料名词进行比对,若判断描述名词与电力行业语料库中的所有语料名词不完全相同,不完全相同即为描述名词与部分语料名词的部分字、子的位置相同,则对所述描述名词进行扣字处理得到多个少字名词,每个少字名词的少字位置不同。
41.示例性的,描述名词与电力行业语料库中的所有语料名词不完全相同可以是电力行业语料库中的语料名词为“变压器”,描述名词为“变变器”,此时,“变变器”与“变压器”有相同之处,但是不完全相同。
42.本方案会对描述名词进行扣字处理得到多个少字名词,每个少字名词的少字位置不同。
43.示例性的,对“变变器”进行扣字处理,可以得到多个少字名词(“变变
‑”

“‑
变器”、“变-器”),其中,每个少字名词的少字位置不同。
44.b,确定与少字名词中所存在的字、字的位置完全相对应的语料名词,若所述语料名词为一个,则将所述语料名词作为与所述描述名词相对应的正确名词。
45.本方案在得到少字名词后,会对在电力行业语料库中确定与少字名词中所存在的字、字的位置完全相对应的语料名词,例如
ꢀ“
变压器”,如果语料名词只有一个,那么直接将所述语料名词作为与描述名词相对应的正确名词即可。
46.在一些实施例中,所述确定与少字名词中所存在的字、字的位置完全相对应的语料名词,若所述语料名词为一个,则将所述语料名词作为与所述描述名词相对应的正确名词,包括:获取所述描述名词的相同字数的语料名词。例如,描述名词的字数为3个,那么本方案会先对语料名词进行初步筛选,找到3个字的语料名词,可以减小后续数据的比对量。
47.依次选中少字名词中的每个第一字以及每个第一字对应的第一位置,不选取少字名词中所缺少的字和位置。例如,本方案会选取
“‑
变器”中的“变”以及对应的位置“第二个字”,以及选取
“‑
变器”中的“器”以及对应的位置“第三个字”,以用于后续的精准比对。
48.确定相同字数的语料名词中与所述第一位置相同的第二位置,提取所述第二位置处的第二字。本方案会从初步筛选后的3个字的语料名词中找到对应的位置“第二个字”和“第三个字”,进行二次筛选。
49.若每个相对应的第一位置和第二位置所对应的第一字和第二字完全相同,则确定所述语料名词与少字名词完全相对应。可以理解的是,如果相对应的第一位置和第二位置所对应的第一字和第二字完全相同,那么可以确定所述语料名词与少字名词完全相对应。需要再次说明的是,本方案利用的是电力行业语料库的语料名词进行比对的,不会有一些生僻词语来影响本方案的准确性。
50.c,若所述语料名词为多个,则获取所述目标对齐实体的实体属性,将与所述实体属性相对应的描述名词作为与所述描述名词相对应的正确名词。
51.示例性的,对“电电传感器”进行扣字处理,可以得到多个少字名词(
“‑
电传感器”、“电-传感器”、“电电-感器”、“电电传-器”、“电电传感
‑”
),其中,每个少字名词的少字位置不同。
52.本方案在得到少字名词后,会对在电力行业语料库中确定与少字名词中所存在的字、字的位置完全相对应的语料名词,例如
ꢀ“
电压传感器”和“电流传感器”此时,语料名词有多个。
53.为了确定正确名词,本方案会获取目标对齐实体的实体属性,将与实体属性相对应的描述名词作为与所述描述名词相对应的正确名词。
54.示例性的,实体属性例如可以是“电压转换站”,那么此时“电压传感器”为正确名词的可能性较大,本方案可以较为准确的得到正确名词。
55.在上述实施例的基础上,还包括:若不存在与所述实体属性相对应的描述名词,则将历史选中次数最高的语料名词作为当前时刻的正确名词。
56.本方案还考虑到可能会不存在与实体属性相对应的描述名词,针对这种情况,本方案会将历史选中次数最高的语料名词作为当前时刻的正确名词。例如,针对“电压传感器”和“电流传感器”,如果“电压传感器”历史被选中次数为50次,“电流传感器”历史被选中次数为10次,本方案可以将“电压传感器”作为当前时刻的正确名词。
57.s103,对第一描述信息和第二描述信息按照描述维度进行分解得到多个第一子描述信息和第二子描述信息,对相同描述维度的第一子描述信息和第二子描述信息进行互斥信息的噪音感知,得到互斥的目标子描述信息及互斥维度。
58.在步骤s102利用第一对齐方式对第一描述信息和第二描述信息处理后,可以修正第一描述信息和第二描述信息中语句错误的描述,然后本方案会对第一描述信息和第二描述信息进一步处理。
59.其中,描述维度例如是位置维度和时间维度,位置维度例如是“1区a点”,时间维度例如是“安装时间为某年某月某日”,本方案会对第一描述信息和第二描述信息按照描述维度进行分解得到多个第一子描述信息和第二子描述信息。
60.之后,本方案会对相同描述维度的第一子描述信息和第二子描述信息进行互斥信息的噪音感知,得到互斥的目标子描述信息及互斥维度。
61.示例性的,以位置维度为例,针对目标对齐实体“变压器”,第一子描述信息可以是“1区a点”,第二子描述信息可以是“1区b点”,此时,第一子描述信息和第二子描述信息是互斥的,本方案会得到互斥的目标子描述信息(“1区a点”和“1区b点”)以及互斥维度(位置维度),对第一描述信息和第二描述信息处理进行进一步的处理。
62.在一些实施例中,所述对第一描述信息和第二描述信息按照描述维度进行分解得到多个第一子描述信息和第二子描述信息,对相同描述维度的第一子描述信息和第二子描述信息进行互斥信息的噪音感知,得到互斥的目标子描述信息及互斥维度,包括:基于预先设置的维度名词对第一描述信息和第二描述信息按照描述维度分解,得到多个第一子描述信息和第二子描述信息。其中,维度名词可以是位置名词,本方案会先利用维度名词对第一描述信息和第二描述信息按照描述维度分解,得到多个第一子描述信息和第二子描述信息,第一子描述信息可以是“1区a点”,第二子描述信息可以是“1区b点”。
63.若相同维度名词的第一子描述信息和第二子描述信息为数值信息,且第一子描述信息和第二子描述信息的数值不同,则噪音感知为第一子描述信息和第二子描述信息为互斥信息。本方案会对第一子描述信息和第二子描述信息进行判断,如果相同维度名词的第一子描述信息和第二子描述信息为数值信息的数值不同,那么说明第一子描述信息和第二子描述信息为互斥信息。例如,针对位置维度,第一子描述信息可以是“156号”,第二子描述信息可以是“157号”,此时,第一子描述信息和第二子描述信息是互斥的。
64.若相同维度名词的第一子描述信息和第二子描述信息为文字信息,第一子描述信息和第二子描述信息的数量不同,且第一子描述信息完全包含第二子描述信息或第一子描述信息属于第二子描述信息,则判断第一子描述信息和第二子描述信息为包含信息。
65.若第一子描述信息不完全包含第二子描述信息或第一子描述信息不属于第二子描述信息,则判断第一子描述信息和第二子描述信息为互斥信息。
66.示例性的,在位置维度,第一子描述信息为“1区”,第二子描述信息为“1区a点”,此时,第一子描述信息和第二子描述信息的数量不同,且第一子描述信息(“1区”)完全包含第二子描述信息(“1区a点”),那么可以确定第一子描述信息和第二子描述信息为包含信息。
67.另一示例性的,在位置维度,第一子描述信息为“1区b点”,第二子描述信息为“1区a点”,此时,第一子描述信息和第二子描述信息的数量不同,且第一子描述信息(“1区b点”)不包含第二子描述信息(“1区a点”),那么可以确定第一子描述信息和第二子描述信息为互斥信息。
68.本方案按照不同情况生成了对应的判断方案,可以较为灵活全面的实现对第一子描述信息和第二子描述信息的处理。
69.s104,若判断存在至少一个第三知识图谱具有对所述互斥维度描述的第三子描述信息,则基于所述第三子描述信息对所述第一子描述信息和第二子描述信息按照第二对齐方式进行处理。
70.本方案在确定第一子描述信息和第二子描述信息互斥后,会参考至少一个第三知识图谱具有对所述互斥维度描述的第三子描述信息,来利用第三子描述信息对第一子描述信息和第二子描述信息按照第二对齐方式进行处理。其中,第三知识图谱可以有多个,例如可以有5个。
71.在一些实施例中,所述若判断存在至少一个第三知识图谱具有对所述互斥维度描述的第三子描述信息,则基于所述第三子描述信息对所述第一子描述信息和第二子描述信息按照第二对齐方式进行处理,包括:统计与第一子描述信息和第二子描述信息分别对应的第三子描述信息的第一数量和第二数量。以第一子描述信息是“156号”、第二子描述信息是“157号”为例,第三子描述
信息在互斥维度(位置维度)上的第三子描述信息为(“157号”、“157号”、“157号”、“157号”、“156号”),此时可以发现第三子描述信息中有4个“157号”,1个“156号”,则第一数量为1,第二数量为4。
72.若第一数量大于第二数量,则将所述第一子描述信息作为目标对齐实体的描述信息。
73.若第一数量小于第二数量,则将所述第二子描述信息作为目标对齐实体的描述信息。
74.可以理解的是,第一数量大于第二数量时,那么第一子描述信息为正确的可能性较大,可以将第一子描述信息作为目标对齐实体的描述信息。同理,第一数量小于第二数量时,那么第二子描述信息为正确的可能性较大,可以将第二子描述信息作为目标对齐实体的描述信息。
75.本方案考虑到第一子描述信息和第二子描述信息分别对应的第三子描述信息的第一数量和第二数量相等,例如,第一数量和第二数量均为2,为了确定哪个描述信息是正确的,本方案在上述实施例的基础上,还包括:若第一数量等于第二数量,则获取第一子描述信息、第二子描述信息以及第三子描述信息分别对应的第一数据源、第二数据源以及第三数据源。其中,第一数据源、第二数据源以及第三数据源分别为对应子描述信息的数据来源。
76.基于预先构建的数据可信度树获取每个第一数据源、第二数据源以及第三数据源所对应的可信度系数,权限越高的数据源所对应的可信度权重越大。本方案建立了数据可信度树,来记录第一数据源、第二数据源以及第三数据源所对应的可信度系数,用于后续判断。其中,权限越高的数据源所对应的可信度权重越大,可以利用可信度权重与初始的可信度系数进行加权处理,得到对应节点的可信度系数。例如,省级节点对应的数据源比市级节点对应的数据源的可信度权重大,市级节点对应的数据源比县级节点对应的数据源的可信度权重大。需要说明的是,第三数据源可以有多个。
77.统计第一子描述信息所对应的可信度系数之和得到第一总系数,统计第二子描述信息所对应的可信度系数之和得到第二总系数。可以理解的是,本方案会获取到第一子描述信息的可信度系数之和得到第一总系数,获取到第二子描述信息的可信度系数之和得到第二总系数。
78.若第一总系数大于第二总系数,则将所述第一子描述信息作为目标对齐实体的描述信息。
79.若第一总系数小于第二总系数,则将所述第二子描述信息作为目标对齐实体的描述信息。
80.可以理解的是,第一总系数大于第二总系数时,那么第一子描述信息为正确的可能性较大,可以将第一子描述信息作为目标对齐实体的描述信息。同理,第一总系数小于第二总系数时,那么第二子描述信息为正确的可能性较大,可以将第二子描述信息作为目标对齐实体的描述信息。
81.s105,若判断第三知识图谱中不存在与所述互斥维度描述相对应的第三子描述信息,则根据所述第一知识图谱和第二知识图谱的图谱属性对所述第一子描述信息和第二子描述信息按照第二对齐方式进行处理。
82.与步骤s104不同的是,本方案考虑到第三知识图谱中会出现不存在与所述互斥维度描述相对应的第三子描述信息的情况,本方案会根据所述第一知识图谱和第二知识图谱的图谱属性对所述第一子描述信息和第二子描述信息按照第二对齐方式进行处理。
83.在一些实施例中,若判断第三知识图谱中不存在与所述互斥维度描述相对应的第三子描述信息,则根据所述第一知识图谱和第二知识图谱的图谱属性对所述第一子描述信息和第二子描述信息按照第二对齐方式进行处理,包括:获取数据可信度树中第一知识图谱所对应的第一数据源的第一可信度系数、以及第二知识图谱所对应的第一数据源的第二可信度系数。
84.若第一可信度系数大于第二可信度系数,则将所述第一子描述信息作为目标对齐实体的描述信息;若第一可信度系数小于第二可信度系数,则将所述第二子描述信息作为目标对齐实体的描述信息。
85.本方案会分别获取第一知识图谱所对应的第一数据源的第一可信度系数、以及第二知识图谱所对应的第一数据源的第二可信度系数,如果说第一可信度系数大于第二可信度系数时,那么第一子描述信息为正确的可能性较大,可以将第一子描述信息作为目标对齐实体的描述信息。同理,第一可信度系数小于第二可信度系数时,那么第二子描述信息为正确的可能性较大,可以将第二子描述信息作为目标对齐实体的描述信息。
86.在一些实施例中,可以通过以下步骤构建数据可信度树,包括:根据所有数据源所属数据库的不同权限构建初始可信度树,初始可信度树中的每个节点对应一个数据源。节点可以是省级节点(省级维修部门)、市级节点(市级维修部门)和县级节点(县级维修部门)等等,其中,市级节点为省级节点的下级节点,县级节点为市级节点的下级节点。
87.随机抽取每个数据源内预设数量的样本实体及所对应的描述信息对工作人员进行显示,接收工作人员对所述数据源所反馈的正确标签数量和错误标签数量。基于每个正确标签数量和错误标签数量生成相应数据源的初始可信度系数,并根据所述初始可信度系数和对应的可信度权重得到可信度系数。
88.本方案为了得到相应数据源的可信度系数,可以抽取每个数据源内预设数量的样本实体及所对应的描述信息,然后让工作人员对数据源进行判断,正确则给予正确标签,错误则基于错误标签,本方案会统计节点的正确标签数量和错误标签数量,利用正确标签数量和错误标签数量生成相应数据源的可信度系数。参考图2,是本发明实施例提供的一种基于噪音检测和噪音感知的实体对齐装置的结构示意图,该基于噪音检测和噪音感知的实体对齐装置包括:获取模块,用于获取第一知识图谱处目标对齐实体的第一描述信息,以及第二知识图谱处目标对齐实体的第二描述信息;第一对齐模块,用于对所述第一描述信息和第二描述信息进行噪音检测,确定第一描述信息和第二描述信息中存在语句错误的第一噪音数据,根据所述第一噪音数据对第一描述信息和第二描述信息按照第一对齐方式进行处理;分解模块,用于对第一描述信息和第二描述信息按照描述维度进行分解得到多个第一子描述信息和第二子描述信息,对相同描述维度的第一子描述信息和第二子描述信息
进行互斥信息的噪音感知,得到互斥的目标子描述信息及互斥维度;第二对齐模块,用于若判断存在至少一个第三知识图谱具有对所述互斥维度描述的第三子描述信息,则基于所述第三子描述信息对所述第一子描述信息和第二子描述信息按照第二对齐方式进行处理;处理模块,用于若判断第三知识图谱中不存在与所述互斥维度描述相对应的第三子描述信息,则根据所述第一知识图谱和第二知识图谱的图谱属性对所述第一子描述信息和第二子描述信息按照第二对齐方式进行处理。
89.图2所示实施例的装置对应地可用于执行图1所示方法实施例中的步骤,其实现原理和技术效果类似,此处不再赘述。
90.参见图3,是本发明实施例提供的一种电子设备的硬件结构示意图,该电子设备30包括:处理器31、存储器32和计算机程序;其中存储器32,用于存储所述计算机程序,该存储器还可以是闪存(flash)。所述计算机程序例如是实现上述方法的应用程序、功能模块等。
91.处理器31,用于执行所述存储器存储的计算机程序,以实现上述方法中设备执行的各个步骤。具体可以参见前面方法实施例中的相关描述。
92.可选地,存储器32既可以是独立的,也可以跟处理器31集成在一起。
93.当所述存储器32是独立于处理器31之外的器件时,所述设备还可以包括:总线33,用于连接所述存储器32和处理器31。
94.本发明还提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。
95.其中,存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(application specific integrated circuits,简称:asic)中。另外,该asic可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。存储介质可以是只读存储器(rom)、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
96.本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在存储介质中。设备的至少一个处理器可以从存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
97.在上述终端或者服务器的实施例中,应理解,处理器可以是中央处理单元(英文:central processing unit,简称:cpu),还可以是其他通用处理器、数字信号处理器(英文:digital signal processor,简称:dsp)、专用集成电路(英文:application specific integrated circuit,简称:asic)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
98.最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依
然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1