1.本发明涉及数据处理技术领域,具体地涉及一种数据资产智能匹配的实现方法、一种数据资产智能匹配的实现装置、一种数据资产智能匹配的实现设备以及一种计算机可读存储介质。
背景技术:2.数据资产是指由个人或企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源。数据资产被认为是数字时代的最重要的资产形式之一。元数据是构建数据资产的基础信息,元数据采集过程中,对于新增元数据采集,存在与原有元数据内容重复或相似等情况,元数据的内容重复或相似对数据资产的唯一性和权威性有较大影响。针对上述问题,提出了数据资产智能识别与匹配的方案,通过算法识别数据资产重复、相似情况,并将结果提交人工判定,再根据人工判定结果自动修正算法相应参数,以逐步提升数据资产智能匹配精准度。从而达到智能识别数据资产唯一性和权威性的目的。
3.数据资产智能识别本质是通过算法识别相似的数据资产和数据。现有技术中主要靠人工数据资产盘点,效率较低。针对数据资产智能识别,目前了解尚未有相关设计实施方案。
技术实现要素:4.本发明实施例的目的是提供一种数据资产智能匹配的实现方法、装置及设备,借助数学算法提高元数据采集生成数据资产过程中数据资产的唯一性与权威性。
5.为了实现上述目的,本发明的第一方面提供了一种数据资产智能匹配的实现方法,该方法包括:
6.将数据资产的名称和字段在数据资产库中进行匹配得到匹配结果;根据所述数据资产与所述匹配结果的名称相似率和字段重复率,计算所述数据资产对应的第一匹配性评价值;若归一化的第一匹配性评价值不为其范围的端点,则通过调整名称相似率和字段重复率的对应权重,重新计算得到第二匹配性评价值;将所述第二匹配性评价值映射至所述范围的端点。
7.优选的,所述名称相似率通过以下步骤计算:根据数据资产与匹配结果的名称中连续一致字符个数和匹配结果的名称的总字符个数,得到所述名称相似率。
8.优选的,所述字段重复率通过以下步骤计算:分别获取所述数据资产和匹配结果的字段集为第一列表和第二列表;获取所述第一列表和第二列表中的相同字段的个数;根据所述相同字段的个数和第二列表中的字段个数得到所述字段重复率。
9.优选的,通过调整名称相似率和字段重复率的对应权重,重新计算得到第二匹配性评价值,包括:确定所述名称相似率和字段重复率的初始权重和权重调整步进;根据所述权重调整步进调整所述初始权重,以每次调整后的权重计算一个匹配性评价值;以得到的
多个匹配性评价值中的最大值作为所述第二匹配性评价值。
10.优选的,所述方法还包括:以所述第二匹配性评价值所对应的权重为最优权重;针对于所述数据资产具有关联关系的其他数据资产,所述通过调整名称相似率和字段重复率的对应权重,重新计算得到第二匹配性评价值的步骤被替换为:通过名称相似率和字段重复率的最优权重,重新计算得到第二匹配性评价值。
11.优选的,所述方法还包括:在所述名称相似率和字段重复率之外,增加以下标签中的至少一者,并对增加的标签设置对应的权重:数据类别、是否时序数据、数据量级、使用人信息和数据来源。
12.优选的,所述方法还包括:若归一化的第一匹配性评价值为布尔值中的表示“匹配”的取值,则获取所述数据资产与所述匹配结果的时间属性,根据所述时间属性确定对所述数据资产的执行动作。
13.在本发明的第二方面,还提供了一种数据资产智能匹配的实现装置,所述装置包括:
14.数据匹配模块,用于将数据资产的名称和字段在数据资产库中进行匹配得到匹配结果;第一评价计算模块,用于根据所述数据资产与所述匹配结果的名称相似率和字段重复率,计算所述数据资产对应的第一匹配性评价值;第二评价计算模块,用于若归一化的第一匹配性评价值不为其范围的端点,则通过调整名称相似率和字段重复率的对应权重,重新计算得到第二匹配性评价值;以及匹配结果模块,用于将所述第二匹配性评价值映射至所述范围的端点。
15.在本发明的第三方面,还提供了一种数据资产智能匹配的实现设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的数据资产智能匹配的实现方法的步骤。
16.在本发明的第四方面,还提供了一种计算机可读存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行前述的数据资产智能匹配的实现方法的步骤。
17.本发明的第五方面提供一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述的数据资产智能匹配的实现方法。
18.上述技术方案至少具有以下有益效果:
19.本方案可以通过多种算法融合在计算机程序实现下从大量数据中找出相似度高的,同时根据人工判定结果和标签辅助,不断对融合算法进行优化,以提升数据资产唯一性与权威性的精准度。同时,本方案可以方便的移植到其他数据查重场景中使用。
20.本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
21.附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
22.图1示意性示出了根据本发明实施方式的数据资产智能匹配的实现方法的实施示意图;
23.图2示意性示出了根据本发明实施方式的数据资产管理流程示意图;
24.图3示意性示出了根据本发明实施方式的权威性检验的实施步骤示意图;
25.图4示意性示出了根据本发明实施方式的数据资产智能匹配的实现装置的结构示意图。
具体实施方式
26.以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
27.图1示意性示出了根据本发明实施方式的数据资产智能匹配的实现方法的实施示意图。如图1所示,该方法包括:
28.s01、将数据资产的名称和字段在数据资产库中进行匹配得到匹配结果;
29.s02、根据所述数据资产与所述匹配结果的名称相似率和字段重复率,计算所述数据资产对应的第一匹配性评价值;
30.s03、若归一化的第一匹配性评价值不为其范围的端点,则通过调整名称相似率和字段重复率的对应权重,重新计算得到第二匹配性评价值;
31.s04、将所述第二匹配性评价值映射至所述范围的端点。
32.在本实施方式中,定义了匹配性评价值这个度量值,如果完全相同,匹配性评价值为100%,完全不同则匹配性评价值为0%。将以上匹配性评价值进行归一化,则两个端点分别为0和1,其中0表示完全不同,1表示完全相同。但是在大多数情况下,得到的匹配性评价值在0和1之间,此时表示部分相同,因此需要进行一步进行匹配性判断。通过计算得到另一个匹配性评价值,即第二匹配性评价值,通过该第二匹配性评价值,得到该数据资产是否相似的布尔值。其中的数据资产库也可称为数据治理平台或数据管理平台。
33.图2示意性示出了根据本发明实施方式的数据资产管理流程示意图。如图2所示,数据资产管理主要包括元数据采集、数据对象存储、数据资产盘点、数据资产发布、数据服务创建与提供几个环节。为确保数据资产唯一与权威,在数据对象存储(入库)之前,需要对其进行一定的处理。
34.通过以上实施方式,能够智能判断出未采集元数据和已采集元数据的相似性,并提升数据资产智能匹配精准度,从而提高采集效率和精度。
35.在本发明提供的一些实施方式中,所述名称相似率通过以下步骤计算:根据数据资产与匹配结果的名称中连续一致字符个数和匹配结果的名称的总字符个数,得到所述名称相似率。例如:a表中有且仅有的3个字段中文名称或英文名称与b表中有且仅有的3个字段中文名称或英文名称(不区分大小写)完全一样。如b表范围大于a表范围,不能判定为完全一样。在部分一样时,通过以下公式计算名称相似率:
36.连续一致字符个数/数据资产库英文表名总字符个数*100%;
37.连续一致字符个数/数据资产库中文表名总字符个数*100%。
38.在本发明提供的一些实施方式中,所述字段重复率通过以下步骤计算:分别获取所述数据资产和匹配结果的字段集为第一列表和第二列表;获取所述第一列表和第二列表中的相同字段的个数;根据所述相同字段的个数和第二列表中的字段个数得到所述字段重复率。具体的,中、英文字段重复率等于:字段一样个数/已采集数据资产包含字段总数*
100%。进一步的,通过以下方式得到第一匹配性评价值:字段重复率*字段权重+表名相似率*表名权重,其中:表名权重+字段权重=1。为便于本领域技术人员理解和实施,特举例一种实施方式如下:
39.该数据资产部分相同判定算法的伪代码如下:
40.计算未采表名a和已采表名b的相似度;
41.计算未采表a和已采表b的字段重复率;
42.计算匹配性评价值=字段重复率*字段权重+表名相似率*表名权重;
43.if(整体重复率》阈值60%){将{a,b}对推荐给用户选择;记录计算结果;}
44.else{记录计算结果,并不推荐;}}//低于推荐阈值
45.在本发明提供的一些实施方式中,通过调整名称相似率和字段重复率的对应权重,重新计算得到第二匹配性评价值,包括:确定所述名称相似率和字段重复率的初始权重和权重调整步进;根据所述权重调整步进调整所述初始权重,以每次调整后的权重计算一个匹配性评价值;以得到的多个匹配性评价值中的最大值作为所述第二匹配性评价值。具体的,现在则以初始权重x=0.5为初始值,采用迭代累进的方式,增加或减少x的值,每次步长为0.01,然后循环计算匹配性评价值vsim的大小,直到两个数据资产之间的vsim的值为最大为止。如果计算过程中发现vsim越来越小,说明步进方向反了,切换步进方向,比如增加0.01变为减少0.01。
46.比较对象可以采用以下方式确定:现有本次采集资产a,其有表名tna和字段cna1,cna2,
…
,cna5,初始权重x=0.5。
47.经过计算,发现已采集资产中有资产b1,b2,...,b6和a的相似度》60%,分别为0.95,0.83,0.73,0.89,0.92,0.77。经过用户标签选择,选中b2(0.83)作为最终结果,其他5个选项均被否定。
48.在本发明提供的一些实施方式中,所述方法还包括:以所述第二匹配性评价值所对应的权重为最优权重;针对于所述数据资产具有关联关系的其他数据资产,所述通过调整名称相似率和字段重复率的对应权重,重新计算得到第二匹配性评价值的步骤被替换为:通过名称相似率和字段重复率的最优权重,重新计算得到第二匹配性评价值。
49.针对本次采集的数据资产a的最佳x计算完成后,然后以此x作为权重,开始计算针对一批未采集资产,比如同样资产a1,a2,
…
,a10的已采集的相似的资产:
50.本次采集的数据资产a1与对应的已采集相似资产集合sta1{已采集资产ta11,ta12,..,ta1n},假定从sta1中用户标签ta18为重复资产。
51.中间过程类似,此处不再重复。
52.本次采集资产a10与对应的已采集相似资产集合sta10{已采集资产ta101,ta102,..,ta10k},假定从sta10中用户标签ta103为重复资产。
53.于是有本次采集的数据资产集合{a1,...,a10}和用户标签集合{ta18,..,ta103}的一一对应关系。
54.针对大量的数据资产,我们可以采用同样的方式计算x的最佳值,比如采用1000个数据资产,10000个数据资产。当数据资产数越大,x的值越稳定,收敛到一定程度后,可以不再计算,作为当系统缺省的公式权重。当系统有比较大的变化时,则可以重新计算,以此减小系统的处理开销。
55.在本发明提供的一些实施方式中,所述方法还包括:在所述名称相似率和字段重复率之外,增加以下标签中的至少一者,并对增加的标签设置对应的权重:数据类别、是否时序数据、数据量级、使用人信息和数据来源。具体的,本实施方式通过增加分类标签的方式来标记第一部分方法判断失败的例子。这样所有的数据处理完成后,再把没有判断成功的例子通过增加标签的方式再跑一遍,这个过程可以重复,这样后续的识别率可能会提高,主要就是给未识别成功的数据通过人工方式打标签,增加额外的判断信息,从而在后续的迭代中提高识别率,比如增加以下类别的标签:数据类别(产品,物资,人员,运营等)、时序数据/非时序数据、数据量大小是否相同量级、使用人员部门或使用人员、来源单位或部门。采用上节所述类似方法将其加入到权重公式中,再进行计算,得出最优的匹配度。为简单起见,上述类别的重复率为:如果相同则为1,否则为0。
56.图3示意性示出了根据本发明实施方式的权威性检验的实施步骤示意图。如图3所示,在本发明提供的一些实施方式中,所述方法还包括:若归一化的第一匹配性评价值为布尔值中的表示“匹配”的取值,则获取所述数据资产与所述匹配结果的时间属性,根据所述时间属性确定对所述数据资产的执行动作。本步骤也可被称为权威性校验,如本次采集数据资产与已有数据资产重复(人工判定)的话,则需进行数据资产权威性校验,以确保数据资产来源权威。根据数据资产对应数据库表里的数据创建时间判定数据是否权威。原则上数据创建时间早的则为权威数据资产。例如:b为本次采集数据资产,被判定为已有的a重复(已打标签),需通过调取b数据资产对应的数据和a数据资产对应的数据,比对数据的创建时间,哪个数据资产对应的数据创建时间早,则被判定为权威数据资产,如现有a为权威数据资产,则对现有数据资产打标签,如b被判定为权威数据资产,则需删除或将a资产置为无效,采集b数据资产作为权威数据资产。该算法的伪代码如下:
[0057][0058][0059]
基于相同的发明构思,本发明的实施方式中还提供了一种数据资产智能匹配的实现装置。图4示意性示出了根据本发明实施方式的数据资产智能匹配的实现装置的结构示意图。如图4所示,该装置包括:数据匹配模块,用于将数据资产的名称和字段在数据资产库中进行匹配得到匹配结果;第一评价计算模块,用于根据所述数据资产与所述匹配结果的名称相似率和字段重复率,计算所述数据资产对应的第一匹配性评价值;第二评价计算模块,用于若归一化的第一匹配性评价值不为其范围的端点,则通过调整名称相似率和字段重复率的对应权重,重新计算得到第二匹配性评价值;以及匹配结果模块,用于将所述第二匹配性评价值映射至所述范围的端点。
[0060]
在一些可选实施方式中,所述名称相似率通过以下步骤计算:根据数据资产与匹配结果的名称中连续一致字符个数和匹配结果的名称的总字符个数,得到所述名称相似率。
[0061]
在一些可选实施方式中,所述字段重复率通过以下步骤计算:分别获取所述数据资产和匹配结果的字段集为第一列表和第二列表;获取所述第一列表和第二列表中的相同字段的个数;根据所述相同字段的个数和第二列表中的字段个数得到所述字段重复率。
[0062]
在一些可选实施方式中,通过调整名称相似率和字段重复率的对应权重,重新计算得到第二匹配性评价值,包括:确定所述名称相似率和字段重复率的初始权重和权重调整步进;根据所述权重调整步进调整所述初始权重,以每次调整后的权重计算一个匹配性评价值;以得到的多个匹配性评价值中的最大值作为所述第二匹配性评价值。
[0063]
在一些可选实施方式中,所述方法还包括,以所述第二匹配性评价值所对应的权重为最优权重;针对于所述数据资产具有关联关系的其他数据资产,所述通过调整名称相似率和字段重复率的对应权重,重新计算得到第二匹配性评价值的步骤被替换为:通过名称相似率和字段重复率的最优权重,重新计算得到第二匹配性评价值。
[0064]
在一些可选实施方式中,所述方法还包括:在所述名称相似率和字段重复率之外,增加以下标签中的至少一者,并对增加的标签设置对应的权重:数据类别、是否时序数据、数据量级、使用人信息和数据来源。
[0065]
在一些可选实施方式中,所述方法还包括:若归一化的第一匹配性评价值为布尔值中的表示“匹配”的取值,则获取所述数据资产与所述匹配结果的时间属性,根据所述时间属性确定对所述数据资产的执行动作。
[0066]
上述的数据资产智能匹配的实现装置中的各个功能模块的具体限定可以参见上文中对于数据资产智能匹配的实现方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
[0067]
在本发明提供的一些实施方式中,还提供了一种数据资产智能匹配的实现设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的数据资产智能匹配的实现方法的步骤。此处的处理器具有数值计算和逻辑运算的功能,其至少具有数据处理能力的中央处理器cpu、随机存储器ram、只读存储器rom、多种i/o口和中断系统等。处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现前述的方法。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram),存储器包括至少一个存储芯片。
[0068]
在本发明的一种实施方式中,还提供了一种计算机可读存储介质,所述存储介质中存储有指令,当其在计算机上运行时,该指令在被处理器执行时使得处理器被配置成执行上述的数据资产智能匹配的实现方法。
[0069]
在本发明提供的一种实施方式中,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述的数据资产智能匹配的实现方法。
[0070]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产
品的形式。
[0071]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0072]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0073]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0074]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0075]
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。存储器是计算机可读介质的示例。
[0076]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
[0077]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0078]
以上仅为本技术的实施例而已,并不用于限制本技术。对于本领域技术人员来说,本技术可以有各种更改和变化。凡在本技术的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本技术的权利要求范围之内。