一种数据质量评估方法及装置、电子设备、存储介质与流程

文档序号:30754527发布日期:2022-07-13 10:16阅读:58来源:国知局
一种数据质量评估方法及装置、电子设备、存储介质与流程

1.本发明涉及数据处理的技术领域,尤其是涉及一种数据质量评估方法及装置、电子设备、存储介质。


背景技术:

2.在当前计算机技术的支持下,许多企业需要从数据中不断获取越来越多的价值。在有价值的数据背后,隐藏着不规范的和杂乱无章的数据,这些不规范的数据和杂乱无章的数据,会影响最终结果的正确性,所以,通常需要对没有价值的数据进行过滤、清洗,提高原始数据的规范性,从而提高数据的有效性和准确性。然而,在大量有问题的数据面前,用户难以快速定位数据存在的问题,数据清理的效率低下。


技术实现要素:

3.为了快速定位数据存在的问题,提高数据清理的效率,第一方面,本发明提供一种数据质量评估方法,采用如下的技术方案:一种数据质量评估方法,包括:获取待评估数据;其中,所述待评估数据是金融数据;根据各预设指标的预设评分规则,分别计算所述待评估数据在各第一预设周期的各所述预设指标初始评分;根据所述预设指标初始评分和预设时间衰减规则,分别计算各所述预设指标综合评分;展示各所述预设指标综合评分。
4.通过采用上述技术方案,利用多个预设指标从多个维度对数据质量进行评分,并按照分值的方式向用户展示数据各个维度的评估质量,方便用户快速定位数据存在的问题,提高数据清理的效率。
5.可选的,在所述展示各预设指标综合评分之前,还包括:根据预设权重规则对所述各预设指标综合评分进行加权计算,生成数据质量综合评分;以及在所述展示各预设指标综合评分时,展示所述数据质量综合评分。
6.通过采用上述技术方案,通过对多个预设指标综合评分进行加权计算来生成数据质量综合评分,并在向用户展示数据各个维度的评估质量时,同时向用户展示数据质量综合评分,便于用户对数据质量进行整体把控,以确定是否需要根据具体维度定位数据存在的问题,提高数据清理的效率。
7.可选的,所述第一预设周期的数量是第一预设数量,所述第一预设数量大于1,且所述第一预设数量的所述第一预设周期在时间轴上是连续的;对于任一预设指标,所述根据所述预设指标初始评分和预设时间衰减规则,分别计算各所述预设指标综合评分,具体包括:获取第二预设数量的所述预设指标初始评分,计算第一平均值;
获取第三预设数量的所述预设指标初始评分,计算第二平均值;根据预设时间衰减规则对所述第一平均值和所述第二平均值进行时间加权,生成所述预设指标综合评分;其中,所述第二预设数量与所述第三预设数量的和等于所述第一预设数量,且与所述第二预设数量的所述预设指标初始评分对应的所述第一预设周期在时间轴上均早于与所述第三预设数量的所述预设指标初始评分对应的所述第一预设周期;所述预设时间衰减规则是距离当前时间越远,时间权重系数越小。
8.通过采用上述技术方案,对距离当前时间越远的第一预设周期,给予越低的权重,从而根据时间衰减因子来计算预设指标综合评分,能够获得准确性更高的预设指标综合评分。
9.可选的,所述预设指标包括完整性、准确性、稳定性、重复性、规范性和及时性中的至少两个。
10.通过采用上述技术方案,对预设指标进行了具体化,从而便于根据具体的指标进行数据质量评估。
11.可选的,若所述预设指标是完整性,所述预设评分规则包括:若所述待评估数据是时数据或日数据,判断所述待评估数据在所述第一预设周期是否有新增数据,若是,则校验自定义规则,若否,则不扣分;若所述待评估数据是周数据、月数据或年数据,通过反推的方式获取所述待评估数据的上一次执行时间,并判断在所述上一次执行时间至所述第一预设周期的截止时间之间,是否有增量数据,若是,则校验自定义规则,若否,则不扣分。
12.通过采用上述技术方案,根据数据类型来定义完整性指标的预设评分规则,有助于提高完整性指标的准确度。
13.可选的,所述自定义规则包括:基于预设空值规则统计所述待评估数据在所述第一预设周期的空值总量,判断所述空值总量是否大于预设总量,若是,则扣除预设分值,若否,则不扣分。
14.通过采用上述技术方案,基于预设空值规则对完整性指标的自定义规则进行了具体化限定,有助于提高完整性指标的准确度。
15.可选的,若所述预设指标是及时性,所述预设评分规则包括:若所述待评估数据是时数据,计算历史数据在第二预设周期的相同时间点平均启动时间,将所述待评估数据在第一预设周期的启动时间与相同时间点的平均启动时间相减,生成实际延迟时间;根据实际延迟时间和预设扣分标准,计算及时性初始评分;若所述待评估数据是日数据、周数据、月数据或年数据,计算历史数据在第三预设周期的任务平均启动时间,计算待评估数据在第一预设周期相对于任务平均启动时间的任务波动率,判断任务波动率是否大于第三预设波动率,若是,则扣除预设分值,若否,则不扣分。
16.通过采用上述技术方案,根据数据类型来定义及时性指标的预设评分规则,有助于提高及时性指标的准确度。
17.第二方面,本发明提供一种数据质量评估装置,采用如下的技术方案:一种数据质量评估装置,包括:
获取模块,用于获取待评估数据;其中,所述待评估数据是金融数据;预设指标初始评分计算模块,用于根据各预设指标的预设评分规则,分别计算所述待评估数据在各第一预设周期的各所述预设指标初始评分;预设指标综合评分计算模块,用于根据所述预设指标初始评分和预设时间衰减规则,分别计算各所述预设指标综合评分;展示模块,用于展示各预设指标综合评分。
18.第三方面,本发明提供了一种电子设备,采用如下的技术方案:一种电子设备,包括存储器和处理器,存储器上存储有能够被处理器加载并执行所述的方法的计算机程序。
19.第四方面,本发明提供了一种计算机可读存储介质,采用如下的技术方案:一种计算机可读存储介质,存储有能够被处理器加载并执行所述的方法的计算机程序。
20.综上所述,本发明包括以下至少一种有益技术效果:1.利用多个预设指标从多个维度对数据质量进行评分,并按照分值的方式向用户展示数据各个维度的评估质量,方便用户快速定位数据存在的问题,减少数据清理的工作量。
21.2.通过对多个预设指标综合评分进行加权计算来生成数据质量综合评分,并在向用户展示数据各个维度的评估质量时,同时向用户展示数据质量综合评分,便于用户对数据质量进行整体把控,以确定是否需要根据具体维度定位数据存在的问题,进一步减少了数据清理的工作量。
附图说明
22.图1是本发明实施例的数据质量评估方法流程图。
23.图2是本发明另一实施例的数据质量评估方法流程图。
24.图3是本发明实施例的数据质量评估装置结构框图。
25.图4是本发明实施例的电子设备示意图。
具体实施方式
26.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图1-4及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
27.本发明实施例公开一种数据质量评估方法,参照图1,数据质量评估方法,包括:s11、获取待评估数据。
28.待评估数据是金融数据,存储于数据库中,包括用户名、操作类型、金额、日期、手机号、身份证号和ip地址等信息。待评估数据可以是多张数据表中的数据,也可以是单张数据表中的数据,可通过sql语句从数据库中获取待评估数据。
29.s12、根据各预设指标的预设评分规则,分别计算所述待评估数据在各第一预设周期的各所述预设指标初始评分。
30.所述第一预设周期的数量是第一预设数量,所述第一预设数量大于1,且第一预设
数量的第一预设周期在时间轴上是连续的。其中,第一预设数量和第一预设周期均是根据实际需求预先设定的,例如,第一预设数量是24或30,第一预设周期是1小时或1天,在此不作具体限定。本领域技术人员应当理解,第一预设数量的第一预设周期,是用于对待评估数据进行评估的实际时间范围,可以是距离当前时间最近的时间区间范围,也可以是指定的时间区间范围。
31.预设指标包括完整性、准确性、稳定性、重复性、规范性和及时性中的至少两个。不同预设指标具有不同的预设评分规则。
32.若需要根据数据类型计算各预设指标初始评分,在计算各预设指标初始评分之前,先根据任务属性将待评估数据划分为时数据、日数据、周数据、月数据和年数据这5个类型。待评估数据可包括一个或多个数据类型,每一类型的数据量是一条或多条,其中,任务属性是由金融数据的固有属性决定的,比如,对股市数据来说,关于股票的走势,通常具有时、日、周、月、年等维度的数据,对应的任务,也具有相应维度的任务属性,比如,对于日数据来说,通常是每日执行一次更新任务,其对应的任务属性就是按日更新。
33.需要说明的是,各预设指标均是基于基础分数进行质量评估,并且,各预设指标的基础评分是相同的,例如是100或0,在此不作具体限定。
34.在各第一预设周期内,根据各预设指标的预设评分规则,计算所述待评估数据的各预设指标初始评分时,均是基于基础分数,对多个类型的数据进行累加式扣分,比如,待评估数据包含4条数据,分别为时数据a、时数据b、月数据c和年数据d,基础分数是100分,在完整性指标的初始评分中,时数据a扣除预设分值,时数据b扣除预设分值,月数据c没有扣分,年数据d扣除预设分值,完整性指标的初始评分是85。
35.具体的,完整性指标的预设评分规则包括:若所述待评估数据是时数据或日数据,判断所述待评估数据在第一预设周期是否有新增数据,若是,则校验自定义规则,若否,则不扣分;若所述待评估数据是周数据、月数据或年数据,通过反推的方式获取所述待评估数据的上一次执行时间,并判断在上一次执行时间至第一预设周期的截止时间之间,是否有增量数据,若是,则校验自定义规则,若否,则不扣分。其中,上一次执行时间是指任务的上一次执行时间。
36.其中,自定义规则包括:基于预设空值规则统计待评估数据在第一预设周期的空值总量,判断空值总量是否大于预设总量,若是,则扣除预设分值,若否,则不扣分;其中,预设空值规则定义了何种数据为空值数据,例如,无数据内容、数据内容仅包含标点符号、数据内容仅包含表情符号等;预设空值总量和预设分值是根据实际需求预先设置的,例如,预设空值总量是2、3或5,预设分值是2、3或5,在此不作具体限定。
37.在准确性指标的预设评分规则中,时数据、日数据、周数据、月数据和年数据的评分方式相同,具体包括:判断待评估数据在第一预设周期的枚举值是否大于预设枚举值,若是,则扣除预设分值,若否,则不扣分;判断待评估数据在第一预设周期的最大值是否大于预设最大值,若是,则扣除预设分值,若否,则不扣分;判断待评估数据在第一预设周期的最小值是否小于预设最小值,若是,则扣除预设分值,若否,则不扣分;判断待评估数据在第一预设周期的数据量是否在预设范围内,若是,则扣除预设分值,若是,则不扣分;以及执行预设sql语句,判断sql语句的执行结果是否为false,若是,则扣除预设分值,若否,则不扣分。
38.稳定性指标的预设评分规则包括:若待评估数据是时数据或日数据,判断数据表
在第一预设周期的大小波动率是否小于第一预设波动率,若是,则不扣分,若否,则扣除预设分值;若待评估数据是周数据、月数据或年数据,判断数据表最近预设次数的大小平均波动率是否小于第二预设波动率,若是,则不扣分,若否,则扣除预设分值。其中,数据表在第一预设周期的大小波动率是指在第一预设周期的截止时刻与初始时刻,数据表大小的波动率;第一预设波动率和第二预设波动率均是根据实际需求预先设定的,第一预设波动率可以和第二预设波动率相同,也可以不同,例如,第一预设波动率和第二预设波动率均可以是85%、90%或95%中的一个;最近预设次数是指距离第一预设周期的截止时间最近的预设次数个波动信息,可根据实际需求预先设定的,例如是5、7或30。进一步地,若数据表的实际波动次数小于预设次数,则根据实际波动次数来计算平均波动率。
39.在重复性指标的预设评分规则中,时数据、日数据、周数据、月数据和年数据的评分方式相同,具体包括:统计重复数据总量,判断重复数据总量是否大于预设重复总量,若是,则扣除预设分值,若否,则不扣分。
40.在规范性指标的预设评分规则中,时数据、日数据、周数据、月数据和年数据的评分方式相同,具体包括:根据预设校验规则对各字段的格式进行校验,统计格式校验错误的记录数,判断格式校验错误的记录数是否大于预设记录数,若是,则扣除预设分值,若否,则不扣分。其中,预设校验规则包括字符串是否乱码、日期格式是否正确、手机号格式是否正确、身份证号位数是否正确、ip地址是否正确等,可根据数据表包含的字段进行具体设置。
41.及时性指标的预设评分规则包括:若待评估数据是时数据,计算历史数据在第二预设周期的相同时间点的平均启动时间,将待评估数据在第一预设周期的启动时间与相同时间点的平均启动时间相减,生成实际延迟时间;根据实际延迟时间和预设扣分标准,计算及时性初始评分;若待评估数据是日数据、周数据、月数据或年数据,计算历史数据在第三预设周期的任务平均启动时间,并计算待评估数据在第一预设周期相对于任务平均启动时间的任务波动率,判断任务波动率是否大于第三预设波动率,若是,则扣除预设分值,若否,则不扣分。其中,第二预设周期和第三预设周期均大于第一预设周期,且第二预设周期和第三预设周期在时间轴上均早于第一预设周期,优选地,第二预设周期和第三预设周期在时间轴上均与第一预设周期相邻。并且,第二预设周期与第三预设周期可以相同,也可以不同,例如,第二预设周期是7天,第三预设周期是30天,或第二预设周期和第三预设周期均是30天。
42.其中,预设扣分标准包括:实际延迟时间≤1小时,不扣分;若1小时<实际延迟时间≤2小时,则扣除10分;若2小时<实际延迟时间≤3小时,则扣除20分;若3小时<实际延迟时间≤4小时,则扣除30分;若4小时<实际延迟时间≤5小时,则扣除40分;若5小时<实际延迟时间≤6小时,则扣除50分;若7小时<实际延迟时间≤8小时,则扣除60分;若8小时<实际延迟时间≤9小时,则扣除70分;若实际延迟时间》8小时,则及时性评分为0;若无延迟,不扣分。
43.需要说明的是,如果有多个任务同时向数据表写数据,以运行最慢的任务做为扣分依据。
44.s13、根据所述预设指标初始评分和预设时间衰减规则,分别计算各所述预设指标综合评分。
45.具体的,对于任一预设指标,步骤s13具体包括:获取第二预设数量的预设指标初始评分,计算第一平均值;获取第三预设数量的预设指标初始评分,计算第二平均值;根据预设时间衰减规则对所述第一平均值和所述第二平均值进行时间加权,生成所述预设指标综合评分。
46.其中,所述第二预设数量与所述第三预设数量的和等于所述第一预设数量,且与所述第二预设数量的所述预设指标初始评分对应的所述第一预设周期在时间轴上均早于与所述第三预设数量的所述预设指标初始评分对应的所述第一预设周期。第二预设数量和第三预设数量的大小可以相同,也可以不同。作为一种示例,在第一预设数量是24,且第一预设周期是1小时的情况下,第二预设数量是6,第三预设数量是18,或第二预设数量和第三预设数量均是12;在第一预设数量是30,且第一预设周期是1天的情况下,第二预设数量是10,第三预设数量是20,或第二预设数量和第三预设数量均是15。
47.各预设指标采用统一的预设时间衰减规则,预设时间衰减规则是距离当前时间越远,时间权重系数越小,具体可以根据实际需求进行设定,例如,第一平均值的时间权重系数是0.3,第二平均值的时间权重系数是0.7。
48.s14、展示各预设指标综合评分。
49.在上述实施例中,利用多个预设指标从多个维度对数据质量进行评分,并按照分值的方式向用户展示数据各个维度的评估质量,方便用户快速定位数据存在的问题,提高了数据清理的效率。
50.作为数据质量评估方法的另一种实施例,参照图2,数据质量评估方法,包括:s21、获取待评估数据;s22、根据各预设指标的预设评分规则,分别计算所述待评估数据在各第一预设周期的预设指标初始评分;s23、根据所述预设指标初始评分和预设时间衰减规则,分别计算各所述预设指标综合评分;步骤21-23与前述实施例的步骤s11-s13相同,在此不再赘述。
51.s24、根据预设权重规则对各预设指标综合评分进行加权计算,生成数据质量综合评分。
52.在预设权重规则中,各预设指标的权重系数之和等于1,且各预设指标的权重可以相等,也可以不相等,例如,完整性、准确性、稳定性、重复性、规范性和及时性的权重依次为0.2、0.2、0.3、0.1、0.1、0.1,或均是1/6。
53.s25、展示各预设指标综合评分和数据质量综合评分。
54.在展示各预设指标综合评分的同时,展示数据质量综合评分。
55.在上述实施例中,通过对多个预设指标综合评分进行加权计算来生成数据质量综合评分,并在向用户展示数据各个维度的评估质量时,同时向用户展示数据质量综合评分,
便于用户对数据质量进行整体把控,以确定是否需要根据具体维度定位数据存在的问题,进一步提高了数据清理的效率。具体的,在数据质量综合评分较高时,说明数据质量较优,无需进行数据清理工作,进而无需根据具体维度定位数据存在的问题;同时,在数据质量综合评分较低时,说明数据质量较差,仅通过数据清理已不能保证数据的质量,此时,可舍弃该数据,无需进行清理,进而无需根据具体维度定位数据存在的问题。
56.本发明实施例公开一种数据质量评估装置,参照图3,数据质量评估装置,包括:获取模块31,用于获取待评估数据;预设指标初始评分计算模块32,用于根据各预设指标的预设评分规则,分别计算所述待评估数据在各第一预设周期的各所述预设指标初始评分;预设指标综合评分计算模块33,用于根据所述预设指标初始评分和预设时间衰减规则,分别计算各所述预设指标综合评分;展示模块34,用于展示各所述预设指标综合评分。
57.作为一种实施方式,数据质量评估装置还包括数据质量综合评分计算模块,用于根据预设权重规则对各预设指标综合评分进行加权计算,生成数据质量综合评分;展示模块还用于展示数据质量综合评分。
58.本实施例所述的数据质量评分装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
59.基于同一技术构思,本公开实施例还提供了一种电子设备400。参照图4所示,电子设备400包括处理器401、存储器402和总线。其中,存储器402用于存储计算机程序,包括内部存储器4021和外部存储器4022;内部存储器4021用于暂时存放处理器401中的运算数据,以及与硬盘等外部存储器4022交换的数据,处理器401通过内部存储器4021与外部存储器4022进行数据交换。
60.本技术实施例中,存储器402具体用于存储执行本技术技术方案的计算机程序,并由处理器401来控制执行。也即,当电子设备400运行时,处理器401与存储器402之间通过总线通信,使得处理器401执行存储器402中存储的计算机程序,进而执行前述任一实施例中所述的方法。
61.其中,存储器402可以是,但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom)等。
62.处理器401可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
63.可以理解的是,本技术实施例示意的结构并不构成对电子设备400的具体限定。在本技术另一些实施例中,电子设备400可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件
的组合实现。
64.本实施例还提供了一种计算机可读存储介质,如软盘、光盘、硬盘、闪存、u盘、sd(secure digital memory card,安全数码卡)卡、mmc(multimedia card,多媒体卡)卡等,在该可读存储介质中存储有实现上述各个步骤的计算机程序,该计算机程序可被一个或者多个处理器执行,以实现上述实施例中的方法。
65.在本技术所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
66.另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
67.以上均为本发明的较佳实施例,并非依此限制本发明的保护范围,本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
68.以上均为本发明的较佳实施例,并非依此限制本发明的保护范围,本说明书(包括摘要和附图)中公开的任一特征,除非特别叙述,均可被其他等效或者具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1