本申请涉及大数据处理,尤其涉及一种数据检核方法、装置、电子设备及计算机可读介质。
背景技术:
1、在分布式业务中,当各种业务之间对同一个对象进行多次修改,这些修改根据自有的业务可能会导致数据不一致、混淆和效率低下。而多个系统或业务部门由于信息差和权限限制,无法处理同一数据源。同一对象在不同业务上的定义存在分歧,采用的描述方式不一致,或者使用的作用不同,各个数据在修改的时候也都是以当前的业务为中心进行处理。久而久之就会出现数据冗余或者脏数据,并且对冗余数据或者脏数据的数据检核效率低、准确性差。
技术实现思路
1、有鉴于此,本申请实施例提供一种数据检核方法、装置、电子设备及计算机可读介质,能够解决现有的对在分布式业务处理过程中产生的冗余数据或者脏数据的数据检核效率低、准确性差的问题。
2、为实现上述目的,根据本申请实施例的一个方面,提供了一种数据检核方法,包括:接收数据检核请求,获取各个业务节点的待检核数据;确定待检核数据对应的对象,基于对象提取相应的对象数据;确定待检核数据对应的对象,包括:识别待检核数据的记录形式,根据记录形式拆分待检核数据,以得到各个业务节点对应的拆分数据,对各个拆分数据进行同义词衍生,以得到各个衍生数据,进行各个业务节点之间的衍生数据的相似度匹配,以得到相似度匹配结果数据,根据相似度匹配结果数据,确定待检核数据对应的对象;获取各个对象数据的数据结构关系,分别确定唯一键值;触发执行定时任务,以基于预设的关联关系,校验各个唯一键值,以得到校验结果数据;对校验结果数据进行评分并输出。
3、可选地,获取各个业务节点的待检核数据,包括:确定数据检核请求对应的数据获取方式,获取待检核的各个业务节点的节点标识;访问数据源,以基于数据获取方式获取节点标识对应的待检核数据。
4、可选地,确定待检核数据对应的对象,包括:确定各个业务节点共同对应的子节点,将子节点确定为待检核数据对应的对象。
5、可选地,基于对象提取相应的对象数据,包括:从待检核数据中获取用于描述对象的标签数据;将标签数据确定为对象数据。
6、可选地,获取各个对象数据的数据结构关系,分别确定唯一键值,包括:基于各个数据结构关系对应的唯一键值确定方式,实时确定各个数据结构关系对应的对象数据的唯一键值。
7、可选地,校验各个唯一键值,以得到校验结果数据,包括:将各个唯一键值分别与对象对应的初始键值进行匹配校验,以得到校验结果数据。
8、另外,本申请还提供了一种数据检核装置,包括:获取单元,被配置成接收数据检核请求,获取各个业务节点的待检核数据;提取单元,被配置成确定待检核数据对应的对象,基于对象提取相应的对象数据;确定待检核数据对应的对象,包括:识别待检核数据的记录形式,根据记录形式拆分待检核数据,以得到各个业务节点对应的拆分数据,对各个拆分数据进行同义词衍生,以得到各个衍生数据,进行各个业务节点之间的衍生数据的相似度匹配,以得到相似度匹配结果数据,根据相似度匹配结果数据,确定待检核数据对应的对象;唯一键值确定单元,被配置成获取各个对象数据的数据结构关系,分别确定唯一键值;校验单元,被配置成触发执行定时任务,以基于预设的关联关系,校验各个唯一键值,以得到校验结果数据;评分单元,被配置成对校验结果数据进行评分并输出。
9、可选地,获取单元进一步被配置成:确定数据检核请求对应的数据获取方式,获取待检核的各个业务节点的节点标识;访问数据源,以基于数据获取方式获取节点标识对应的待检核数据。
10、可选地,提取单元进一步被配置成:确定各个业务节点共同对应的子节点,将子节点确定为待检核数据对应的对象。
11、可选地,提取单元进一步被配置成:从待检核数据中获取用于描述对象的标签数据;将标签数据确定为对象数据。
12、可选地,唯一键值确定单元进一步被配置成:基于各个数据结构关系对应的唯一键值确定方式,实时确定各个数据结构关系对应的对象数据的唯一键值。
13、可选地,校验单元进一步被配置成:将各个唯一键值分别与对象对应的初始键值进行匹配校验,以得到校验结果数据。
14、另外,本申请还提供了一种数据检核电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述的数据检核方法。
15、另外,本申请还提供了一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现如上述的数据检核方法。
16、为实现上述目的,根据本申请实施例的又一个方面,提供了一种计算机程序产品。
17、本申请实施例的一种计算机程序产品,包括计算机程序,程序被处理器执行时实现本申请实施例提供的数据检核方法。
18、上述发明中的一个实施例具有如下优点或有益效果:本申请通过接收数据检核请求,获取各个业务节点的待检核数据;确定待检核数据对应的对象,基于对象提取相应的对象数据;确定待检核数据对应的对象,包括:识别待检核数据的记录形式,根据记录形式拆分待检核数据,以得到各个业务节点对应的拆分数据,对各个拆分数据进行同义词衍生,以得到各个衍生数据,进行各个业务节点之间的衍生数据的相似度匹配,以得到相似度匹配结果数据,根据相似度匹配结果数据,确定待检核数据对应的对象;获取各个对象数据的数据结构关系,分别确定唯一键值;触发执行定时任务,以基于预设的关联关系,校验各个唯一键值,以得到校验结果数据;对校验结果数据进行评分并输出。可以提高对在分布式业务过程中产生的冗余数据或脏数据处理校验的效率和准确率。
19、上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
1.一种数据检核方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取各个业务节点的待检核数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述确定所述待检核数据对应的对象,包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述对象提取相应的对象数据,包括:
5.根据权利要求1所述的方法,其特征在于,所述获取各个所述对象数据的数据结构关系,分别确定唯一键值,包括:
6.根据权利要求1~5中任一项所述的方法,其特征在于,所述校验各个所述唯一键值,以得到校验结果数据,包括:
7.一种数据检核装置,其特征在于,包括:
8.根据权利要求7所述的装置,其特征在于,所述获取单元进一步被配置成:
9.根据权利要求7所述的装置,其特征在于,所述提取单元进一步被配置成:
10.根据权利要求7所述的装置,其特征在于,所述提取单元进一步被配置成:
11.根据权利要求7所述的装置,其特征在于,所述唯一键值确定单元进一步被配置成:
12.根据权利要求7~11中任一项所述的装置,其特征在于,所述校验单元进一步被配置成:
13.一种数据检核电子设备,其特征在于,包括:
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的方法。