本发明涉及计算机,尤其涉及一种数据处理方法和装置。
背景技术:
1、目前,数据库异动检测的应用前景十分广阔,为保障业务系统数据的一致和完整、以及保护企业重要虚拟资产的准确同步,提供了所必需的数据监控和数据对齐服务。
2、在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
3、用户在对庞大的数据量进行对齐、纠错时,数据库异动检测效率低的问题普遍存在。这是因为部分的现有技术中通过运维人员手动排查进行相应的异常数据检测,从而导致效率低且人力成本高;而在另一部分的现有技术中,通过预设的规则对实时更新的数据进行预期结果分析,从而判断相应的数据更新事件的合法性,这部分技术方案中虽然采用了自动化数据检测方法,但是预设的判错规则灵活度低,可能会导致相应的判错率较高。
技术实现思路
1、有鉴于此,本发明实施例提供一种数据处理方法和装置,能够解决现有数据库异动检测效率低的技术问题。
2、为实现上述目的,根据本发明实施例的一个方面,提供了一种数据处理方法,包括获取目标标识和基准标识,筛选得到分别对应的多个目标字段和多个基准字段,确定每个目标字段关联的基准字段;对每个目标字段:基于关联的基准字段计算二元相异度,得到第一更新率,并调用预设的均值模型,以处理得到对应的第二更新率;确定每个基准字段的第二更新率,并和关联目标字段的第二更新率进行对比,响应于确定某个目标字段的第二更新率为较大值,对该目标字段进行异常标记
3、可选地,获取目标标识和基准标识,包括:
4、获取目标标识,确定目标标识对应的数据更新时间,作为目标时间,以将所述目标时间的前一个数据更新时间作为基准时间,并确定基准时间对应的基准标识。
5、可选地,确定每个目标字段关联的基准字段,包括:
6、确定每个目标字段和每个基准字段分别对应的字段属性;
7、关联对应于相同字段属性的目标字段和基准字段。
8、可选地,调用预设的均值模型,以处理得到对应的第二更新率,包括:
9、将所述目标字段和对应的第一更新率输入至预设的均值模型;
10、确定所述目标字段对应的字段属性,以在数据库中选取第一参数值个对应于所述字段属性的数据字段,得到多个对比字段;
11、计算所述目标字段和每个对比字段的欧式距离,得到多个字段距离,并排序;
12、选取前第二参数值个较小的字段距离,将每个选取的字段距离相应的对比字段作为选取字段;
13、查询每个选取字段分别对应的第二更新率,并和所述目标字段对应的第一更新率累加以求平均值,并将所述平均值作为所述目标字段的第二更新率。
14、可选地,在数据库中选取第一参数值个对应于所述字段属性的数据字段,得到多个对比字段,包括:
15、在数据库中筛选得到对应于所述字段属性的多个数据字段,计算所述多个数据字段分别对应的数据更新时间与所述目标时间的时间差,并排序,以选取前第一参数值个较小的时间差对应的数据字段,作为对比字段。
16、可选地,对该目标字段进行异常标记之后,包括:
17、将多个标记为异常的目标字段发送至指定端口;
18、并接收指定端口相应的返回数据,以根据返回数据对相应目标字段的标记信息进行对应更新。
19、可选地,根据返回数据对相应目标字段的标记信息进行对应更新之后,包括:
20、根据更新后的标记信息,对相应目标字段的第二更新率进行对应更新;
21、将所述的目标字段作为训练数据,将更新后的第二更新率作为对应的目标值,并输入至均值模型,以每个训练数据对应的输出趋近于相应的目标值为目标,对均值模型进行训练,从而对均值模型的第一参数值和第二参数值进行更新。
22、另外,本发明还提供了一种数据处理装置,包括获取模块,用于获取目标标识和基准标识,筛选得到分别对应的多个目标字段和多个基准字段,确定每个目标字段关联的基准字段;处理模块,用于对每个目标字段:基于关联的基准字段计算二元相异度,得到第一更新率,并调用预设的均值模型,以处理得到对应的第二更新率;标记模块,用于确定每个基准字段的第二更新率,并和关联目标字段的第二更新率进行对比,响应于确定某个目标字段的第二更新率为较大值,对该目标字段进行异常标记。
23、上述发明中的一个实施例具有如下优点或有益效果:本发明通过获取目标标识和基准标识,筛选得到分别对应的多个目标字段和多个基准字段,确定每个目标字段关联的基准字段,确定了进行数据库异动检测的目标对象,即根据基准字段判别目标字段;同时,本发明通过对每个目标字段:基于关联的基准字段计算二元相异度,得到第一更新率,并调用预设的均值模型,以处理得到对应的第二更新,得到了基于对应字段属性的历史更新率趋势的目标字段平均更新率,以便对目标字段进行更加准确的更新率计算;此外,确定每个基准字段的第二更新率,并和关联目标字段的第二更新率进行对比,响应于确定某个目标字段的第二更新率为较大值,对该目标字段进行异常标记,使用了高度灵活且时效性强的判别方法对目标字段进行了异常判别,从而提高本技术方案对异动数据进行识别、检测的准确率。
24、上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
1.一种数据处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,获取目标标识和基准标识,包括:
3.根据权利要求1所述的方法,其特征在于,确定每个目标字段关联的基准字段,包括:
4.根据权利要求2所述的方法,其特征在于,调用预设的均值模型,以处理得到对应的第二更新率,包括:
5.根据权利要求4所述的方法,其特征在于,在数据库中选取第一参数值个对应于所述字段属性的数据字段,得到多个对比字段,包括:
6.根据权利要求1所述的方法,其特征在于,对该目标字段进行异常标记之后,包括:
7.根据权利要求6所述的方法,其特征在于,根据返回数据对相应目标字段的标记信息进行对应更新之后,包括:
8.一种数据处理装置,其特征在于,包括:
9.根据权利要求8所述的装置,其特征在于,获取目标标识和基准标识,包括:
10.根据权利要求8所述的装置,其特征在于,确定每个目标字段关联的基准字段,包括:
11.根据权利要求9所述的装置,其特征在于,调用预设的均值模型,以处理得到对应的第二更新率,包括:
12.根据权利要求11所述的装置,其特征在于,在数据库中选取第一参数值个对应于所述字段属性的数据字段,得到多个对比字段,包括:
13.根据权利要求8所述的装置,其特征在于,对该目标字段进行异常标记之后,包括:
14.根据权利要求13所述的装置,其特征在于,根据返回数据对相应目标字段的标记信息进行对应更新之后,包括:
15.一种电子设备,其特征在于,包括:
16.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的方法。
17.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。