一种跨集群数据一致性校验方法、装置以及计算机设备与流程

文档序号:37836039发布日期:2024-05-07 19:10阅读:8来源:国知局
一种跨集群数据一致性校验方法、装置以及计算机设备与流程

本技术涉及大数据处理,特别是涉及一种跨集群数据一致性校验方法、装置、计算机设备、存储介质和计算机程序产品。


背景技术:

1、高斯集群通常指的是高斯混合模型(gaussian mixture model,gmm)中的集群,gmm是一种用于对数据进行聚类的统计模型。在机器学习和模式识别领域,gmm被广泛应用于对数据进行聚类分析。gmm假设数据是由若干个高斯分布混合而成的,每个高斯分布对应一个集群。这意味着gmm可以用来发现数据中的不同分布模式,并将数据点分配到不同的集群中。在gmm中,每个集群都由一个高斯分布来表示,包括均值和协方差矩阵。gmm的训练过程通常是基于最大期望(expectation-maximization,em)算法进行的。该算法通过迭代的方式,不断更新每个高斯分布的参数,直到收敛为止。在训练完成后,gmm可以用来对新的数据进行聚类,即将数据点分配到最有可能的高斯分布中。gmm在许多领域都有广泛的应用,包括图像处理、语音识别、模式识别、数据挖掘等。它可以帮助我们发现数据中的潜在模式和结构,从而更好地理解数据。

2、在分布式系统中,数据通常分布在不同的集群或数据中心中。为了确保分布式系统中数据的一致性和完整性,以及在数据迁移、备份恢复等场景下保证数据的准确性,提高系统的可靠性和数据质量。需要定期进行跨集群的数据比对,以检测集群间数据之间的差异和不一致之处。

3、相关技术中,通常通过在系统中挂载能够进行数据实时同步的功能组件程序,通过后台挂载的程序实现数据一致性的监测以及运营管理。

4、然而,目前的分布式系统中的数据一致性维护方法,存在如下的技术问题:

5、在系统中挂载实施监控的功能组件的方式实现数据一致性的校验,比对效率较低,且系统内存占用较多。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够提高数据比对效率以及比对结果准确度的一种跨集群数据一致性校验方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本技术提供了一种跨集群数据一致性校验方法。所述方法包括:

3、响应于数据校验需求,确定参与数据比对的源端数据集群以及目标端数据集群;

4、基于预设的排序处理流程对所述源端数据集群中的数据进行排序,得到源端数据队列;

5、基于所述排序处理流程对所述目标端数据集群中的数据进行排序,得到目标端数据队列;

6、将所述源端数据队列与所述目标端数据队列进行有序比对,得到数据一致性校验结果。

7、在其中一个实施例中,所述基于预设的排序处理流程对所述源端数据集群中的数据进行排序,得到源端数据队列包括:

8、对所述源端数据集群中的数据进行处理,获取与所述源端数据集群中的数据单元相关联的数据主键,所述数据主键为与所述数据单元相关联的唯一标识;

9、基于所述数据主键对所述源端数据集群进行排序,得到所述源端数据队列。

10、在其中一个实施例中,所述基于所述排序处理流程对所述目标端数据集群中的数据进行排序,得到目标端数据队列包括:

11、对所述目标端数据集群中的数据进行处理,获取与所述目标端数据集群中的所述数据单元相关联的所述数据主键;

12、基于所述数据主键对所述目标端数据集群进行排序,得到所述目标端数据队列。

13、在其中一个实施例中,所述将所述源端数据队列与所述目标端数据队列进行有序比对,得到数据一致性校验结果包括:

14、基于预设的批次截取规则,对所述源端数据队列以及所述目标端数据队列进行截取,得到若干组相对应的源端数据子队列以及目标端数据子队列;

15、在多个并行的线程中,对多组成对的所述源端数据子队列以及所述目标端数据子队列进行并行比对。

16、在其中一个实施例中,所述在多个并行的线程中,对多组成对的所述源端数据子队列以及所述目标端数据子队列进行并行比对包括:

17、当目标线程中的所述源端数据子队列以及所述目标端数据子队列的比对处理完成后,清空已完成的所述源端数据子队列以及所述目标端数据子队列;

18、在所述目标线程中导入待处理的所述源端数据子队列以及所述目标端数据子队列,并执行比对处理。

19、在其中一个实施例中,所述将所述源端数据队列与所述目标端数据队列进行有序比对,得到数据一致性校验结果包括:

20、基于预设的归并排序算法对所述源端数据队列与所述目标端数据队列进行有序比对,得到所述数据一致性校验结果。

21、第二方面,本技术还提供了一种跨集群数据一致性校验装置。所述装置包括:

22、集群确定模块,用于响应于数据校验需求,确定参与数据比对的源端数据集群以及目标端数据集群;

23、源端排序处理模块,用于基于预设的排序处理流程对所述源端数据集群中的数据进行排序,得到源端数据队列;

24、目标端排序处理模块,用于基于所述排序处理流程对所述目标端数据集群中的数据进行排序,得到目标端数据队列;

25、数据有序比对模块,用于将所述源端数据队列与所述目标端数据队列进行有序比对,得到数据一致性校验结果。

26、在其中一个实施例中,所述源端排序处理模块包括:

27、源端数据主键计算模块,用于对所述源端数据集群中的数据进行处理,获取与所述源端数据集群中的数据单元相关联的数据主键,所述数据主键为与所述数据单元相关联的唯一标识;

28、源端数据队列模块,用于基于所述数据主键对所述源端数据集群进行排序,得到所述源端数据队列。

29、在其中一个实施例中,所述目标端排序处理模块包括:

30、目标端数据主键计算模块,用于对所述目标端数据集群中的数据进行处理,获取与所述目标端数据集群中的所述数据单元相关联的所述数据主键;

31、目标端数据队列模块,用于基于所述数据主键对所述目标端数据集群进行排序,得到所述目标端数据队列。

32、在其中一个实施例中,所述数据有序比对模块包括:

33、批次截取模块,用于基于预设的批次截取规则,对所述源端数据队列以及所述目标端数据队列进行截取,得到若干组相对应的源端数据子队列以及目标端数据子队列;

34、多线程处理模块,用于在多个并行的线程中,对多组成对的所述源端数据子队列以及所述目标端数据子队列进行并行比对。

35、在其中一个实施例中,所述多线程处理模块包括:

36、内存释放模块,用于当目标线程中的所述源端数据子队列以及所述目标端数据子队列的比对处理完成后,清空已完成的所述源端数据子队列以及所述目标端数据子队列;

37、批次处理模块,用于在所述目标线程中导入待处理的所述源端数据子队列以及所述目标端数据子队列,并执行比对处理。

38、在其中一个实施例中,所述数据有序比对模块,包括:

39、归并排序模块,用于基于预设的归并排序算法对所述源端数据队列与所述目标端数据队列进行有序比对,得到所述数据一致性校验结果。

40、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面中任意一项实施例所述的一种跨集群数据一致性校验方法中的步骤。

41、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中任意一项实施例所述的一种跨集群数据一致性校验方法中的步骤。

42、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面中任意一项实施例所述的一种跨集群数据一致性校验方法中的步骤。

43、上述一种跨集群数据一致性校验方法、装置、计算机设备、存储介质和计算机程序产品,通过权利要求书中的技术特征进行推导,能够达到对应背景技术中的技术问题的如下有益效果:

44、在跨集群的数据一致性校验的处理中,首先根据数据校验的需求,确定参与数据比对的源端数据集群以及目标端数据集群,其中源端数据集群作为数据比对中的基准数据集群,而目标端数据集群是需要能够与源端数据集群保持一致的数据集群。在确定源端数据集群以及目标端数据集群后,可以分别对两个数据集群进行处理,具体为通过相同的排序处理流程对两个数据集群中的数据对象进行排序,从而分别得到源端数据集群中数据对应的源端数据队列,目标端数据集群中数据对应的目标端数据队列,最后可以将得到的两个有序数据队列进行有序比对,最终得到源端数据集群以及目标端数据集群的一致性校验结果。在实施中,相比于相关技术中通过挂载额外的程序组件进行数据实时比对的方式,本技术提供的方法能够将数据集群中的数据构造为有序的数据序列,并通过对得到的有序数据序列的比对进行有序比对得到数据一致性校验结果,无需实时地对集群中产生的每一条数据进行校验,降低了分布式系统服务器的空间压力,另一方面,通过有序序列的对比不仅仅能够校验数据单元本身的一致性,还可以校验数据集群中数据单元排序的一致性,能够降低在有序数据序列存在特殊含义时,无法校验出差异的问题的可能性,提高了数据一致性校验结果的准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1