分布式系统下数据检核方法和装置、电子设备和存储介质与流程

文档序号:40571555发布日期:2025-01-03 11:32阅读:24来源:国知局
分布式系统下数据检核方法和装置、电子设备和存储介质与流程

本技术涉及分布式系统,尤其涉及一种分布式系统下数据检核方法和装置、电子设备和存储介质。


背景技术:

1、目前,众多用户(尤其企业级系统)采用主机和分布式并行的双核心系统。

2、与主机系统相比,分布式系统中的分布式文件会分成多个分区文件;同时,一个分区(为了提高系统的扩展性和可用性,把数据切分成若干份,分别存储在不同的服务器节点上)又会分成很多片,数据也会成倍增长,给检核工作带来极大麻烦。与主机系统的区别在于,主机系统是在同一个容器下运行,而分布式系统存在集群,不同的作业和作业步可能在不同服务器下运行,产生的文件也会分割成多份,检核人员需要通过如下方式才能查看结果以进行核验:登录数据库服务器-进入isb库-找到文件索引表-根据批次号和作业或批次号和文件名找到想要的索引数据,复制索引文件名称,登录hdfs(即,分布式文件系统)服务器-进入hdfs脚本目录-输入统计命令和文件具体路径-执行命令查看结果。

3、并且,在分布式系统中进行数据检核时,每次都只能统计一个文件,但是往往一个作业会产生大量文件,从而给检核人员带来了极大的处理量的技术问题。

4、由此可见,相关技术中在分布式系统中进行数据检核存在操作繁琐、处理量极大,进而导致处理效率低下的技术问题。


技术实现思路

1、本技术提供了一种分布式系统下数据检核方法和装置、电子设备和存储介质,以至少解决相关技术中存在的在分布式系统中进行数据检核存在操作繁琐、处理量极大,进而导致处理效率低下的技术问题。

2、根据本技术实施例的一个方面,提供了一种分布式系统下数据检核方法,包括:

3、确定与待数据检核的至少一个目标分布式文件对应的目标文件标识信息;

4、按照所述目标文件标识信息,获取所述至少一个目标分布式文件中每个目标分布式文件的目标索引路径;

5、按照所述每个目标分布式文件的目标索引路径,确定出所述每个目标分布式文件的所有分区文件;

6、统计得到每个分区文件的文件行数;

7、根据所述每个分区文件的文件行数以及所述每个目标分布式文件的所有分区文件,确定出所述每个目标分布式文件的数据检核结果。

8、可选地,如前述的方法,所述按照所述目标文件标识信息,获取所述至少一个目标分布式文件中每个目标分布式文件的目标索引路径,包括:

9、通过所述目标文件标识信息在索引表中进行查询,得到与所述目标文件标识信息对应的所有候选索引路径,其中,所述索引表中记录有分布式文件与索引路径之间的一一对应关系;

10、根据所述所有候选索引路径,确定出所述每个目标分布式文件的目标索引路径。

11、可选地,如前述的方法,所述按照所述每个目标分布式文件的目标索引路径,确定出所述每个目标分布式文件的所有分区文件,包括:

12、基于所述目标索引路径,确定出所述每个目标分布式文件分布的所有目标集群;

13、按照所述目标集群的个数确定出所述所有分区文件的文件个数;通过在每个目标索引路径对应的所述目标集群中进行遍历,确定出所述所有分区文件。

14、可选地,如前述的方法,所述统计得到每个分区文件的文件行数,包括:

15、确定出于所述文件个数对应的统计方式;

16、按照所述文件个数对应的统计方式,对所述每个分区文件进行统计,得到所述每个分区文件的文件行数。

17、可选地,如前述的方法,所述按照所述文件个数对应的统计方式,对所述每个分区文件进行统计,得到所述每个分区文件的文件行数,包括:

18、在所述文件个数为一个的情况下,按照所述目标索引路径,并通过hdfs接口方法读取得到所述分区文件的文件行数;

19、所述根据所述每个分区文件的文件行数以及所述每个目标分布式文件的所有分区文件,确定出所述每个目标分布式文件的数据检核结果,包括:

20、将所述分区文件的文件行数映射至目标查询界面,得到所述目标分布式文件的所述数据检核结果,其中,所述目标查询界面为用户输入所述目标文件标识信息的界面。

21、可选地,如前述的方法,所述按照所述文件个数对应的统计方式,对所述每个分区文件进行统计,得到所述每个分区文件的文件行数,包括:

22、在所述文件个数为多个的情况下,将所述目标索引路径处理为spark程序格式的指定索引路径;

23、将所述指定索引路径放入spark容器中,并获取spark对象;

24、所述spark对象通过调用spark统计文件接口,对每个指定索引路径对应的分区文件统计,得到所述每个分区文件的文件行数;

25、将所述每个分区文件的文件行数存入预设库表中;

26、所述根据所述每个分区文件的文件行数以及所述每个目标分布式文件的所有分区文件,确定出所述每个目标分布式文件的数据检核结果,包括:

27、按照所述每个目标分布式文件的所有分区文件,通过将所述预设库表中的所述每个分区文件的文件行数映射至目标查询界面,得到与所述至少一个目标分布式文件中的每个目标分布式文件对应的所述数据检核结果,其中,所述目标查询界面获取由用户确定的所述目标文件标识信息的界面。

28、可选地,如前任一项所述的方法,所述确定与待数据检核的至少一个目标分布式文件对应的目标文件标识信息,包括:

29、根据获取的批次号以及文件名,确定出对应于一个所述目标分布式文件的所述目标文件标识信息;或,

30、确定出与获取的批次号和/或作业名对应的所有候选分布式文件;基于在所述所有候选分布式文件中选择出多个目标分布式文件的选择操作,确定出与所述多个目标分布式文件对应的目标文件标识信息。

31、根据本技术实施例的另一个方面,还提供了一种分布式系统下数据检核装置,包括:

32、第一确定模块,用于确定与待数据检核的至少一个目标分布式文件对应的目标文件标识信息;

33、获取模块,用于按照所述目标文件标识信息,获取所述至少一个目标分布式文件中每个目标分布式文件的目标索引路径;

34、第二确定模块,用于按照所述每个目标分布式文件的目标索引路径,确定出所述每个目标分布式文件的所有分区文件;

35、统计模块,用于统计得到每个分区文件的文件行数;

36、结果模块,用于根据所述每个分区文件的文件行数以及所述每个目标分布式文件的所有分区文件,确定出所述每个目标分布式文件的数据检核结果。

37、根据本技术实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。

38、根据本技术实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。

39、在本技术实施例中,通过本实施例中的方法,可以基于与待数据检核的至少一个目标分布式文件对应的目标文件标识信息,即可得到每个目标分布式文件对应所有分区文件中每个分区文件的文件行数,并进而确定出每个目标分布式文件的数据检核结果,从而无需人工逐一对每个文件进行数据检核,可以有效简化人工操作,提升检核效率;进而能够克服相关技术中存在的在分布式系统中进行数据检核存在操作繁琐、处理量极大,进而导致处理效率低下的技术问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1