数据处理方法和装置、存储介质及电子设备与流程

文档序号:36778497发布日期:2024-01-23 11:49阅读:13来源:国知局
数据处理方法和装置、存储介质及电子设备与流程

本技术涉及计算机领域,具体而言,涉及一种数据处理方法和装置、存储介质及电子设备。


背景技术:

1、目前,在统计推断中,bootstrap过程是一种非参数的重抽样方法,用于估计统计量的分布、标准差以及置信区间。该方法的基本思想是通过从原始样本中有放回地抽取大量的自助样本(bootstrap样本),然后基于这些自助样本进行统计推断。常规bootstrap过程一般基于spark计算框架实现,通过spark计算框架对分布式数据进行有放回抽样的过程可以理解为使用了近似算法,对每个样本独立地产生一个泊松分布的随机数,来确定这个样本在结果中出现的次数。由于spark计算框架的算法结果是近似的,存在一定误差,而且抽样结果的样本个数无法精确指定,例如,期望精确地抽样m个样本,spark的抽样结果大概率不是精确的m个,而是在m附近的一个随机值,因此,会造成抽样数据的处理结果不够准确,导致抽样数据的处理效率较低的技术问题。

2、针对上述的问题,目前尚未提出有效的解决方案。


技术实现思路

1、本技术实施例提供了一种数据处理方法和装置、存储介质及电子设备,以至少解决由于抽样结果的样本个数不够准确,导致抽样数据的处理效率较低的技术问题。

2、根据本技术实施例的一个方面,提供了一种数据处理方法,包括:获取待处理的初始样本数量、需要抽取的初始采样数量和预先确定执行抽样的一组分布式设备的设备数量;根据所述初始样本数量、所述初始采样数量和所述设备数量确定为目标分布式设备分配的目标样本数量和目标采样数量,其中,所述目标样本数量表示所述目标分布式设备上待参与采样的样本数量,所述目标采样数量表示所述目标分布式设备上需要采样出的采样数量;根据所述目标样本数量、所述目标采样数量在所述目标分布式设备上进行多批次采样,确定目标分布式采样结果,其中,所述多批次采样包括从所述目标样本数量开始,依据所述目标分布式设备的采样能力逐批次划分出每个批次待参与采样的样本数量,并从所述目标采样数量开始逐批次随机采样得到每个批次需要采样出的采样数量,对所述每个批次待参与采样的样本数量按照所述每个批次需要采样出的采样数量进行采样,得到各个批次对应的采样结果,将各个批次对应的采样结果合并得到所述目标分布式采样结果;将所述一组分布式设备对应的一组所述目标分布式采样结果进行合并,确定目标采样结果,其中,所述目标采样结果表示对所述初始样本数量按照所述初始采样数量采样的采样结果。

3、根据本技术实施例的另一方面,还提供了一种数据处理装置,包括:获取模块,用于获取待处理的初始样本数量、需要抽取的初始采样数量和预先确定执行抽样的一组分布式设备的设备数量;分配模块,用于根据所述初始样本数量、所述初始采样数量和所述设备数量确定为目标分布式设备分配的目标样本数量和目标采样数量,其中,所述目标样本数量表示所述目标分布式设备上待参与采样的样本数量,所述目标采样数量表示所述目标分布式设备上需要采样出的采样数量;采样模块,用于根据所述目标样本数量、所述目标采样数量在所述目标分布式设备上进行多批次采样,确定目标分布式采样结果,其中,所述多批次采样包括从所述目标样本数量开始,依据所述目标分布式设备的采样能力逐批次划分出每个批次待参与采样的样本数量,并从所述目标采样数量开始逐批次随机采样得到每个批次需要采样出的采样数量,对所述每个批次待参与采样的样本数量按照所述每个批次需要采样出的采样数量进行采样,得到各个批次对应的采样结果,将各个批次对应的采样结果合并得到所述目标分布式采样结果;合并模块,用于将所述一组分布式设备对应的一组所述目标分布式采样结果进行合并,确定目标采样结果,其中,所述目标采样结果表示对所述初始样本数量按照所述初始采样数量采样的采样结果。

4、可选地,所述装置用于通过如下方式根据所述目标样本数量、所述目标采样数量在所述目标分布式设备上进行多批次采样,确定目标分布式采样结果:从所述目标样本数量开始,依据所述目标分布式设备的采样能力逐批次划分出每一批次对应的当前样本数量和剩余样本数量,其中,所述剩余样本数量用于确定下一批次对应的所述当前样本数量;从所述目标采样数量开始逐批次随机采样,得到每一批次对应的当前采样数量和剩余采样数量,其中,所述剩余采样数量用于确定下一批次对应的所述当前采样数量;对所述当前样本数量按照所述当前采样数量进行采样,得到当前采样结果;将各个批次对应的所述当前采样结果合并,得到所述目标分布式采样结果。

5、可选地,所述装置还用于:在所述目标分布式设备包括一个线程的情况下,控制所述一个线程从所述目标样本数量开始,依据所述目标分布式设备的采样能力逐批次划分出每一批次对应的当前样本数量和剩余样本数量,并从所述目标采样数量开始逐批次随机采样,得到每一批次对应的当前采样数量和剩余采样数量;在所述目标分布式设备包括多个线程的情况下,控制所述多个线程交替从所述目标样本数量开始,依据所述目标分布式设备的采样能力逐批次划分出每一批次对应的当前样本数量和剩余样本数量,并从所述目标采样数量开始逐批次进行随机采样,得到每一批次对应的当前采样数量和剩余采样数量,其中,每一批次下,允许一个空闲线程依据所述目标分布式设备的采样能力划分出每一批次对应的当前样本数量和剩余样本数量,并进行随机采样得到每一批次对应的当前采样数量和剩余采样数量。

6、可选地,所述装置用于通过如下方式从所述目标采样数量开始逐批次随机采样,得到每一批次对应的当前采样数量和剩余采样数量:从所述目标采样数量开始逐批次有放回的随机采样,得到所述当前采样数量和所述剩余采样数量;或者从所述目标采样数量开始逐批次无放回的随机采样,得到所述当前采样数量和剩余采样数量。

7、可选地,所述装置用于通过如下方式根据所述目标样本数量、所述目标采样数量在所述目标分布式设备上进行多批次采样,确定目标分布式采样结果:在所述多批次采样包括j批次采样的情况下,将第a-1批次剩余样本数量划分为第a批次样本数量和第a批次剩余样本数量,其中,a为大于或等于2的正整数,a=2时,所述第a-1批次剩余样本数量为所述目标样本数量,所述第a-1批次剩余采样数量为所述目标采样数量,j为大于或等于a的正整数;利用随机数从第a-1批次剩余采样数量中采样出第a批次采样数量和第a批次剩余采样数量;从第a批次样本数量中按照第a批次采样数量进行采样,得到第a批次采样结果;在第j-1批次剩余样本数量满足第一预设条件或第j批次剩余采样数量满足第二预设条件的情况下,根据j批次采样结果确定所述目标分布式采样结果。

8、可选地,所述装置还用于:在所述目标分布式设备包括一个空闲线程的情况下,控制所述一个空闲线程逐批次执行所述j批次采样;在所述目标分布式设备包括多个空闲线程的情况下,控制第一空闲线程将第b-1批次剩余样本数量划分为第b批次样本数量和第b批次剩余样本数量,利用随机数从第b-1批次剩余采样数量中采样出第b批次采样数量和第b批次剩余采样数量,其中,b为大于或等于2的正整数,b=2时,所述第b-1批次剩余样本数量为所述目标样本数量,所述第b-1批次剩余采样数量为所述目标采样数量,j为大于或等于b的正整数;控制所述第一空闲线程从第b批次样本数量中按照第b批次采样数量进行采样,得到第b批次采样结果,并控制第二空闲线程将第b批次剩余样本数量划分为第b+1批次样本数量和第b+1批次剩余样本数量,利用随机数从第b批次剩余采样数量中采样出第b+1批次采样数量和第b+1批次剩余采样数量;控制所述第二空闲线程从第b+1批次样本数量中按照第b+1批次采样数量进行采样,得到第b+1批次采样结果,并控制第三空闲线程将第b+1批次剩余样本数量划分为第b+2批次样本数量和第b+2批次剩余样本数量,利用随机数从第b+1批次剩余采样数量中采样出第b+2批次采样数量和第b+2批次剩余采样数量,其中,所述第一空闲线程完成第b批次采样的情况下,所述第三空闲线程允许与所述第一空闲线程相同。

9、可选地,所述装置用于通过如下方式在第j-1批次剩余样本数量满足第一预设条件或第j批次剩余采样数量满足第二预设条件的情况下,根据j批次采样结果确定所述目标分布式采样结果:在所述第j-1批次剩余样本数量小于或等于所述目标分布式设备预设的处理样本阈值的情况下,根据j批次采样结果确定所述目标分布式采样结果;或者在第j批次剩余采样数量为0的情况下,根据j批次采样结果确定所述目标分布式采样结果。

10、可选地,所述装置还用于:通过如下方式对所述每个批次待参与采样的样本数量按照所述每个批次需要采样出的采样数量进行采样,得到每个批次的采样结果,其中,所述每个批次待参与采样的样本数量视为n,所述每个批次需要采样出的采样数量视为m,每个批次进行采样的方式为将n划分为d行样本,逐行采样出m个样本,d,n,m均为正整数:将第c-1行剩余样本数量划分为第c行样本数量和第c行剩余样本数量,并从第c-1行剩余采样数量中确定出第c行采样数量和第c行剩余采样数量,其中,c为大于或等于2的正整数,c=2时,所述第c-1行剩余样本数量为n,所述第c-1批次剩余采样数量为m,c小于或等于d;从第c行样本数量中按照第c行采样数量进行采样,得到第c行采样结果,并根据所述第c行剩余样本数量和所述第c行剩余采样数量分别确定与第c行对应的第一时间复杂度和第二时间复杂度;根据第c行对应的第一时间复杂度和第二时间复杂度的比较关系执行第c+1行采样,直到确定出d个采样结果,将所述d个采样结果合并,得到每个批次对应的采样结果。

11、可选地,所述装置用于通过如下方式根据第c行对应的第一时间复杂度和第二时间复杂度的比较关系执行第c+1行采样,直到确定出d个采样结果,将所述d个采样结果合并,得到每个批次对应的采样结果:在所述第一时间复杂度小于或等于所述第二时间复杂度的情况下,将第c行剩余样本数量划分为第c+1行样本数量和第c+1行剩余样本数量,从第c行剩余采样数量中确定出第c+1行采样数量和第c+1行剩余采样数量,从第c+1行样本数量中按照第c+1行采样数量进行采样,得到第c+1行采样结果,并根据所述第c+1行剩余样本数量和所述第c+1行剩余采样数量分别确定与第c+1行对应的第一时间复杂度和第二时间复杂度;在所述第一时间复杂度大于所述第二时间复杂度的情况下,从第c行剩余样本数量中进行与所述第c行剩余采样数量相同次数的随机采样,得到第d行采样结果。

12、可选地,所述装置用于通过如下方式根据所述初始样本数量、所述初始采样数量和所述设备数量确定为目标分布式设备分配的目标样本数量和目标采样数量:根据所述初始样本数量和所述设备数量确定所述目标样本数量;从所述一组分布式设备中每次抽取任一个分布式设备,抽取次数为所述初始采样数量,将抽取到所述目标分布式设备的次数确定为所述目标采样数量。

13、可选地,所述装置用于通过如下方式根据所述初始样本数量和所述设备数量确定所述目标样本数量:获取所述一组分布式设备中各个分布式设备的采样能力,其中,所述采样能力包括与所述目标分布式设备对应的目标采样能力;利用所述设备数量对所述初始样本数量进行均衡处理,确定为所述各个分布式设备分配的样本数量平均值;根据所述采样能力确定所述各个分布式设备对应的权重值,其中,所述各个分布式设备对应的权重值之和为1,所述权重值包括与所述目标分布式设备对应的目标权重值;根据所述样本数量平均值和所述目标权重值确定所述目标样本数量。

14、可选地,所述装置用于通过如下方式从所述一组分布式设备中每次抽取任一个分布式设备,抽取次数为所述初始采样数量,将抽取到所述目标分布式设备的次数确定为所述目标采样数量:在从所述一组分布式设备中抽取出所述目标分布式设备的情况下,更新所述目标采样数量;在已抽取出的分布式设备的数量与所述初始采样数量相同的情况下,确定所述目标采样数量。

15、根据本技术实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述数据处理方法。

16、根据本技术实施例的又一方面,提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如以上数据处理方法。

17、根据本技术实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过所述计算机程序执行上述的数据处理方法。

18、在本技术实施例中,采用获取待处理的初始样本数量、需要抽取的初始采样数量和预先确定执行抽样的一组分布式设备的设备数量,根据初始样本数量、初始采样数量和设备数量确定为目标分布式设备分配的目标样本数量和目标采样数量,其中,目标样本数量表示目标分布式设备上待参与采样的样本数量,目标采样数量表示目标分布式设备上需要采样出的采样数量,根据目标样本数量、目标采样数量在目标分布式设备上进行多批次采样,确定目标分布式采样结果,其中,多批次采样包括从目标样本数量开始,依据目标分布式设备的采样能力逐批次划分出每个批次待参与采样的样本数量,并从目标采样数量开始逐批次随机采样得到每个批次需要采样出的采样数量,对每个批次待参与采样的样本数量按照每个批次需要采样出的采样数量进行采样,得到各个批次对应的采样结果,将各个批次对应的采样结果合并得到目标分布式采样结果,将一组分布式设备对应的一组目标分布式采样结果进行合并,确定目标采样结果,其中,目标采样结果表示对初始样本数量按照初始采样数量采样的采样结果的方式,通过获取初始样本数量、初始采样数量和设备数量,然后根据这些参数确定目标样本数量和目标采样数量。接着,在目标分布式设备上进行多批次采样,每次采样根据目标分布式设备的采样能力划分样本数量,并随机采样得到每个批次的采样数量。最后,将各个批次的采样结果合并得到目标分布式采样结果,并将一组分布式设备的目标分布式采样结果合并得到最终的目标采样结果,达到了对各个分布式设备上的样本分块处理的目的,从而实现了提高抽样数据的处理准确率,优化抽样数据的处理效率的技术效果,进而解决了由于抽样结果的样本个数不够准确,导致抽样数据的处理效率较低的技术问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1