抽样方法、装置、电子设备及存储介质与流程

文档序号:36972624发布日期:2024-02-07 13:22阅读:19来源:国知局
抽样方法、装置、电子设备及存储介质与流程

本发明涉及数据处理领域,具体而言,涉及一种抽样方法、装置、电子设备及存储介质。


背景技术:

1、对照实验(又称为ab实验)广泛应用于互联网产品、设计、搜索、推荐系统、广告系统、数据分析、数字化运营和智能营销等领域,也广泛应用于自然科学、心理学、经济学和生物医药等领域,是数据驱动和开展科学研究的重要手段。

2、为保证ab实验的准确性,通常要求抽样得到ab两组流量中的数据差异尽可能小,以减小抽样产生的误差。此外,为了提升抽样效率,目前通常先将数据随机分成n个数据桶,再根据流量占比从多个数据桶中随机抽取k%n个桶。然而,这种抽样方法得到的ab流量组间的数据量差异大,导致产生srm(sample ratio mismacth,样本比例不匹配)问题。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种抽样方法、装置、电子设备及存储介质,其能够降低抽取的对照实验的实验组间的数据量差异,改善srm问题。

2、为了实现上述目的,本发明实施例采用的技术方案如下:

3、第一方面,本发明实施例提供一种抽样方法,所述方法包括:

4、按照实验比例,对目标实验层的所有数据桶进行随机抽取,得到多个锁定桶;

5、获取每个所述锁定桶的数据总量,并根据所述数据总量,将所有所述锁定桶进行排序;

6、根据目标实验任务的实验组数量,对排序后的锁定桶进行间隔划分,得到多个间隔组;

7、从每个所述间隔组中,随机抽取相同数量的锁定桶分配至所述目标实验任务的各实验组。

8、在一种可能的实施方式中,所述按照实验比例,对目标实验层的所有数据桶进行随机抽取,得到多个锁定桶的步骤,包括:

9、确定所述目标实验层对应的待抽样的多个实验任务,以及每个所述实验任务的实验比例;

10、将所述待抽样的多个实验任务中排序最前的实验任务,作为锁定任务;

11、基于所述锁定任务的实验比例,对所述目标实验层的当前时刻未锁定的数据桶进行随机锁定,得到所述锁定任务的锁定桶;

12、更新未锁定的数据桶,并返回执行所述将所述待抽样的多个实验任务中排序最前的实验任务,作为锁定任务的步骤。

13、在一种可能的实施方式中,所述基于所述锁定任务的实验比例,对所述目标实验层的当前时刻未锁定的数据桶进行随机锁定,得到所述锁定任务的锁定桶的步骤,包括:

14、将所述锁定任务的实验比例、数据桶总数和实验组数量作乘,得到所述锁定任务的需求桶数量;

15、从所述目标实验层的当前时刻未锁定的数据桶中,随机锁定所述需求桶数量个数据桶,作为所述锁定任务的锁定桶。

16、在一种可能的实施方式中,所述目标实验层为实验域的一个数据实验层;

17、在所述按照实验比例,对目标实验层的所有数据桶进行随机抽取,得到多个锁定桶的步骤之前,所述方法还包括:

18、获取待分桶的所有数据流量,并针对每个所述数据实验层,将所述数据流量均匀分配至所述数据实验层的各数据桶内。

19、在一种可能的实施方式中,在所述针对每个所述数据实验层,将所述数据流量均匀分配至所述数据实验层的各数据桶内的步骤之后,在所述按照实验比例,对目标实验层的所有数据桶进行随机抽取,得到多个锁定桶之前,所述方法还包括:

20、每间隔预设的计数周期,统计各所述数据桶内的数据流量的数据总量,并将所述数据总量与所述数据桶的标识以关联存储至数据库。

21、在一这可能的实施方式中,所述获取每个所述锁定桶的数据量的步骤,包括:

22、根据所述锁定桶的标识,从所述数据库中查询出每个所述锁定桶的数据总量。

23、在一种可能的实施方式中,每个所述间隔组内的锁定桶数量与所述实验组数量一致;

24、所述从每个所述间隔组中,随机抽取相同数量的锁定桶分配至所述目标实验任务的各实验组的步骤,包括:

25、针对所述目标实验任务的每个实验组,从每个所述间隔组中随机抽取一个锁定桶,选择该锁定桶在目标时段分得的数据流量,得到所述实验组的抽样结果;

26、其中,所述目标时段以最新一次统计所述锁定桶的数据总量的时刻作为结束时刻。

27、在一种可能的实施方式中,所述将所述数据流量均匀分配至所述数据实验层的各数据桶内的步骤,包括:

28、获取所述数据实验层的分桶种子,针对每个所述数据流量,根据所述分桶种子和所述数据流量的标识,计算出hash值,将所述数据流量分配至所述hash值对应的数据桶内;其中,所述标识表征数据流量在数据实验层的所有数据流量中的序号。

29、第二方面,本发明实施例提供一种抽样装置,包括锁桶模块、排序模块、划分模块和分配模块;

30、所述锁桶模块,用于按照实验比例,对目标实验层的所有数据桶进行随机抽取,得到多个锁定桶;

31、所述排序模块,用于获取每个所述锁定桶的数据总量,并根据所述数据总量,将所有所述锁定桶进行排序;

32、所述划分模块,用于根据目标实验任务的实验组数量,对排序后的锁定桶进行间隔划分,得到多个间隔组;

33、所述分配模块,用于从每个所述间隔组中,随机抽取相同数量的锁定桶分配至所述目标实验任务的各实验组。

34、第三方面,本发明实施例提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现如第一方面中任一种可能的实施方式所述的抽样方法。

35、第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一种可能的实施方式所述的抽样方法。

36、本发明实施例提供的抽样方法、装置、电子设备及存储介质,方法包括:按照实验比例,从目标实验层的所有数据桶中随机抽取多个锁定桶;根据每个锁定桶的数据总量,将所有锁定桶进行排序;根据目标实验任务的实验组数量,将排序后的锁定桶划分成多个间隔组;从每个间隔组中,随机抽取相同数量的锁定桶分配至目标实验任务的各实验组。如此,先使间隔组内的各锁定桶的数据量最为接近,再将间隔组中的各锁定桶以相同数量的方式随机分配给各实验组,使实验组间分配到的数据总量尽可能相同,大大降低了同一实验任务的各实验组间的数据量差异,改善了srm问题。

37、为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。



技术特征:

1.一种抽样方法,其特征在于,所述方法包括:

2.根据权利要求1所述的抽样方法,其特征在于,所述按照实验比例,对目标实验层的所有数据桶进行随机抽取,得到多个锁定桶的步骤,包括:

3.根据权利要求2所述的抽样方法,其特征在于,所述基于所述锁定任务的实验比例,对所述目标实验层的当前时刻未锁定的数据桶进行随机锁定,得到所述锁定任务的锁定桶的步骤,包括:

4.根据权利要求1至3中任一项所述的抽样方法,其特征在于,所述目标实验层为实验域的一个数据实验层;

5.根据权利要求4所述的抽样方法,其特征在于,在所述针对每个所述数据实验层,将所述数据流量均匀分配至所述数据实验层的各数据桶内的步骤之后,在所述按照实验比例,对目标实验层的所有数据桶进行随机抽取,得到多个锁定桶之前,所述方法还包括:

6.根据权利要求5所述的抽样方法,其特征在于,所述获取每个所述锁定桶的数据量的步骤,包括:

7.根据权利要求5所述的抽样方法,其特征在于,每个所述间隔组内的锁定桶数量与所述实验组数量一致;

8.根据权利要求4所述的抽样方法,其特征在于,所述将所述数据流量均匀分配至所述数据实验层的各数据桶内的步骤,包括:

9.一种抽样装置,其特征在于,包括锁桶模块、排序模块、划分模块和分配模块;

10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现如权利要求1至8中任一项所述的抽样方法。

11.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的抽样方法。


技术总结
本发明实施例提出一种抽样方法、装置、电子设备及存储介质,属于数据处理领域,方法包括:从目标实验层的所有数据桶中随机抽取多个锁定桶,根据每个锁定桶的数据总量,将所有锁定桶进行排序;根据目标实验任务的实验组数量,将排序后的锁定桶划分成多个间隔组,从每个间隔组中,随机抽取相同数量的锁定桶分配至目标实验任务的各实验组。如此,先将所有数据桶进行排序,并对排序后的数据桶进行间隔划分,使间隔组内的各锁定桶的数据量最为接近,再将间隔组中的各锁定桶以相同数量的方式随机分配给各实验组,使实验组间分配到的数据总量尽可能相同,大大降低了同一实验任务的各实验组间的数据量差异,改善了SRM问题。

技术研发人员:孙玉坤,毛锐,谷红芳,汤晋瑄,李大海
受保护的技术使用者:智者四海(北京)技术有限公司
技术研发日:
技术公布日:2024/2/6
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1