一种用于样本数据的处理方法、装置及电子设备与流程

文档序号:24177276发布日期:2021-03-09 10:31阅读:88来源:国知局
一种用于样本数据的处理方法、装置及电子设备与流程

1.本公开涉及数据处理技术领域,尤其涉及一种用于样本数据的处理方法、装置及电子设备。


背景技术:

2.目前,很多网络应用产品,都在该产品的新功能正式上线之前,做对比测试,获取第一测试账户组中的账户行为与第二测试账户组中的账户行为之间的行为差异信息,作为该网络应用产品的待上线功能的测试结果信息。
3.具体的,通常会设置两个测试账户组,一个是第一测试账户组,使该组中各个第一账户使用未包含待上线功能的所述指定网络应用产品;另一个是第二测试账户组,使该组中各个第二账户使用包含待上线功能的所述指定网络应用产品。分别获取第一测试账户组中各个第一账户的行为数据和第二测试账户组中各个第二账户的行为数据,并计算和获取第一测试账户组中的账户行为与第二测试账户组中的账户行为之间的行为差异信息,作为该网络应用产品的待上线功能的测试结果信息。
4.目前,通常利用双重差分对第一测试账户组的行为数据和第二测试账户组的行为数据进行处理获取账户行为之间的行为差异信息。双重差分处理是直接将两个测试账户组的行为数据进行处理,获取第一测试账户组中的账户行为与第二测试账户组中的账户行为之间的行为差异信息,进而生成测试结果信息的。然而,如果在预设测试时长中前第一时间段中,使用未包含待上线功能的指定网络应用产品过程中第一测试账户组的行为数据和第二测试账户组的行为数据差异巨大,例如:如果一个测试账户组的行为数据波动特别厉害,而另一个测试账户组的行为数据基本没有什么波动,也就是发展的趋势差别较大,那么就会导致这两组行为数据不具有可比性,从而导致生成的测试结果信息不准确。


技术实现要素:

5.本公开提供一种用于样本数据的处理方法、装置及电子设备,以至少解决相关技术中测试结果信息不准确的问题。本公开的技术方案如下:
6.根据本公开实施例的第一方面,提供一种用于样本数据的处理方法,包括:
7.获取多个样本数据,其中,所述样本数据基于使用指定应用产品的账户的数据而生成;
8.从所述多个样本数据中,确定第一测试账户组和第二测试账户组;
9.分别获取预设测试时长内,所述第一测试账户组中各个第一账户的行为数据和第二测试账户组中各个第二账户的行为数据,其中,所述第一测试账户组中各个第一账户的行为数据包含:使用未包含待测试功能的应用产品过程中产生的第一行为数据;所述第二测试账户组中各个第二账户的行为数据包含:使用包含待测试功能的应用产品过程中产生的第二行为数据;
10.基于所述第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户
组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势;
11.如果具有平行趋势,则基于所述第一行为数据和第二行为数据,获取第一测试账户组中的账户行为与第二测试账户组中的账户行为之间的行为差异信息,基于所述行为差异信息生成所述指定应用产品的待测试功能的测试结果信息。
12.在一种具体的实施例中,所述基于所述第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势的步骤,包括:
13.基于所述第一行为数据、参考行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势,其中,所述参考行为数据为在预设测试时长中前第一时间段中,使用未包含待上线功能的所述指定网络应用产品过程中产生的行为数据;
14.所述如果具有平行趋势,则基于所述第一行为数据和第二行为数据,获取第一测试账户组中的账户行为与第二测试账户组中的账户行为之间的行为差异信息,基于所述行为差异信息生成所述指定应用产品的待测试功能的测试结果信息的步骤,包括:
15.如果具有平行趋势,则基于所述第一行为数据、参考行为数据和第二行为数据,采用双差分算法,计算获取第一测试账户组中的账户行为与第二测试账户组中的账户行为之间的行为差异信息,基于所述行为差异信息生成所述指定应用产品的待测试功能的测试结果信息。
16.在一种具体的实施例中,所述基于所述第一行为数据、参考行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势的步骤,包括:
17.基于所述第一行为数据、参考行为数据和第二行为数据,利用预设的公式:y=α+β*treatment+α-n
*t-n
+...+α-2
*t-2
+α0*t0+α1*t1+...+α
n
*t
n
+γ-n
*d-n
+...+γ-2
*d-2
+γ0*d0+...+γ
n
*d
n
,计算出γ
n

18.其中,α为所述第一测试账户组在基准时间的行为数据;α
n
为第一测试账户组在第n天的行为数据与在基准时间的行为数据之间的差值;β为第二测试账户组在基准时间的行为数据与第一测试账户组在基准时间的行为数据之间的差值;t
n
表示第n天;γ
n
为第二测试账户组在第n天的行为数据与在基准时间的行为数据的差值,与第一测试账户组在测试的第n天的行为数据与在基准时间的行为数据的差值之间的差值;d
n
为t
n
*treatment;treatment=0表示第一测试账户组,treatment=1表示第二测试账户组,y为行为数据,所述基准时间为使用包含待上线功能的所述指定网络应用产品的前一天;
19.如果在预设测试时长中前第一时间段中γ
n
均小于预设的阈值,则在所述预设测试时长内所述第一测试账户组和所述第二测试账户组中的账户行为具有平行趋势。
20.在一种具体的实施例中,所述账户样本中包含账户特征及各个账户特征的特征值;
21.所述从所述多个账户样本中,确定第一测试账户组和第二测试账户组的步骤,包括:
22.从所述多个账户样本中,确定第一测试账户组中包含的第一账户,将所述多个账户样本中的非第一账户作为待定账户;
23.基于账户样本中账户特征的特征值,计算获取所有账户样本的倾向值,其中,所述倾向值为反映所述账户样本中账户特征的一个数值;倾向值相同的两个账户样本,其账户特征一致;
24.获取与所述各个第一账户的倾向值匹配的各个待定账户,作为第二账户,组成第二测试账户组。
25.在一种具体的实施例中,在所述基于所述第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势的步骤之前,还包括:
26.针对所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征,检测所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征对应的分布是否一致;
27.如果所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的所有账户特征对应的分布结果一致,则执行所述基于所述第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势的步骤;
28.如果所述第一测试账户组内的第一账户和第二测试账户组内的第二账户中有至少一个账户特征对应的分布结果不一致,则返回执行所述获取多个账户样本的步骤。
29.在一种具体的实施例中,所述针对所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征,检测所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征对应的分布是否一致的步骤,包括:
30.针对所述第一测试账户组内的第一账户和第二测试账户组内的第二账户中账户特征类型为离散型的特征,检测所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的所述账户特征的分布是否一致;
31.针对所述第一测试账户组内的第一账户和第二测试账户组内的第二账户中账户特征类型为连续型的特征,检测所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的所述账户特征的分布是否一致。
32.在一种具体的实施例中,在所述基于所述第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势的步骤之前,还包括:
33.针对所述第一测试账户组内的第一账户和第二测试账户组内的第二账户利用预设的样本均衡检测算法,分别检测所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的各账户特征的样本数量是否均衡;
34.如果所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的各账户特征的样本数量都均衡,则执行所述基于所述第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势的步骤;
35.如果所述第一测试账户组内的第一账户和第二测试账户组内的第二账户中有至少一个账户特征的样本数量不均衡,则返回执行所述获取多个账户样本的步骤。
36.在一种具体的实施例中,所述针对所述第一测试账户组内的第一账户和第二测试
账户组内的第二账户利用预设的样本均衡检测算法,分别检测所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的各账户特征的样本数量是否均衡的步骤,包括:
37.计算所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征标准均数差;
38.判断所述账户特征的标准均数差是否在预设的区间范围内,如果所述账户特征的标准均数差在预设的区间范围内,则确定所述账户特征的样本数量均衡;如果所述账户特征的标准均数差不在预设的区间范围内,则确定所述账户特征的样本数量不均衡。
39.根据本公开实施例的第二方面,提供一种用于样本数据的处理装置,包括:
40.样本获取单元,被配置为执行获取多个样本数据,其中,所述样本数据基于使用指定应用产品的账户的数据而生成;
41.测试账户组确定单元,被配置为执行确定第一测试账户组和第二测试账户组;
42.行为数据获取单元,被配置为执行分别获取预设测试时长内,所述第一测试账户组中各个第一账户的行为数据和第二测试账户组中各个第二账户的行为数据,其中,所述第一测试账户组中各个第一账户的行为数据包含:使用未包含待测试功能的应用产品过程中产生的第一行为数据;所述第二测试账户组中各个第二账户的行为数据包含:使用包含待测试功能的应用产品过程中产生的第二行为数据;
43.检测单元,被配置为执行基于所述第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势;
44.结果信息生成单元,被配置为执行当在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为具有平行趋势时,基于所述第一行为数据和第二行为数据,获取第一测试账户组中的账户行为与第二测试账户组中的账户行为之间的行为差异信息,基于所述行为差异信息生成所述指定应用产品的待测试功能的测试结果信息。
45.在一种具体的实施例中,所述检测单元,被配置为执行基于所述第一行为数据、参考行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势,其中,所述参考行为数据为在预设测试时长中前第一时间段中,使用未包含待上线功能的所述指定网络应用产品过程中产生的行为数据;
46.所述结果信息生成单元,被配置为执行当在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为具有平行趋势时,基于所述第一行为数据、参考行为数据和第二行为数据,采用双差分算法,计算获取第一测试账户组中的账户行为与第二测试账户组中的账户行为之间的行为差异信息,基于所述行为差异信息生成所述指定应用产品的待测试功能的测试结果信息。
47.在一种具体的实施例中,所述检测单元,被配置为执行:
48.基于所述第一行为数据、参考行为数据和第二行为数据,利用预设的公式:y=α+β*treatment+α-n
*t-n
+...+α-2
*t-2
+α0*t0+α1*t1+...+α
n
*t
n
+γ-n
*d-n
+...+γ-2
*d-2
+γ0*d0+...+γ
n
*d
n
,计算出γ
n

49.其中,α为所述第一测试账户组在基准时间的行为数据;α
n
为第一测试账户组在第n天的行为数据与在基准时间的行为数据之间的差值;β为第二测试账户组在基准时间的行
为数据与第一测试账户组在基准时间的行为数据之间的差值;t
n
表示第n天;γ
n
为第二测试账户组在第n天的行为数据与在基准时间的行为数据的差值,与第一测试账户组在测试的第n天的行为数据与在基准时间的行为数据的差值之间的差值;d
n
为t
n
*treatment;treatment=0表示第一测试账户组,treatment=1表示第二测试账户组,y为行为数据,所述基准时间为使用包含待上线功能的所述指定网络应用产品的前一天;
50.如果在预设测试时长中前第一时间段中γ
n
均小于预设的阈值,则在所述预设测试时长内所述第一测试账户组和所述第二测试账户组中的账户行为具有平行趋势。
51.在一种具体的实施例中,所述账户样本中包含账户特征及各个账户特征的特征值;
52.所述测试账户组确定单元,被配置为执行:
53.从所述多个账户样本中,确定第一测试账户组中包含的第一账户,将所述多个账户样本中的非第一账户作为待定账户;
54.基于账户样本中账户特征的特征值,计算获取所有账户样本的倾向值,其中,所述倾向值为反映所述账户样本中账户特征的一个数值;倾向值相同的两个账户样本,其账户特征一致;
55.获取与所述各个第一账户的倾向值匹配的各个待定账户,作为第二账户,组成第二测试账户组。
56.在一种具体的实施例中,所述用于样本数据的处理装置,还包括:特征分布检测单元;
57.所述特征分布检测单元,被配置为执行:
58.在所述检测单元,基于所述第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势之前,针对所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征,检测所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征对应的分布是否一致;
59.如果所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的所有账户特征对应的分布结果一致,则触发所述检测单元;
60.如果所述第一测试账户组内的第一账户和第二测试账户组内的第二账户中有至少一个账户特征对应的分布结果不一致,则触发所述样本获取单元。
61.在一种具体的实施例中,所述特征分布检测单元,被配置为执行:
62.针对所述第一测试账户组内的第一账户和第二测试账户组内的第二账户中账户特征类型为离散型的特征,检测所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的所述账户特征的分布是否一致;
63.针对所述第一测试账户组内的第一账户和第二测试账户组内的第二账户中账户特征类型为连续型的特征,检测所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的所述账户特征的分布是否一致。
64.在一种具体的实施例中,所述用于样本数据的处理装置,还包括:样本均衡检测单元;
65.所述样本均衡检测单元,被配置为执行:
66.在所述检测单元,基于所述第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势之前,针对所述第一测试账户组内的第一账户和第二测试账户组内的第二账户利用预设的样本均衡检测算法,分别检测所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的各账户特征的样本数量是否均衡;
67.如果所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的各账户特征的样本数量都均衡,则触发所述检测单元;
68.如果所述第一测试账户组内的第一账户和第二测试账户组内的第二账户中有至少一个账户特征的样本数量不均衡,则触发所述样本获取单元。
69.在一种具体的实施例中,所述样本均衡检测单元,被配置为执行:
70.计算所述第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征标准均数差;
71.判断所述账户特征的标准均数差是否在预设的区间范围内,如果所述账户特征的标准均数差在预设的区间范围内,则确定所述账户特征的样本数量均衡;如果所述账户特征的标准均数差不在预设的区间范围内,则确定所述账户特征的样本数量不均衡。
72.根据本公开实施例的第三方面,提供一种电子设备,其特征在于,包括:
73.处理器;
74.用于存储所述处理器可执行指令的存储器;
75.其中,所述处理器被配置为执行以下步骤:
76.获取多个样本数据,其中,所述样本数据基于使用指定应用产品的账户的数据而生成;
77.从所述多个样本数据中,确定第一测试账户组和第二测试账户组;
78.分别获取预设测试时长内,所述第一测试账户组中各个第一账户的行为数据和第二测试账户组中各个第二账户的行为数据,其中,所述第一测试账户组中各个第一账户的行为数据包含:使用未包含待测试功能的应用产品过程中产生的第一行为数据;所述第二测试账户组中各个第二账户的行为数据包含:使用包含待测试功能的应用产品过程中产生的第二行为数据;
79.基于所述第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势;
80.如果具有平行趋势,则基于所述第一行为数据和第二行为数据,获取第一测试账户组中的账户行为与第二测试账户组中的账户行为之间的行为差异信息,基于所述行为差异信息生成所述指定应用产品的待测试功能的测试结果信息。
81.根据本公开实施例的第四方面,提供一种当所述存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行以下步骤:
82.获取多个样本数据,其中,所述样本数据基于使用指定应用产品的账户的数据而生成;
83.从所述多个样本数据中,确定第一测试账户组和第二测试账户组;
84.分别获取预设测试时长内,所述第一测试账户组中各个第一账户的行为数据和第二测试账户组中各个第二账户的行为数据,其中,所述第一测试账户组中各个第一账户的
行为数据包含:使用未包含待测试功能的应用产品过程中产生的第一行为数据;所述第二测试账户组中各个第二账户的行为数据包含:使用包含待测试功能的应用产品过程中产生的第二行为数据;
85.基于所述第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势;
86.如果具有平行趋势,则基于所述第一行为数据和第二行为数据,获取第一测试账户组中的账户行为与第二测试账户组中的账户行为之间的行为差异信息,基于所述行为差异信息生成所述指定应用产品的待测试功能的测试结果信息。
87.本公开的实施例提供的技术方案至少带来以下有益效果:由于本公开的实施例提供的技术方案可以实现在处理样本数据的过程中,对第一测试账户组和第二测试账户组是否具有平行趋势进行了验证,只有在具有平行趋势的情况下,也就是两个测试账户组的账户行为具有平行的发展趋势时,才生成测试结果信息。从而,可以保证测试结果信息的准确性。
88.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
89.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
90.图1是根据一示例性实施例示出的一种用于样本数据的处理方法的流程图。
91.图2是根据一示例性实施例示出的另一种用于样本数据的处理方法的流程图。
92.图3a是未利用倾向值匹配的方式确定的第一测试账户组和第二测试账户组的账户样本分布的示意图。
93.图3b是利用倾向值匹配的方式确定的第一测试账户组和第二测试账户组的账户样本分布的示意图。
94.图4是根据一示例性实施例示出的一种用于样本数据的处理装置的框图。
95.图5是根据一示例性实施例示出的另一种用于样本数据的处理装置的框图。
96.图6是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
97.为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
98.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
99.图1是根据一示例性实施例示出的一种用于样本数据的处理方法的流程图,如图1
所示,该用于样本数据的处理方法用于服务器中,包括以下步骤。
100.在步骤s101中,获取多个样本数据,其中,该样本数据基于使用指定应用产品的账户的数据而生成。
101.在步骤s102中,从多个样本数据中,确定第一测试账户组和第二测试账户组。
102.在一种具体的实施例中,账户样本中可以包含账户特征及各个账户特征的特征值;具体的可以按照如下步骤从多个账户样本中,确定第一测试账户组和第二测试账户组:
103.首先,从多个账户样本中,确定第一测试账户组中包含的第一账户,将多个账户样本中的非第一账户作为待定账户;
104.然后,基于账户样本中账户特征的特征值,计算获取所有账户样本的倾向值,其中,倾向值为反映账户样本中账户特征的一个数值;倾向值相同的两个账户样本,其账户特征一致;
105.最后,获取与各个第一账户的倾向值匹配的各个待定账户,作为第二账户,组成第二测试账户组。
106.在步骤s103中,分别获取预设测试时长内,第一测试账户组中各个第一账户的行为数据和第二测试账户组中各个第二账户的行为数据,其中,第一测试账户组中各个第一账户的行为数据包含:使用未包含待测试功能的应用产品过程中产生的第一行为数据;第二测试账户组中各个第二账户的行为数据包含:使用包含待测试功能的应用产品过程中产生的第二行为数据。
107.具体的,第一测试账户组中各个第一账户的行为数据可以包含:在整个预设测试时长内,使用未包含待上线功能的指定网络应用产品过程中产生的全部第一行为数据;第二测试账户组中各个第二账户的行为数据可以包含,两部分:一部分是在预设测试时长中前第一时间段中,使用未包含待上线功能的指定网络应用产品过程中产生的参考行为数据,另一部分是在预设测试时长中在第一时间段之后的第二时间段内,使用包含待上线功能的指定网络应用产品过程中产生的第二行为数据;其中,第一时间段的时长与第二时间段的时长总时长为预设测试时长。
108.在步骤s104中,基于第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势。
109.在一种具体的实施例中,具体的可以是,基于第一行为数据、参考行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势,其中,参考行为数据为在预设测试时长中前第一时间段中,使用未包含待上线功能的指定网络应用产品过程中产生的行为数据。
110.在步骤s105中,如果具有平行趋势,则基于第一行为数据和第二行为数据,获取第一测试账户组中的账户行为与第二测试账户组中的账户行为之间的行为差异信息,基于该行为差异信息生成指定应用产品的待测试功能的测试结果信息。
111.在有的实施例中,如果不具有平行趋势,则说明这两组测试数据,不具有可比性,可以重新获得样本数据,进行测试。
112.在一种具体的实施例中,具体的可以是,如果在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为具有平行趋势,则基于第一行为数据、参考行为数据和第二行为数据,采用双差分算法,计算获取第一测试账户组中的账户行为与第
二测试账户组中的账户行为之间的行为差异信息,作为指定应用产品的待测试功能的测试结果信息。这个测试结果信息,可以用作进行价值评价的信息。
113.由于本公开的实施例提供的技术方案可以实现在处理样本数据的过程中,对第一测试账户组和第二测试账户组是否具有平行趋势进行了验证,只有在具有平行趋势的情况下,也就是两个测试账户组的账户行为具有平行的发展趋势时,才生成测试结果信息。从而,可以保证测试结果信息的准确性。
114.以下列举一个具体的实施例,对本公开实施例提供的用于样本数据的处理方法做进一步详细的说明。
115.图2是根据一示例性实施例示出的另一种用于样本数据的处理方法的流程图,如图2所示,该用于样本数据的处理方法,包括以下步骤:
116.在步骤s201中,获取多个样本数据,其中,该样本数据基于使用指定应用产品的账户的数据而生成。
117.在实际应用中,在获取样本数据后还可以对样本数据进行预处理,比如清洗,以避免样本数据中出现脏数据。
118.例如:获取的样本数据中存在某些样本的数据获取不全存在数据缺失,那么,就这些数据就为脏数据,需要从获取的样本数据中清洗掉这些数据,具体的可以是检测获取的样本数据中的每一样本数据是否都包含所需的账户特征,如果某一样本数据中不包含某一所需的账户特征时,则删除该样本数据。
119.在步骤s202中,从多个样本数据中,确定第一测试账户组和第二测试账户组。
120.在一种具体的实施例中,账户样本中可以包含账户特征及各个账户特征的特征值。可以先从多个账户样本中,确定第一测试账户组中包含的第一账户,将该多个账户样本中的非第一账户作为待定账户;再利用逻辑回归模型计算获取各个账户样本的倾向值;然后获取与各个第一账户的倾向值匹配的各个待定账户,作为第二账户,组成第二测试账户组,其中,w
t
为权重矩阵w的转置,x为账户样本,y为该账户样本对应的倾向值。其中,倾向值为可以反映账户样本中账户特征的一个数值;倾向值相同的两个账户样本,其账户特征趋于一致,x是矩阵。
121.在实际应用中,可以
122.利用倾向评分匹配(propensity score matching,psm)模型进行倾向值匹配,分别确定第二测试账户组中包含的第二账户。
123.图3a是未利用倾向值匹配的方式确定的第一测试账户组和第二测试账户组的账户样本分布的示意图,3b是利用倾向值匹配的方式确定的第一测试账户组和第二测试账户组的账户样本分布的示意图,参见图3a,未利用倾向值匹配的方式确定的第一测试账户组和第二测试账户组的账户样本的分布是不完全重叠的,表明第一测试账户组(即图中的控制组)和第二测试账户组(即图示中的实验组)的账户样本分布不一致。参见图3b,利用倾向值匹配的方式确定的第一测试账户组(图中的控制组)和第二测试账户组(图示中的实验组)的账户样本分布基本重叠,表明第一测试账户组和第二测试账户组的账户样本分布一致。由图3a和3b可见,利用倾向值匹配的方式确定第一测试账户组和第二测试账户组可以得到账户样本分布一致的第一测试账户组和第二测试账户组,有利于进一步提高测试结果
信息的准确性。
124.在实际应用中,第一测试账户组和第二测试账户组可以是1对k匹配,即,针对第一测试账户组中的每一倾向值对应的账户样本数量,第二测试账户组需有k倍个倾向值相同的账户样本,其中,k为大于或等于1的自然数。k的取值可以由设计人员根据实际需求人为设定,一般来说,考虑到计算量、使用指定应用产品的账户数量和待测试功能对账户使用指定应用产品影响的不确定性,设计人员通常都不会将k值的取的过大,也就是说第一测试账户组和第二测试账户组内包含的账户数量,大体上是相当的,而不会相差几十倍或几百倍。例如,k取值为5,则第一测试账户组中有5个倾向值为0.5的账户样本,则第二测试账户组需有5*5=25个倾向值为0.5的账户样本。
125.在步骤s203中,针对第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征,检测第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征对应的分布是否一致;如果是,则执行步骤s204;如果否,则执行步骤s201。
126.在一种具体的实施例中,可以是针对第一测试账户组内的第一账户和第二测试账户组内的第二账户中账户特征类型为离散型的特征,利用卡方检测(chi-square test),检测第一测试账户组内的第一账户和第二测试账户组内的第二账户的账户特征的分布是否一致;
127.针对第一测试账户组内的第一账户和第二测试账户组内的第二账户中账户特征类型为连续型的特征,利用柯尔莫哥洛夫-斯米尔诺夫检测(kolmogorov-smirnov test,ks检测),检测第一测试账户组内的第一账户和第二测试账户组内的第二账户的账户特征的分布是否一致。
128.例如:账户特征为账户的年龄、性别、职业、收入、省份和国家等,其中,年龄、性别、职业、省份和国家为离散型的特征,收入为连续型的特征。那么,分别对离散型的特征:年龄、性别、职业、省份和国家,利用卡方检测,检测第一测试账户组内的第一账户和第二测试账户组内的第二账户的年龄、性别、职业、省份和国家的分布是否一致;对连续型的特征:收入,利用柯尔莫哥洛夫-斯米尔诺夫检测,检测第一测试账户组内的第一账户和第二测试账户组内的第二账户的收入的分布是否一致。
129.具体的,卡方检测的公式可以为:其中,χ2为统计量,f
ij
为第一测试账户组内的第一账户或第二测试账户组内的第二账户对应的矩阵的第i行j列的元素,e
ij
就是总量*(第i行求和/总量)*(第j列求和/总量),根据计算结果查χ2统计量对应的eij分布表,得到概率p,再将p与预设的阈值进行比较,如果p值大于该预设的阈值,则表明分布一致,否则,分布不一致。比如:将p与预设的阈值0.05进行比较,如果p值大于0.05,则表明分布一致,否则,分布不一致。
130.具体的,ks检测的公式可以为:其中,sup为上确界函数,d
n,m
为f
1,n
(x)与f
2,m
(x)差距的最大值,f
1,n
(x)为实验组或控制组样本特征的累计频率,f
2,m
(x)为预设的样本特征的累计频率。根据计算结果查d统计量对应的分布表,得到概率p,再将p与预设的阈值进行比较,如果p值大于该预设的阈值,则表明分布一致,否则,分布不一致。比如:将p与预设的阈值0.05进行比较,如果p值大于0.05,则表明分布一致,否则,分
布不一致。
131.在步骤s204中,针对第一测试账户组内的第一账户和第二测试账户组内的第二账户利用预设的样本均衡检测算法,分别检测第一测试账户组内的第一账户和第二测试账户组内的第二账户的各账户特征的样本数量是否均衡;如果是,则执行步骤s205;如果否,则执行步骤s201。
132.在一种具体的实施例中,可以是计算第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征标准均数差(std mean difference,smd);判断该账户特征的标准均数差是否在预设的区间范围内,如果该账户特征的标准均数差在预设的区间范围内,则确定该账户特征的样本数量均衡;如果该账户特征的标准均数差不在预设的区间范围内,则确定该账户特征的样本数量不均衡。
133.例如:预设的区间范围可以是[-0.2,0.2],如果针对某账户特征计算得到的标准均数差落入[-0.2,0.2]内,则认为该账户特征的样本数量是否均衡的。
[0134]
在步骤s205中,基于第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势;如果第一测试账户组中的账户行为与第二测试账户组中的账户行为具有平行趋势,则执行步骤s206;如果第一测试账户组中的账户行为与第二测试账户组中的账户行为不具有平行趋势,则执行步骤s201。
[0135]
实际应用中,可以基于第一行为数据、参考行为数据和第二行为数据,用预设的公式:y=α+β*treatment+α-n
*t-n
+...+α-2
*t-2
+α0*t0+α1*t1+...+α
n
*t
n
+γ-n
*d-n
+...+γ-2
*d-2
+γ0*d0+...+γ
n
*d
n
,计算出γ
n

[0136]
其中,α为第一测试账户组在基准时间的行为数据;α
n
为第一测试账户组在第n天的行为数据与在基准时间的行为数据之间的差值;β为第二测试账户组在基准时间的行为数据与第一测试账户组在基准时间的行为数据之间的差值;t
n
表示第n天;γ
n
为第二测试账户组在第n天的行为数据与在基准时间的行为数据的差值,与第一测试账户组在测试的第n天的行为数据与在基准时间的行为数据的差值之间的差值;d
n
为t
n
*treatment;treatment=0表示第一测试账户组,treatment=1表示第二测试账户组,y为行为数据,基准时间为使用包含待上线功能的指定网络应用产品的前一天;
[0137]
如果在预设测试时长中前第一时间段中γ
n
均小于预设的阈值,则在预设测试时长内第一测试账户组和第二测试账户组中的账户行为具有平行趋势。
[0138]
在步骤s206中,基于第一行为数据和第二行为数据,获取第一测试账户组中的账户行为与第二测试账户组中的账户行为之间的行为差异信息,基于该行为差异信息生成指定应用产品的待测试功能的测试结果信息。
[0139]
例如,对于某应用app,测试结果信息可以是该应用app访问率的差异,如果获取的测试结果信息,表明第二测试账户组的访问率要高于第一测试账户组的访问率,则可以说明待测试功能对该应用app的访问率有促进作用,那么,可以在该应用app中增加该待测试功能;如果获取的测试结果信息,表明第二测试账户组的访问率要高低于第一测试账户组的访问率,则可以说明待测试功能对该应用app的访问率有阻碍作用,那么,不宜在该应用app中增加该待测试功能。
[0140]
在另一种具体的实施例中还可以先执行步骤s203再执行步骤s204,在其他实施例
中还可以同时执行步骤s203和s204,本公开并不限定执行步骤s203和s204的执行顺序。
[0141]
由图2所示的实施例可见,由于本公开的实施例提供的技术方案可以实现在处理样本数据的过程中,对第一测试账户组和第二测试账户组是否具有平行趋势进行了验证,只有在具有平行趋势的情况下,也就是两个测试账户组的账户行为具有平行的发展趋势时,才生成测试结果信息。从而,可以保证测试结果信息的准确性。并且,本公开的实施例提供的技术方案还可以检测第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征对应的分布是否一致和/或检测第一测试账户组内的第一账户和第二测试账户组内的第二账户的各账户特征的样本数量是否均衡,从而,可以进一步保证测试结果信息的准确性。
[0142]
另外,在实际应用中,可以将本公开实施例提供的技术方案的整个流程封装成一个程序包,从而实现流程的一体化。因此,可以避免多个程序包间可能出现的参数不一致的问题。封装好的程序包在进行样本数据处理时可以直接拿来使用,不用开发人员在每一次进行样本数据处理时都写代码,因而可以减少开发人员的工作量。
[0143]
图4是根据一示例性实施例示出的一种用于样本数据的处理装置框图。参照图4,该装置可以包括样本获取单元401,测试账户组确定单元402、行为数据获取单元403、检测单元404和结果信息生成单元405。
[0144]
该样本获取单元401,被配置为执行获取多个样本数据,其中,该样本数据基于使用指定应用产品的账户的数据而生成;
[0145]
该测试账户组确定单元402,被配置为执行确定第一测试账户组和第二测试账户组;
[0146]
该行为数据获取单元403,被配置为执行分别获取预设测试时长内,第一测试账户组中各个第一账户的行为数据和第二测试账户组中各个第二账户的行为数据,其中,第一测试账户组中各个第一账户的行为数据包含:使用未包含待测试功能的应用产品过程中产生的第一行为数据;第二测试账户组中各个第二账户的行为数据包含:使用包含待测试功能的应用产品过程中产生的第二行为数据;
[0147]
该检测单元404,被配置为执行基于第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势;
[0148]
该结果信息生成单元405,被配置为执行当在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为具有平行趋势时,基于第一行为数据和第二行为数据,获取第一测试账户组中的账户行为与第二测试账户组中的账户行为之间的行为差异信息,基于该行为差异信息生成指定应用产品的待测试功能的测试结果信息。
[0149]
在一种具体的实施例中,检测单元404,可以被配置为执行基于第一行为数据、参考行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势,其中,参考行为数据为在预设测试时长中前第一时间段中,使用未包含待上线功能的指定网络应用产品过程中产生的行为数据;
[0150]
结果信息生成单元405,被配置为执行当在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为具有平行趋势时,基于第一行为数据、参考行为数据和第二行为数据,采用双差分算法,计算获取第一测试账户组中的账户行为与第二测
试账户组中的账户行为之间的行为差异信息,基于所述行为差异信息生成所述指定应用产品的待测试功能的测试结果信息。
[0151]
在一种具体的实施例中,检测单元404,被配置为执行:
[0152]
基于第一行为数据、参考行为数据和第二行为数据,利用预设的公式:y=α+β*treatment+α-n
*t-n
+...+α-2
*t-2
+α0*t0+α1*t1+...+α
n
*t
n
+γ-n
*d-n
+...+γ-2
*d-2
+γ0*d0+...+γ
n
*d
n
,计算出γ
n

[0153]
其中,α为第一测试账户组在基准时间的行为数据;α
n
为第一测试账户组在第n天的行为数据与在基准时间的行为数据之间的差值;β为第二测试账户组在基准时间的行为数据与第一测试账户组在基准时间的行为数据之间的差值;t
n
表示第n天;γ
n
为第二测试账户组在第n天的行为数据与在基准时间的行为数据的差值,与第一测试账户组在测试的第n天的行为数据与在基准时间的行为数据的差值之间的差值;d
n
为t
n
*treatment;treatment=0表示第一测试账户组,treatment=1表示第二测试账户组,y为行为数据,基准时间为使用包含待上线功能的指定网络应用产品的前一天;
[0154]
如果在预设测试时长中前第一时间段中γ
n
均小于预设的阈值,则在预设测试时长内第一测试账户组和第二测试账户组中的账户行为具有平行趋势。
[0155]
在一种具体的实施例中,账户样本中包含账户特征及各个账户特征的特征值;
[0156]
测试账户组确定单元402,被配置为执行:
[0157]
从多个账户样本中,确定第一测试账户组中包含的第一账户,将多个账户样本中的非第一账户作为待定账户;
[0158]
基于账户样本中账户特征的特征值,计算获取所有账户样本的倾向值,其中,倾向值为反映账户样本中账户特征的一个数值;倾向值相同的两个账户样本,其账户特征一致;
[0159]
获取与各个第一账户的倾向值匹配的各个待定账户,作为第二账户,组成第二测试账户组。
[0160]
参见图5,在一种具体的实施例中,该用于样本数据的处理装置,还可以包括:特征分布检测单元501;
[0161]
该特征分布检测单元501,被配置为执行:
[0162]
在所述检测单元,基于所述第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势之前,针对第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征,检测第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征对应的分布是否一致;
[0163]
如果第一测试账户组内的第一账户和第二测试账户组内的第二账户的所有账户特征对应的分布结果一致,则触发检测单元404;
[0164]
如果第一测试账户组内的第一账户和第二测试账户组内的第二账户中有至少一个账户特征对应的分布结果不一致,则触发样本获取单元401。
[0165]
在一种具体的实施例中,特征分布检测单元501,可以被配置为执行:
[0166]
针对第一测试账户组内的第一账户和第二测试账户组内的第二账户中账户特征类型为离散型的特征,检测第一测试账户组内的第一账户和第二测试账户组内的第二账户的账户特征的分布是否一致;
[0167]
针对第一测试账户组内的第一账户和第二测试账户组内的第二账户中账户特征类型为连续型的特征,检测第一测试账户组内的第一账户和第二测试账户组内的第二账户的账户特征的分布是否一致。
[0168]
参见图5,在一种具体的实施例中,该用于样本数据的处理装置,还可以包括:样本均衡检测单502;
[0169]
该样本均衡检测单元502,可以被配置为执行:
[0170]
在所述检测单元,基于所述第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势之前,针对第一测试账户组内的第一账户和第二测试账户组内的第二账户利用预设的样本均衡检测算法,分别检测第一测试账户组内的第一账户和第二测试账户组内的第二账户的各账户特征的样本数量是否均衡;
[0171]
如果第一测试账户组内的第一账户和第二测试账户组内的第二账户的各账户特征的样本数量都均衡,则触发检测单元404;
[0172]
如果第一测试账户组内的第一账户和第二测试账户组内的第二账户中有至少一个账户特征的样本数量不均衡,则触发样本获取单元401。
[0173]
在一种具体的实施例中,样本均衡检测单元502,可以被配置为执行:
[0174]
计算第一测试账户组内的第一账户和第二测试账户组内的第二账户的每一账户特征标准均数差;
[0175]
判断账户特征的标准均数差是否在预设的区间范围内,如果账户特征的标准均数差在预设的区间范围内,则确定账户特征的样本数量均衡;如果账户特征的标准均数差不在预设的区间范围内,则确定账户特征的样本数量不均衡。
[0176]
由于本公开的实施例提供的装置可以实现在处理样本数据的过程中,对第一测试账户组和第二测试账户组是否具有平行趋势进行了验证,只有在具有平行趋势的情况下,也就是两个测试账户组的账户行为具有平行的发展趋势时,才生成测试结果信息。从而,可以保证测试结果信息的准确性。
[0177]
图6是根据一示例性实施例示出的一种电子设备的框图。参照图6,该电子设备可以包括:
[0178]
处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
[0179]
存储器603,用于存放计算机程序;
[0180]
处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
[0181]
获取多个样本数据,其中,该样本数据基于使用指定应用产品的账户的数据而生成;
[0182]
从多个样本数据中,确定第一测试账户组和第二测试账户组;
[0183]
分别获取预设测试时长内,第一测试账户组中各个第一账户的行为数据和第二测试账户组中各个第二账户的行为数据,其中,第一测试账户组中各个第一账户的行为数据包含:使用未包含待测试功能的应用产品过程中产生的第一行为数据;第二测试账户组中各个第二账户的行为数据包含:使用包含待测试功能的应用产品过程中产生的第二行为数据;
[0184]
基于第一行为数据和第二行为数据,检测在预设测试时长内,第一测试账户组中的账户行为与第二测试账户组中的账户行为,是否具有平行趋势;
[0185]
如果具有平行趋势,则基于第一行为数据和第二行为数据,获取第一测试账户组中的账户行为与第二测试账户组中的账户行为之间的行为差异信息,基于行为差异信息生成指定应用产品的待测试功能的测试结果信息。
[0186]
由于本公开的实施例提供的电子设备可以实现在处理样本数据的过程中,对第一测试账户组和第二测试账户组是否具有平行趋势进行了验证,只有在具有平行趋势的情况下,也就是两个测试账户组的账户行为具有平行的发展趋势时,才生成测试结果信息。从而,可以保证测试结果信息的准确性。
[0187]
上述电子设备提到的通信总线可以是外设部件互连标准(peripheral component interconnect,pci)总线或扩展工业标准结构(extended industry standard architecture,eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0188]
通信接口用于上述电子设备与其他设备之间的通信。
[0189]
存储器可以包括随机存取存储器(random access memory,ram),也可以包括非易失性存储器(non-volatile memory,nvm),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0190]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processing,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0191]
在本公开提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述任一用于样本数据的处理方法的步骤。
[0192]
在本公开提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一用于样本数据的处理方法。
[0193]
需要说明的是,本申请涉及的账户信息等均经用户或账户授权而采集、并进行后续处理分析。
[0194]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
[0195]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1