实验结果的确定方法、装置、设备及存储介质与流程

文档序号:26280130发布日期:2021-08-13 19:37阅读:98来源:国知局
实验结果的确定方法、装置、设备及存储介质与流程

本申请实施例涉及计算机技术领域,特别涉及一种实验结果的确定方法、装置、设备及存储介质。



背景技术:

在互联网场景中,设计者们可以通过ab实验平台来测试新产品、新方案等的优劣。

以直播场景为例,设计者们通过ab实验平台以随机化实验的方式对新产品和当前在线产品进行比对。例如,以均匀划分的方式将用户分成实验组和对照组,实验组对应新产品,对照组对应当前在线产品,然后统计诸如用户浏览量、用户留存时长、人均观看时长、基础互动率等评分指标下的数据,最后对实验组和对照组分别在某一评分指标下的数据进行比对,确定出该评分指标下的ab实验结果。

然而,上述随机化实验的方式是基于单变量的假设校验,也即一次只能比较一个维度的评分指标,在有多维度的评分指标的情况下,需要人工结合各个评分指标下的ab实验结果进行比对,得到最终的ab实验结果,ab实验结果的确定效率不高。



技术实现要素:

本申请实施例提供了一种实验结果的确定方法、装置、设备及存储介质,能够基于多维度的评分指标以量化的方式自动化生成ab实验结果,提高ab实验结果的确定效率以及合理性。所述技术方案如下:

根据本申请实施例的一个方面,提供了一种实验结果的确定方法,所述方法包括:

获取ab实验中的用户实验数据;其中,所述用户实验数据包括实验组和对照组分别在n个评分指标下的实验数据,所述n为正整数;

基于所述实验组在所述n个评分指标下的实验数据,获取所述实验组在所述n个评分指标下的均值后验分布,以及基于所述对照组在所述n个评分指标下的实验数据,获取所述对照组在所述n个评分指标下的均值后验分布,所述均值后验分布是指所述评分指标下的实验数据的均值的后验概率分布;

基于所述实验组在所述n个评分指标下的均值后验分布,确定所述实验组对应的评分,以及基于所述对照组在所述n个评分指标下的均值后验分布,确定所述对照组对应的评分;

将所述实验组对应的评分和所述对照组对应的评分进行比对,得到所述ab实验结果。

根据本申请实施例的一个方面,提供了一种实验结果的确定装置,所述装置包括:

获取ab实验中的用户实验数据;其中,所述用户实验数据包括实验组和对照组分别在n个评分指标下的实验数据,所述n为正整数;

基于所述实验组在所述n个评分指标下的实验数据,获取所述实验组在所述n个评分指标下的均值后验分布,以及基于所述对照组在所述n个评分指标下的实验数据,获取所述对照组在所述n个评分指标下的均值后验分布,所述均值后验分布是指所述评分指标下的实验数据的均值的后验概率分布;

基于所述实验组在所述n个评分指标下的均值后验分布,确定所述实验组对应的评分,以及基于所述对照组在所述n个评分指标下的均值后验分布,确定所述对照组对应的评分;

将所述实验组对应的评分和所述对照组对应的评分进行比对,得到所述ab实验结果。

根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述实验结果的确定方法。

根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序由处理器加载并执行以实现上述实验结果的确定方法。

根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实验结果的确定方法。

本申请实施例提供的技术方案可以带来如下有益效果:

通过基于ab实验中的用户实验数据,确定出实验组在各个评分指标下的均值后验分布以及对照组在各个评分指标下的均值后验分布,再基于实验组在各个评分指标下的均值后验分布和对照组在各个评分指标下的均值后验分布,分别确定出实验组的评分和对照组的评分,最后基于实验组的评分和对照组的评分确定出ab实验结果,实现了在多维度的评分指标下的ab实验结果的自动化确定,而无需进行人工比对,从而提高了ab实验结果的确定效率。

另外,通过结合多维度的评分指标下的均值后验分布,进行评分的确定,提高了评分的合理性和全面性,进而提高了ab实验结果的合理性和全面性。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的方案实施环境的示意图;

图2是本申请一个实施例提供的实验结果的确定方法的流程图;

图3是本申请一个实施例提供的用户实验数据的图表;

图4是本申请一个实施例提供的均值后验分布的图表;

图5是本申请一个实施例提供的ab实验平台的实验界面的示意图;

图6是本申请一个实施例提供的实验结果的确定装置的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。

请参考图1,其示出了本申请一个实施例提供的方案实施环境的示意图。该方案实施环境可以实现成为ab实验系统的架构。该方案实施环境可以包括:终端10和ab实验平台20。

终端10是指用户使用的终端设备。终端10可以是诸如手机、平板电脑、pc(personalcomputer,个人计算机)、可穿戴设备等电子设备。终端10中可以安装运行目标应用程序的客户端。用户可以通过终端10接入目标应用程序的客户端。该目标应用程序可以是直播类应用程序、视频类应用程序、购物类应用程序等,本申请实施例对此不作限定。可选地,终端10中可以安装运行不同方案版本下的目标应用程序的客户端,诸如新方案对应的客户端,当前在线方案对应的客户端等。

ab实验平台20是一种测试平台,该ab实验平台20可以提供针对产品、方案等的测试服务。在一个示例中,ab实验平台20通过随机化实验的方式对产品方案的优劣进行判断。例如,通过基于新产品在多个评分指标下的数据和当前在线产品在多个评分指标下的数据,对新产品和当前在线产品进行比对,确定出新产品的优劣。可选地,ab实验平台20包括一个或多个服务器,该一个或多个服务器可以是ab实验平台20的后台服务器,用于为ab实验平台20提供后台服务,诸如数据统计、数据计算、数据比对等。

终端10与ab实验平台20之间可以通过网络进行通信。

示例性地,ab实验平台20汇总来自新产品对应的终端10的用户实验数据,以及来自当前在线产品对应的终端10的用户实验数据,并基于用户实验数据对新产品和当前在线产品进行比对处理,确定出新产品的优劣。

请参考图2,其示出了本申请一个实施例提供的实验结果的确定方法的流程图。该方法各步骤的执行主体可以是上述的ab实验平台20,诸如ab实验平台20对应的服务器。该方法可以包括如下几个步骤(201~204):

步骤201,获取ab实验中的用户实验数据;其中,用户实验数据包括实验组和对照组分别在n个评分指标下的实验数据,n为正整数。

在本申请实施例中,ab实验是指上述ab实验平台用于对产品、方案等的优劣进行判断的实验。在该ab实验中,用户被ab实验平台采用均匀划分的方式分为实验组和对照组。可选地,实验组对应的用户使用新产品、新方案等,对照组对应的用户使用当前在线产品、当前在线方案等。用户实验数据包括上述实验组对应的用户在使用新产品、新方案等形成的数据和上述对照组对应的用户在使用当前在线产品、当前在线方案等形成的数据,也即用户实验数据包括实验组对应的实验数据和对照组对应的实验数据。其中,对照组对应的实验数据用于作为实验组对应的实验数据的比照对象,也即当前在线产品、当前在线方案等对应的实验数据用于作为新产品、新方案的优劣评判基准。

在一个示例中,可以通过用户的id(identitydocument,身份标识号)的尾数进行均匀地分组。例如,以直播类应用程序为例,每一个用户在直播类应用程序对应的客户端中注册的时,会被分配到一个id,可以将id的尾数为奇数的用户分为一组,将id的尾数为偶数的用户分为一组。

可选地,上述评分指标是指上述ab实验平台在评分过程中的考量指标。在n等于1的情况下,ab实验平台只需分别获取实验组和对照组在该一个评分指标对应的实验数据。在n大于1的情况下,ab实验平台需要获取实验组和对照组分别在n个评分指标下的实验数据。示例性地,以直播/短视频类应用程序为例,其重要的评分指标可以包括用户浏览量、用户留存时长、人均观看时长、基础互动率等,则ab实验平台需要获取实验组和对照组分别在用户浏览量、用户留存时长、人均观看时长、基础互动率等评分指标下的实验数据。

步骤202,基于实验组在n个评分指标下的实验数据,获取实验组在n个评分指标下的均值后验分布,以及基于对照组在n个评分指标下的实验数据,获取对照组在n个评分指标下的均值后验分布,均值后验分布是指评分指标下的实验数据的均值的后验概率分布。

在一个示例中,均值后验分布的获取过程可以如下:对于n个评分指标中的目标评分指标,基于实验组在目标评分指标下的实验数据,确定实验组在目标评分指标下的实验数据的概率密度函数和综合参数的先验概率分布,以及基于对照组在目标评分指标下的实验数据,确定对照组在目标评分指标下的实验数据的概率密度函数和综合参数的先验概率分布;其中,综合参数用于构建评分指标下的实验数据对应的概率密度函数,综合参数包括用于表示评分指标下的实验数据的均值的变量参数;基于实验组在目标评分指标下的实验数据的概率密度函数和综合参数的先验概率分布,确定实验组在目标评分指标下的综合参数的概率密度函数,以及基于对照组在目标评分指标下的实验数据的概率密度函数和综合参数的先验概率分布,确定对照组在所述目标评分指标下的综合参数的概率密度函数;对实验组在目标评分指标下的综合参数的概率密度函数进行积分处理,得到实验组在目标评分指标下的均值后验分布,以及对对照组在目标评分指标下的综合参数的概率密度函数进行积分处理,得到对照组在目标评分指标下的均值后验分布。

其中,目标评分指标可以是n个评分指标中的任一评分指标。概率密度函数用于描述实验数据中每个数据值的概率密度,该概率密度函数可以是受一个或多个变量参数的影响,这里将一个或多个变量参数统称为综合参数。

示例性地,以实验组在目标评分指标下的均值后验分布的确定过程为例。可以根据专家知识基于实验组在目标评分指标下的实验数据,确定出实验组在目标评分指标下的实验数据所服从的分布、实验组在目标评分指标下的实验数据的概率密度函数,以及该概率密度函数对应的综合参数的先验概率分布。其中,综合参数的先验概率分布包括其所包括的各个变量参数的先验概率分布。

可选地,还可以从多个预设分布中,确定出实验组在目标评分指标下的实验数据所服从的分布。例如,预设分布a认为这批实验数据出现的概率为0.6,预设分布b认为这批实验数据出现的概率为0.8,预设分布c认为这批实验数据出现的概率为0.95,则可将其中概率最高的预设分布c确认为实验数据所服从的分布。在得到实验数据所服从的分布之后,进而可以确定出该实验数据对应的概率密度函数,以及该概率密度函数对应的综合参数的先验概率分布。

根据贝叶斯方法可以学习到实验组在目标评分指标下的实验数据对应的综合参数的后验概率分布。综合参数的后验概率分布正比于综合参数对应的似然函数和综合参数的先验概率值的乘积,其可用如下公式表示:

p(θ|d)∝p(d|θ)p(θ);

其中,p(d|θ)为综合参数的后验概率分布,θ为综合参数,d为实验数据,p(d|θ)为综合参数对应的似然函数,p(θ)为综合参数的先验概率值。其中,综合参数对应的似然函数即为实验数据对应的概率密度函数。

对于任何一个确定值的综合参数来说,我们都可以基于贝叶斯方法计算出其对应的后验概率值。因此,本申请实施例可以采用等距采样的方式确定出综合参数的概率密度函数,其具体内容如下:

1、基于实验数据中的每个数据值分别在确定值的综合参数下的概率值,确定出该确定值的综合参数下的似然函数对应的概率值,其过程可以用如下关系式表示:

其中,θ0为确定值的综合参数,f为实验数据的概率密度函数,xn为第n个数据值。

2、基于确定值的综合参数所包括的各个确定值的变量参数的先验概率值,确定该确定值的综合参数的先验概率值,其过程可以用如下关系式表示:

其中,为第m个确定值的变量参数,为第m个确定值的变量参数的先验概率值。可选地,第m个变量参数的先验概率分布可根据专家知识确定,再基于第m个变量参数的先验概率分布确定出第m个变量参数的先验概率值。

3、基于该确定值的综合参数下的似然函数对应的概率值和该确定值的综合参数的先验概率值的乘积,确定该确定值的综合参数的后验概率值。

我们把综合参数看作是一个参数空间,对于该参数空间中的任何一点(即任一确定值的综合参数),我们都可以得到一个对应的确定值的综合参数的后验概率值。在这个参数空间中按照均匀的间隔划分出足够多的点(例如1000000个),则可以确定出综合参数的概率密度函数。

在得到综合参数的概率密度函数之后,只需将均值变量参数之外的变量参数积分除掉,即可获得实验组在目标评分指标下的均值后验分布。

在另一个示例中,均值后验分布的获取过程还可以如下:对于n个评分指标中的目标评分指标,采用马尔可夫链蒙特卡罗mcmc方法,基于实验组在目标评分指标下的实验数据,确定出实验组在目标评分指标下的综合参数的概率密度函数,以及基于对照组在目标评分指标下的实验数据,确定出对照组在目标评分指标下的综合参数的概率密度函数;其中,综合参数用于构建评分指标下的实验数据对应的概率密度函数,综合参数包括用于表示评分指标下的实验数据的均值的变量参数;对实验组在目标评分指标下的综合参数的概率密度函数进行积分处理,得到实验组在目标评分指标下的均值后验分布,以及对对照组在目标评分指标下的综合参数的概率密度函数进行积分处理,得到对照组在目标评分指标下的均值后验分布。

示例性地,以实验组在目标评分指标下的均值后验分布的确定过程为例。可以根据专家知识基于实验组在目标评分指标下的实验数据,确定出实验组在目标评分指标下的实验数据所服从的分布、实验组在目标评分指标下的实验数据的概率密度函数,以及该概率密度函数对应的综合参数的先验概率分布。

基于mcmc(markovchainmontecarlo,马尔可夫链蒙特卡罗)方法,我们可以构造一个马尔可夫链,该马尔可夫链表示综合参数在一段时间的取值序列,该取值序列满足马尔可夫性质。从马尔可夫链中采样出足够多的综合参数的采样值,通过在采样过程中不断地收敛,使得综合参数的采样值的分布近似于综合参数的概率密度函数对应的分布,从而可以得到综合参数的概率密度函数。本申请实施例通过采用mcmc方法,可以提高综合参数的概率密度函数的获取效率。

在得到综合参数的概率密度函数之后,只需将均值变量参数之外的变量参数积分除掉,即可获得实验组在目标评分指标下的均值后验分布。

步骤203,基于实验组在n个评分指标下的均值后验分布,确定实验组对应的评分,以及基于对照组在n个评分指标下的均值后验分布,确定对照组对应的评分。

可选地,实验组对应的评分和对照组对应的评分的获取过程可以如下:获取实验组在n个评分指标下的均值后验分布分别对应的均值,以及获取对照组在n个评分指标下的均值后验分布分别对应的均值;获取n个评分指标分别对应的权重参数;基于n个评分指标分别对应的权重参数,对实验组在n个评分指标下的均值后验分布分别对应的均值进行加权求和,得到实验组对应的评分;基于n个评分指标各自对应的权重参数,对对照组在n个评分指标下的均值后验分布分别对应的均值进行加权求和,得到对照组对应的评分。

其中,各个评分指标分别对应的权重参数可以根据专家知识来确定。可选地,可以将重要的评分指标对应的权重参数设置为高于次重要的评分指标对应的权重参数。

示例性地,评分的计算方法可以用如下公式表示:

u=c1∫f1(x)xdx+c2∫f2(x)xdx+...+ck∫fk(x)xdx;

其中,u为评分,ck为第k个评分指标的权重参数,∫fk(x)xdx为第k个评分指标下的均值后验分布的均值,fk(x)为第k个评分指标下的均值后验分布,x为评分指标下的实验数据的可能均值。

可选地,基于上述评分的计算方法可以得到实验组在n个评分指标下的评分,以及对照组在n个评分指标下的评分。

步骤204,将实验组对应的评分和对照组对应的评分进行比对,得到ab实验结果。

可选地,若实验组对应的评分大于对照组对应的评分,则将实验组对应的产品作为ab实验结果;若实验组对应的评分小于对照组对应的评分,则将对照组对应的产品作为ab实验结果。其中,ab实验结果可用于表示效果较优的产品、方案等;ab实验结果也可用于表示收益较优的产品、方案等,本申请实施例在此不作限定。可选地,实验组对应的评分等于对照组对应的评分这一情况可以划分到实验组对应的评分大于对照组对应的评分这一情况下,也可以划分到实验组对应的评分小于对照组对应的评分这一情况下。

综上所述,本申请实施例提供的技术方案,通过基于ab实验中的用户实验数据,确定出实验组在各个评分指标下的均值后验分布以及对照组在各个评分指标下的均值后验分布,再基于实验组在各个评分指标下的均值后验分布和对照组在各个评分指标下的均值后验分布,分别确定出实验组的评分和对照组的评分,最后基于实验组的评分和对照组的评分确定出ab实验结果,实现了在多维度的评分指标下的ab实验结果的自动化确定,而无需进行人工比对,从而提高了ab实验结果的确定效率。

另外,通过结合多维度的评分指标下的均值后验分布,进行评分的确定,提高了评分的合理性和全面性,进而提高了ab实验结果的合理性和全面性。

在一个示例性实施例中,可以将各个评分指标的实验数据的生成过程看作是从一个随机变量的分布中采样的过程,根据专家知识可以将各个评分指标下的实验数据假设成服从t分布。

示例性地,以上述的目标评指标下的实验数据为例。根据专家知识可以假设上述目标评分指标下的实验数据服从t分布,该t分布包括用于描述t分布的形状的第一变量参数和第二变量参数,以及用于描述目标评分指标下的实验数据的均值的第三变量参数;其中,第一变量参数的先验分布为指数分布,第二变量参数的先验分布为均匀分布,第三变量参数的先验分布为高斯分布。

可选地,实验组和对照组在目标评价指标下各自对应的均值后验分布的获取过程可以如下:

1、t分布的概率密度函数为:

其中,f(x|μ,λ,v)为t分布的概率密度函数,μ用于表示t分布对应的均值(即第三变量参数),λ和v用于刻画概率密度函数的形状(即第一变量参数和第二变量参数)。

2、实验组和对照组在目标评分指标下的第二变量参数共用一套先验概率分布,该先验概率分布为参数为1/30(该参数为经验值,仅作示例性地,可根据实际情况进行调整)的指数分布,其可以表示如下:

3、实验组和对照组分别在目标评分指标下的第一变量参数的先验概率分布可以表示如下:

σg1∝u[1,10]

σg2∝u[1,10]

λa=σg1-2

λb=σg2-2

其中,λa为实验组在目标评分指标下的第一变量参数,λb为对照组在目标评分指标下的第一变量参数。

4、实验组和对照组分别在目标评分指标下的第三变量参数的先验概率分布可以表示如下:

其中,μa为实验组在目标评分指标下的第三变量参数,μb为对照组在目标评分指标下的第三变量参数,为实验组和对照组在目标评分指标下的总实验数据对应的均值,s(x)为实验组和对照组在目标评分指标下的总实验数据对应的方差值。

可选地,第一变量参数、第二变量参数和第三变量参数的概率密度函数的获取过程可以如下:将参数空间看作一个三维空间,该参数空间中的每个点可以用第一变量参数、第二变量参数和第三变量参数来表示。在参数空间中按照均匀的间隔划分出足够多的格点(例如1000000个),对于每个格点,我们采用贝叶斯方法,计算出其对应的后验概率值,进而可以基于足够多的格点和其对应的后验概率值,得到第一变量参数、第二变量参数和第三变量参数的概率密度函数。可选地,每个点的后验概率值的计算过程可以如下:

1、基于目标评分指标下的实验数据中的每个数据值在目标格点下的概率值,确定出目标格点对应的概率值。

2、基于第一变量参数、第二变量参数和第三变量参数的先验概率分布,确定目标格点的先验概率值。

3、利用贝叶斯方法,基于目标格点对应的概率值和目标格点的先验概率值的乘积,确定目标格点的后验概率值。

在得到关于第一变量参数、第二变量参数和第三变量参数的概率密度函数之后,只需将第一变量参数、第二变量参数积分除掉,即可获得第三变量参数的后验概率分布,也即目标评分指标下的均值后验分布,其过程可以表示如下:

其中,v为第一变量参数,λ为第二变量参数,μ为第三变量参数,d为目标评分指标下的实验数据。

可选地,第一变量参数、第二变量参数和第三变量参数的概率密度函数的获取过程还可以如下:基于mcmc方法,我们可以选择三维度的已知分布,基于该已知分布构造一个关于第一变量参数、第二变量参数和第三变量参数的马尔可夫链,从马尔可夫链中采样出足够多的第一变量参数、第二变量参数和第三变量参数的组合采样值序列,通过在采样过程中不断地收敛,使得第一变量参数、第二变量参数和第三变量参数的组合采样值的分布近似于第一变量参数、第二变量参数和第三变量参数对应的概率密度函数对应的分布,从而可以得到关于第一变量参数、第二变量参数和第三变量参数的概率密度函数。

在得到关于第一变量参数、第二变量参数和第三变量参数的概率密度函数之后,只需将第一变量参数、第二变量参数积分除掉,即可获得第三变量参数的后验概率分布,也即目标评分指标下的均值后验分布。

最后基于上述方法,可以确定出实验组在目标评价指标下的均值后验分布和对照组在目标评价指标下的均值后验分布,进而基于上述方法可以确定出实验组在各个评价指标下的均值后验分布和对照组在各个评价指标下的均值后验分布。

可选地,在确定出实验组在各个评价指标下的均值后验分布和对照组在各个评价指标下的均值后验分布之后,可以基于实验组在各个评价指标下的均值后验分布计算出实验组对应的评分,基于对照组在各个评价指标下的均值后验分布计算出对照组对应的评分,其具体过程可以表示如下:

其中,u(a)为实验组对应的评分,u(b)为对照组对应的评分,ck为

布的均值,为实验组在第k个评分指标下的均值后验分布,为对照组在第k个评分指标下的均值后验分布,x为评分指标下的实验数据的可能均值。c1,c2,...,ck是行业专家评估出的各个评分指标的权重参数,其代表着每个评分指标的重要程度。

最后只需比较实验组对应的评分和对照组对应的评分的大小,即可确定出哪个组对应的产品、方案等更好。示例性地,若实验组对应的评分大于对照组对应的评分,则实验组对应的产品、方案等更好;若实验组对应的评分小或等于对照组对应的评分,则对照组对应的产品、方案等更好。

综上所述,本申请实施例提供的技术方案,通过基于ab实验中的用户实验数据,确定出实验组在各个评分指标下的均值后验分布以及对照组在各个评分指标下的均值后验分布,再基于实验组在各个评分指标下的均值后验分布和对照组在各个评分指标下的均值后验分布,分别确定出实验组的评分和对照组的评分,最后基于实验组的评分和对照组的评分确定出ab实验结果,实现了在多维度的评分指标下的ab实验结果的自动化确定,而无需进行人工比对,从而提高了ab实验结果的确定效率。

另外,通过结合多维度的评分指标下的均值后验分布,进行评分的确定,提高了评分的合理性和全面性,进而提高了ab实验结果的合理性和全面性。

在一个示例性实施例中,以短视频类应用程序为例,比较两个不同配置方案对短视频平台的效果优劣。该ab实验包括两个核心评分指标:每个用户每周的视频观看数和每个用户每周登录的小时数。参考图3,图表301为实验组在每个用户每周的视频观看数这一评分指标下的实验数据,图表302为对照组在每个用户每周的视频观看数这一评分指标下的实验数据,图表303为实验组在每个用户每周登录的小时数这一评分指标下的实验数据,图表304为对照组在每个用户每周登录的小时数这一评分指标下的实验数据。

假设上述实验数据都服从t分布,采用本申请实施例提供的技术方案,可得到实验组在上述两个核心指标下的均值后验分布,以及对照组在上述两个核心指标下的均值后验分布。参考图4,图表401为实验组在每个用户每周的视频观看数这一评分指标下的均值后验分布(94%的可能均值都分布在3.2-4.3这个范围内),图表402为对照组在每个用户每周的视频观看数这一评分指标下的均值后验分布(94%的可能均值都分布在2.8-3.8这个范围内),图表403为实验组在每个用户每周登录的小时数这一评分指标下的均值后验分布(94%的可能均值都分布在2.6-3.6这个范围内),图表404为对照组在每个用户每周登录的小时数这一评分指标下的均值后验分布(94%的可能均值都分布在3.3-4.9这个范围内)。

在得到均值后验发分布之后可以计算得到均值后验发分布的均值。参考图4,实验组在每个用户每周的视频观看数这一评分指标下的均值后验分布的均值为3.8,对照组在每个用户每周的视频观看数这一评分指标下的均值后验分布的均值为3.3,实验组在每个用户每周登录的小时数这一评分指标下的均值后验分布的均值为3.1,对照组在每个用户每周登录的小时数这一评分指标下的均值后验分布的均值为4.1。

基于专家知识,短视频类应用程序对每个用户每周的视频观看数这一评分指标更加看重,则可以给每个用户每周的视频观看数这一评分指标分配0.7的权重参数,给每个用户每周登录的小时数这一评分指标分配0.3的权重参数。则可得到实验组对应的评分为0.7*3.8+0.3*3.1=3.59,对照组对应的评分为0.7*3.3+0.3*4.1=3.54,实验组对应的评分大于照组对应的评分,则实验组对应的配置方案对短视频平台的效果更优。

在一个示例性实施例中,参考图5,其示出了本申请一个实施例提供的ab实验平台的实验界面的示意图。在实验界面501中,用户可以选择选择实验所需的目标时间段的实验数据;用户还可以选择评分指标,形成评分指标组,评分指标组中评分指标可以根据需求进行切换和选择。ab实验平台根据每个评分指标下的实验数据,确定出对照组在每个评分指标下分别对应的评分和对照组在评分指标组下的评分,以及实验组在每个评分指标下分别对应的评分和实验组在评分指标组下的评分,并给出最终的ab实验结果,也即实验组和对照组中哪组对应的产品、方案等较优。其中,每个评分指标下分别对应的评分可供于用户参考。

综上所述,本申请实施例提供的技术方案,通过基于ab实验中的用户实验数据,确定出实验组在各个评分指标下的均值后验分布以及对照组在各个评分指标下的均值后验分布,再基于实验组在各个评分指标下的均值后验分布和对照组在各个评分指标下的均值后验分布,分别确定出实验组的评分和对照组的评分,最后基于实验组的评分和对照组的评分确定出ab实验结果,实现了在多维度的评分指标下的ab实验结果的自动化确定,而无需进行人工比对,从而提高了ab实验结果的确定效率。

另外,通过结合多维度的评分指标下的均值后验分布,进行评分的确定,提高了评分的合理性和全面性,进而提高了ab实验结果的合理性和全面性。

请参考图6,其示出了本申请一个实施例提供的实验结果的确定装置的框图。该装置具有实现上述实验结果的确定方法示例的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置600可以包括:实验数据获取模块601、均值分布获取模块602、评分确定模块603和实验结果获取模块604。

实验数据获取模块601,用于获取ab实验中的用户实验数据;其中,所述用户实验数据包括实验组和对照组分别在n个评分指标下的实验数据,所述n为正整数。

均值分布获取模块602,用于基于所述实验组在所述n个评分指标下的实验数据,获取所述实验组在所述n个评分指标下的均值后验分布,以及基于所述对照组在所述n个评分指标下的实验数据,获取所述对照组在所述n个评分指标下的均值后验分布,所述均值后验分布是指所述评分指标下的实验数据的均值的后验概率分布。

评分确定模块603,用于基于所述实验组在所述n个评分指标下的均值后验分布,确定所述实验组对应的评分,以及基于所述对照组在所述n个评分指标下的均值后验分布,确定所述对照组对应的评分。

实验结果获取模块604,用于将所述实验组对应的评分和所述对照组对应的评分进行比对,得到所述ab实验结果。

在一个示例性实施例中,所述评分确定模块603,用于:

获取所述实验组在所述n个评分指标下的均值后验分布分别对应的均值,以及获取所述对照组在所述n个评分指标下的均值后验分布分别对应的均值;

获取所述n个评分指标分别对应的权重参数;

基于所述n个评分指标分别对应的权重参数,对所述实验组在所述n个评分指标下的均值后验分布分别对应的均值进行加权求和,得到所述实验组对应的评分;

基于所述n个评分指标各自对应的权重参数,对所述对照组在所述n个评分指标下的均值后验分布分别对应的均值进行加权求和,得到所述对照组对应的评分。

在一个示例性实施例中,所述均值分布获取模块602,用于:

对于所述n个评分指标中的目标评分指标,基于所述实验组在所述目标评分指标下的实验数据,确定所述实验组在所述目标评分指标下的实验数据的概率密度函数和综合参数的先验概率分布,以及基于所述对照组在所述目标评分指标下的实验数据,确定所述对照组在所述目标评分指标下的实验数据的概率密度函数和综合参数的先验概率分布;其中,所述综合参数用于构建所述评分指标下的实验数据对应的概率密度函数,所述综合参数包括用于表示所述评分指标下的实验数据的均值的变量参数;

基于所述实验组在所述目标评分指标下的实验数据的概率密度函数和综合参数的先验概率分布,确定所述实验组在所述目标评分指标下的综合参数的概率密度函数,以及基于所述对照组在所述目标评分指标下的实验数据的概率密度函数和综合参数的先验概率分布,确定所述对照组在所述目标评分指标下的综合参数的概率密度函数;

对所述实验组在所述目标评分指标下的综合参数的概率密度函数进行积分处理,得到所述实验组在所述目标评分指标下的均值后验分布,以及对所述对照组在所述目标评分指标下的综合参数的概率密度函数进行积分处理,得到所述对照组在所述目标评分指标下的均值后验分布。

在一个示例性实施例中,所述均值分布获取模块602,还用于:

对于所述n个评分指标中的目标评分指标,采用马尔可夫链蒙特卡罗mcmc方法,基于所述实验组在所述目标评分指标下的实验数据,确定出所述实验组在所述目标评分指标下的综合参数的概率密度函数,以及基于所述对照组在所述目标评分指标下的实验数据,确定出所述对照组在所述目标评分指标下的综合参数的概率密度函数;其中,所述综合参数用于构建所述评分指标下的实验数据对应的概率密度函数,所述综合参数包括用于表示所述评分指标下的实验数据的均值的变量参数;

对所述实验组在所述目标评分指标下的综合参数的概率密度函数进行积分处理,得到所述实验组在所述目标评分指标下的均值后验分布,以及对所述对照组在所述目标评分指标下的综合参数的概率密度函数进行积分处理,得到所述对照组在所述目标评分指标下的均值后验分布。

在一个示例性实施例中,所述目标评分指标下的实验数据服从t分布,所述t分布包括用于描述所述t分布的形状的第一变量参数和第二变量参数,以及用于描述所述目标评分指标下的实验数据的均值的第三变量参数;

其中,所述第一变量参数的先验分布为指数分布,所述第二变量参数的先验分布为均匀分布,所述第三变量参数的先验分布为高斯分布。

在一个示例性实施例中,所述目标评分指标下的均值后验分布表示如下:

其中,v为所述第一变量参数,λ为所述第二变量参数,μ为所述第三变量参数,d为所述目标评分指标下的实验数据。

在一个示例性实施例中,所述实验结果获取模块604,用于:

若所述实验组对应的评分大于所述对照组对应的评分,则将所述实验组对应的产品方案作为所述ab实验结果;

若所述实验组对应的评分小于或等于所述对照组对应的评分,则将所述对照组对应的产品方案作为所述ab实验结果。

综上所述,本申请实施例提供的技术方案,通过基于ab实验中的用户实验数据,确定出实验组在各个评分指标下的均值后验分布以及对照组在各个评分指标下的均值后验分布,再基于实验组在各个评分指标下的均值后验分布和对照组在各个评分指标下的均值后验分布,分别确定出实验组的评分和对照组的评分,最后基于实验组的评分和对照组的评分确定出ab实验结果,实现了在多维度的评分指标下的ab实验结果的自动化确定,而无需进行人工比对,从而提高了ab实验结果的确定效率。

另外,通过结合多维度的评分指标下的均值后验分布,进行评分的确定,提高了评分的合理性和全面性,进而提高了ab实验结果的合理性和全面性。

需要说明的是,上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。

在一个示例性实施例中,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序由所述处理器加载并执行以实现上述实验结果的确定方法。

在一个示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,所述计算机程序在被处理器执行时以实现上述实验结果的确定方法。

可选地,该计算机可读存储介质可以包括:rom(read-onlymemory,只读存储器)、ram(random-accessmemory,随机存储器)、ssd(solidstatedrives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括reram(resistancerandomaccessmemory,电阻式随机存取记忆体)和dram(dynamicrandomaccessmemory,动态随机存取存储器)。

在一个示例性实施例中,还提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质中读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行上述实验结果的确定方法。

应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。

以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1