数据处理方法、装置、设备及存储介质与流程

文档序号:25348993发布日期:2021-06-08 12:56阅读:102来源:国知局
数据处理方法、装置、设备及存储介质与流程

1.本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。


背景技术:

2.在广告系统中,一般会利用模型来对广告进行价值评估。在实际评估过程中,可能会涉及新模型的上线,也会涉及到模型的迭代更新。
3.现有技术中,在新模型上线时,会通过a/b实验的方式,来评估广告的价值。具体而言,在线上同时部署实验组模型(新上线的模型)、对照组模型与默认组模型,然后,分别由这三个评估模型对全局数据进行处理,并基于三个评估模型各自输出的结果来确定广告价值。如此,广告价值实际受到三个评估模型的输出结果的影响,当利用该广告价值来对评估模型进行反馈训练、更新时,就会受到其他组数据的干扰,导致评估模型输出结果的置信度较低,从而也会影响整个a/b实验框架的稳定性,甚至整个评估系统的稳定性。


技术实现要素:

4.本申请提供了一种数据处理方法、装置、设备及存储介质,用以解决现有的灰度发布过程中,新的评估模型的输出结果置信度低的问题。
5.第一方面,本申请提供了一种数据处理方法,包括:
6.确定目标用户所属的目标用户集合;
7.在预设的预测模型中,确定所述目标用户集合所对应的目标模型;所述目标模型用于预测目标对象的资源值,所述预测模型是基于所述预测模型对应的用户集合的用户数据确定的;
8.利用所述目标模型对目标用户数据和目标对象数据进行处理,得到目标预测资源值;
9.输出所述目标预测资源值。
10.第二方面,本申请提供了一种数据处理装置,包括:
11.第一确定模块,用于确定目标用户所属的目标用户集合;
12.第二确定模块,用于在预设的预测模型中,确定所述目标用户集合所对应的目标模型;所述目标模型用于预测目标对象的资源值,所述预测模型是基于所述预测模型对应的用户集合的用户数据确定的;
13.处理模块,用于利用所述目标模型对目标用户数据和目标对象数据进行处理,得到目标预测资源值;
14.输出模块,用于输出所述目标预测资源值。
15.第三方面,本申请提供了一种电子设备,包括:处理器、存储器和通信总线,其中,处理器和存储器通过通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的数据处理方法。
16.第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的数据处理方法。
17.本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,确定目标用户所属的目标用户集合;并在预设的预测模型中,确定目标用户集合所对应的目标模型,目标模型用于预测目标对象的资源值,可见,本申请建立了用户集合与预测模型之间的对应关系,且,预测模型是基于预测模型对应的用户集合的用户数据确定的;然后,利用目标模型对目标用户数据、目标对象数据进行处理,得到目标预测资源值,并输出该目标预测资源值,可见,本申请中的各预测模型与现有技术中的a/b实验中的各评估模型来比,是相对独立的,本申请进行了有效的用户数据隔离,避免了现有技术中使用同源数据造成的各评估模型之间互相干扰的问题。
18.并且,本申请在预测模型对应的用户数据是独立的基础上,目标预测资源值的确定过程也是相对独立的,解决了现有技术中的a/b实验的场景中,实验组的评估模型受其他组的评估模型的干扰,导致的实验组的评估模型的输出结果的置信度较低的问题,另外,本申请有效的提高了整个a/b实验框架的稳定性。
附图说明
19.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
20.图1为本申请实施例中a/b实验框架的结构示意图;
21.图2为本申请实施例中终端和服务器的结构示意图;
22.图3为本申请实施例中数据处理方法流程示意图;
23.图4为本申请实施例中用户数据验证流程示意图;
24.图5为本申请实施例中验证实验组模型稳定性的流程示意图;
25.图6为本申请实施例中确定目标用户所属的目标用户集合的流程示意图;
26.图7为本申请实施例中数据处理方法具体流程示意图;
27.图8为本申请实施例中数据处理装置结构示意图;
28.图9为本申请实施例中电子设备的结构示意图。
具体实施方式
29.为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
30.本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
31.首先,介绍一下灰度发布:
32.灰度发布是指在黑与白之间,能够平滑过渡的一种发布方式,在其基础上可以进行a/b实验,即让一部分用户继续使用产品特性a,一部分用户开始使用产品特性b,如果用户对b没有什么反对意见,那么逐步扩大范围,把所有的用户都迁移到b上面来。灰度发布可以保证整体系统的稳定,在初始灰度的时候即可以发现、调整问题,以保证其影响度。
33.再者,介绍一下现有的a/b实验测试:
34.a/b实验测试是在同一时间维度,分别让组成成分相同(或相似)的访客群组(即目标人群)随机的访问制作的两个或多个程序版本,收集各群组的用户体验数据和业务数据,最后分析、评估出最好的版本,并正式采用。
35.最后,介绍一下广告系统:
36.广告系统是用于把合适的内容推送给合适的用户。
37.广告系统中存在着各种预估偏差、期望偏差以及资源调整策略。其中,资源调整技术可以实时感知广告的初始资源值,以动态调整广告的目标资源值。其中,资源调整技术采用广告的全局数据进行初始资源值控制,此处广告的全局数据指的是对应广告系统中的所有用户的用户数据。
38.现有的广告系统,在新资源调整模型上线时会采用灰度发布的方式,验证新资源调整逻辑的稳定性。具体地,在部署a/b实验时,实验组部署新资源调整模型,对照组部署原始资源调整模型,默认组部署原始资源调整模型。将三者同时部署至线上,同时使用线上的全局数据进行模型的训练。即,实验组部署的新资源调整模型利用线上全局数据进行第一目标资源值的预测;对照组部署的原始资源调整模型利用线上全局数据进行第二目标资源值的预测;默认组部署的原始资源调整模块利用线上全局数据进行第三目标资源值的预测;并结合第一目标资源值、第二目标资源值和第三目标资源值,得到最终的目标资源值;利用最终的目标资源值训练各个资源调整模型。
39.这时,由于三个模型采用同源数据,使新资源调整模型和原始资源调整模型之间互相影响,由于新资源调整模型受其他模型的影响,以及新资源调整模型利用结合得到的目标资源值进行训练,导致新资源调整模型的输出结果的置信度低。
40.可见,新资源调整模型在更新时,不仅分析自身输出的输出结果,还需分析原始资源调整模型输出的输出结果,乃至分析全局数据,最终导致新资源调整逻辑输出的输出结果置信度降低,从而也会影响整个a/b实验框架的稳定性,甚至整个评估系统的稳定性。
41.为解决上述问题,本申请实施例提供了一种a/b实验框架,该实验框架主要包括:流量分发模块101、逻辑处理模块102和数据分析模块103,具体如图1所示:
42.流量分发模块101,用于获取广告数据请求,该广告数据请求携带用户唯一标识和目标广告数据,根据用户唯一标识确定目标用户,并确定该目标用户所属的目标用户集合,并在预设的预测模型中,确定与目标用户集合对应的目标模型,并将目标用户数据和目标广告数据输入至该目标模型。
43.逻辑处理模块102包括:对照组模块、实验组模块和默认组模块,其中,对照组模块包括:对照组模型和对照组模型的第一用户集合,实验组模块包括:实验组模型和实验组模型的第二用户集合,默认组模块包括:默认组模型和默认组模型的第三用户集合。逻辑处理模块102,用于利用目标模型对目标用户数据和目标广告数据进行处理处理,得到目标预测资源值,并输出目标预测资源值。
44.数据分析模块103包括:对照数据分析模块、实验数据分析模块和默认数据分析模块。数据分析模块103用于根据目标预测资源值、目标广告数据和目标用户数据,确定目标模型的逻辑调整策略,并基于逻辑调整策略,更新目标模型。
45.本申请提供的a/b实验框架,将对照组模型、实验组模型和默认组模型分别存储在
不同的模块中,各个模块将数据进行了有效的隔离,使得各模型之间互不干扰,能够保证各个模型的输出结果的置信度,提高了整个a/b实验框架的稳定性。
46.本申请实施例提供了一种数据处理方法。在本申请实施例中,上述的数据处理方法可以应用于如图2所示的由终端201和服务器202所构成的系统环境中。如图2所示,服务器202通过网络与终端201进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库,用于为服务器202提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端201并不限定于电脑、手机、平板等。
47.本申请实施例的数据处理方法可以由服务器202来执行,也可以由终端201来执行,还可以是由服务器202和终端201共同执行。其中,终端201执行本申请实施例的数据处理方法,也可以是由安装在其上的客户端来执行。
48.以本申请应用在服务器202为例对数据处理方法进行说明,当然,此处仅是举例说明,并不用于对本申请的保护范围进行限制。并且,本申请中的一些其他举例说明,也不用于对本申请的保护范围的限制,便不在一一说明。
49.该方法可以应用在灰度发布场景中,具体实现如图3所示:
50.步骤301,确定目标用户所属的目标用户集合。
51.例如,用户a利用应用b观看新闻时,在新闻页面中显示广告c,此时的用户a则为目标用户,且用户a对应的用户集合则为目标用户集合。另外,在新闻页面中显示广告c时,会生成广告数据请求,该广告数据请求携带有用户唯一标识,根据该用户唯一标识确定用户a所属的目标用户集合。
52.步骤302,在预设的预测模型中,确定目标用户集合所对应的目标模型。
53.其中,目标模型用于预测目标对象的资源值,预测模型是基于预测模型对应的用户集合的用户数据确定的。
54.其中,目标对象可以包括但不限于如下至少一种:广告、商品、应用、视频等。
55.其中,目标对象的资源值用于指示目标对象的价值。
56.示例性的,当目标对象为广告时,广告的资源值用于指示广告的价值,实际场景中可具体表示为如下至少一种:广告的出价、广告的收益、广告的点击率、广告的转化率、与广告相关联的视频的播放数据等,本发明实施例对此无特别限制。
57.示例性的,当目标对象为视频时,视频的资源值用于指示视频的价值,实际场景中可具体表示为如下至少一种:视频的播放次数、视频的评论次数、视频的出价、与视频相关联的广告的价值等,本发明实施例对此亦无特别限制。
58.示例性的,当目标对象为应用时,应用的资源值用于指示应用的价值,实际场景中可具体表示为如下至少一种:应用的下载次数、应用的打开频次、应用的出价、与应用相关联的广告的价值等,本发明实施例对此亦无特别限制。
59.示例性的,当目标对象为商品时,商品的资源值用于指示商品的价值,实际场景中可具体表示为如下至少一种:商品的购买量、商品的库存值、商品的出价、用户对商品的评价、与商品相关联的广告的价值等,本发明实施例对此亦无特别限制。
60.具体地,预测模型至少包括:实验组模型和对照组模型。
61.实验组模型是基于第一用户集合的用户数据确定的。具体地,将第一用户集合的用户数据和第一用户集合对应的广告数据输入至实验组模型,输出第一用户集合中的用户
对应的实验预测资源值。
62.对照组模型是基于第二用户集合的用户数据确定的。具体地,将第二用户集合的用户数据和第二用户集合对应的广告数据输入至对照组模型,输出第二用户集合中的用户对应的对照预测资源值。
63.在仅包括实验组模型和对照组模型的场景中,对照组模型是一般是稳定的,能够独自维持线上资源预测系统的正常运行的模型,实验组模型一般可以是新改进或训练的模型,本发明实施例对此无特别限制。
64.其中,资源预测系统包括但并不限于以下至少一种:广告系统、购物系统、应用管理系统、视频系统等。
65.在前述场景的基础上,除实验组模型和对照组模型之外,预测模型还可以包括:默认组模型。默认组模型是基于第三用户集合的用户数据确定的。具体地,将第三用户集合的用户数据和第三用户集合对应的广告数据输入至默认组模型,输出第三用户集合中的用户对应的默认预测资源值。
66.换言之,在进行a/b实验过程中,a/b组各自利用各自的数据进行模型的训练和预测,互相之间不存在干扰。
67.步骤303,利用目标模型对目标用户数据和目标对象数据进行处理,得到目标预测资源值。
68.其中,目标用户数据包括:用户画像、用户行为数据等,用户画像包括:用户年龄、用户性别、用户居住地、用户兴趣爱好等;用户行为数据包括:用户点击行为、用户滑过行为、用户查看行为、用户浏览行为、用户购买行为、用户下载行为等。
69.其中,目标对象数据包括:目标广告数据,该目标广告数据包括:广告类型、广告内容、广告初始资源值、广告期望资源值、和预算资源值等。
70.其中,当在训练初始模型时已经考虑了用户画像,在这种状态下目标用户数据包括用户行为数据。当在训练初始目标模型时未考虑用户画像,在这种状态下目标用户数据包括用户画像和用户行为数据。
71.本申请以在训练初始目标模型时考虑了用户画像,目标用户数据包括用户行为数据为例进行说明。
72.步骤304,输出目标预测资源值。
73.基于上述相关实施例,本申请的实验组模型和对照组模型采用各自对应的用户数据进行资源值的预测,相较于现有a/b实验采用同源用户数据进行资源值的预测相比,提高了实验组模型输出结果的置信度。
74.具体地,本申请实施例提供的该方法,确定目标用户所属的目标用户集合;并在预设的预测模型中,确定目标用户集合所对应的目标模型,目标模型用于预测目标对象的资源值,可见,本申请建立了用户集合与预测模型之间的对应关系,且,预测模型是基于预测模型对应的用户集合的用户数据确定的;然后,利用目标模型对目标用户数据、目标对象数据进行处理,得到目标预测资源值,并输出该目标预测资源值,可见,本申请中的各预测模型与现有技术中的a/b实验中的各评估模型来比,是相对独立的,本申请进行了有效的用户数据隔离,避免了现有技术中使用同源数据造成的各评估模型之间互相干扰的问题。
75.并且,本申请在预测模型对应的用户数据是独立的基础上,目标预测资源值的确
定过程也是相对独立的,解决了现有技术中的a/b实验的场景中,实验组的评估模型受其他组的评估模型的干扰,导致的实验组的评估模型的输出结果的置信度较低的问题,另外,本申请有效的提高了整个a/b实验框架的稳定性。
76.如前所述,在a/b实验的场景中,预测模型至少包括:实验组模型与对照组模型。
77.其中,实验组模型是基于第一用户集合的用户数据确定的,对照组模型是基于第二用户集合的用户数据确定的;且第一用户集合与第二用户集合无交集,第一用户集合的用户数目与第二用户集合的用户数目相同。
78.本申请中的第一用户集合和第二用户集合无交集,且利用用户所属的用户集合在预设的预测模型中,确定用户所对应的目标模型,即,用户对应实验组模型还是对应对照组模型,使得实验组模型和对照组模型的用户不相关,从而,实验组模型和对照组模型所适用的用户数据也不相关,有效的避免了实验组模型对应的用户数据和对照组对应的用户数据的相互干扰,实现了两个模型之间用户数据的隔离,这能够避免使用同源数据造成的各评估模型之间互相干扰的问题,有利于提高模型的置信度。
79.一个具体实施例中,预测模型还包括:默认组模型;对照组模型与默认组模型的初始模型相同。
80.其中,默认组模型是基于第三用户集合的用户数据确定的,第三用户集合的初始用户数目大于第二用户集合的初始用户数目。
81.具体地,对照组模型和默认组模型的初始模型,但由于两个模型对应的用户数据不同,因此,在灰度发布过程中两个模型会随着模型的不断反馈训练而发生相应的变化。
82.具体地,实验组模型、对照组模型和默认组模型会同时发布在线上正在运行的资源预测系统中,实验组模型和对照组模型用于进行a/b试验的测试,默认组模型对应的第三用户集合的用户数目较多(至少大于第一用户集合的用户数目),这能够保证大多数用户能够采用较为稳定的默认组模型来进行资源值的预测,从而,通过默认组模型能够维持线上资源预测系统的正常运行。
83.一个具体实施例中,该方法还包括:基于目标用户数据、目标对象数据与目标预测资源值,更新目标模型。
84.具体地,在目标模型输出目标预测资源值之后,需要对目标模型进行更新。
85.具体地,预测模型包括:实验组模型和对照组模型时,模型更新的具体方式为:
86.当目标模型为实验组模型时,基于第一用户集合的用户数据、第一用户集合中的用户对应的目标对象数据、以及验证组模型输出的实验预测资源值,更新实验组模型。
87.当目标模型为对照组模型时,基于第二用户集合的用户数据、第二用户集合中的用户对应的目标对象数据、以及对照组模型输出的对照预测资源值,更新对照组模型。
88.具体地,预测模型包括:实验组模型、对照组模型和默认组模型时,模型更新的具体方式为:
89.当目标模型为实验组模型时,基于第一用户集合的用户数据、第一用户集合中的用户对应的目标对象数据、以及验证组模型输出的实验预测资源值,更新实验组模型。
90.当目标模型为对照组模型时,基于第二用户集合的用户数据、第二用户集合中的用户对应的目标对象数据、以及对照组模型输出的对照预测资源值,更新对照组模型。
91.当目标模型为默认组模型时,基于第三用户集合的用户数据、第三用户集合中的
用户对应的目标对象数据、以及默认组模型输出的默认预测资源值,更新默认组模型。
92.本申请中的各个模型的输入数据采用互相隔离,互不干扰的方式,且,在各个模型输出预测资源值后,利用各自输出的预测资源值更新对应的模型。本申请的模型更新方式,相较于现有技术的结合多个模型的输出值得到最终的输出值,并利用最终的输出值更新模型的方式,保证了模型的置信度,提高了模型的稳定性。
93.下面,简单说明模型更新的各个应用场景的应用示例:
94.示例性的,当目标对象为广告时,目标用户数据为用户行为数据、目标对象数据为广告数据、目标预测资源值为广告的资源值,利用用户行为数据、广告数据和广告的资源值,更新目标模型。
95.示例性的,当目标对象为视频时,目标用户数据为用户行为数据、目标对象数据为视频数据、目标预测资源值为视频的资源值,利用用户行为数据、视频数据和视频的资源值,更新目标模型。
96.示例性的,当目标对象为应用时,目标用户数据为用户行为数据、目标对象数据为应用数据、目标预测资源值为应用的资源值,利用用户行为数据、应用数据和应用的资源值,更新目标模型。
97.示例性的,当目标对象为商品时,目标用户数据为用户行为数据、目标对象数据为商品数据、目标预测资源值为商品的资源值,利用用户行为数据、商品数据和商品的资源值,更新目标模型。
98.具体地,当目标模型针对当前目标用户输出目标预测资源值之后,更新目标模型时,会根据目标用户的用户画像、以及该目标用户对广告进行操作产生的用户行为数据,建立关联关系,该关联关系用于描述广告数据、用户行为数据和用户画像之间的关联关系。
99.当目标模型更新后,获取新的目标用户,提取新的目标用户的用户画像,基于提取的新的目标用户的用户画像和关联关系,向新的目标用户推送对应的广告。
100.一个具体实施例中,第一用户集合的用户数目会随着a/b实验的进行发生变化,具体实现如图4所示:
101.步骤401,当目标模型为实验组模型时,利用对照组模型对目标用户数据和目标对象数据进行处理,得到对照预测资源值。
102.具体地,利用对照组模型对第一用户集合的用户数据和目标对象数据进行处理,得到对照预测资源值。该过程得到的对照预测资源值,仅用于确实实验组模型的稳定性,并不用于对照组模型的更新。
103.步骤402,根据对照预测资源值和目标预测资源值,确定实验组模型的稳定性。
104.具体地,由于对照组模型是稳定的,因此可以利用对照组预测资源值和目标预测资源值,来确定实验组模型的稳定性。
105.步骤403,基于确定结果,调整第一用户集合的用户数目。
106.也可以,基于确定结果,调整第二用户集合的用户数目,由于第一用户集合的用户数目和第二用户集合的用户数目是相同的,因此,在调整任意用户集合的用户数目时,另一个用户集合的用户数目也需要对应性的调整。
107.本申请通过采用数据对换的方式,验证实验组模型的稳定性,并根据实验组模型的稳定情况,对应性的调整第一用户集合的用户数目,从而,通过这种调整,以使得基于实
验组模型的稳定性状态来确定a/b实验的下一步进展,后续详述。
108.一个具体实施例中,根据对照预测资源值和目标预测资源值,确定实验组模型的稳定性的具体实现如图5所示:
109.步骤501,比对对照预测资源值和目标预测资源值,得到比对结果;
110.具体地,计算对照预测资源值和目标与目标预测资源值的差值,将差值作为比对结果。
111.步骤502,判断比对结果是否在预设范围内,若是,执行步骤503,否则,执行步骤504。
112.例如,预设范围为(

1,1),若比对结果为1.5,执行步骤504,若比对结果为

0.5,执行步骤503。
113.步骤503,确定实验组模型稳定。
114.具体地,确定实验组模型稳定,则认为第一用户集合的用户数据和第二用户集合的用户数据是一致的,解决了由于第一用户集合和第二用户集合不相关,可能导致实验结果结果存在误差的问题,可以认为实验组模型和对照组模型的用户数据为实验a/b实验的单一变量,保证了实验组模型输出结果的置信度。
115.步骤504,确定实验组模型不稳定。
116.具体地,确定实验组模型不稳定,则认为第一用户集合的用户数据和第二用户集合的用户数据是不一致的,存在数据偏差,不属于实验a/b实验的单一变量,会造成实验结果的偏差,需要调整第一用户集合的用户数据或第二用户集合的用户数据。
117.但在a/b实验过程中,得到实验组模型是否稳定的确定结果时,直接执行步骤403。
118.一个具体实施例中,步骤403中,基于确定结果,调整第一用户集合的用户数目的具体包括:当确定结果为实验组模型稳定时,增加第一用户集合和第二用户集合的用户数目;当确定结果为实验组模型不稳定时,减少第一用户集合和第二用户集合的用户数目。
119.具体地,增加第一用户集合的用户数目包括并不限于以下方式:
120.增加第一用户集合中用户数目占比的方式,例如,第一用户集合中初始用户数目与用户总数目占比为2%,当确定实验组模型稳定时,将第一用户集合中的用户数目占比增加1%。
121.增加第一用户集合中的用户人数的方式,例如,第一用户集合中初始用户人数为5万,当确定实验组模型稳定时,为第一用户集合再分配3万用户。
122.另外,还可以设定用户增加规则,将预设范围分为多个子范围,例如,预设范围(

1,1)可以分为第一子范围(

1,

0.5)、第二子范围[

0.5,0)、第三子范围[0,0.5)、第四子范围[0.5,1)。设置每个子范围与增加的用户数目的第一对应关系,以及每个子范围与减少的用户数目的第二对应关系。当确定实验组模稳定,根据预设的第一对应关系,增加第一用户集合和第二用户集合的用户数目;当确定实验组模型不稳定,根据预设的第二对应关系,减少第一用户集合和第二用户集合的用户数目。
[0123]
具体地,当确定结果为实验组模型稳定时,且,资源预测系统中存在实验组模型、对照组模型和默认组模型三个模型时,还需要对应性的减少第三用户集合的用户数目。例如,资源预测系统中的用户总数目为20万用户,第一用户集合的初始用户数目为2万,第二用户集合的初始用户数目为2万,第三用户集合的初始用户数目为16万;现在为第一用户集
合和第二用户集合分别增加3万的用户,此时,第三用户集合的用户数目减少6万。
[0124]
具体地,当确定结果为实验组模型不稳定时,且,资源预测系统中存在实验组模型、对照组模型和默认组模型三个模型时,还需要对应性的增加第三用户集合的用户数目。例如,资源预测系统中的用户总数目为20万用户,第一用户集合的初始用户数目为2万,第二用户集合的初始用户数目为2万,第三用户集合的初始用户数目为16万;现在为第一用户集合和第二用户集合分别减少1万的用户,此时,第三用户集合的用户数目增加2万。
[0125]
当然,也可以由于实验组模型不稳定,直接将第一用户集合的用户数目减少至0,将实验组模型从资源预测系统中下架,线下重新调整试验组模型,再将调整后的实验组模型重新部署至资源预测系统,再从步骤301开始执行。
[0126]
一个具体实施例中,确定目标用户所属的目标用户集合的具体实现如图6所示:
[0127]
步骤601,获取目标用户的用户唯一标识中的预设标签位对应的标签值。
[0128]
具体地,需要预先配置预设标签位的标签值与用户集合之间的对应关系。例如,用户唯一标识为一个具有9个字符的字符串,将最后一个字符位置作为预设标签位。
[0129]
具体地,获取广告数据请求,该广告数据请求携带用户唯一标识,根据该用户唯一标识的最后一个字符位置对应的标签值。
[0130]
步骤602,根据标签值与预设的对应关系,确定目标用户所属的目标用户集合。
[0131]
其中,预设的对应关系用于描述标签值和用户集合之间的对应关系。例如,标签值为0对应的用户属于第一用户集合;标签值为1对应的用户属于第二用户集合;标签值非0非1对应的用户属于第三用户集合。
[0132]
具体地,根据标签值与预设的对应关系,确定目标用户所属的目标用户集合之后,将用户唯一标识对应的目标用户数据和目标广告数据输入至目标模型。
[0133]
另外,还可以预先配置请求标记与用户集合之间的对应关系,以及请求标记与标签值的对应关系。例如,标签值为a,为广告数据请求添加实验组标记,标签值为b,为广告数据请求添加对照组标记,标签值非a非b,为广告数据请求添加默认组标记。
[0134]
具体地,根据标签值与预设的对应关系,确定目标用户所属的目标用户集合之后,根据请求标记,将用户唯一标识对应的目标用户数据和目标广告数据输入至目标模型。
[0135]
具体地,预设的对应关系随着第一用户集合的用户数目的增加而发生变化。例如,确定实验组模型稳定之后,增加第一用户集合的用户数目时,调整对应关系为:标签值为0和9对应的用户属于第一用户集合,标签值为1和8对应的用户属于第二用户集合,标签值非0非1非8非9对应的用户属于第三用户集合。
[0136]
具体地,预设的对应关系随着第一用户集合的用户数目的减少而发生变化。例如,确定实验组模型不稳定之后,减少第一用户集合的用户数目时,调整对应关系为:标签值为任意字符对应的用户均属于第三用户集合。
[0137]
本申请预先配置预设标签位的标签值与用户集合之间的对应关系,根据该对应关系将用户分配至各自对应的桶中,实现了用户数据的有效格力,保证了实验组模型输出结果的置信度。
[0138]
下面,通过图7对本申请做一个详细说明:
[0139]
步骤701,获取第一用户集合中各用户对广告数据请求的第一用户行为数据,以及获取第二用户集合中各用户对广告数据请求的第二用户行为数据。
[0140]
其中,第一用户集合和第二用户集合的用户不相关,且,第一用户集合和第二用户集合的用户数目相同。
[0141]
步骤702,将第一用户行为数据和广告数据,输入至实验组模型,获得实验预测资源值;将第二用户行为数据和广告数据,输入至对照组模型,获得对照预测资源值。
[0142]
步骤703,根据实验预测资源值和对照预测资源值,调整第一用户集合和第二用户集合的用户数目。
[0143]
步骤704,判断第一用户集合的用户数目是否超过预设数目,若是,执行步骤705,否则,执行步骤701。
[0144]
步骤705,确定实验组模型通过a/b实验。
[0145]
具体地,在确定实验组模型通过a/b实验之后,可以将实验组模型作为最终的模型部署在资源预测系统中,为资源预测系统中所有的用户预测资源值。并在下一次a/b实验时,将本次通过a/b实验的最新模型作为下次a/b实验的默认组模型和对照组模型的初始模型。
[0146]
如果,整个a/b实验过程中,第一用户集合的用户数目总是不能超过预设数目,或者,第一用户集合的用户数目少于最低阈值,则确定该实验组模型不稳定,此时,便结束a/b实验,利用对照组模型或默认组模型的任意一个模型为资源预测系统中所有的用户预测资源值。
[0147]
另外,在获得实验预测资源值和获得对照预测资源值之后,根据实验预测资源值、第一用户行为数据和广告数据,更新实验组模型;根据对照预测资源值、第二用户行为数据和广告数据,更新对照组模型。
[0148]
基于同一构思,本申请实施例中提供了一种数据处理装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述。如图8所示,该装置主要包括:
[0149]
第一确定模块801,用于确定目标用户所属的目标用户集合;
[0150]
第二确定模块802,用于在预设的预测模型中,确定目标用户集合所对应的目标模型;目标模型用于预测目标对象的资源值,预测模型是基于预测模型对应的用户集合的用户数据确定的;
[0151]
处理模块803,用于利用目标模型对目标用户数据和目标对象数据进行处理,得到目标预测资源值;
[0152]
输出模块804,用于输出目标预测资源值。
[0153]
具体地,该数据处理装置,可以为a/b实验框架的逻辑处理模块102。
[0154]
一个具体实施例中,预测模型包括:实验组模型与对照组模型;
[0155]
其中,实验组模型是基于第一用户集合的用户数据确定的;对照组模型是基于第二用户集合的用户数据确定的;
[0156]
第一用户集合与第二用户集合无交集,第一用户集合的用户数目与第二用户集合的用户数目相同。
[0157]
一个具体实施例中,预测模型还包括:默认组模型;对照组模型与默认组模型的初始模型相同;
[0158]
默认组模型是基于第三用户集合的用户数据确定的,第三用户集合的初始用户数目大于第二用户集合的初始用户数目。
[0159]
一个具体实施例中,该装置还包括:更新模块,用于基于目标用户数据、目标对象数据与目标预测资源值,更新目标模型。
[0160]
一个具体实施例中,输出模块804,还用于当目标模型为实验组模型时,利用对照组模型对目标用户数据和目标对象数据进行处理,得到对照预测资源值;根据对照预测资源值和目标预测资源值,确定实验组模型的稳定性;基于确定结果,调整第一用户集合的用户数目。
[0161]
一个具体实施例中,输出模块804,具体用于比对对照预测资源值和目标预测资源值,得到比对结果;当比对结果在预设范围内时,确定实验组模型稳定;当比对结果不在预设范围内时,确定实验组模型不稳定。
[0162]
一个具体实施例中,输出模块804,具体用于当确定结果为实验组模型稳定时,增加第一用户集合和第二用户集合的用户数目;当确定结果为实验组模型不稳定时,减少第一用户集合和第二用户集合的用户数目。
[0163]
一个具体实施例中,第一确定模块801,具体用于获取目标用户的用户唯一标识中的预设标签位对应的标签值;根据标签值与预设的对应关系,确定目标用户所属的目标用户集合;其中,预设的对应关系用于描述标签值和用户集合之间的对应关系。
[0164]
基于同一构思,本申请实施例中还提供了一种电子设备,如图9所示,该电子设备主要包括:处理器901、存储器902和通信总线903,其中,处理器901和存储器902通过通信总线903完成相互间的通信。其中,存储器902中存储有可被处理器901执行的程序,处理器901执行存储器902中存储的程序,实现上述任一实施例中所描述的数据处理方法。
[0165]
上述电子设备中提到的通信总线903可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线903可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0166]
存储器902可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non

volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器901的存储装置。
[0167]
上述的处理器901可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等,还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field

programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0168]
在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述任一实施例中所描述的数据处理方法。
[0169]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机
网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如dvd)或者半导体介质(例如固态硬盘)等。
[0170]
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0171]
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1