预估推送内容点击通过率的方法、训练端、控制端和系统与流程

文档序号:17835196发布日期:2019-06-05 23:28阅读:247来源:国知局
预估推送内容点击通过率的方法、训练端、控制端和系统与流程

本发明涉及内容推送领域,具体涉及预估推送内容点击通过率的方法、训练端、控制端和系统。



背景技术:

ctr(click-through-rate,点击通过率)是指推送内容(例如图片广告、文字广告、关键词广告、排名广告、视频广告等)的点击到达率,即该推送内容的实际点击次数(严格的来说,可以是到达目标页面的数量)除以该推送内容的展现量(showcontent)。ctr是衡量推送内容效果的一项重要指标。

因此,为了使投放的广告等推送内容能够达到更好的效果,需要将重点推送内容放置在点击通过率较高的位置,这也就需要能够实现预估点击通过率。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的预估推送内容点击通过率的方法、训练端、控制端和系统。

依据本发明的一个方面,提供了一种预估推送内容点击通过率的方法,包括:

获取推送内容的日志数据,其中,每条日志数据包括一个或多个字段;

对每条日志数据进行字段筛除,将经过筛除的日志数据推送到训练端上进行训练,得到训练结果数据;所述训练端有多个;

对各训练端返回的训练结果数据进行归并处理,得到推送内容的点击通过率评价模型;

根据所述点击通过率评价模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。

可选地,所述日志数据包括:

推送内容的展现数据和/或推送内容的点击数据。

可选地,该方法还包括:

将所述推送内容的日志数据分为与训练端数量相同的多个数据块;

为每个数据块分配对应的训练端;

对每条日志数据进行字段筛除,将经过筛除的日志数据推送到训练端上进行训练包括:

根据该条日志数据所在的数据块确定对应的训练端,将经过筛除的日志数据推送到该训练端上进行训练。

可选地,所述对每条日志数据进行字段筛除包括:

预设字段的筛除概率p,即对一条推送内容的日志数据中的每个字段,筛除该字段的概率为p,不筛除该字段的概率为1-p。

可选地,每台训练端中保存有预设的训练模型;所述日志数据的各字段包括相应字段的特征信息;

所述将经过筛除的日志数据推送到训练端上进行训练,得到训练结果数据包括:将经过筛除的日志数据推送到训练端,由各训练端根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子。

可选地,所述预设的训练模型为初始化的ftrl训练模型;

所述获取推送内容的日志数据包括:获取第一预设时间段内的全部推送内容的日志数据。

可选地,该方法还包括:将得到的点击通过率评价模型替换各训练端中预设的训练模型;

所述获取推送内容的日志数据包括:按预设时间间隔获取推送内容的日志数据。

依据本发明的另一方面,提供了一种预估推送内容点击通过率的方法,包括:

获取控制端推送的推送内容的日志数据,其中,所述日志数据包括所述控制端对原始日志数据进行字段筛除得到的一个或多个字段;

根据预设的训练模型对所述日志数据进行训练,得到训练结果数据;

将所述训练结果数据返回给所述控制端,以使所述控制端对多份训练结果数据进行归并处理,得到推送内容的点击通过率评价模型,并根据所述点击通过率评价模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。

可选地,所述推送内容的日志数据包括:

推送内容的展现数据和/或推送内容的点击数据。

可选地,所述日志数据的各字段包括相应字段的特征信息;

所述根据预设的训练模型对所述日志数据进行训练,得到训练结果数据包括:根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子。

可选地,所述根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子包括:

计算各特征信息的梯度和;

根据所述梯度和计算各特征信息对应的点击通过率影响因子。

可选地,所述预设的训练模型包含如下公式:

1)

2)pt=σ(xt·wt,i);

3)gi=(pt-yt)xi;

4)

5)

6)zt+1,i=zt,i+gi-σiwt,i;

7)

其中,w为点击通过率影响因子,t为本次训练中进行的迭代次数,i的值与各字段对应,α,β为超参数,λ1为l1正则化系数,λ2为l2正则化系数,σ、n、z分别为计算w使用的参数,g为梯度,p为预测的点击通过率,y为日志数据中实际的点击通过率,x为特征信息的值,p为样本正例数,n为样本负例数;所述预设的训练模型包含n、z的初始值;

其中,当一条日志数据中有推送内容的展现数据且无推送内容的点击数据时,该条日志数据为样本负例;当一条日志数据中有推送内容的展现数据且有推送内容的点击数据时,该条日志数据为样本正例。

依据本发明的又一方面,提供了一种预估推送内容点击通过率的控制端,包括:

日志数据获取单元,适于获取推送内容的日志数据,其中,每条日志数据包括一个或多个字段;

字段筛除单元,适于对每条日志数据进行字段筛除;

推送单元,适于将经过筛除的日志数据推送到训练端上进行训练,得到训练结果数据;所述训练端有多个;

归并单元,适于对各训练端返回的训练结果数据进行归并处理,得到推送内容的点击通过率评价模型;

评价单元,适于根据所述点击通过率评价模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。

可选地,所述日志数据包括:

推送内容的展现数据和/或推送内容的点击数据。

可选地,所述推送单元,还适于将所述推送内容的日志数据分为与训练端数量相同的多个数据块;为每个数据块分配对应的训练端;根据日志数据所在的数据块确定对应的训练端,将经过筛除的日志数据推送到该训练端上进行训练。

可选地,所述字段筛除单元,适于预设字段的筛除概率p,即对一条推送内容的日志数据中的每个字段,筛除该字段的概率为p,不筛除该字段的概率为1-p。

可选地,每台训练端中保存有预设的训练模型;所述日志数据的各字段包括相应字段的特征信息;

所述推送单元,适于将经过筛除的日志数据推送到训练端,由各训练端根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子。

可选地,所述预设的训练模型为初始化的ftrl训练模型;

所述日志数据获取单元,适于获取第一预设时间段内的全部推送内容的日志数据。

可选地,该控制端还包括:

训练模型替换单元,适于将得到的点击通过率评价模型替换各训练端中预设的训练模型;

所述日志数据获取单元,适于按预设时间间隔获取推送内容的日志数据。

依据本发明的再一方面,提供了一种预估推送内容点击通过率的训练端,包括:

日志数据获取单元,适于获取控制端推送的推送内容的日志数据,其中,所述日志数据包括所述控制端对原始日志数据进行字段筛除得到的一个或多个字段;

训练单元,适于根据预设的训练模型对所述日志数据进行训练,得到训练结果数据;

训练结果数据提交单元,适于将所述训练结果数据返回给所述控制端,以使所述控制端对多份训练结果数据进行归并处理,得到推送内容的点击通过率评价模型,并根据所述点击通过率评价模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。

可选地,所述推送内容的日志数据包括:

推送内容的展现数据和/或推送内容的点击数据。

可选地,所述日志数据的各字段包括相应字段的特征信息;

所述训练单元,适于根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子。

可选地,所述训练单元,适于计算各特征信息的梯度和;根据所述梯度和计算各特征信息对应的点击通过率影响因子。

可选地,所述预设的训练模型包含如下公式:

1)

2)pt=σ(xt·wt,i);

3)gi=(pt-yt)xi;

4)

5)

6)zt+1,i=zt,i+gi-σiwt,i;

7)

其中,w为点击通过率影响因子,t为本次训练中进行的迭代次数,i的值与各字段对应,α,β为超参数,λ1为l1正则化系数,λ2为l2正则化系数,σ、n、z分别为计算w使用的参数,g为梯度,p为预测的点击通过率,y为日志数据中实际的点击通过率,x为特征信息的值,p为样本正例数,n为样本负例数;所述预设的训练模型包含n、z的初始值;

其中,当一条日志数据中有推送内容的展现数据且无推送内容的点击数据时,该条日志数据为样本负例;当一条日志数据中有推送内容的展现数据且有推送内容的点击数据时,该条日志数据为样本正例。

依据本发明的再一方面,提供了一种预估推送内容点击通过率的系统,其中,该系统包括如上述任一项所述的预估推送内容点击通过率的控制端,和多个如上述任一项所述的预估推送内容点击通过率的训练端。

可选地,所述预估推送内容点击通过率的控制端通过spark分布式计算框架的driver实现;

所述预估推送内容点击通过率的训练端通过spark分布式计算框架的worker实现。

依据本发明的再一方面,提供了一种计算机可读存储介质,存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一项所述的方法。

由上述可知,本发明的技术方案,将推送内容的包括一个或多个字段的日志数据进行字段筛除后推送到多个训练端上进行训练,对各训练端返回的训练结果数据进行归并处理,得到推送内容的点击通过率评价模型,再根据该模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。该技术方案利用分布式的多个训练端可以同时训练筛除字段的日志数据并进行归并,更加适应日志数据的日益增长,处理效率高并降低了冗余字段带来的干扰,得到的预估点击通过率可以更好地指导推送内容的投放,提高经济效益。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明一个实施例的一种预估推送内容点击通过率的方法的流程示意图;

图2示出了根据本发明一个实施例的另一种预估推送内容点击通过率的方法的流程示意图;

图3示出了根据本发明一个实施例的一种预估推送内容点击通过率的控制端的结构示意图;

图4示出了根据本发明一个实施例的一种预估推送内容点击通过率的训练端的结构示意图;

图5示出了根据本发明一个实施例的一种预估推送内容点击通过率的系统的结构示意图;

图6示出了根据本发明一个实施例的计算机可读存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的一种预估推送内容点击通过率的方法的流程示意图,该方法可以应用于预估推送内容点击通过率的控制端。如图1所示,该方法包括:

步骤s110,获取推送内容的日志数据,其中,每条日志数据包括一个或多个字段。

这里日志数据作为推送内容的元数据,可以包括推送内容的展现数据和/或推送内容的点击数据,例如广告的展现和点击,具体来说,广告a在展示列表的第三位,被小米手机用户在wifi环境下点击,则相应的点击数据可以包括广告标识字段(广告a)、广告展示位置字段(第三位)、设备字段(小米手机)、网络状况字段(wifi环境)。

由于许多日志数据中的字段是与特定推送内容相关,在其他推送内容的日志数据中没有记录,那么它可能不适合作一个普遍适用的影响因子来进行后续的训练。因此可以执行步骤s120,对每条日志数据进行字段筛除,将经过筛除的日志数据推送到训练端上进行训练,得到训练结果数据;训练端有多个。

步骤s130,对各训练端返回的训练结果数据进行归并处理,得到推送内容的点击通过率评价模型。

步骤s140,根据点击通过率评价模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。

可见,图1所示的方法,将推送内容的包括一个或多个字段的日志数据进行字段筛除后推送到多个训练端上进行训练,对各训练端返回的训练结果数据进行归并处理,得到推送内容的点击通过率评价模型,再根据该模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。该技术方案利用分布式的多个训练端可以同时训练筛除字段的日志数据并进行归并,更加适应日志数据的日益增长,处理效率高并降低了冗余字段带来的干扰,得到的预估点击通过率可以更好地指导推送内容的投放,提高经济效益。

在本发明的一个实施例中,上述方法还包括:将推送内容的日志数据分为与训练端数量相同的多个数据块;为每个数据块分配对应的训练端;对每条日志数据进行字段筛除,将经过筛除的日志数据推送到训练端上进行训练包括:根据该条日志数据所在的数据块确定对应的训练端,将经过筛除的日志数据推送到该训练端上进行训练。

也就是说,在本实施例中不同的训练端上训练的日志数据是不同的,而且在将日志数据推送至训练端前还需要进行字段筛除处理,因此对日志数据进行了分块操作,即将日志数据分成多个partition。

在本发明的一个实施例中,上述方法中,对每条日志数据进行字段筛除包括:预设字段的筛除概率p,即对一条推送内容的日志数据中的每个字段,筛除该字段的概率为p,不筛除该字段的概率为1-p。

举例来说,筛除概率为0.5,那么不筛除字段的概率为0.5,也就是说对于字段a来说,有50%的可能通过筛除。那么也就是说在日志数据中如果一个字段出现的次数越多,则越有可能被推送到训练端。

在本发明的一个实施例中,上述方法中,每台训练端中保存有预设的训练模型;日志数据的各字段包括相应字段的特征信息;将经过筛除的日志数据推送到训练端上进行训练,得到训练结果数据包括:将经过筛除的日志数据推送到训练端,由各训练端根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子。

具体来说,在本发明的一个实施例中,上述方法中预设的训练模型为初始化的ftrl训练模型;获取推送内容的日志数据包括:获取第一预设时间段内的全部推送内容的日志数据。例如,选取30天的日志数据(数据量较大,则根据这些数据训练的初始化的ftrl训练模型的精度也就越高)。ftrl训练模型是基于ftrl(follow-the-regularized-leader)算法得到的模型。

在上述实施例中,各训练端可以训练得到各字段的各特征信息的影响因子,这些影响因子可以是不同的。例如,训练机1得到的网络状况为3g的影响因子为0.11,训练机1得到的网络状况为3g的影响因子为0.15,等等。对于这些同一特征信息的不同影响因子可以进行加权求平均值。

在本发明的一个实施例中,上述方法还包括:将得到的点击通过率评价模型替换各训练端中预设的训练模型;获取推送内容的日志数据包括:按预设时间间隔获取推送内容的日志数据。

例如,根据2017年11月11号的日志数据使用初始模型进行训练,得到了新的点击通过率评价模型,具体来说是将新得到的各特征信息对应的点击通过率影响因子与初始模型进行了融合(join)。那么在2017年11月12日的日志数据就会使用2017年11月11日新生成的点击通过率评价模型来进行训练。上述示例中,预设时间间隔是1天,在其他实施例中可以根据需要进行选择。

图2示出了根据本发明一个实施例的另一种预估推送内容点击通过率的方法的流程示意图,该方法可以应用于预估推送内容点击通过率的训练端。如图2所示,该方法包括:

步骤s210,获取控制端推送的推送内容的日志数据,其中,日志数据包括控制端对原始日志数据进行字段筛除得到的一个或多个字段。

步骤s220,根据预设的训练模型对日志数据进行训练,得到训练结果数据。

步骤s210,将训练结果数据返回给控制端,以使控制端对多份训练结果数据进行归并处理,得到推送内容的点击通过率评价模型,并根据点击通过率评价模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。

本实施例可以与前述预估推送内容点击通过率的控制端的方法配合实施,不需要对数据进行其他的处理即可根据预设的训练模型进行训练。其中,推送内容的日志数据包括:推送内容的展现数据和/或推送内容的点击数据。

在本发明的一个实施例中,上述方法中,日志数据的各字段包括相应字段的特征信息;根据预设的训练模型对日志数据进行训练,得到训练结果数据包括:根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子。

举例来说,网络状况字段可以包括4g、3g、wifi等特征信息,以4g的点击通过率影响因子为0.15,3g的点击通过率影响因子为0.1,wifi的点击通过率影响因子为0.3为例,说明在其他条件相同(例如同一型号的设备上的同一广告)的情况下,用户在设备处于wifi情况下对广告的点击可能性最大,4g次之,3g最小。

在本发明的一个实施例中,上述方法中,根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子包括:计算各特征信息的梯度和;根据梯度和计算各特征信息对应的点击通过率影响因子。

函数在某一点的梯度是这样一个向量:它的方向与取得最大方向导数的方向一致,而它的模为方向导数的最大值。也就是说,在变量空间的某一点处,函数沿梯度方向具有最大的变化率。在本实施例中利用了上述数学原理来先对各特征信息的梯度进行求和,再进一步计算各特征信息对应的点击通过率影响因子。

具体地,在本发明的一个实施例中,上述方法中,预设的训练模型包含如下公式:

1)

2)pt=σ(xt·wt,i);

3)gi=(pt-yt)xi;

4)

5)

6)zt+1,i=zt,i+gi-σiwt,i;

7)

其中,w为点击通过率影响因子,t为本次训练中进行的迭代次数,i的值与各字段对应,α,β为超参数,λ1为l1正则化系数,λ2为l2正则化系数,σ、n、z分别为计算w使用的参数,g为梯度,p为预测的点击通过率,y为日志数据中实际的点击通过率,x为特征信息的值,p为样本正例数,n为样本负例数;预设的训练模型包含n、z的初始值;其中,当一条日志数据中有推送内容的展现数据且无推送内容的点击数据时,该条日志数据为样本负例;当一条日志数据中有推送内容的展现数据且有推送内容的点击数据时,该条日志数据为样本正例。

其中,采用样本正负例来计算梯度和,虽然这样的计算并不精确,但需要注意的是,本训练端上计算出的特征信息的点击通过率影响因子w还会回送到控制端进行归并处理,也就是说,本训练端并非是利用全部样本计算得到的w,也就是有损的。采用样本正负例的方式可以减小计算参数n时带来的损耗,也就进一步提高了w的预估精度,最终得到的点击通过率评价模型的auc值(曲线下面积,一种模型的常用评估指标)平均可以维持在0.83(越接近1越好)以上。

图3示出了根据本发明一个实施例的一种预估推送内容点击通过率的控制端的结构示意图。如图3所示,预估推送内容点击通过率的控制端300包括:

日志数据获取单元310,适于获取推送内容的日志数据,其中,每条日志数据包括一个或多个字段。

字段筛除单元320,适于对每条日志数据进行字段筛除。

推送单元330,适于将经过筛除的日志数据推送到训练端上进行训练,得到训练结果数据;训练端有多个。

归并单元340,适于对各训练端返回的训练结果数据进行归并处理,得到推送内容的点击通过率评价模型。

评价单元350,适于根据点击通过率评价模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。

这里日志数据作为推送内容的元数据,可以包括推送内容的展现数据和/或推送内容的点击数据,例如广告的展现和点击,具体来说,广告a在展示列表的第三位,被小米手机用户在wifi环境下点击,则相应的点击数据可以包括广告标识字段(广告a)、广告展示位置字段(第三位)、设备字段(小米手机)、网络状况字段(wifi环境)。

由于许多日志数据中的字段是与特定推送内容相关,在其他推送内容的日志数据中没有记录,那么它可能不适合作一个普遍适用的影响因子来进行后续的训练,可以进行筛除。

可见,图3所示的控制端,将推送内容的包括一个或多个字段的日志数据进行字段筛除后推送到多个训练端上进行训练,对各训练端返回的训练结果数据进行归并处理,得到推送内容的点击通过率评价模型,再根据该模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。该技术方案利用分布式的多个训练端可以同时训练筛除字段的日志数据并进行归并,更加适应日志数据的日益增长,处理效率高并降低了冗余字段带来的干扰,得到的预估点击通过率可以更好地指导推送内容的投放,提高经济效益。

在本发明的一个实施例中,上述控制端中,推送单元330,还适于将推送内容的日志数据分为与训练端数量相同的多个数据块;为每个数据块分配对应的训练端;根据日志数据所在的数据块确定对应的训练端,将经过筛除的日志数据推送到该训练端上进行训练。

也就是说,在本实施例中不同的训练端上训练的日志数据是不同的,而且在将日志数据推送至训练端前还需要进行字段筛除处理,因此对日志数据进行了分块操作,即将日志数据分成多个partition。

在本发明的一个实施例中,上述控制端中,字段筛除单元320,适于预设字段的筛除概率p,即对一条推送内容的日志数据中的每个字段,筛除该字段的概率为p,不筛除该字段的概率为1-p。

举例来说,筛除概率为0.5,那么不筛除字段的概率为0.5,也就是说对于字段a来说,有50%的可能通过筛除。那么也就是说在日志数据中如果一个字段出现的次数越多,则越有可能被推送到训练端。

在本发明的一个实施例中,上述控制端中,每台训练端中保存有预设的训练模型;日志数据的各字段包括相应字段的特征信息;推送单元330,适于将经过筛除的日志数据推送到训练端,由各训练端根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子。

具体来说,在本发明的一个实施例中,上述控制端中,预设的训练模型为初始化的ftrl训练模型;日志数据获取单元310,适于获取第一预设时间段内的全部推送内容的日志数据。

在上述实施例中,各训练端可以训练得到各字段的各特征信息的影响因子,这些影响因子可以是不同的。例如,训练机1得到的网络状况为3g的影响因子为0.11,训练机1得到的网络状况为3g的影响因子为0.15,等等。对于这些同一特征信息的不同影响因子可以进行加权求平均值。

在本发明的一个实施例中,上述控制端还包括:训练模型替换单元(图未示),适于将得到的点击通过率评价模型替换各训练端中预设的训练模型;日志数据获取单元310,适于按预设时间间隔获取推送内容的日志数据。

例如,根据2017年11月11号的日志数据使用初始模型进行训练,得到了新的点击通过率评价模型,具体来说是将新得到的各特征信息对应的点击通过率影响因子与初始模型进行了融合(join)。那么在2017年11月12日的日志数据就会使用2017年11月11日新生成的点击通过率评价模型来进行训练。上述示例中,预设时间间隔是1天,在其他实施例中可以根据需要进行选择。

图4示出了根据本发明一个实施例的一种预估推送内容点击通过率的训练端的结构示意图,如图4所示,预估推送内容点击通过率的训练端400包括:

日志数据获取单元410,适于获取控制端推送的推送内容的日志数据,其中,日志数据包括控制端对原始日志数据进行字段筛除得到的一个或多个字段。

训练单元420,适于根据预设的训练模型对日志数据进行训练,得到训练结果数据。

训练结果数据提交单元430,适于将训练结果数据返回给控制端,以使控制端对多份训练结果数据进行归并处理,得到推送内容的点击通过率评价模型,并根据点击通过率评价模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。

本实施例可以与前述预估推送内容点击通过率的控制端的方法配合实施,不需要对数据进行其他的处理即可根据预设的训练模型进行训练。其中,在本发明的一个实施例中,上述训练端中,推送内容的日志数据包括:推送内容的展现数据和/或推送内容的点击数据。

在本发明的一个实施例中,上述训练端中,日志数据的各字段包括相应字段的特征信息;训练单元420,适于根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子。

举例来说,网络状况字段可以包括4g、3g、wifi等特征信息,以4g的点击通过率影响因子为0.15,3g的点击通过率影响因子为0.1,wifi的点击通过率影响因子为0.3为例,说明在其他条件相同(例如同一型号的设备上的同一广告)的情况下,用户在设备处于wifi情况下对广告的点击可能性最大,4g次之,3g最小。

在本发明的一个实施例中,上述训练端中,训练单元420,适于计算各特征信息的梯度和;根据梯度和计算各特征信息对应的点击通过率影响因子。

函数在某一点的梯度是这样一个向量:它的方向与取得最大方向导数的方向一致,而它的模为方向导数的最大值。也就是说,在变量空间的某一点处,函数沿梯度方向具有最大的变化率。在本实施例中利用了上述数学原理来先对各特征信息的梯度进行求和,再进一步计算各特征信息对应的点击通过率影响因子。

具体地,在本发明的一个实施例中,上述训练端中,预设的训练模型包含如下公式:

1)

2)pt=σ(xt·wt,i);

3)gi=(pt-yt)xi;

4)

5)

6)zt+1,i=zt,i+gi-σiwt,i;

7)

其中,w为点击通过率影响因子,t为本次训练中进行的迭代次数,i的值与各字段对应,α,β为超参数,λ1为l1正则化系数,λ2为l2正则化系数,σ、n、z分别为计算w使用的参数,g为梯度,p为预测的点击通过率,y为日志数据中实际的点击通过率,x为特征信息的值,p为样本正例数,n为样本负例数;预设的训练模型包含n、z的初始值;其中,当一条日志数据中有推送内容的展现数据且无推送内容的点击数据时,该条日志数据为样本负例;当一条日志数据中有推送内容的展现数据且有推送内容的点击数据时,该条日志数据为样本正例。

其中,采用样本正负例来计算梯度和,虽然这样的计算并不精确,但需要注意的是,本训练端上计算出的特征信息的点击通过率影响因子w还会回送到控制端进行归并处理,也就是说,本训练端并非是利用全部样本计算得到的w,也就是有损的。采用样本正负例的方式可以减小计算参数n时带来的损耗,也就进一步提高了w的预估精度,最终得到的点击通过率评价模型的auc值(曲线下面积,一种模型的常用评估指标)平均可以维持在0.83(越接近1越好)以上。

图5示出了根据本发明一个实施例的一种预估推送内容点击通过率的系统的结构示意图,如图5所示,预估推送内容点击通过率的系统500包括如上述任一实施例中的预估推送内容点击通过率的控制端300,和多个如上述任一实施例中的预估推送内容点击通过率的训练端400。

在本发明的一个实施例中,上述系统中,预估推送内容点击通过率的控制端300通过spark分布式计算框架的driver实现;预估推送内容点击通过率的训练端400通过spark分布式计算框架的worker实现。

spark分布式计算框架可以启动多个worker执行任务,在分布式集群中利用多终端的资源提高了训练效率。driver作为控制端可以与各worker进行通信。

综上所述,本发明的技术方案,将推送内容的包括一个或多个字段的日志数据进行字段筛除后推送到多个训练端上进行训练,对各训练端返回的训练结果数据进行归并处理,得到推送内容的点击通过率评价模型,再根据该模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。该技术方案利用分布式的多个训练端可以同时训练筛除字段的日志数据并进行归并,更加适应日志数据的日益增长,处理效率高并降低了冗余字段带来的干扰,得到的预估点击通过率可以更好地指导推送内容的投放,提高经济效益。

需要说明的是:

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的预估推送内容点击通过率的控制端、训练端和系统中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

图6示出了根据本发明一个实施例的一种计算机可读存储介质的示意图。该计算机可读存储介质600存储有用于执行根据本发明的方法步骤的计算机可读程序代码610,例如可以被电子设备的处理器读取的程序代码,当这些程序代码由电子设备运行时,导致该电子设备执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的程序代码可以执行应用于预估推送内容点击通过率的训练端的预估推送内容点击通过率的方法,或者,执行应用于预估推送内容点击通过率的训练端的预估推送内容点击通过率的方法。程序代码可以以适当形式进行压缩。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明的实施例公开了a1、一种预估推送内容点击通过率的方法,其中,该方法包括:

获取推送内容的日志数据,其中,每条日志数据包括一个或多个字段;

对每条日志数据进行字段筛除,将经过筛除的日志数据推送到训练端上进行训练,得到训练结果数据;所述训练端有多个;

对各训练端返回的训练结果数据进行归并处理,得到推送内容的点击通过率评价模型;

根据所述点击通过率评价模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。

a2、如a1所述的方法,其中,所述日志数据包括:

推送内容的展现数据和/或推送内容的点击数据。

a3、如a1所述的方法,其中,该方法还包括:

将所述推送内容的日志数据分为与训练端数量相同的多个数据块;

为每个数据块分配对应的训练端;

对每条日志数据进行字段筛除,将经过筛除的日志数据推送到训练端上进行训练包括:

根据该条日志数据所在的数据块确定对应的训练端,将经过筛除的日志数据推送到该训练端上进行训练。

a4、如a1所述的方法,其中,所述对每条日志数据进行字段筛除包括:

预设字段的筛除概率p,即对一条推送内容的日志数据中的每个字段,筛除该字段的概率为p,不筛除该字段的概率为1-p。

a5、如a1所述的方法,其中,每台训练端中保存有预设的训练模型;所述日志数据的各字段包括相应字段的特征信息;

所述将经过筛除的日志数据推送到训练端上进行训练,得到训练结果数据包括:将经过筛除的日志数据推送到训练端,由各训练端根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子。

a6、如a5所述的方法,其中,所述预设的训练模型为初始化的ftrl训练模型;

所述获取推送内容的日志数据包括:获取第一预设时间段内的全部推送内容的日志数据。

a7、如a5所述的方法,其中,该方法还包括:将得到的点击通过率评价模型替换各训练端中预设的训练模型;

所述获取推送内容的日志数据包括:按预设时间间隔获取推送内容的日志数据。

本发明的实施例还公开了b8、一种预估推送内容点击通过率的方法,其中,该方法包括:

获取控制端推送的推送内容的日志数据,其中,所述日志数据包括所述控制端对原始日志数据进行字段筛除得到的一个或多个字段;

根据预设的训练模型对所述日志数据进行训练,得到训练结果数据;

将所述训练结果数据返回给所述控制端,以使所述控制端对多份训练结果数据进行归并处理,得到推送内容的点击通过率评价模型,并根据所述点击通过率评价模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。

b9、如b8所述的方法,其中,所述推送内容的日志数据包括:

推送内容的展现数据和/或推送内容的点击数据。

b10、如b8所述的方法,其中,所述日志数据的各字段包括相应字段的特征信息;

所述根据预设的训练模型对所述日志数据进行训练,得到训练结果数据包括:根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子。

b11、如b10所述的方法,其中,所述根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子包括:

计算各特征信息的梯度和;

根据所述梯度和计算各特征信息对应的点击通过率影响因子。

b12、如b11所述的方法,其中,所述预设的训练模型包含如下公式:

1)

2)pt=σ(xt·wt,i);

3)gi=(pt-yt)xi;

4)

5)

6)zt+1,i=zt,i+gi-σiwt,i;

7)

其中,w为点击通过率影响因子,t为本次训练中进行的迭代次数,i的值与各字段对应,α,β为超参数,λ1为l1正则化系数,λ2为l2正则化系数,σ、n、z分别为计算w使用的参数,g为梯度,p为预测的点击通过率,y为日志数据中实际的点击通过率,x为特征信息的值,p为样本正例数,n为样本负例数;所述预设的训练模型包含n、z的初始值;

其中,当一条日志数据中有推送内容的展现数据且无推送内容的点击数据时,该条日志数据为样本负例;当一条日志数据中有推送内容的展现数据且有推送内容的点击数据时,该条日志数据为样本正例。

本发明的实施例还公开了c13、一种预估推送内容点击通过率的控制端,其中,该控制端包括:

日志数据获取单元,适于获取推送内容的日志数据,其中,每条日志数据包括一个或多个字段;

字段筛除单元,适于对每条日志数据进行字段筛除;

推送单元,适于将经过筛除的日志数据推送到训练端上进行训练,得到训练结果数据;所述训练端有多个;

归并单元,适于对各训练端返回的训练结果数据进行归并处理,得到推送内容的点击通过率评价模型;

评价单元,适于根据所述点击通过率评价模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。

c14、如c13所述的控制端,其中,所述日志数据包括:

推送内容的展现数据和/或推送内容的点击数据。

c15、如c13所述的控制端,其中,

所述推送单元,还适于将所述推送内容的日志数据分为与训练端数量相同的多个数据块;为每个数据块分配对应的训练端;根据日志数据所在的数据块确定对应的训练端,将经过筛除的日志数据推送到该训练端上进行训练。

c16、如c13所述的控制端,其中,

所述字段筛除单元,适于预设字段的筛除概率p,即对一条推送内容的日志数据中的每个字段,筛除该字段的概率为p,不筛除该字段的概率为1-p。

c17、如c13所述的控制端,其中,每台训练端中保存有预设的训练模型;所述日志数据的各字段包括相应字段的特征信息;

所述推送单元,适于将经过筛除的日志数据推送到训练端,由各训练端根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子。

c18、如c17所述的控制端,其中,所述预设的训练模型为初始化的ftrl训练模型;

所述日志数据获取单元,适于获取第一预设时间段内的全部推送内容的日志数据。

c19、如c17所述的控制端,其中,该控制端还包括:

训练模型替换单元,适于将得到的点击通过率评价模型替换各训练端中预设的训练模型;

所述日志数据获取单元,适于按预设时间间隔获取推送内容的日志数据。

本发明的实施例还公开了d20、一种预估推送内容点击通过率的训练端,其中,该训练端包括:

日志数据获取单元,适于获取控制端推送的推送内容的日志数据,其中,所述日志数据包括所述控制端对原始日志数据进行字段筛除得到的一个或多个字段;

训练单元,适于根据预设的训练模型对所述日志数据进行训练,得到训练结果数据;

训练结果数据提交单元,适于将所述训练结果数据返回给所述控制端,以使所述控制端对多份训练结果数据进行归并处理,得到推送内容的点击通过率评价模型,并根据所述点击通过率评价模型对多个推送内容进行评价,得到各推送内容的预估的点击通过率。

d21、如d20所述的训练端,其中,所述推送内容的日志数据包括:

推送内容的展现数据和/或推送内容的点击数据。

d22、如d20所述的训练端,其中,所述日志数据的各字段包括相应字段的特征信息;

所述训练单元,适于根据预设的训练模型对各字段的特征信息进行训练,得到与特征信息对应的点击通过率影响因子。

d23、如d22所述的训练端,其中,

所述训练单元,适于计算各特征信息的梯度和;根据所述梯度和计算各特征信息对应的点击通过率影响因子。

d24、如d23所述的训练端,其中,所述预设的训练模型包含如下公式:

1)

2)pt=σ(xt·wt,i);

3)gi=(pt-yt)xi;

4)

5)

6)zt+1,i=zt,i+gi-σiwt,i;

7)

其中,w为点击通过率影响因子,t为本次训练中进行的迭代次数,i的值与各字段对应,α,β为超参数,λ1为l1正则化系数,λ2为l2正则化系数,σ、n、z分别为计算w使用的参数,g为梯度,p为预测的点击通过率,y为日志数据中实际的点击通过率,x为特征信息的值,p为样本正例数,n为样本负例数;所述预设的训练模型包含n、z的初始值;

其中,当一条日志数据中有推送内容的展现数据且无推送内容的点击数据时,该条日志数据为样本负例;当一条日志数据中有推送内容的展现数据且有推送内容的点击数据时,该条日志数据为样本正例。

本发明的实施例还公开了e25、一种预估推送内容点击通过率的系统,其中,该系统包括如c13-c19中任一项所述的预估推送内容点击通过率的控制端,和多个如d20-d24中任一项所述的预估推送内容点击通过率的训练端。

e26、如e25所述的系统,其中,

所述预估推送内容点击通过率的控制端通过spark分布式计算框架的driver实现;

所述预估推送内容点击通过率的训练端通过spark分布式计算框架的worker实现。

本发明的实施例还公开了f27、一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现a1-a7中任一项所述的方法,或者,实现b8-b12中任一项所述的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1