广告投放模型统计类特征离散化方法、系统、设备及介质与流程

文档序号:26177515发布日期:2021-08-06 18:23阅读:111来源:国知局
广告投放模型统计类特征离散化方法、系统、设备及介质与流程

本发明属于广告投放领域,涉及一种广告投放模型统计类特征离散化方法、系统、设备及介质。



背景技术:

一般来说,想要通过历史数据来预估未来,最简单最直接的方案就是基于统计,例如要看一个广告今天的点击率(click-throughrate,ctr)如何,只需要统计过去一段时间内这个广告每天的点击率情况,或者一个媒体上某个广告位的点击率,只需要统计过去一段时间这个媒体的这个广告位平均的点击率。统计类特征,例如:广告id[特征维度]最近3天[时间周期]的点击率,任意特征维度*时间周期组合都可以是一个统计特征,这一类统计类特征在广告点击率预估的模型占比大概在30%左右。

由于广告投放模型有部分是基于逻辑回归、因子分解机等模型建立的,但是这部分模型不支持连续性特征输入。并且,在模型训练时使用离散特征能够增强模型的鲁棒性,降低过拟合风险,易于模型快速迭代。因此,在广告投放模型的训练中,一般将统计类特征进行离散化处理。目前,将统计类特征进行离散化处理的方案主要包括等宽离散法和等频离散法。其中,等宽离散法:等距区间或自定义区间进行离散,优点是灵活,保持原有数据分布。等频离散法:根据数据的频率分布进行排序,然后按照频率进行离散,好处是数据变为均匀分布。

但是,这两种离散方式存在以下问题:1、并没有对于划分方案好坏的度量,基本都是靠算法工程师的经验,分段合理性存在着多种评判方案。2、特征离散化后,没法保持跟原有统计值相同的分布,分段后各段特征经过模型计算后的权重并不能保证和原始趋势一致。



技术实现要素:

本发明的目的在于克服上述现有技术中,将统计类特征进行离散化处理时,由于分段合理性差,破坏了特征趋势,导致统计类特征失真的缺点,提供一种广告投放模型统计类特征离散化方法、系统、设备及介质。

为达到上述目的,本发明采用以下技术方案予以实现:

本发明第一方面,一种广告投放模型统计类特征离散化方法,包括以下步骤:

s1:获取若干广告投放历史数据样本,获取各广告投放历史数据样本中的统计类特征的ctr值;

s2:按照统计类特征的ctr值从小到大的顺序,将所有广告投放历史数据样本中的统计类特征分为连续的n组,得到连续的n个初始离散特征;

s3:将各初始离散特征分别输入预设的权重确定模型,得到各初始离散特征的模型权重;

s4:遍历各初始离散特征,当当前初始离散特征的模型权重<前一个初始离散特征的模型权重时,将当前初始离散特征与前一个初始离散特征合并;

s5:重复s3~s4,至遍历各初始离散特征后,任一初始离散特征的模型权重均≥前一个初始离散特征的模型权重,得到最终的离散特征。

本发明广告投放模型统计类特征离散化方法进一步的改进在于:

所述获取各广告投放历史数据样本的统计类特征的ctr值的具体方法为:获取各广告投放历史数据样本中统计类特征的维度特征的特征值,得到若干维度特征的特征值;遍历各维度特征的特征值,由下式得到各维度特征的特征值的ctr值:

维度特征的特征值的ctr值=m/n

其中,m表示统计类特征的时间周期内的所有广告投放历史数据样本中,包含当前维度特征的特征值且标记为点击的广告投放历史数据样本条数;n表示统计类特征的时间周期内的所有广告投放历史数据样本中,包含当前维度特征的特征值的广告投放历史数据样本条数;将各广告投放历史数据样本中维度特征的特征值的ctr值,作为各广告投放历史数据样本的统计类特征的ctr值。

所述将所有广告投放历史数据样本中的统计类特征分为连续的n组时,将所有广告投放历史数据样本中的统计类特征分为连续的10组。

所述将所有广告投放历史数据样本中的统计类特征分为连续的n组时,将所有广告投放历史数据样本中的统计类特征,按照等频分组的方式分为连续的n组。

所述权重确定模型为经过历史广告投放历史数据样本训练的逻辑回归模型。

所述将各初始离散特征分别输入预设的权重确定模型的具体方法为:将各初始离散特征进行one-hot编码,将编码后的各初始离散特征分别输入预设的权重确定模型。

本发明第二方面,一种广告投放模型统计类特征离散化方法,包括:

获取模块,用于获取若干广告投放历史数据样本,获取各广告投放历史数据样本的统计类特征的ctr值;

初始离散特征确定模块,用于按照统计类特征的ctr值从小到大的顺序,将所有广告投放历史数据样本中的统计类特征分为连续的n组,得到连续的n个初始离散特征;

权重确定模块,用于将各初始离散特征分别输入预设的权重确定模型,得到各初始离散特征的模型权重;

初始离散特征更新模块,用于遍历各初始离散特征,当当前初始离散特征的模型权重<前一个初始离散特征的模型权重时,将当前初始离散特征与前一个初始离散特征合并;

迭代模块,用于迭代触发权重确定模块和初始离散特征更新模块,至遍历各初始离散特征后,任一初始离散特征的模型权重均≥前一个初始离散特征的模型权重,得到最终的离散特征。

本发明第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述广告投放模型统计类特征离散化方法的步骤。

本发明第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述广告投放模型统计类特征离散化方法的步骤。

与现有技术相比,本发明具有以下有益效果:

本发明广告投放模型统计类特征离散化方法,通过获取统计类特征的ctr值,基于该ctr值进行排序,将所有广告投放历史数据样本中的统计类特征分为连续的若干组,得到连续的若干个初始离散特征;然后通过预设的权重确定模型,来确定各初始离散特征的模型权重,并遍历各初始离散特征,当当前初始离散特征的模型权重<前一个初始离散特征的模型权重时,将当前初始离散特征与前一个初始离散特征合并,使得离散化以后的统计类特征的历史ctr值低的话,那么其对应的模型权重也就低,保证离线统计的ctr值能够跟最终的模型权重趋势一致,不受个别区间波动的影响,保证历史的表现和预测的表现一致。

采用通过该方式离散化的统计类特征进行广告投放模型的训练,能够有效提高广告投放模型的准确性和鲁棒性。

附图说明

图1为本发明的广告投放模型统计类特征离散化方法流程图;

图2为本发明的广告投放历史数据样本分段示意图;

图3为本发明的相邻两初始离散特征的模型权重第一种情况示意图;

图4为本发明的相邻两初始离散特征的模型权重第二种情况示意图;

图5为本发明的相邻两初始离散特征的模型权重第三种情况示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面结合附图对本发明做进一步详细描述:

参见图1,本发明一实施例中,提供广告投放模型统计类特征离散化方法,能够通过合理的分段方式,合理的将统计类特征离散化,主要思想是:某个特征在训练数据上统计的ctr值高,那么该特征的权重相应也高。

具体的,该广告投放模型统计类特征离散化方法包括以下步骤。

s1:获取若干广告投放历史数据样本,获取各广告投放历史数据样本中的统计类特征的ctr值。

其中,获取广告投放历史数据样本,一般是获取一段时间内的广告投放历史数据样本,比如2021年1月1日到2021年1月14日的广告投放历史数据样本。

其中,广告投放历史数据样本形如:广告相关特征[feature1,feature2,feature3..]+上下文[feature1,feature2,feature3...]+用户[feature1,feature2,feature3...]+是否点击。其中,广告相关特征、上下文以及用户用均包含广告投放模型训练用的维度特征,任意特征维度*时间周期的组合都可以是统计类特征,例如:广告id[维度特征]最近3天[时间周期]的点击率。

其中,获取各广告投放历史数据样本中的统计类特征的ctr值具体方法为:

获取各广告投放历史数据样本中统计类特征的维度特征的特征值,得到若干维度特征的特征值;遍历各维度特征的特征值,由下式得到各维度特征的特征值的ctr值:

维度特征的特征值的ctr值=m/n

其中,m表示统计类特征的时间周期内的所有广告投放历史数据样本中,包含当前维度特征的特征值且标记为点击的广告投放历史数据样本条数;n表示统计类特征的时间周期内的所有广告投放历史数据样本中,包含当前维度特征的特征值的广告投放历史数据样本条数。

将各广告投放历史数据样本中维度特征的特征值的ctr值,作为各广告投放历史数据样本的统计类特征的ctr值。

具体的,获取若干广告投放历史数据样本作为训练集,训练集是多天的广告投放历史数据样本,每一天的广告投放历史数据样本中,每一个统计类特征的值都是根据当天往前推若干天的统计。例如:2021年1月5号这一天的广告投放历史数据样本,统计类特征:广告id最近3天的ctr值,就需要统计2021年1月2号到2021年1月4号这个广告id总的曝光量和点击量来计算ctr值,ctr值就是点击量与曝光量的比值。其他天的广告投放历史数据样本以此类推。

s2:按照统计类特征的ctr值从小到大的顺序,将所有广告投放历史数据样本中的统计类特征分为连续的n组,得到连续的n个初始离散特征。

其中,优选的,参见图2,其中,纵坐标数量表示广告投放历史数据样本数量,横坐标ctr表示统计类特征的ctr值将所有广告投放历史数据样本中的统计类特征分为连续的n组时,将所有广告投放历史数据样本中的统计类特征,按照等频分组的方式分为连续的n组。并且,本实施例中,将所有广告投放历史数据样本中的统计类特征分为连续的10组。

比如:广告id最近3天的ctr值,每一个广告投放历史数据样本应该都有这个特征,按照这个特征的值对训练集的广告投放历史数据样本进行排序,假设一共有10万的广告投放历史数据样本,分10个段,那么划分点就是第1万个广告投放历史数据样本的广告id最近3天的ctr值,第2万个广告投放历史数据样本的广告id最近3天的ctr值,……,第10万个广告投放历史数据样本的广告id最近3天的ctr值。这样就能获得这个广告id最近3天的ctr值的划段方式了,feature1:[0,广告投放历史数据样本的广告id最近3天的ctr值),feature2:[第1万个广告投放历史数据样本的广告id最近3天的ctr值,第2万个广告投放历史数据样本的广告id最近3天的ctr值),……,feature10:[第9万个广告投放历史数据样本的广告id最近3天的ctr值,第10万个广告投放历史数据样本的广告id最近3天的ctr值]。

s3:将各初始离散特征分别输入预设的权重确定模型,得到各初始离散特征的模型权重。

其中,权重确定模型为经过历史广告投放历史数据样本训练的逻辑回归模型。将各初始离散特征分别输入预设的权重确定模型的具体方法为:将各初始离散特征进行one-hot编码,将编码后的各初始离散特征分别输入预设的权重确定模型。

其中,one-hot编码,又称为一位有效编码,是机器学习常用的编码方式,主要是采用n位状态寄存器来对n个状态进行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有效。one-hot编码具有以下优点:解决了分类器不好处理属性数据的问题;在一定程度上也起到了扩充特征的作用(稀疏性);它的值只有0和1,不同的类型存储在垂直的空间。

具体的,逻辑回归模型是点击率预估中最常用的模型,其实就是一个:是否点击[y]=特征向量[x]*权重向量[w],特征向量就是初始离散特征one-hot编码后的各初始离散特征,权重向量是需要求的量,是否点击是已知的,以经过历史广告投放历史数据样本,通过不断迭代优化并修改逻辑回归模型的参数,让[x]*[w]的值越来越接近[y],以确定最终的逻辑回归模型的参数。比如:通过上述方式,得到各初始离散特征的模型权重feature1_weight,feature2_weight,……,feature10_weight。

最后线上实时预测的时候,抽取特征向量[x],然后乘以权重向量[w],就得到了这次展示用户点击的概率。

s4:遍历各初始离散特征,当当前初始离散特征的模型权重<前一个初始离散特征的模型权重时,将当前初始离散特征与前一个初始离散特征合并。

具体的,参见图3,其中,纵坐标权重表示初始离散特征的模型权重,横坐标ctr表示统计类特征的ctr值,f_i表示前一个初始离散特征,f_i+1表示当前初始离散特征,遍历各初始离散特征,从后往前进行模型权重的比较,当当前初始离散特征的模型权重<前一个初始离散特征的模型权重时,即featurei+1_weight<featurei_weight时,将那么后面的分组和合并到前面的分组,即将当前初始离散特征与前一个初始离散特征合并。

s5:重复s3~s4,至遍历各初始离散特征后,任一初始离散特征的模型权重均≥前一个初始离散特征的模型权重,得到最终的离散特征。

具体的,当进行一次s4之后,按照新的分组方式,即更新后的各初始离散特征分别输入逻辑回归模型,得到各初始离散特征的模型权重再次进行比较,直至对于所有的初始离散特征,任意两个相邻的初始离散特征的模型权重在比较时,参见图4和5,其中,纵坐标权重表示初始离散特征的模型权重,横坐标ctr表示统计类特征的ctr值,f_i表示前一个初始离散特征,f_i+1表示当前初始离散特征,总是当前初始离散特征的模型权重≥前一个初始离散特征的模型权重时,保证离散化以后的a特征的历史ctr比b特征的历史ctr低,那么a的权重就比b的低。至此,得到了最终的分组结果,即完成了统计类特征的离散化,得到了最终的离散特征。

综上,本发明广告投放模型统计类特征离散化方法,通过获取统计类特征的ctr值,基于该ctr值进行排序,将所有广告投放历史数据样本中的统计类特征分为连续的若干组,得到连续的若干个初始离散特征;然后通过预设的权重确定模型,来确定各初始离散特征的模型权重,并遍历各初始离散特征,当当前初始离散特征的模型权重<前一个初始离散特征的模型权重时,将当前初始离散特征与前一个初始离散特征合并,使得离散化以后的统计类特征的历史ctr值低的话,那么其对应的模型权重也就低,保证离线统计的ctr值能够跟最终的模型权重趋势一致,不受个别区间波动的影响,保证历史的表现和预测的表现一致。采用通过该方式离散化的统计类特征进行广告投放模型的训练,能够有效提高广告投放模型的准确性和鲁棒性。

下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节,请参照本发明方法实施例。

本发明再一实施例中,提供了一种广告投放模型统计类特征离散化系统,能够用于实现上述的广告投放模型统计类特征离散化方法,具体的,该广告投放模型统计类特征离散化系统包括获取模块、初始离散特征确定模块、权重确定模块、初始离散特征更新模块以及迭代模块。

其中,获取模块用于获取若干广告投放历史数据样本,获取各广告投放历史数据样本的统计类特征的ctr值;初始离散特征确定模块用于按照统计类特征的ctr值从小到大的顺序,将所有广告投放历史数据样本中的统计类特征分为连续的n组,得到连续的n个初始离散特征;权重确定模块用于将各初始离散特征分别输入预设的权重确定模型,得到各初始离散特征的模型权重;初始离散特征更新模块用于遍历各初始离散特征,当当前初始离散特征的模型权重<前一个初始离散特征的模型权重时,将当前初始离散特征与前一个初始离散特征合并;迭代模块用于迭代触发权重确定模块和初始离散特征更新模块,至遍历各初始离散特征后,任一初始离散特征的模型权重均>前一个初始离散特征的模型权重,得到最终的离散特征。

本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor、dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于广告投放模型统计类特征离散化方法的操作。

本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关广告投放模型统计类特征离散化方法的相应步骤。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1