1.本申请公开涉及业务数据处理技术领域,特别涉及一种基于广告推送的数据特征优化方法及装置。
背景技术:2.在广告推送业务中,通常会采用广告推送模型进行相关推送处理。一般而言,所使用的广告推送模型为线性回归模型(linear regression,lr)。但是线性回归模型由于其自身的缺陷,在应用时的效果欠佳。为改善线性回归模型的应用效果以提高广告推送的准确性,减少无效广告推送造成的资源浪费,需要对广告业务数据进行特征优化。然而相关的特征优化技术仍然存在一些缺陷。
技术实现要素:3.为改善上述背景技术存在的技术问题,本公开提供了一种基于广告推送的数据特征优化方法及装置。
4.本申请提供了一种基于广告推送的数据特征优化方法,应用于计算机设备,所述方法包括:
5.获取待处理数据集;其中,所述待处理数据集为广告业务数据;
6.对所述待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果;
7.对所述最终分箱结果进行两两交叉,得到多个目标分箱特征;
8.对所述多个目标分箱特征进行独热编码,得到目标编码特征;其中,所述目标编码特征用于进行广告推送处理。
9.优选地,所述对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果,包括:
10.对所述多个特征值进行等频分箱,得到第一分箱结果;
11.对所述多个特征值进行卡方分箱,得到第二分箱结果;
12.对所述多个特征值进行best
‑
ks分箱,得到第三分箱结果;
13.对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果。
14.优选地,对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果,包括:
15.按照预设顺序对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到合并结果;
16.将所述合并结果中的最小交集作为每个所述连续数值型特征的最终分箱结果。
17.优选地,对所述最终分箱结果进行两两交叉,得到多个目标分箱特征,包括:
18.根据所述最终分箱结果中的多个分箱特征,得到由多个目标分箱特征组成的分箱
特征序列,其中,每个目标分箱特征包括多个取值;
19.将所述分箱特征序列中的各目标分箱特征进行两两组合,得到至少一个特征组合;
20.针对每个特征组合,将该特征组合中的其中一个目标分箱特征的多个取值分别与另一个目标分箱特征中的多个取值进行两两组合,得到与所述特征组合对应的多个目标组合数据。
21.优选地,对所述多个目标分箱特征进行独热编码,得到目标编码特征之后,还包括:
22.将所述目标编码特征输入到模型中。
23.本申请提供了一种基于广告推送的数据特征优化装置,应用于计算机设备,所述装置包括:
24.数据获取模块,用于获取待处理数据集;其中,所述待处理数据集为广告业务数据;
25.特征分箱模块,用于对所述待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果;
26.结果交叉模块,用于对所述最终分箱结果进行两两交叉,得到多个目标分箱特征;
27.独热编码模块,用于对所述多个目标分箱特征进行独热编码,得到目标编码特征;其中,所述目标编码特征用于进行广告推送处理。
28.优选地,所述特征分箱模块,具体用于:
29.对所述多个特征值进行等频分箱,得到第一分箱结果;
30.对所述多个特征值进行卡方分箱,得到第二分箱结果;
31.对所述多个特征值进行best
‑
ks分箱,得到第三分箱结果;
32.对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果。
33.优选地,所述特征分箱模块,具体用于:
34.按照预设顺序对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到合并结果;
35.将所述合并结果中的最小交集作为每个所述连续数值型特征的最终分箱结果。
36.优选地,所述结果交叉模块,具体用于:
37.根据所述最终分箱结果中的多个分箱特征,得到由多个目标分箱特征组成的分箱特征序列,其中,每个目标分箱特征包括多个取值;
38.将所述分箱特征序列中的各目标分箱特征进行两两组合,得到至少一个特征组合;
39.针对每个特征组合,将该特征组合中的其中一个目标分箱特征的多个取值分别与另一个目标分箱特征中的多个取值进行两两组合,得到与所述特征组合对应的多个目标组合数据。
40.优选地,所述独热编码模块,具体用于:
41.将所述目标编码特征输入到模型中。
42.本申请公开的实施例提供的技术方案可以包括以下有益效果。
43.一种基于广告推送的数据特征优化方法及装置,根据待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对多个特征值进行分箱,得到每个连续数值型特征的最终分箱结果,对最终分箱结果进行两两交叉,得到多个目标分箱特征,对多个目标分箱特征进行独热编码,得到目标编码特征。通过对分箱结果进行数据特征优化处理的方式,能对线性强度不高的连续型特征做交叉生成新的特征,使得交叉后的特征更加地精确,从而对连续型特征进行降维的同时,能够在尽可能保留有用信息的前提下确保特征交集的最小化,避免在进行特征合并的过程中出现信息丢失,在应用到广告推送领域时,能够降低相关数据的复杂程度,并确保相关数据的特征识别度,当采用线性回归模型对上述数据特征进行处理时,能够确保线性回归模型的模型性能和效果,从而提高广告推送的准确性,减少无效广告推送造成的资源浪费。
44.应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
45.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
46.图1为本发明实施例所提供的一种基于广告推送的数据特征优化方法的流程图;
47.图2为本发明实施例所提供的一种基于广告推送的数据特征优化装置的功能模块框图。
具体实施方式
48.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
49.在上述基础上,请结合参阅图1,为本发明实施例所提供的基于广告推送的数据特征优化方法的流程示意图,进一步地,所述基于广告推送的数据特征优化的方法具体可以包括以下步骤s21
‑
步骤s24所描述的内容。
50.步骤s21,获取待处理数据集;其中,所述待处理数据集为广告业务数据。
51.示例性的,所述待处理数据集可以从广告领域、电商领域或其它领域中获得(例如:广告领域将一类广告投放给客户,获取的样本集上可以得知该广告是否被点击,没被点击为一类,被点击为一类。又比如电商领域某类商品销售给客户,单条样本记录了一个客户是否购买该商品,购买为正类,没购买为负类)。所述待处理数据集可以包括连续数值型特征和二分类标签的样本。
52.步骤s22,对所述待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果。
53.示例性的,所述特征值表示离散性系数,所述分箱包括等频分箱、卡方分箱、best
‑
ks分箱以及iv最小值分箱,其中,所述等频分箱是将连续值分到多个区间内,每个区间的样
本量相当,一般需要给定期望的分箱数,初始分箱后,将数值有重复的分箱合并,就得到了最终的分箱。所述卡方分箱是一个自下而上合并的分箱方法,当取值多的时候,初始会进行简单的等频分箱,然后将卡方值最小的两个分箱合并,重复循环,直到达到目标分箱数或者相邻分箱的最小卡方值超过一定阈值后截止。所述best
‑
ks分箱是对特征取值排序后,求取每一个点的ks值,首先选择最大的ks值对应的取值,然后用该取值将特征取值划分为两个区间,对左右区间重复前一操作,直到分箱内的样本数低于设定阈值,或出现全为单一类的样本箱,或按序的分箱类别比例保持单调增或者单调减的趋势被打破,则停止分箱。所述iv最小值分箱(iv的全称是information value),是用来衡量特征线性预测能力的指标,iv损失最小分箱同样是自下而上合并邻箱的方法,其策略是每次都选择一组邻箱,使得合并后该变量的iv取值更大。
54.进一步地,所述最终分箱结果表示三种分箱结果进行合并后取最小的交集区域作为最终分箱结果(例如:三种分箱方法依次将特征划分为5、5、4段,也就生成了取值数为5、5、4的新的特征,根据新特征对三种分箱结果取最小的交集的结果,根据三个分箱结果对应取值区域最小交集的样本,一共可以形成七个分段区域,将七个分段区域对应的特征分箱的结果,作为单个特征最终分箱的结果)。
55.举例而言,将连续值排序后,按照一定规则将数值分段,同一分段区间的所有值都归为同一个值。这样做一方面对数据进行了降维,另一方面避免了一些极端值或者数值波动使得模型效果不稳定。
56.步骤s23,对所述最终分箱结果进行两两交叉,得到多个目标分箱特征。
57.示例性的,所述两两交叉表示将最终分箱结果中的特征先两两交叉组合,然后再将最终分箱结果中的特征对应的特征取值两两交叉组合,比如:最终分箱结果中有n个特征,最终得到了n个新的分箱特征。然后对这n个特征进行两两交叉,将交叉的特征再次输入分箱与合并流程。比如:特征取值交叉方法如下,生成的新分箱特征为va、vb
……
vn,假设对va和vb这两个特征进行交叉,va对应的取值有x个唯一值,vb对应的取值有y个唯一值。然后对两个特征的取值进行两两组合,就可以得到一共x*y个组合方式。每一个组合对应一个新的交叉特征取值。对所有的原特征都与除开自己之外的其它特征进行交叉,一共有[nx(n
‑
1)]/2组交叉结果,即进一步新生成了[nx(n
‑
1)]/2个交叉特征,最终生成的新的交叉特征取值数量总共为∑n
‑
1i=1∑nj=i+1(xiyj)。
[0058]
进一步地,所有的交叉特征做进一步的分箱,这里只需要采用单一的分箱方式,等频、卡方、best
‑
ks分箱皆可,同样分箱后可以得到新的特征。这里分箱是为了进行特征取值的降维。
[0059]
步骤s24,对所述多个目标分箱特征进行独热编码,得到目标编码特征;其中,所述目标编码特征用于进行广告推送处理。
[0060]
示例性的,所述独热编码是将一个特征的z个取值作为z种状态储存的编码方式,比如一个性别字段的所有取值区间是男、女,那么一种性别是一个状态,当符合该状态时,该状态位取值是1,否则取值是0。例如男性取值状态是“1
‑
0”,女性取值状态是“0
‑
1”。从而将单个特征扩充成两个特征,“男”对应一个特征,取值0、1依次表示不为男、为男,“女”对应一个特征,取值0、1依次表示不为女、为女。通过独热编码处理后也会大大降低特征的维度,减少样本量,减轻计算机内存压力,提高计算机建模速度。
[0061]
可以理解的,在执行上述步骤s21
‑
步骤s24所描述的内容时,根据待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对多个特征值进行分箱,得到每个连续数值型特征的最终分箱结果,对最终分箱结果进行两两交叉,得到多个目标分箱特征,对多个目标分箱特征进行独热编码,得到目标编码特征。通过对分箱结果进行数据特征优化处理的方式,这样能对线性强度不高的连续型特征做交叉生成新的特征,使得交叉后的特征更加地精确,从而对连续型特征进行降维的同时,能够在尽可能保留有用信息的前提下确保特征交集的最小化,避免在进行特征合并的过程中出现信息丢失,在应用到广告推送领域时,能够降低相关数据的复杂程度,并确保相关数据的特征识别度,当采用线性回归模型对上述数据特征进行处理时,能够确保线性回归模型的模型性能和效果,从而提高广告推送的准确性,减少无效广告推送造成的资源浪费。
[0062]
在一种可替换的实施例中,发明人发现,在对所述多个特征值进行分箱时,存在分箱混乱的问题,从而难以准确地得到每个所述连续数值型特征的最终分箱结果,为了避免上述技术问题,在步骤s22所描述的对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果的步骤,还可以包括以下步骤s221
‑
步骤s224所描述的内容。
[0063]
步骤s221,对所述多个特征值进行等频分箱,得到第一分箱结果。
[0064]
步骤s222,对所述多个特征值进行卡方分箱,得到第二分箱结果。
[0065]
步骤s223,对所述多个特征值进行best
‑
ks分箱,得到第三分箱结果。
[0066]
步骤s224,对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果。
[0067]
可以理解的,在执行上述步骤s221
‑
步骤s224所描述的内容时,在对所述多个特征值进行分箱时,避免分箱混乱的问题,从而能够准确地得到每个所述连续数值型特征的最终分箱结果。
[0068]
在一种可替换的实施例中,发明人发现,在对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并时,存在合并混乱的技术问题,从而难以精确地得到每个所述连续数值型特征的最终分箱结果,为了改善上述技术问题,步骤s224所描述的,对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果的步骤,具体可以包括以下步骤a1和步骤a2所描述的内容。
[0069]
步骤a1,按照预设顺序对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到合并结果。
[0070]
步骤a2,将所述合并结果中的最小交集作为每个所述连续数值型特征的最终分箱结果。
[0071]
可以理解的,在执行上述步骤a1和步骤a2所描述的内容时,在对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并时,避免合并混乱的技术问题,从而能够精确地得到每个所述连续数值型特征的最终分箱结果。
[0072]
在一种可替换的实施例中,发明人发现,在对所述最终分箱结果进行两两交叉时,存在交叉混乱的技术问题,从而难以精确地得到多个目标分箱特征,为了改善上述技术问题,步骤s23所描述的对所述最终分箱结果进行两两交叉,得到多个目标分箱特征的步骤,具体可以包括以下步骤s231
‑
步骤s233所描述的内容。
[0073]
步骤s231,根据所述最终分箱结果中的多个分箱特征,得到由多个目标分箱特征
组成的分箱特征序列,其中,每个目标分箱特征包括多个取值。
[0074]
步骤s232,将所述分箱特征序列中的各目标分箱特征进行两两组合,得到至少一个特征组合。
[0075]
步骤s233,针对每个特征组合,将该特征组合中的其中一个目标分箱特征的多个取值分别与另一个目标分箱特征中的多个取值进行两两组合,得到与所述特征组合对应的多个目标组合数据。
[0076]
可以理解的,在执行上述步骤s231
‑
步骤s233所描述的内容时,对所述最终分箱结果进行两两交叉时,避免交叉混乱的技术问题,从而能够精确地得到多个目标分箱特征。
[0077]
基于上述基础,对所述多个目标分箱特征进行独热编码,得到目标编码特征之后,还包括。
[0078]
将所述目标编码特征输入到模型中。
[0079]
基于上述同样的发明构思,请结合参阅图2,还提供了基于广告推送的数据特征优化装置20的功能模块框图,关于所述基于广告推送的数据特征优化装置20的详细描述如下。
[0080]
一种基于广告推送的数据特征优化装置20,应用于计算机设备,所述装置20包括:
[0081]
数据获取模块21,用于获取待处理数据集;其中,所述待处理数据集为广告业务数据;
[0082]
特征分箱模块22,用于对所述待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对所述多个特征值进行分箱,得到每个所述连续数值型特征的最终分箱结果;
[0083]
结果交叉模块23,用于对所述最终分箱结果进行两两交叉,得到多个目标分箱特征;
[0084]
独热编码模块24,用于对所述多个目标分箱特征进行独热编码,得到目标编码特征;其中,所述目标编码特征用于进行广告推送处理。
[0085]
进一步地,所述特征分箱模块22,具体用于:
[0086]
对所述多个特征值进行等频分箱,得到第一分箱结果;
[0087]
对所述多个特征值进行卡方分箱,得到第二分箱结果;
[0088]
对所述多个特征值进行best
‑
ks分箱,得到第三分箱结果;
[0089]
对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到每个所述连续数值型特征的最终分箱结果。
[0090]
进一步地,所述特征分箱模块22,具体用于:
[0091]
按照预设顺序对所述第一分箱结果、所述第二分箱结果以及所述第三分箱结果进行合并,得到合并结果;
[0092]
将所述合并结果中的最小交集作为每个所述连续数值型特征的最终分箱结果。
[0093]
进一步地,所述结果交叉模块23,具体用于:
[0094]
根据所述最终分箱结果中的多个分箱特征,得到由多个目标分箱特征组成的分箱特征序列,其中,每个目标分箱特征包括多个取值;
[0095]
将所述分箱特征序列中的各目标分箱特征进行两两组合,得到至少一个特征组合;
[0096]
针对每个特征组合,将该特征组合中的其中一个目标分箱特征的多个取值分别与另一个目标分箱特征中的多个取值进行两两组合,得到与所述特征组合对应的多个目标组合数据。
[0097]
进一步地,所述独热编码模块24,具体用于:
[0098]
将所述目标编码特征输入到模型中。
[0099]
综上,本发明实施例提供的一种基于广告推送的数据特征优化方法及装置,根据待处理数据集中的连续数值型特征进行特征值提取,得到多个特征值,对多个特征值进行分箱,得到每个连续数值型特征的最终分箱结果,对最终分箱结果进行两两交叉,得到多个目标分箱特征,对多个目标分箱特征进行独热编码,得到目标编码特征。通过对分箱结果进行数据特征优化处理的方式,这样能对线性强度不高的连续型特征做交叉生成新的特征,使得交叉后的特征更加地精确,从而对连续型特征进行降维的同时,能够在尽可能保留有用信息的前提下确保特征交集的最小化,避免在进行特征合并的过程中出现信息丢失,在应用到广告推送领域时,能够降低相关数据的复杂程度,并确保相关数据的特征识别度,当采用线性回归模型对上述数据特征进行处理时,能够确保线性回归模型的模型性能和效果,从而提高广告推送的准确性,减少无效广告推送造成的资源浪费。
[0100]
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。