基于快消行业用户触达的OCPX自适应学习方法和系统与流程

文档序号:24643140发布日期:2021-04-13 14:06阅读:106来源:国知局
基于快消行业用户触达的OCPX自适应学习方法和系统与流程
基于快消行业用户触达的ocpx自适应学习方法和系统
技术领域
1.本申请涉及广告投放决策技术领域,特别是涉及基于快消行业用户触达的ocpx自适应学习方法和系统。


背景技术:

2.当前的互联网环境下,客户主通过广告服务商,通过保价保量和优先购买采买网络广告时,无法直接与客户主的直接转化指标进行挂钩,无法有效对采买与广告效果进行衡量,也无法根据实际的转化业务指标进行智能优化采买流量,导致预算浪费,相应的广告受众也会被无用的广告侵扰,造成供需双方的矛盾。导致这样情况的原因包括:供应方存在因无效广告重复投放、无法有效知道受众的真实接触情况导致预算大量浪费的情况;需求方存在被推送无意义信息和信息存在转译灯情况。
3.相关技术中,一般采用,基于广告主自有数据建立自适应学习模型进行实时流量评分选取所需流量进行广告投放,例如:手机应用厂商在三个不同平台投放广告,投放目标为新用户下载,首先手机应用厂商在现有软件中嵌入广告服务方数据据采集代码,积累30天转化数据或2000条转化数据;然后,广告服务方开始基于自有数据进行模型学习调优;最后,进行广告投放。或直接基于点击等方式进行广告优化。现有技术存在缺点如下,在自有的app中需要插入每家的数据采集代码,时间周期长,操作复杂;存在数据泄露不可控等问题。在当前数据安全的要求下,数据的转译存在合规性的问题。广告投放的优化周期时间长。优化过程不由广告主自有控制。目标数据的积累沉淀不在广告主方。
4.目前针对相关技术中无法直接确认点击与做后转化的直接联系影响投放效果的问题,尚未提出有效的解决方案。


技术实现要素:

5.本申请实施例提供了一种基于快消行业用户触达的ocpx自适应学习方法和系统,以至少解决相关技术中无法直接确认点击与做后转化的直接联系影响投放效果的问题。实现基于投放目标效果的快速迭代优化,持续提高广告的效果。
6.第一方面,本申请实施例提供了一种基于快消行业用户触达的ocpx自适应学习,包括以下步骤:
7.数据提取步骤,一算法平台基于行为监测数据日志对广告投放数据和转化数据进行提取;
8.特征提取步骤,根据所述广告投放数据,从所述转化数据中选择相应的样本,并根据所述样本进行特征提取;
9.模型训练步骤,基于所述特征,根据极限梯度提升树原理训练一二分类模型;
10.结果上传步骤,根据所述二分类模型依次对用户包进行打分,根据评分结果选取所述用户包中一部分用户作为预测结果并上传至一前置机;
11.结果查询步骤,广告服务方通过所述前置机完成对所述预测结果的查询及相应操
作。
12.在其中一些实施例中,所述模型训练步骤具体包括以下步骤:
13.特征系数获得步骤,根据优化目标模型获得对应特征的特征系数;
14.模型打分步骤,根据所述正样本和所述负样本的各特征与特征系数进行模型打分,具体为:
[0015][0016]
其中,h=∑特征*特征系数。
[0017]
其中一些实施例中,所述优化目标模型表示为:
[0018]
l=|y
预测

y
真实
|
[0019][0020]
其中,h=∑特征*特征系数,当l最小时,选择此时的特征系数为最终的特征系数值,所述特征系统与正负样本数的比例相关。
[0021]
在其中一些实施例中,所述结果查询步骤具体包括:
[0022]
一广告服务商通过所述前置机查询所述预测结果,判断该次流量请求的订单序号是否存在,若存在则进行投放。
[0023]
在其中一些实施例中,所述特征提取步骤具体包括:
[0024]
数据清洗步骤,对所述广告投放数据和所述转化数据中的异常数据进行过滤;
[0025]
样本获取步骤,根据广告投放目的的不同,根据所述广告投放数据,从所述转化数据中选择相应的正样本,并从剩余所述转化数据中随机选取负样本;
[0026]
特征值统计步骤,对所述正样本和所述负样本的特征值进行统计,所述特征值包括静态特征值和行为特征值。
[0027]
在其中一些实施例中,所述模型训练步骤和所述结果上传步骤之间还包括模型评估步骤,具体包括以下步骤:
[0028]
样本集获得步骤,将待测样本与所述特征进行匹配,得到正样本集和负样本集;
[0029]
训练集获得步骤,从所述正样本集和所述负样本集中随机抽取20%作为测试集,其余作为训练集;
[0030]
模型训练步骤,通过所述训练集训练所述二分类模型;
[0031]
评估分数获得步骤,通过所述测试集验证所述二分类模型,并得到相关评估分数。
[0032]
在其中一些实施例中,所述相关评估分数包括准确率accuracy、精确率precison、召回率recall、roc曲线和auc,其中:
[0033]
accuracy=ncorrect*ntotal;
[0034]
precison=ncorrect/njuge;
[0035]
recall=ncorrect/rtotal;
[0036]
roc曲线的横坐标设置为假阳性率fpr,纵坐标设置为真阳性率tpr,其中:
[0037]
fpr=fp*n;
[0038]
tpr=njuge*rtotal;
[0039]
其中,ncorrect为被正确分类的样本个数,ntotal为总样本的个数,njuge代表分
类器判定为正样本的样本个数,rtotal代表真正的正样本数,n代表真正的负样本数,fp代表负样本中分类器判定为正样本的个数。
[0040]
第二方面,本申请实施例提供了一种基于快消行业用户触达的ocpx自适应学习系统,应用上述第一方面所述的基于快消行业用户触达的ocpx自适应学习方法,包括:
[0041]
数据提取模块,一算法平台基于行为监测数据日志对广告投放数据和转化数据进行提取;
[0042]
特征提取模块,根据所述广告投放数据,从所述转化数据中选择相应的样本,并根据所述样本进行特征提取;
[0043]
模型训练模块,基于所述特征,根据极限梯度提升树原理训练一二分类模型;
[0044]
结果上传模块,根据所述二分类模型依次对用户包进行打分,根据评分结果选取所述用户包中一部分用户作为预测结果并上传至一前置机;
[0045]
结果查询模块,广告服务方通过所述前置机完成对所述预测结果的查询及相应操作。
[0046]
在其中一些实施例中,所述模型训练模块具体包括:
[0047]
特征系数获得单元,根据优化目标模型获得对应特征的特征系数,所述优化目标模型表示为:
[0048]
l=|y
预测

y
真实
|
[0049]
其中:当l最小时,选择此时的特征系数为最终的特征系数值,所述特征系统与正负样本数的比例相关;
[0050]
模型打分单元,根据所述正样本和所述负样本的各特征与特征系数进行模型打分,具体为:
[0051][0052]
其中,h=∑特征*特征系数。
[0053]
在其中一些实施例中,所述结果查询模块包括:
[0054]
一广告服务商通过所述前置机查询所述预测结果,判断该次流量请求的订单序号是否存在,若存在则进行投放。
[0055]
相比于相关技术,本申请实施例提供的一种基于快消行业用户触达的ocpx自适应学习方法及系统。通过建立自有算法流程:从自有数据的提取,到训练,推送至前置机供广告查询进行数据查询的流程闭环所形成的自适应状态。优化投放效果和用户体验,更具实际业务目标进行有优化,最终效果直接指导广告投放流量的选择;用户可以被自己所需的,感兴趣的广告被触达。
[0056]
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0057]
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
[0078]
保价保量是指在广告投放前,根据广告主的投放需求,按照固定的cpm价格、固定的资源位、固定的预定量在媒体进行下单,在广告投放过程中,当用户在访问媒体产生曝光机会时,广告服务方根据广告主的预定量将广告请求发给单个需求方,需求方根据n倍推送约定的规则有选择的挑选和回退流量,且无需进行竞价。
[0079]
优选购买是指在广告投放前,根据广告主的投放需求,按照固定的cpm价格和固定的资源位在媒体进行下单,在广告投放过程中,当用户在访问媒体产生曝光机会时,广告服务方将广告请求发给单个需求方,需求方可以按照自己的意愿挑选流量,且无需进行竞价。
[0080]
数据载入是将算法中需要使用的行为监测日志进行收集储存。
[0081]
数据清洗是对算法所需要的数据经行一定清洗,将不合规及异常数据经行清洗过滤,保留合规的数据。
[0082]
特征工程是特征选择与特征提取的工作总称。其中,特征选择是设计算法需要使用的特征;特征提取包括静态特征,对于原始采集的行为监测数据日志的原始字段经行收集,操作系统类型是否一致。静态特征值包括如下:广告id、活动id、人口属性信息、消费属性信息等标签信息。
[0083]
模型训练:通过使用极限梯度提升树训练二分类模型,使用训练样本(正负样本)与相应特征进行模型训练。
[0084]
行为监测日志:通过采集手段对设备号的浏览行为进行计入,需要包含以下字段设备号,互联网协议地址,浏览器信息,设备信息,时间戳。
[0085]
广告投放:可以通过再不同app中投放广告收集相应:手机设备号,互联网协议地址,浏览器信息,设备信息,时间戳。
[0086]
ocpx即泛指传统的那些按不同方式进行结算的模式。
[0087]
本实施例还提供了一种基于快消行业用户触达的ocpx自适应学习方法。图1是根据本申请实施例的基于快消行业用户触达的ocpx自适应学习方法的流程图,如图1所示,该流程包括如下步骤:
[0088]
数据提取步骤s1,一算法平台基于行为监测数据日志对广告投放数据和转化数据进行提取;
[0089]
特征提取步骤s2,根据广告投放数据,从转化数据中选择相应的样本,并根据样本进行特征提取;
[0090]
模型训练步骤s3,基于特征,根据极限梯度提升树原理训练一二分类模型;
[0091]
结果上传步骤s4,根据二分类模型依次对用户包进行打分,根据评分结果选取用户包中一部分用户作为预测结果并上传至一前置机;
[0092]
结果查询步骤s5,广告服务方通过前置机完成对预测结果的查询及相应操作。
[0093]
通过上述步骤,建立自有算法流程:从自有数据的提取,到训练,推送至前置机供广告查询进行数据查询的流程闭环所形成的自适应状态。实现基于投放目标效果的快速迭代优化,持续提高广告的效率。
[0094]
该方法优化投放效果:更具实际业务目标进行有优化,最终效果直接指导广告投放流量的选择;优化用户体验:用户可以被自己所需的,感兴趣的广告被触达。
[0095]
本方法还具有以下有益效果:节约成本,可以选择有转化意义的目标,则可以更有效的控制投放成本,节约资源。提高收益,在推荐方面拥有了准确的预测信息,更好的总结用户的触达,交流情况,为其提供所需的内容。扩展接触渠道,有了预测关系后可以对需求地方进行有效接触。
[0096]
图2是根据本申请实施例的特征获取步骤的流程图,如图2所示,在其中一些实施例中,特征提取步骤s2具体包括:
[0097]
数据清洗步骤s21,对广告投放数据和转化数据中的异常数据进行过滤;
[0098]
样本获取步骤s22,根据广告投放目的的不同,根据广告投放数据,从转化数据中选择相应的正样本,并从剩余转化数据中随机选取负样本;
[0099]
特征值统计步骤s23,对正样本和负样本的特征值进行统计,特征值包括静态特征值和行为特征值。
[0100]
图3是根据本申请实施例的模型评估步骤的流程图,如图3所示,在其中一些实施例中,模型训练步骤s3和结果预测步骤s4之间还包括模型评估步骤s6,具体包括以下步骤:
[0101]
样本集获得步骤s61,将待测样本与特征进行匹配,得到正样本集和负样本集;
[0102]
训练集获得步骤s62,从正样本集和负样本集中随机抽取20%作为测试集,其余作为训练集;
[0103]
模型训练步骤s63,通过训练集训练二分类模型;
[0104]
评估分数获得步骤s64,通过测试集验证二分类模型,并得到相关评估分数。
[0105]
在其中一些实施例中,相关评估分数包括准确率accuracy、精确率precison、召回率recall、roc曲线和auc,其中:
[0106]
accuracy=ncorrect*ntotal;
[0107]
precison=ncorrect/njuge;
[0108]
recall=ncorrect/rtotal;
[0109]
roc曲线的横坐标设置为假阳性率fpr,纵坐标设置为真阳性率tpr,其中:
[0110]
fpr=fp*n;
[0111]
tpr=njuge*rtotal;
[0112]
其中,ncorrect为被正确分类的样本个数,ntotal为总样本的个数,njuge代表分类器判定为正样本的样本个数,rtotal代表真正的正样本数,n代表真正的负样本数,fp代表负样本中分类器判定为正样本的个数。
[0113]
图4是根据本申请实施例的模型训练步骤的流程图,如图4所示,在其中一些实施例中,模型训练步骤s3具体包括以下步骤:
[0114]
特征系数获得步骤s31,根据优化目标模型获得对应特征的特征系数;
[0115]
模型打分步骤s32,根据正样本和负样本的各特征与特征系数进行模型打分,具体为:
[0116][0117]
其中,h=∑特征*特征系数。
[0118]
在其中一些实施例中,优化目标模型表示为:
[0119]
l=|y
预测

y
真实
|
[0120][0121]
其中,h=∑特征*特征系数,当l最小时,选择此时的特征系数为最终的特征系数值,特征系统与正负样本数的比例相关。
[0122]
在其中一些实施例中,结果查询步骤s5具体包括:
[0123]
一广告服务商通过前置机查询预测结果,判断该次流量请求的订单序号是否存在,若存在则进行投放。
[0124]
下面通过优选实施例对本申请实施例进行描述和说明。快消客户需要在三个不同的平台进行广告投放,投放目标为咖啡新品投放
[0125]
图5是根据本申请优选实施例的基于快消行业用户触达的ocpx自适应学习方法的整体流程图,如图5所示,预测模型在db3中自动更新,预测人群包按期更新在前置机中,更新周期为设定的固定周期,具体包括:
[0126]
s501,采集会员转化数据和广告投放数据至算法平台;
[0127]
s502,算法平台输出预测人群包,并根据周期进行更新;
[0128]
s503,根据预测人群包生成订单id并上传至前置机;
[0129]
s504,广告服务方对前置机进行实时查询,并检测t+1周期的投放数据和转化数据。
[0130]
图6是根据本申请优选实施例的基于快消行业用户触达的ocpx自适应学习方法的流程图。
[0131]
s600,数据采集
[0132]
算法平台采集会员转换数据和广告投放数据
[0133]
s601,数据清洗
[0134]
数据清洗具体包括异常互联网协议地址过滤和异常设备号过滤,其中:异常互联网协议地址过滤具体可以设置为:当1日内曝光量大于200,或1日内小程序行为大1000判定为异常互联网协议地址;异常设备号过滤具体设置为:当1日内曝光量大于200,或1日内点击量大于50判定为异常设备号。
[0135]
此步骤的目的是将已有行为监测日志中的异常数据经行过滤,避免影响模型质量。
[0136]
s602,特征工程
[0137]
特征工程包括特征选择和特征提取,其中:
[0138]
特征选择为设计算法需要使用的特征;
[0139]
特征提取包括:对于原始采集的行为监测数据日志的原始字段进行静态特征收集。其中,静态特征包括:活动信息,广告点位信息,手机型号,年龄,兴趣,所属行业,产品信息等。上述静态特征是根据已有采集信息进行选取
[0140]
根据进行现有数据进行统计性的统计行为特征值。其中,行为特征值包括:单位时间内转化次数,单位时间内出现次数,单位时间内互动次数,出现时间等。
[0141]
针对特征提取获得会员转换数据,例如:
[0142]
10001:男,18,fs21
[0143]
10002:女,28,1221
[0144]
10003:男,18,ji21
[0145]
s503,样本生成
[0146]
根据广告投放目的,生成正样本、负样本和待预测样本,其中,正样本,根据广告投放目的不同,选择会员转化数据中选择相应的样本数据;负样本,将正样本数据与特征相匹配,未匹配上的中间选择与正样本体量高10%的数量。待预测样本,不是正样本,也不是负样本,却在特征值池中的设备id。
[0147]
将会员转换数据生成正样本、负样本和待遇测样本,例如:三个月咖啡购买人员:
[0148]
10001
[0149]
例如:
[0150]
10001:男,18,fs21
[0151]
10002:女,28,1221
[0152]
10003:男,18,ji21
[0153]
正样本:
[0154]
10001:男,18,fs21
[0155]
负样本:
[0156]
10002:女,28,1221
[0157]
待预测样本:
[0158]
10003:男,18,ji21
[0159]
所采集的数据模板如下表参考,但本发明并不以此为限制。
[0160][0161]
s604,模型训练
[0162]
使用极限梯度提升树原理进行通过训练二分类模型,图7是本申请优选实施例中
模型训练过程的示意图,如图7所示,通过模型训练计算特征系数,输入各个特征,计算各个特征对应的特征系数,
[0163][0164]
h=∑x*特征*w,
[0165]
其中,x代表是否含有某一个特征,当为1代表含有该特征,当为0代表不含有该特征;w为权重,即,特征系数,可为正也可为负,为正代表正样本所持特征,为负代表负样本所持特征。
[0166]
通过机器学习定义一个目标函数l,使得目标函数最优时得到的特征系数即为最终的特征系数,目标函数l:l=|y
预测

y
真实
|,算法模型的目的是使上述函数最终为0。
[0167]
实现上述函数最终为0的方式是:通过调整特征权重(特征系数)使得l一步一步接近于0(梯度下降)
[0168]
比如:id2020特征:

腾讯视频’,相应的特征系数为w,y值为1(表示正样本)
[0169]
图8为本申请优选实施例中腾讯视频的特征系数的求解过程的梯度变化示意图,如图8所示,
[0170]
初始状态:
[0171]
set w=0,l=|0.5

1|=0.5
[0172]
set w=0.2
[0173]
...
[0174]
set w=1.34,l=|0.99

1|=0.01≈0
[0175]
即,腾讯视频的特征系数为1.34。
[0176]
s605,模型评估
[0177]
用户提供正样本后系统会经行数据分类。
[0178]
step1:正样本进行与特征库进行匹配,得到正样本集与负样本集。
[0179]
正样本为种子与特征表匹配上的数据。
[0180]
负样本为种子与特征表未匹配上的数据,且数量为正样本的10倍。
[0181]
step2:进行训练集与测试集区分。正样本和负样本随机抽取20%作为测试集,剩下为训练集
[0182]
step3:通过训练集训练模型
[0183]
step4:通过测试集验证训练模型,得到相关模型评估分数,相关模型评估分数包括准确率accuracy、精确率precison、召回率recall、roc曲线和auc,以下对上述相关模型评述分数进行说明。
[0184]
准确率是指分类正确的样本占总样个数的比例:
[0185]
accuracy=ncorrect*ntotal;
[0186]
precison=ncorrect/njuge;
[0187]
其中,ncorrect为被正确分类的样本个数,ntotal为总样本的个数。
[0188]
准确率的局限性:准确率是分类问题中最简单也是最直观的评价指标,但存在明
显的缺陷,当不同总类的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。比如:当负样本占99%,分类器把所有样本都预测为负样本也可以得到99%的准确率,换句话说总体准确率高,并不代表类别比例小的准确率高
[0189]
精确率是指正确分类的正样本个数占分类器判定为正样本的样本个数的比例。
[0190]
召回率是指正确分类的正样本个数占真正的正样本数的比例。
[0191]
precison值和recall值是既矛盾又统一的两个指标,为了提高precison值,分类器需要尽量在

更有把握’时才把样本预测为正样本,但此时往往会因为过于保守而漏掉很多

没有把握’的正样本,导致recall值降低
[0192]
在排序问题中,通常没有一个确定的阈值把得到的结果直接判定为正样本或负样本,而是采用topn返回结果的precision值和recall值来衡量排序模型的性能,即认为模型返回的topn的结果就是模型判定的正样本,然后计算n个位置上的precision和前n个位置上的recall
[0193]
roc曲线:二值分类器是机器学习领域中最常见也是应用最广泛的分类器。评价二值分类器的指标很多,比如precision,recall,f1 score,p

r曲线等,但发现这些指标或多或少只能反映模型在某一方面的性能,相比而言,roc曲线则有很多优点,经常作为评估二值分类器最重要的指标之一。
[0194]
roc曲线是receiver operating characteristic curve的简称,中文名为'受试者工作特征曲线'。roc曲线的横坐标为假阳性率(fpr),纵坐标为真阳性率(tpr),fpr和tpr的计算方法分别为:
[0195]
fpr=fp*n;
[0196]
tpr=njuge*rtotal;
[0197]
其中,njuge代表分类器判定为正样本的样本个数,rtotal代表真正的正样本数,n代表真正的负样本数,fp代表负样本中分类器判定为正样本的个数。
[0198]
图9为本申请优选实施例中roc曲线的示意图,如图9所示,auc指roc曲线下的面积大小,该值能够量化地反映基于roc曲线衡量出的模型性能,auc越大说明分类器越可能把真正的正样本排在前面,分类性能越好。
[0199]
roc曲线相比p

r曲线,当正负样本的分布发生变化时,roc曲线的形状能够保存基本不变,而p

r曲线的形状一般会发生激烈的变化,这个特点让roc曲线能够尽量降低不同测试集带来的干扰,更加客观地衡量模型本身的性能
[0200]
例:模型离线验证结果:auc=0.793阈值=0.8时精确率=0.90
[0201]
auc>0.5进入下一环节
[0202]
s606,结果计算
[0203]
基于上述模型进行打分计算,例如,图10是对本申请优选实施例中id1适应的模型的示意图,下表为通过模型学习得到的各特征及其权重等打分所需数据。
[0204][0205][0206]
根据上表计算id1的得分,
[0207]
h=1*1.922+1*0.872+0*0.012+1*0.056+0*0+0*(

1.341)+0*0+0*(

0.034)=3.78
[0208][0209]
所以,id1的最终打分为0.978。
[0210]
需要说明的是,所述权重与正负样本比例有关,打分受到权重的影响,当正负样本比例变化时,标签权重随之变化,打分亦随之变化,比如样本正负比例为1:1时,id1的打分为0.978,当样本正负比例为1:10时,id1的打分可能会变成0.913。
[0211]
s607,将结果数据上传至前置机
[0212]
将每次预测结果数据自动上传至前置机。对结果数据进行脱敏,上传至云服务器,为每个人群包生成相应的订单序号。
[0213]
s608,广告投放方向前置机进行查询
[0214]
云服务器暴露接口给广告服务方。在每次流量请求是否投放时,携带订单序号请求云服务器。云服务去会判断是否存在,存在返回是,不存在返回否。广告服务方会将返回是的进行投放。
[0215]
图11是本申请优选实施例中广告服务商的查询过程示意图,如图11所示,广告服务商通过ip防火墙和负载均衡服务,向前置机发送http广告请求,查询模型预测的推送id包。
[0216]
s609,循环
[0217]
不断的循环s601

s608积累一定时间的数据不断的经行模型训练。
[0218]
以上为一个实际实例。图12是本申请的实际实例的流程示意图,如图12所示,
[0219]
s1001,根据正样本和负样本进行特征构建
[0220]
对种子选手/正样本,某场景近期有交易人群,eg:咖啡招新/大神卡活动,负样本,全体网民中提出正样本后随机抽样,进行特征构建,得到用户广告行为和nequal全网标签;
[0221]
s1002,训练模型,
[0222]
模型从样本中学到相应的模式,找到有影响的用户行为/兴趣标签;
[0223]
s1003,对全网用户打分,
[0224]
取分数最高的一部分id作为人群包进行投放。
[0225]
需要说明的是,打分受正负样本比例和模型参数影响,最后投放的参照的是打分顺序。
[0226]
本申请实施例主要采用的是lookalike算法思想,lookalike算法是根据客户提供应用场景以及种子选手,通过机器学习模型,意在对种子用户进行模型识别,找出背后的关联性群体的过程。
[0227]
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0228]
本实施例还提供了一种基于快消行业用户触达的ocpx自适应学习系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
[0229]
图13是根据本申请实施例的一种基于快消行业用户触达的ocpx自适应学习系统的结构框图,如图13所示,该系统包括:
[0230]
数据提取模块1,一算法平台基于行为监测数据日志对广告投放数据和转化数据进行提取;
[0231]
特征提取模块2,根据所述广告投放数据,从所述转化数据中选择相应的样本,并根据所述样本进行特征提取;
[0232]
模型训练模块3,基于所述特征,根据极限梯度提升树原理训练一二分类模型;
[0233]
结果上传模块4,根据所述二分类模型依次对用户包进行打分,根据评分结果选取所述用户包中一部分用户作为预测结果并上传至一前置机;
[0234]
结果查询模块5,广告服务方通过所述前置机完成对所述预测结果的查询及相应操作。
[0235]
在其中一些实施例中,所述模型训练模块3具体包括:
[0236]
特征系数获得单元31,根据优化目标模型获得对应特征的特征系数,所述优化目标模型表示为:
[0237]
l=|y
预测

y
真实
|
[0238]
其中:当l最小时,选择此时的特征系数为最终的特征系数值,所述特
征系统与正负样本数的比例相关;
[0239]
模型打分单元32,根据所述正样本和所述负样本的各特征与特征系数进行模型打分,具体为:
[0240][0241]
其中,h=∑特征*特征系数。
[0242]
在其中一些实施例中,结果查询模块5包括:
[0243]
一广告服务商通过前置机查询预测结果,判断该次流量请求的订单序号是否存在,若存在则进行投放。
[0244]
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
[0245]
实施例二:
[0246]
本实施例在实施例一的基础上,可以在监测收集不一样的特征行为,来进行相似度行为的匹配。
[0247]
但本质上都是在不同设备端进行为监测日志的采集,寻找相关性的特征(具体特征内容可以更替)然后正对性的从候选集中,筛选目标id。
[0248]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0249]
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1