基于多维特征组合逻辑回归的广告点击率预测方法
【专利摘要】本发明公开了一种基于多维特征组合逻辑回归的广告点击率预测方法,包括步骤:S1、从已获取的点击率数据中分别提取用户层次、媒体层次和广告层次的层次结构的特征信息;S2、对户层次、媒体层次和广告层次的层次结构的特征信息进行多维组合,将特征信息中的一维特征信息进行三三组合得到三维特征组合,构成由三维特征信息组合的特征向量,以表示用户聚类;S3、重复S2,得到由三维特征信息组合的特征向量的学习集;S4、将S3中得到学习集进行训练和测试逻辑回归模型,用以预测广告点击率。
【专利说明】基于多维特征组合逻辑回归的广告点击率预测方法
【技术领域】
[0001]本发明涉及数据处理【技术领域】,特别涉及一种基于多维特征组合逻辑回归的广告点击率预测方法。
【背景技术】
[0002]计算广告是在目前需求环境下兴起的一个分支学科,是根据给定用户和网页内容通过计算得到与之最匹配的广告并进行精准定向投放的一种广告投放机制。互联网计算广告产业链中包含三类基本角色:广告主(Advertiser)、广告媒体(Publisher)、用户(User)。其中广告主希望通过向有效用户投放合适的广告来提高用户购买商品或是网站注册等行为的可能性,从而获取最优的宣传效果;用户希望看到有用的广告信息而不是骚扰信息;发布者则可通过发布广告获取应有的版面利润,因此在三方利益交互过程中,广告点击率(Click Through Rate, CTR)是三方获取利益的重要核心和平衡点,是精准投放广告、最大化广告主、用户利益的重要环节。
[0003]逻辑回归(Logistic Regression)模型是用于预测二进制分类结果的分类模型,被广泛应用在诸多领域,适用于响应变量是二分类(0/1)变量的情况,其目标是对响应变量取二值之一的概率建模,而不是直接预测其取值。逻辑回归模型能够很好地描述0/1概率问题,因此可以用于广告点击率模型。所谓点击率模型是用来量化点击事件的数据指标,点击率模型的建立包括不同的用户、广告以及网页特征信息,而这些特征信息正是造成广告点击率差异的原因,通过已有的信息数据训练出逻辑回归模型参数,去预估广告CTR。
[0004]逻辑回归模型因其能够拟合广告点击发生事件常被应用到广告点击率预测中,预测结果受到多方面因素的影响,然而传统的一维特征向量模型训练得出的预测模型有效性不佳,通过预测模型计算得到的广告点击率不可靠。
【发明内容】
[0005]本发明针对现有技术存在的上述不足,提供了一种基于多维特征组合逻辑回归的广告点击率预测方法,本发明通过以下技术方案实现:
[0006]一种基于多维特征组合逻辑回归的广告点击率预测方法,包括步骤:
[0007]S1、从已获取的点击率数据中分别提取用户层次、媒体层次和广告层次的层次结构的特征信息;
[0008]S2、对户层次、媒体层次和广告层次的层次结构的特征信息进行多维组合,将特征信息中的一维特征信息进行三三组合得到三维特征组合,构成包括三维特征信息组合的特征向量,以表示用户聚类;
[0009]S3、重复S2,得到包括三维特征信息组合的特征向量的学习集;
[0010]S4、将S3中得到学习集进行训练和测试逻辑回归模型,用以预测广告点击率。
[0011]较佳的,步骤S4中将学习集中的80%用以训练逻辑回归模型,20%用以测试逻辑回归模型。[0012]较佳的,步骤S4中逻辑回归模型为:
[0013]
【权利要求】
1.一种基于多维特征组合逻辑回归的广告点击率预测方法,其特征在于,包括步骤: 51、从已获取的点击率数据中分别提取用户层次、媒体层次和广告层次的层次结构的特征信息; 52、对户层次、媒体层次和广告层次的层次结构的特征信息进行多维组合,将特征信息中的一维特征信息进行三三组合得到三维特征组合,构成包括三维特征信息组合的特征向量,以表示用户聚类; 53、重复S2,得到包括三维特征信息组合的特征向量的学习集; 54、将S3中得到学习集进行训练和测试逻辑回归模型,用以预测广告点击率。
2.根据权利要求1所述的基于多维特征组合逻辑回归的广告点击率预测方法,其特征在于,步骤S4中将学习集中的80%用以训练逻辑回归模型,20%用以测试逻辑回归模型。
3.根据权利要求1所述的基于多维特征组合逻辑回归的广告点击率预测方法,其特征在于,步骤S4中所述逻辑回归模型为:
4.根据权利要求1所述的基于多维特征组合逻辑回归的广告点击率预测方法,其特征在于,步骤S3中还包括:对每一包括三维特征信息组合的特征向量赋予一 ID,学习集内的对每一包括三维特征信息组合的特征向量的ID连续。
【文档编号】G06Q10/04GK103996088SQ201410256385
【公开日】2014年8月20日 申请日期:2014年6月10日 优先权日:2014年6月10日
【发明者】伊雯雯 申请人:苏州工业职业技术学院