本发明涉及互联网领域,尤其涉及预测呈现信息转化率的方法、计算设备、服务器及系统。
背景技术:
随着互联网技术的快速发展,信息提供者通常在例如手机或平板等各种终端中呈现供用户选择的信息。
为了提高所呈现信息的准确性,信息在被呈现之前,通常需要被预估点击率(CTR,每个信息的展现所产生的点击数)。信息管理系统可以根据预估的点击率对信息呈现的安排。
目前,现有的点击率预估方式通常为根据用户特征和信息特征进行点击率的预测。不过,现有的点击率预估方式通常需要大量的实时计算,并且预测效果有待提高。
因此,本发明提出了一种新的预测呈现信息转化率的技术方案。
技术实现要素:
本发明提供一种新的预测呈现信息转化率的技术方案,有效的解决了上面至少一个问题。
根据本发明的一个方面,提供一种预测呈现信息转化率的方法,适于在服务器中执行。其中呈现信息在用户终端处呈现,以便由用户点击该信息并随后执行预定操作,从而完成信息的转化。该方法包括下述步骤。获取包含多条点击事件记录的第一集合和包含多条转化事件记录的第二集合。其中,每条点击事件记录包括已呈现信息由用户点击的点击事件、以及该点击事件在多个预定维度上的属性值。每条转化事件记录包括已呈现信息由用户点击并随后执行预定操作的转化事件、以及该转化事件在这多个预定维度上的属性值。对多个预定维度进行组合以生成多个预定类别,针对多个预定类别中的每个类别,统计第一集合中满足每个类别的记录的总数以作为该类别的点击总数,并统计第二集合中满足每个类别的记录的总数以作为该类别的转化总数,并计算每个类别的点击总数与相应的转化总数的比值以作为该类别的转化率。选择多个预定类别的至少一部分类别,为所选择的每个类别确定样本数据。样本数据包括对应的转化总数、对应的转化率和对应的多个预定维度的属性值。利用该至少一部分类别的样本数据训练基于GBDT算法的预测模型,以获取经过训练的模型。
可选地,在根据本发明的预测呈现信息转化率的方法中,已呈现信息包括下述在用户终端处呈现的信息中任一种:电商平台的链接信息、移动应用的下载链接信息和视频的链接信息。预定操作包括下述中任一种:用户在该电商平台的购买操作、用户激活该移动应用的操作和用户观看该视频的操作。
可选地,在根据本发明的预测呈现信息转化率的方法中,多个预定维度包括:呈现日期的类型、呈现时间区间、应用类型、地域类型和呈现信息的渠道。
可选地,在根据本发明的预测呈现信息转化率的方法中,获取包含多条点击事件记录的第一集合和包含多条转化事件记录的第二集合的步骤包括下述子步骤。获取多条关于点击事件的第一监测信息和多条关于转化事件的第二监测信息。从每条第一监测信息的中提取对应所述多个预定维度的数据并确定每个预定维度的属性值,并在对应点击事件记录中包含所述多个预定维度的属性值。从每条第二监测信息中提取对应所述多个预定维度的数据并确定每个预定维度的属性值,并在对应转化事件记录中包括多个预定维度的属性值。
可选地,在根据本发明的预测呈现信息转化率的方法中,对多个预定维度进行组合以生成多个预定类别的步骤包括下述子步骤。确定该多个预定维度中每个的取值范围。基于每个预定维度的取值范围,组合在多个预定维度上取值,并将每个取值组合作为所述预定类别中一个。
可选地,在根据本发明的预测呈现信息转化率的方法中,为至少一部分类别中的每个类别确定样本数据的步骤包括下述子步骤。根据预定筛选规则,筛选满足该规则的预定类别。根据所筛选的每个类别对应的点击总数、对应的转化总数、对应的转化率和在多个预定维度上的属性值,来确定该类别对应的样本数据。
可选地,在根据本发明的预测呈现信息转化率的方法中,预定筛选规则包括点击总数大于第一阈值,以及转化率大于第二阈值且小于第三阈值。第一阈值例如为20000,第二阈值例如为0.001,第三阈值例如为0.5。
可选地,在根据本发明的预测呈现信息转化率的方法中,利用该至少一部分类别的样本数据训练基于GBDT算法的预测模型,以获取经过训练的模型的步骤包括下述子步骤。基于独热编码方式,将该至少一部分类别的每个样本数据转化为相应的特征向量。利用所转化的特征向量的集合训练基于GBDT算法的预测模型。
可选地,在根据本发明的预测呈现信息转化率的方法中,利用所转化的特征向量的集合训练基于GBDT算法的预测模型的步骤包括下述子步骤。将该特征向量的集合分成训练子集和测试子集。利用训练子集和测试子集并基于k-折交叉验证方式训练预测模型。
可选地,根据本发明的预测呈现信息转化率的方法还包括下述步骤。获取要呈现信息在所述多个预定维度的属性值。基于所获取的多个预定维度的属性值,利用经过训练的模型预测所要呈现信息的转化率。
可选地,根据本发明的预测呈现信息转化率的方法还包括下述步骤。根据下述方式计算针对要呈现信息的评价指标:
cost=budget-bid-price*conver/cvr
其中,budget为所要呈现信息的预算值、conver表示转化阈值、bid-price为集合竞价的指标值,cost为该评价指标。
根据本发明又一个方面,提供一种预测呈现信息转化率的计算设备,适于驻留在服务器中。其中呈现信息在用户终端处呈现,以便由用户点击该信息并随后执行预定操作,从而完成信息的转化。该装置包括记录获取单元、转化率计算单元、样本生成单元和模型训练引擎。
记录获取单元适于获取包含多条点击事件记录的第一集合和包含多条转化事件记录的第二集合。其中,每条点击事件记录包括已呈现信息由用户点击的点击事件、以及该点击事件在多个预定维度上的属性值。每条转化事件记录包括已呈现信息由用户点击并随后执行预定操作的转化事件、以及该转化事件在这多个预定维度上的属性值。
转化率计算单元适于对所述多个预定维度进行组合以生成多个预定类别。
针对所述多个预定类别中的每个类别,转化率计算单元适于统计第一集合中满足每个类别的记录的总数以作为该类别的点击总数,并统计第二集合中满足每个类别的记录的总数以作为该类别的转化总数,并计算每个类别的点击总数与相应的转化总数的比值以作为该类别的转化率。
样本生成单元适于选择所述多个预定类别的至少一部分类别,为所选择的每个类别确定样本数据。样本数据包括对应的转化总数、对应的转化率和对应的多个预定维度的属性值。
模型训练引擎适于利用该至少一部分类别的样本数据训练基于GBDT算法的预测模型,以获取经过训练的模型。
根据本发明又一个方面,提供一种预测呈现信息转化率的系统,包括:至少一个监测点击事件和转化事件的终端,以及根据本发明的预测呈现信息转化率的计算设备。
根据本发明又一个方面,提供一种服务器,包括至少一个处理器,和包含有计算机程序指令的至少一个存储器。该至少一个存储器和计算机程序指令被配置为与至少一个处理器一起使得服务器执行根据本发明的预测呈现信息转化率的方法。
综上,根据本发明的预测转化率的技术方案,可以从已呈现信息的监测信息中获取关于点击事件记录和转化事件记录。这里,点击和转化事件记录可以有相同的特征维度。在此基础上,本发明的技术方案可以从宏观角度统计已呈现信息的呈现效果(即转化率)。这里,本发明的技术方案统计呈现效果的过程中,可以将点击事件记录和转化事件记录进行关联,并获取到每种预定类别(类别是根据特征维度确定的属性值确定的)的转化率。进而,本发明的技术方案可以应用所统计的转化率数据进行模型训练。本发明的技术方案通过应用GBDT算法,可以防止模型训练的过拟合,以获取高预测准确率的模型。特别是,本发明的技术方案不同于传统的CTR预测方式(通常需要很高维度的特征数据,例如为上千万维至上亿维),而是从宏观角度统计特征以生成低维度的训练样本,从而可以显著减少训练计算量。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一些实施例的预测呈现信息转化率的系统100的示意图;
图2示出了根据本发明一些实施例的预测呈现信息转化率的方法200的流程图;
图3示出了根据本发明一些实施例的预测呈现信息转化率的方法300的示意图;
图4示出了根据本发明一些实施例的预测呈现信息转化率的计算设备400的示意图;以及
图5示出了根据本发明一些实施例的预测呈现信息转化率的计算设备500的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一些实施例的预测所要呈现信息的转化率的系统100的示意图。如图1所示,系统100可以包括多个终端110和预测呈现信息转化率的服务器120。
这里,终端110可以被配置为诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者为包括上面任何功能的混合设备等,本发明对此不做限制。终端110可以向用户呈现信息。从数据格式角度而言,所呈现的信息例如可以是图片、视频、语音、文字或者上述的任何组合等。从内容角度而言,所呈现的信息例如可以是电商平台的链接信息、移动应用的下载链接信息或者视频的链接信息等。终端110中所呈现信息的来源可以按照渠道来划分。例如,渠道可以是新浪微博APP、爱奇艺APP、360浏览器或者应用商店APP等,本发明对此不做限制。另外,终端110可以被配置为包括监测点击事件和转化事件的应用(未示出)。监测点击事件和转化事件的应用可以监测用户对该计算设备中所呈现信息的操作(例如点击等),从而获取关于呈现信息的点击事件和转化事件的监测信息。取决于所呈现信息的类型,“点击事件”和“转化事件”可以有相应的具体内容。在一个实施例中,呈现信息为电商平台的链接信息。相应地,点击事件是用户打开该链接信息并跳转到相应界面的事件。转化事件是用户在该电商平台完成账号注册或者进行下单操作的事件。在又一个实施例中,呈现信息为移动应用的下载链接信息。相应地,点击事件为点击该下载链接信息并进入下载界面的事件。转化事件是用户在所下载的移动应用中完成账号注册等激活操作。另外说明的是,监测点击事件和转化事件的应用可以是集成在应用中的组件或者独立的监测应用,本发明对此不做限制。例如,监测点击和转化事件的应用为浏览器中一个SDK工具包。另外,本发明的终端110还可以通过其他公知的方式对所呈现信息进行监测,以获取关于点击事件和转化事件的监测信息。
服务器120可以被配置为独立的服务器节点,也可以被配置为分布式设备,本发明对此不做限制。服务器120可以从多个终端110获取对所呈现信息的监测信息。监测信息中可以包括关于点击事件的信息和关于转化事件的信息。在此基础上,服务器120可以根据监测信息执行预测所要呈现信息的转化率的方法。下面结合图2对预测所要呈现信息的转化率的方法进行示例性说明。
图2示出了根据本发明一些实施例的预测呈现信息转化率的方法200的流程图。方法200适于在服务器(120)中执行,但不限于此。其中,呈现信息在用户终端处呈现,以便由用户点击该信息并随后执行预定操作,从而完成信息的转化。
如图2所示,方法200始于步骤S210。在步骤S210中,获取包含多条点击事件记录的第一集合和包含多条转化事件记录的第二集合。
其中,每条点击事件记录包括已呈现信息由用户点击的点击事件、以及该点击事件在多个预定维度上的属性值,每条转化事件记录包括已呈现信息由用户点击并随后执行预定操作的转化事件、以及该转化事件在这多个预定维度上的属性值。这里,已呈现信息例如可以是电商平台的链接信息、移动应用的下载链接信息或者视频的链接信息等。在一个实施例中,已呈现信息为电商平台的链接信息。相应地,预定操作为用户在该电商平台的购买操作(例如下订单或者支付操作等)。在又一个实施例中,已呈现信息为移动应用的下载链接信息。相应地,预定操作为用户激活该移动应用的操作(例如在所下载应用中注册账号的操作或者支付下载费用的操作等)。在又一个实施例中,已呈现信息为视频的链接信息。相应地,预定操作为用户观看该视频的操作。应当理解,本发明的已呈现信息并不限于上述所示实施例,还可以是公知的各种形式和内容,而这些都应属于本发明的保护范围。预定操作也可以是对应各种已呈现信息的相应操作。
在根据本发明一个实施例中,步骤S210的多个预定维度例如可以包括呈现日期的类型、呈现时间区间、应用类型、地域类型和呈现信息的渠道,但不限于此。这里,呈现日期的类型可以划分为工作日和周末。呈现时间区间例如可以按照1小时为单位进行划分,或者还可以按照是否上班时间划分,本发明对此不做过多限制。应用类型例如可以划分为电商类、游戏类以及其他类别。地域类型例如可以划分为一线城市、二线城市和三线城市等。渠道可以按照展示平台划分,例如爱奇艺、新浪微博或微信等。这里,每个预定维度的取值可以称为其一个属性值。点击事件记录和转化事件记录均可以包含这多个预定维度的属性值。
在根据本发明一个实施例中,步骤S210可以直接从多个终端(110)获取多条点击事件记录和转化事件记录。换言之,终端可以对已呈现信息的监测信息进行预处理,以便向执行方法200的服务器提供点击和转化事件记录。
在根据本发明一个实施例中,步骤S210首先获取多条关于点击事件的第一监测信息和多条关于转化事件的第二监测信息。这里,第一和第二监测信息可以是终端(110)所记录的监测日志。
第一监测信息的数据格式例如为:
{"deviceType":"","keywordid":"","campaignId":90845,"ip":"110.184.139.214","matchKey":"90845:110.184.139.214","batchid":"68d038d47f5c4343952fbb472bac70ce","params":"{}","creativeid":"","osVersion":"","eventTime":1454172456870,"ipLimit":0,"uvKey":"671f568a-2f7d-4324-b063-ada20ca2f533_90845","appkey":"9e978852359940c28e7c050fa6ece321","clickType":2}
第二监测信息的数据格式例如为:
{"deviceType":"iPad 2 3G","needCallback":false,"keywordid":"","clickIp":"","campaignId":0,"deltaTime":0,"idfa":"6422B427-B5BD-4B13-8301-FCA4F2353718","ip":"222.35.76.51","clickTime":0,"installBatchId":"3bd2857921cd4693a03af29ba85c6cea","creativeid":"","mac":"","adid":"","activeType":1,"osVersion":"8.1.3","clickBatchId":"","eventTime":1454170571322,"appkey":"881387057d9e43c0b420deeaa4a4af6c","antiType":0,"tdid":"ha81a652f9d84b76df42cbe7e08e36b9c","androidid":""}
在获取到第一和第二监测信息的基础上,步骤S210可以从其中提取多个预定维度的对应数据,进而确定每个维度的属性值。结合上述的第一监测信息的数据示例,步骤S210可以从其中提取campaignId、ip、eventTime和appkey字段。这样,步骤S210可以根据campaignId字段确定渠道的属性值。根据eventTime确定呈现日期的类型和呈现时间区间这两个维度的属性值。根据appkey字段可以确定应用类型。根据ip地址可以确定地域类型。类似地,步骤S210可以从上述第二监测信息的数据示例中提取campaignId、ip、eventTime、和appkey字段,进而确定多个预定维度的属性值,这里不再赘述。在上述基础上,步骤S210可以在与每条第一监测信息对应的点击事件记录中包含这多个预定维度的属性值。另外,步骤S210可以在与每条第二监测信息对应的转化事件记录中包含这多个预定维度的属性值。
对于步骤S210中所确定的点击事件记录的第一集合和转化事件记录的第二集合,方法200可以执行步骤S220。在步骤S220中,对多个预定维度进行组合以生成多个预定类别。然后针对多个预定类别中的每个类别,统计第一集合中满足每个类别的记录的总数以作为该类别的点击总数,并统计第二集合中满足每个类别的记录的总数以作为该类别的转化总数,并计算每个类别的点击总数与相应的转化总数的比值以作为该类别的转化率。这里,预定类别的类别总数取决于预定维度的数量和每个预定维度的取值范围。为了更形象说明,这里假设多个预定维度为3个特征维度,每个预定维度包括4个离散的属性值。这里,每个离散值可以代表一个区间或者一个特征类型。对于本假设而言,预定类别的上限为12个。当然预定类别可以只是这12个类别中的一部分。在根据本发明一个实施例中,步骤S220首先确定多个预定维度中每个的取值范围(属性值范围)。换言之,每个预定维度的属性值范围是可以调节的。例如,呈现日期的类型可以划分为工作日和休息日,也可以按照星期一、二、...日来划分为7个类型。另外,每个预定维度的取值范围可以是可选取值中的一部分。例如,呈现时间区间的取值可以是对白天(例如早上6点到晚上6点)的划分,而不包括夜晚的时间。在确定多个预定维度中每个的取值范围后,步骤S220可以组合多个预定维度上的取值,然后将每个取值组合作为预定类别中一个。
在确定每个被统计的预定类别的点击总数和转化总数后,步骤S220计算每个类别的点击总数与相应的转化总数的比值以作为该类别的转化率。
随后,方法200可以执行步骤S230。在步骤S230中,选择多个预定类别的至少一部分类别,为所选择的每个类别确定样本数据。样本数据包括对应的转化总数、对应的转化率和对应的多个预定维度的属性值。这里,方法200可以在步骤S230中将每个预定类别的数据(点击总数、转化总数、转化率和属性值)生成为一条样本数据。方法200还可以在步骤S230中只选择一部分预定类别并生成相应的样本数据。根据本发明一个实施例,在步骤S230中,根据预定筛选规则,筛选满足规则的预定类别。在此基础上,根据所筛选的每个类别对应的点击总数、对应的转化总数、对应的转化率和在多个预定维度上的属性值,来确定这个类别对应的样本数据。这里,预定筛选规则例如包括点击总数大于第一阈值,以及转化率大于第二阈值且小于第三阈值。其中,第一阈值例如为20000,第二阈值例如为0.001,第三阈值例如为0.5。这样,步骤S230通过筛选预定类别,可以排除偶然性因素的影响,从而使得所生成的样本数据满足大数定律。根据本发明一个实施例,步骤S230所生成的样本数据展示在表格中的示例如下:
基于步骤S230获取到的样本数据,方法200可以执行步骤S240。在步骤S240中,利用样本数据训练基于GBDT算法的预测模型,以获取经过训练的模型。需要说明的是,步骤S240可以选用多种基于GBDT(Gradient Boosting Decision Tree,梯度迭代决策树)算法的多种公知的回归模型和损失函数进行训练。关于GBDT算法可以参考以下公开资料:
http://www.cnblogs.com/leftnoteasy/archive/2011/03/07/random-forest-and-gbdt.html
http://blog.csdn.net/w28971023/article/details/43704775。
基于GBDT算法,在步骤S240中,训练方式可以被配置为多种具体方式。根据本发明一个实施例,步骤S240可以基于独热编码(One-Hot Encoding)方式,将每个样本数据转化为相应的特征向量。对于每个预定维度的属性值,可以转化为相应的稀疏矩阵。例如,日期类型为{“workday”,“weekend”}。如果某个样本的“日期类型”为“workday”,则其稀疏表示为[1,0]。反之,如果“日期类型”为“weekend”,则稀疏表示为[0,1]。其他预定维度的稀疏矩阵可以依次类推。在此基础上,特征向量为多个预定维度对应的稀疏矩阵的组合。这样,步骤S240可以基于每个样本数据的特征向量进行模型训练。需要说明的是,步骤S240也可以应用其他公知的编码方式生成相应特征向量。另外,生成特征向量的操作除了在步骤S240中实施以外,还可以被布置在上述步骤S230中实施,这里不再赘述。
根据本发明一个实施例,在步骤S240中训练模型时,可以将特征向量的集合分成训练子集和测试子集。例如,训练子集和测试子集的数量比例为7:3,但不限于此。在此基础上,步骤S240可以采用k-折交叉验证方式训练预测模型。例如,步骤S240可以选择5折交叉验证方式。交叉验证方式可以参考以下资料:
http://blog.csdn.net/chenbang110/article/details/7604975
另外,模型训练中的损失函数可以选择绝对误差函数。这里,绝对误差函数在处理异常特征向量时有较好的鲁棒性。
综上,根据本发明的方法200,可以从已呈现信息的监测信息中获取关于点击事件记录和转化事件记录。这里,点击和转化事件记录可以有相同的特征维度。在此基础上,方法200可以从宏观角度统计已呈现信息的呈现效果。这里,方法200统计呈现效果的过程中,可以将点击事件记录和转化事件记录进行关联,并获取到每种预定类别(类别是根据特征维度确定的属性值确定的)的转化率。进而,方法200可以应用统计的转化率数据进行模型训练。这里,方法200通过应用GBDT算法,可以防止模型训练的过拟合,以获取高预测准确率的模型。特别是,方法200不同于传统的CTR预测方式(通常需要很高维度的特征数据,例如为上千万维至上亿维),从宏观角度统计特征以生成低维度的训练样本,进而可以显著减少训练计算量。
图3示出了根据本发明一些实施例的预测呈现信息转化率的方法300的示意图。如图3所示,方法300包括步骤S310至S340。这里,步骤S310至S340的实施方式与步骤S210至S240一致,这里不再赘述。另外,方法300还包括步骤S350和S360。在步骤S350中,获取要呈现信息在多个预定维度的属性值。这里,确定属性值实际上是确定信息的呈现方案。在此基础上,方法300执行步骤S360,利用经过训练的模型预测要呈现信息的转化率。
另外,方法300还可以执行步骤S370。在步骤S370中,根据下述方式计算对要呈现信息的评价指标:
cost=budget-bid-price*conver/cvr
其中,budget为所要呈现信息的预算值、conver表示转化阈值、bid-price为集合竞价的指标值,cost为该评价指标。这样,方法300可以根据步骤S370计算得到的评价指标优化呈现信息的策略。
图4示出了根据本发明一些实施例的预测呈现信息转化率的计算设备400的示意图。计算设备400适于驻留在服务器(120)中,但不限于此。
如图4所示,计算设备400包括记录获取单元410、转化率计算单元420、样本生成单元430和模型训练引擎440。
记录获取单元410适于获取包含多条点击事件记录的第一集合和包含多条转化事件记录的第二集合。其中,其中,每条点击事件记录包括已呈现信息由用户点击的点击事件、以及该点击事件在多个预定维度上的属性值。每条转化事件记录包括已呈现信息由用户点击并随后执行预定操作的转化事件、以及该转化事件在这多个预定维度上的属性值。这里,已呈现信息包括下述中任一种:电商平台的链接信息、移动应用的下载链接信息和视频的链接信息。预定操作包括下述中任一种:用户在该电商平台的购买操作、用户激活该移动应用的操作和用户观看该视频的操作。在一个实施例中,多个预定维度包括:呈现日期的类型、呈现时间区间、应用类型、地域类型和呈现信息的渠道。在根据本发明一个实施例中,记录获取单元410更具体的实施方式如下。首先,记录获取单元410获取多条关于点击事件的第一监测信息和多条关于转化事件的第二监测信息。然后,记录获取单元410从每条第一监测信息中提取对应多个预定维度的数据并确定每个预定维度的属性值,并在对应的点击事件记录中包含这多个预定维度的属性值。另外,记录获取单元410从每条第二监测信息中提取对应多个预定维度的数据并确定每个预定维度的属性值,并在对应的转化事件记录中包含这多个预定维度的属性值。
转化率计算单元420适于对多个预定维度进行组合以生成多个预定类别。针对多个预定类别中的每个类别,转化率计算单元420统计第一集合中满足每个类别的记录的总数以作为该类别的点击总数,并统计第二集合中满足每个类别的记录的总数以作为该类别的转化总数。在此基础上,转化率计算单元420计算每个类别的点击总数与相应的转化总数的比值以作为该类别的转化率。在根据本发明一个实施例中,转化率计算单元420可以在执行统计之前确定预定类别。转化率计算单元420首先确定该多个预定维度中每个的取值范围。基于每个预定维度的取值范围,转化率计算单元420组合在多个预定维度上取值,并将每个取值组合作为预定类别中一个。在统计每个类别的点击总数和转化总数后,转化率计算单元420计算每个类别的点击总数与相应的转化总数的比值以作为该类别的转化率。
样本生成单元430适于选择多个预定类别的至少一部分类别,为所选择的每个类别确定样本数据。样本数据包括对应的转化总数、对应的转化率和对应的多个预定维度的属性值。在一个实施例中,样本生成单元430可以根据预定筛选规则,筛选满足该规则的预定类别。然后,样本生成单元430根据所筛选的每个类别对应的点击总数、对应的转化总数、对应的转化率和在多个预定维度上的属性值,来确定这个类别对应的样本数据。这里,预定筛选规则例如可以包括点击总数大于第一阈值,以及转化率大于第二阈值且小于第三阈值。第一阈值例如为20000,第二阈值例如为0.001,第三阈值例如为0.5,但不限于此。
模型训练引擎440适于利用样本数据训练基于GBDT算法的预测模型,以获取经过训练的模型。在一个实施例中,模型训练引擎440基于独热编码方式,将每个样本数据转化为相应的特征向量。然后,模型训练引擎440利用所转化的特征向量的集合训练所述基于GBDT算法的预测模型。具体地,模型训练引擎440可以将该特征向量的集合分成训练子集和测试子集。在此基础上,模型训练引擎440利用训练子集和测试子集并基于k-折交叉验证方式训练预测模型。应用400更具体的实施方式与上述方法200的实施方式一致,这里不再赘述。
图5示出了根据本发明一些实施例的预测呈现信息转化率的计算设备500的示意图。
如图5所示,计算设备500包括记录获取单元510、转化率计算单元520、样本生成单元530、模型训练引擎540、预测单元550和指标计算单元560。
这里,记录获取单元510、转化率计算单元520、样本生成单元530和模型训练引擎540分别与上文中记录获取单元410、转化率计算单元420、样本生成单元430和模型训练引擎440实施方式一致,这里不再赘述。
预测单元550可以获取要呈现信息在多个预定维度的属性值。基于所获取的多个预定维度的属性值,预测单元550利用经过训练的模型预测要呈现信息的转化率。
指标计算单元560适于根据下述方式计算对要呈现信息的评价指标:
cost=budget-bid-price*conver/cvr
其中,budget为所要呈现信息的预算值、conver表示转化阈值、bid-price为集合竞价的指标值,cost为该评价指标。计算设备500更具体的实施方式与方法300一致,这里不再赘述。
A8、如A7所述的方法,其中,所述第一阈值为20000,第二阈值为0.001,第三阈值为0.5。A9、如A1-8中任一项所述的方法,其中,所述利用该至少一部分类别的样本数据训练基于GBDT算法的预测模型,以获取经过训练的模型的步骤包括:基于独热编码方式,将该至少一部分类别的每个样本数据转化为相应的特征向量;利用所转化的特征向量的集合训练所述基于GBDT算法的预测模型。A10、如A9所述的方法,其中,所述利用所转化的特征向量的集合训练所述基于GBDT算法的预测模型的步骤包括:将该特征向量的集合分成训练子集和测试子集;利用训练子集和测试子集并基于k-折交叉验证方式训练预测模型。A11、如A1-A10中任一项所述的方法,还包括:获取要呈现信息在所述多个预定维度的属性值;基于所获取的多个预定维度的属性值,利用经过训练的模型预测要呈现信息的转化率。A12、如A11所述的方法,还包括:根据下述方式计算针对要呈现信息的评价指标:
cost=budget-bid-price*conver/cvr
其中,budget为所要呈现信息的预算值、conver表示转化阈值、bid-price为集合竞价的指标值,cost为该评价指标。
B14、如B13所述的计算设备,其中,所述已呈现信息包括下述在用户终端处呈现的信息中任一种:电商平台的链接信息、移动应用的下载链接信息和视频的链接信息;所述预定操作包括下述中任一种:用户在该电商平台的购买操作、用户激活该移动应用的操作和用户观看该视频的操作。B15、如B13或B14所述的计算设备,其中,所述多个预定维度包括:呈现日期的类型、呈现时间区间、应用类型、地域类型和呈现信息的渠道。B16、如B13-B15中任一项所述的计算设备,其中,所述记录获取单元适于根据下述方式获取包含多条点击事件记录的第一集合和包含多条转化事件记录的第二集合:获取多条关于点击事件的第一监测信息和多条关于转化事件的第二监测信息;从每条第一监测信息中提取对应所述多个预定维度的数据并确定每个预定维度的属性值,并在对应的点击事件记录中包含这多个预定维度的属性值;以及从每条第二监测信息中提取对应所述多个预定维度的数据并确定每个预定维度的属性值,并在对应的转化事件记录中包含这多个预定维度的属性值。B17、如B13-B16中任一项所述的计算设备,其中,所述转化率计算单元适于根据下述方式执行所述对所述多个预定维度进行组合以生成多个预定类别的操作:确定该多个预定维度中每个的取值范围;基于每个预定维度的取值范围,组合在多个预定维度上取值,并将每个取值组合作为所述预定类别中一个。B18、如B13-B17中任一项所述的计算设备,其中,所述样本生成单元适于根据下述方式为至少一部分类别中的每个类别确定样本数据:根据预定筛选规则,筛选满足该规则的预定类别;根据所筛选的每个类别对应的点击总数、对应的转化总数、对应的转化率和在多个预定维度上的属性值,来确定该类别对应的样本数据。B19、如B18所述的计算设备,其中,所述预定筛选规则包括点击总数大于第一阈值,以及转化率大于第二阈值且小于第三阈值。B20、如B19所述的计算装置,其中,所述第一阈值为20000,第二阈值为0.001,第三阈值为0.5。B21、如B13-B20中任一项所述的计算设备,其中,所述模型训练引擎适于根据下述方式利用该至少一部分类别的样本数据训练基于GBDT算法的预测模型,以获取经过训练的模型:基于独热编码方式,将该至少一部分类别的每个样本数据转化为相应的特征向量;利用所转化的特征向量的集合训练所述基于GBDT算法的预测模型。B22、如B21所述的计算设备,其中,所述模型训练引擎适于根据下述方式执行利用所转化的特征向量的集合训练所述基于GBDT算法的预测模型的操作:将该特征向量的集合分成训练子集和测试子集;利用训练子集和测试子集并基于k-折交叉验证方式训练预测模型。B23、如B13-B22中任一项所述的计算设备,还包括预测单元,适于:获取要呈现信息在所述多个预定维度的属性值;基于所获取的多个预定维度的属性值,利用经过训练的模型预测要呈现信息的转化率。B24、如B23所述的计算设备,还包括指标计算单元,适于根据下述方式计算针对要呈现信息的评价指标:
cost=budget-bid-price*conver/cvr
其中,budget为所要呈现信息的预算值、conver表示转化阈值、bid-price为集合竞价的指标值,cost为该评价指标。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的预测呈现信息转化率的方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。