一种营销广告点击的预测方法与流程

文档序号:32164983发布日期:2022-11-12 04:06阅读:51来源:国知局
一种营销广告点击的预测方法与流程

1.本发明涉及数据处理技术领域,具体涉及一种营销广告点击的预测方法。


背景技术:

2.随着国内互联网的飞速发展,越来越多的业务都通过网络的形式向用户提供服务;而广告作为传媒行业的重要收入手段,其市场规模也随着互联网的发展保持着高速增长。与传统广告不同的是,互联网广告在时间和位置上不是固定的,其面向不同的用户;因此需要根据用户信息、广告自身的类别和广告投放的环境等对广告进行合理分配,以预测广告的收益。
3.对广告收益进行预测最主要的方式就是通过对广告点击率的预测,进而对未投放的广告进行收益预估。人工神经网络模型对广告的点击率进行预测是一种有效的手段,但现有的神经网络算法未考虑到用户的记忆与广告本身投放策略的关系,仅仅将时间戳作为数据的特征直接对网络进行训练,不能使网络学习到投放策略本身对点击率的内在影响,使得网络的预测结果的准确度较低,进而导致对广告点击率预测的准确度较低。


技术实现要素:

4.为了解决现有技术对广告点击率预测的准确度较低的问题,本发明的目的在于提供一种营销广告点击的预测方法,所采用的技术方案具体如下:本发明提供了一种营销广告点击的预测方法包括以下步骤:获取综合特征向量、综合特征向量对应的广告的各历史投放策略序列和所述各历史投放策略序列对应的历史点击率序列;所述综合特征向量包含用户特征向量、广告特征向量和投放环境特征向量;所述历史投放策略序列包括在预设时间段内对应广告在各目标时间戳处的广告投放量;根据所述各历史投放策略序列,得到综合特征向量对应的广告在预设时间段内各时间戳处的投放概率向量;根据所述各历史投放策略序列对应的历史点击率序列,得到综合特征向量对应的广告在预设时间段内的总体点击率向量;根据综合特征向量、所述各历史投放策略序列、所述各历史投放策略序列对应的历史点击率序列、所述各时间戳处的投放概率向量和所述总体点击率向量对广告点击率预测网络进行训练,得到训练好的广告点击率预测网络;将待预测的综合特征向量和对应的计划投放策略序列输入到训练好的广告点击率预测网络中,预测计划投放策略序列对应的预测点击率序列。
5.优选的,所述历史投放策略序列和对应的历史点击率序列中同一位置的元素对应的目标时间戳相同;所述目标时间戳为各时间戳中广告投放量不为0的时间戳。
6.优选的,所述根据所述各历史投放策略序列,得到综合特征向量对应的广告在预设时间段内各时间戳处的投放概率向量,包括:统计综合特征向量对应的广告对应的各历史投放策略序列中同一目标时间戳处
的广告投放量的总和,得到投放策略分布直方图;所述投放策略分布直方图的横坐标为时间戳,纵坐标为分布概率;所述分布概率为将时间戳处的广告投放量进行归一化后的值;以投放策略分布直方图中所有时间戳和其对应的分布概率为样本数据;基于所述样本数据利用em算法进行拟合,得到对应的高斯混合模型;所述高斯混合模型包括多个子高斯模型;根据所述各时间戳在各子高斯模型中的取值占比,得到所述各时间戳对应的投放概率向量。
7.优选的,对于任一时间戳在任一子高斯模型中的取值占比的计算公式为:其中,为第n个时间戳在第a个子高斯模型中的取值占比,为第n个时间戳,为第n个时间戳处的广告投放概率,为第a个子高斯模型的权重,为第n个时间戳在第个子高斯模型中的取值;所述广告投放概率为根据高斯混合模型得到的概率值。
8.优选的,所述根据所述各历史投放策略序列对应的历史点击率序列,得到综合特征向量对应的广告在预设时间段内的总体点击率向量,包括:对于任一历史投放策略序列:将该历史投放策略序列中的各目标时间戳处的广告投放量乘以对应的历史点击率序列中对应的点击率,得到该投放策略序列对应的各目标时间戳处的点击量;根据各历史投放策略序列对应的各目标时间戳处的点击量,将同一个时间戳处的点击量累加,并将累加值除以对应时间戳处的总广告投放量,得到预设时间段内各时间戳处的总体点击率;根据所述各时间戳处的总体点击率,得到每个子高斯模型对应的时间戳均值处的总体点击率;根据每个子高斯模型对应的时间戳均值处的总体点击率,得到综合特征向量对应的广告在预设时间段内的总体点击率向量。
9.优选的,根据综合特征向量、所述各历史投放策略序列、所述各历史投放策略序列对应的点击率序列、所述各时间戳处的投放概率向量和所述总体点击率向量对广告点击率预测网络进行训练,得到训练好的广告点击率预测网络的损失函数为:其中,为损失函数,r为输入到网络的综合特征向量的数量,为第r个综合特征向量对应的各历史投放策略序列的数量,为第k个历史投放策略序列对应的目标时间戳的数量,为第k个历史投放策略序列对应的第个目标时间戳,为第r个综合特征向量对应的第k个历史投放策略序列对应的第n个目标时间戳的投放概率向量,为第r个综合特征向量对应的总体点击率向量,为所述总体点击率向量的转置,为第r个
综合特征向量对应的第k个历史投放策略序列对应的第n个目标时间戳处的点击率,为网络输出的第r个综合特征向量对应的第k个历史投放策略序列对应的第n个目标时间戳处的预测点击率,为第r个综合特征向量对应的第k个历史投放策略序列对应的第n个目标时间戳处的实际投放效果,为第r个综合特征向量对应的第k个历史投放策略序列对应的第n个目标时间戳处的广告投放量。
10.优选的,所述第r个综合特征向量对应的第k个历史投放策略序列对应的第n个目标时间戳处的实际投放效果的计算公式为:其中,为第k个历史投放策略序列对应的第个目标时间戳,为第k个历史投放策略序列对应的第n个目标时间戳与第个目标时间戳之间的间隔时长,为第r个综合特征向量对应的第k个历史投放策略序列对应的第个目标时间戳对应的广告投放量,为第k个历史投放策略序列对应的第个目标时间戳对第个目标时间戳产生的记忆效应系数。
11.优选的,记忆效应系数的计算公式为:其中,为该综合特征向量对应的各历史投放策略序列中最小的目标时间戳,为该综合特征向量对应的各历史投放策略序列中最大的目标时间戳,为在两个时间戳间隔时长为时,较前时间戳对较后时间戳产生的记忆效应系数。
12.本发明具有如下有益效果:本发明首先获取综合特征向量、综合特征向量对应的广告的各历史投放策略序列和对应的历史点击率序列;然后根据所述各历史投放策略序列和对应的历史点击率序列,得到综合特征向量对应的广告在各时间戳处的投放概率向量和综合特征向量对应的广告在预设时间段内的总体点击率向量;最后根据综合特征向量、所述各历史投放策略序列、所述各历史投放策略序列对应的历史点击率序列、所述各时间戳处的投放概率向量和所述总体点击率向量对广告点击率预测网络进行训练,得到训练好的广告点击率预测网络,进而利用训练好的广告点击率预测网络对待预测的综合特征向量对应的计划投放策略序列中各目标时间戳处的点击率进行预测,得到对应的预测点击率序列。本发明结合用户的记忆与广告本身投放策略的关系,来对网络进行训练,提高了网络对广告点击率预测的准确度。
附图说明
13.为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
14.图1为本发明所提供的一种营销广告点击的预测方法的流程图。
具体实施方式
15.为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功能效果,以下结合附图及较佳实施例,对依据本发明提出的一种营销广告点击的预测方法进行详细说明如下。
16.除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
17.下面结合附图具体的说明本发明所提供的一种营销广告点击的预测方法的具体方案。
18.一种营销广告点击的预测方法实施例:如图1所示,本实施例的一种营销广告点击的预测方法包括以下步骤:步骤s1,获取综合特征向量、综合特征向量对应的广告的各历史投放策略序列和所述各历史投放策略序列对应的历史点击率序列;所述综合特征向量包含用户特征向量、广告特征向量和投放环境特征向量;所述历史投放策略序列包括在预设时间段内对应广告在各目标时间戳处的广告投放量。
19.为了对广告的点击率进行预测,本实施例构建了一个广告点击率预测网络;然后结合用户信息,广告信息、投放环境信息、历史投放策略信息以及对应的历史点击率信息对网络进行训练,以得到训练好的广告点击率预测网络。接下来本实施例对广告点击率预测网络训练过程进行分析。
20.获取不同广告对应的用户信息(即广告投放的对象的信息)、广告信息、投放环境信息、历史投放策略信息以及历史点击率信息,具体的:本实施例中所述用户信息包括用户年龄、性别、职业等信息,所述广告信息包括广告的内容、标题、行业等信息,所述投放环境包括广告投放位置等信息。这些信息有的是离散的类目值(如职业、性别、广告内容类别号),有的是连续值(如年龄、标题字数);本实施例将离散值进行one-hot编码,进而得到用户特征向量、广告特征向量和投放环境特征向量;然后根据用户特征向量、广告特征向量和投放环境特征向量,得到综合特征向量,即,其中,为用户特征向量,为广告特征向量,为投放环境特征向量;对于任一综合特征向量:该综合特征向量对应一个用户,对应一个广告,对应一个投放环境;即同一个广告会在不同的投放环境下投放给不同的用户。本实施例以任一综合特征向量对应的广告为例进行分析。
21.本实施例中广告的一个投放策略表示的是预设时间段内广告在各个时间戳处的广告投放量,本实施例中所述预设时间段为一个月(即相当于30天),具体可根据实际需要来设置;本实施例中设置一天对应一个时间戳,共有三十个时间戳;将各时间戳中的广告投
放量不为0的时间戳记为目标时间戳。
22.本实施例根据历史数据获取该综合特征向量对应的广告对应的多个历史投放策略序列和各历史投放策略序列对应的历史点击率序列,所述历史投放策略序列用来放映对应的历史时间段内的投放策略信息,具体的:在历史时间中随机挑选合适数量个投放策略(即一个投放策略对应一个月),获取每个月该广告的投放时间序列(即目标时间戳序列,即在哪一个时间戳处进行广告的投放)以及在对应时间下的广告投放量和点击率;根据每个月该广告的投放时间序列以及在对应时间下的广告投放量,得到每个月对应的历史投放策略序列(即一个投放策略对应一个历史投放策略序列);所述历史投放策略序列包括在对应的一个月中该广告在各目标时间戳处的广告投放量,序列的横坐标为目标时间戳(从早到晚排序),序列中各元素的值为在对应的各目标时间戳处的广告投放量。
23.对于该广告的第个历史投放策略序列可表示为:,其中,为第个历史投放策略序列,为第个历史投放策略序列中第1个目标时间戳处的广告投放量,为第个历史投放策略序列中第2个目标时间戳处的广告投放量,为第个历史投放策略序列中第n个目标时间戳处的广告投放量。例如,对于该广告的任意投放策略:一个月内5号的投放量为5,15号投放量为6,20号投放量为7,其中第一个目标时间戳为5号,第二个目标时间戳为15号和第三个目标时间戳为20号,则对应的历史投放策略序列为{5,6,7}。不同的历史投放策略序列中的第n个目标时间戳不一定相同,即不一定是同一个时间戳。
24.根据每个月该广告的投放时间序列以及在对应时间下的点击率,获取该广告对应的各历史投放策略序列对应的历史点击率序列,所述历史点击率序列的序列横坐标为目标时间戳,序列中各元素的值为在对应的各目标时间戳处的点击率;历史点击率序列与对应的历史投放策略序列中的各元素相对应,即各个目标时间戳上的点击率与广告投放量是一一对应的;即历史投放策略序列中第一个元素为第一个目标时间戳处的广告投放量,对应的历史点击率序列的第一个元素为第一个目标时间戳处的点击率,两个相对应的序列中的第一个目标时间戳为同一个时间戳。
25.对于该广告的第个历史投放策略序列对应的历史点击率序列可表示为:,其中,为第个历史投放策略序列对应的历史点击率序列,为第个历史投放策略序列对应的历史点击率序列中第1个目标时间戳处的点击率,为第个历史投放策略序列对应的历史点击率序列中第2个目标时间戳处的点击率,为第个历史投放策略序列对应的历史点击率序列中第n个目标时间戳处的点击
率。
26.至此,本实施例得到了该综合特征向量对应的广告的各历史投放策略序列和各历史投放策略序列对应的历史点击率序列。
27.步骤s2,根据所述各历史投放策略序列,得到综合特征向量对应的广告在预设时间段内各时间戳处的投放概率向量;根据所述各历史投放策略序列对应的历史点击率序列,得到综合特征向量对应的广告在预设时间段内的总体点击率向量。
28.接下来本实施例对步骤s1得到的该综合特征向量对应的广告的各历史投放策略序列和各历史投放策略序列对应的历史点击率序列进行预处理。
29.首先综合各历史投放策略序列,获取该广告在各时间戳处广告投放量的分布特征(即对于在预设时间段内各时间戳处的广告投放量的分布情况),具体的:对该综合特征向量对应的广告对应的各历史投放策略序列进行统计(即统计各历史投放策略序列中同一目标时间戳处的广告投放量的总和,得到各时间戳处的广告投放量),得到投放策略分布直方图;所述投放策略分布直方图为统计预设时间段内每个时间戳处的广告投放量的分布概率,即将各时间戳处的广告投放量基于该综合特征向量对应的广告对应的各历史投放策略序列的广告投放总数量进行归一化,并以其归一化的结果作为分布概率(即得到各时间戳处的广告投放量的分布概率),获取投放策略分布直方图;投放策略分布直方图的横坐标为时间戳,纵坐标为分布概率。
30.以投放策略分布直方图中所有时间戳和其对应的分布概率为样本数据,然后基于这些样本数据利用em算法进行拟合,得到对应的高斯混合模型;所述高斯混合模型中的子高斯模型的个数为(的取值具体根据实际需要来设置)。本实施例利用该高斯混合模型来描述对于任意投放策略在每个时间戳处投放广告的概率,记为广告投放概率;这个概率是由个子高斯模型的计算结果乘以其对应的权重获得的,将这个子高斯模型按照对应的时间戳均值的时序从前到后排列,分别记为序号1,2,

,n,对于一个新输入的时间戳(即预设时间段内第n个时间戳),表示方式如下:其中,为第n个时间戳,为第n个时间戳处的广告投放概率(即根据高斯混合模型得到的概率值),为第a个子高斯模型的权重,为第n个时间戳在第个子高斯模型中的取值,n为该高斯混合模型对应的子高斯模型的数量。本实施例中利用em算法对数据进行拟合,得到的高斯混合模型的过程为现有技术,在此就不再详细赘述。
31.对于一个时间戳,其对应的广告投放概率由第个子高斯模型构成的比例(即该时间戳在第a个子高斯模型中的取值占比)计算如下:
其中,为第n个时间戳在第a个子高斯模型中的取值占比;即。
32.对于该综合特征向量对应的广告在任一时间戳处的广告投放概率可由混合高斯模型进行分解表示,进而得到该时间戳处对应的投放概率向量(即该综合特征向量对应的广告在各时间戳处的投放概率向量),即,其中,为第n个时间戳对应的投放概率向量,为第n个时间戳在第1个子高斯模型中的取值占比,为第n个时间戳在第2个子高斯模型中的取值占比,为第n个时间戳在第n个子高斯模型中的取值占比。
33.对于该综合特征向量对应的广告的任一历史投放策略序列,由于该历史投放策略序列与对应的历史点击率序列的目标时间戳是一一对应的,本实施例将该历史投放策略序列中的各目标时间戳处的广告投放量乘以对应的历史点击率序列中对应的点击率,得到该投放策略序列对应的各目标时间戳处的点击量。
34.根据该综合特征向量对应的广告的各历史投放策略序列对应的各目标时间戳处的点击量,将同一个时间戳处的点击量累加,并将累加值除以对应时间戳处的总广告投放量,进而得到各时间戳处的总体点击率;根据上述过程可以得到每个时间戳处的总体点击率,第n个时间戳处的总体点击率为。至此可以得到任意预设时间段内每个时间戳处的总体点击率。
35.根据上述构建的高斯混合模型,获取每个子高斯模型对应的时间戳均值处的总体点击率,记为,其中为第个子高斯模型的时间戳均值,为第个子高斯模型的时间戳均值处的总体点击率。根据每个子高斯模型对应的时间戳均值处的总体点击率,可以得到该广告在预设时间段内(即任意投放策略)的总体点击率向量(即一个综合特征向量对应一个总体点击率向量),记为,其中为第个子高斯模型对应的时间戳均值处的总体点击率,为第个子高斯模型对应的时间戳均值处的总体点击率,为第个子高斯模型对应的时间戳均值处的总体点击率,为总体点击率向量。
36.步骤s3,根据综合特征向量、所述各历史投放策略序列、所述各历史投放策略序列对应的历史点击率序列、所述各时间戳处的投放概率向量和所述总体点击率向量对广告点击率预测网络进行训练,得到训练好的广告点击率预测网络。
37.接下来,本实施例构建广告点击率预测网络,其输入为综合特征向量和对应的投放策略序列,网络输出为预测得到的投放策略序列对应的点击率序列。
38.本实施例获取训练数据集,所述训练数据集中包括多个综合特征向量(一个综合特征向量对应一个广告)、各综合特征向量对应的各历史投放策略序列和对应的历史点击率序列;根据步骤s2的过程获取各综合特征向量对应的广告在各时间戳处的投放概率向量和对应的总体点击率向量;利用训练数据集对广告点击率预测网络进行训练,在训练过程
中的损失函数为:其中,为损失函数,r为输入到网络的广告的数量(即输入到网络的综合特征向量的数量),为第r个综合特征向量对应的各历史投放策略序列的数量,为第k个历史投放策略序列对应的目标时间戳的数量(即广告投放量的数量),为第k个历史投放策略序列对应的第个目标时间戳,为第r个综合特征向量对应的第k个历史投放策略序列对应的第n个目标时间戳的投放概率向量,为第r个综合特征向量对应的总体点击率向量,为所述总体点击率向量的转置,为第r个综合特征向量对应的第k个历史投放策略序列对应的第n个目标时间戳处的点击率(即点击率真实值),为网络输出的第r个综合特征向量对应的第k个历史投放策略序列对应的第n个目标时间戳处的点击率(记为预测点击率),为第r个综合特征向量对应的第k个历史投放策略序列对应的第n个目标时间戳处的实际投放效果,为第r个综合特征向量对应的第k个历史投放策略序列对应的第n个目标时间戳处的广告投放量;其中为一个数值。
39.上述公式中越小,网络的预测值越接近于真实值,则对应的loss越小;当越小时,则对应的loss越小。
40.所述实际投放效果获取的过程为:对于任一综合特征向量和对应任一历史投放策略序列:考虑到用户在使用时,可能在之前关注到该广告,但实际上却是在之后想起之前看过该广告才点击的;这个过程说明前一时刻投放的广告可能是后续时刻中广告被点击的原因,因此,在该记忆效应的影响下,投放策略的实际投放效果可能与投放策略本身不同。因此本实施例结合该历史投放策略序列中各目标时间戳之间的间隔距离,来计算该历史投放策略序列中各目标时间戳的实际投放效果,即:其中,为第k个历史投放策略序列对应的第个目标时间戳,为第k个历史投放策略序列对应的第n个目标时间戳与第个目标时间戳之间的间隔时
长,为第r个综合特征向量对应的第k个历史投放策略序列对应的第个目标时间戳对应的广告投放量,为第k个历史投放策略序列对应的第个目标时间戳对第个目标时间戳产生的记忆效应系数。
41.所述记忆效应系数的计算公式为:其中,为该综合特征向量对应的各历史投放策略序列中最小的目标时间戳,为该综合特征向量对应的各历史投放策略序列中最大的目标时间戳,为在两个时间戳间隔时长为时,较前时间戳对较后时间戳产生的记忆效应系数;的作用是将进行归一化,即为归一化数值。
42.根据上述公式,当越趋近于0时,说明记忆效应越小;当越趋近于1时,说明记忆效应越大。
43.至此本实施例根据上述过程可以得到一个训练好的广告点击率预测网络。
44.步骤s4,将待预测的综合特征向量和对应的计划投放策略序列输入到训练好的广告点击率预测网络中,预测计划投放策略序列对应的预测点击率序列。
45.本实施例根据步骤s3得到了训练好的广告点击率预测网络;接下来获取待预测的综合特征向量(待预测的广告)以及待预测的综合特征向量对应的广告计划的投放策略向量(记为计划投放策略序列);将待预测的综合特征向量和对应的计划投放策略序列输入到训练好的广告点击率预测网络中,网络可预测到计划投放策略序列对应的点击率序列(记为预测点击率序列),即预测到对应广告在计划的投放策略下的点击率。
46.本实施例首先获取综合特征向量、综合特征向量对应的广告的各历史投放策略序列和对应的历史点击率序列;然后根据所述各历史投放策略序列和对应的历史点击率序列,得到综合特征向量对应的广告在各时间戳处的投放概率向量和综合特征向量对应的广告在预设时间段内的总体点击率向量;最后根据综合特征向量、所述各历史投放策略序列、所述各历史投放策略序列对应的历史点击率序列、所述各时间戳处的投放概率向量和所述总体点击率向量对广告点击率预测网络进行训练,得到训练好的广告点击率预测网络,进而利用训练好的广告点击率预测网络对待预测的综合特征向量对应的计划投放策略序列中各目标时间戳处的点击率进行预测,得到对应的预测点击率序列。本实施例结合用户的记忆与广告本身投放策略的关系,来对网络进行训练,提高了网络对广告点击率预测的准确度。
47.需要说明的是:以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1