一种广告点击率预估模型的建立方法与流程

文档序号:21275412发布日期:2020-06-26 23:13阅读:来源:国知局

技术特征:

1.一种广告点击率预估模型的建立方法,其特征在于,包括数据预处理、中间结果保存、历史数据处理、当前数据训练或测试,具体步骤如下:

步骤一:数据预处理:对全部训练数据按照用户识别号分组并按照用户浏览数据的时间先后顺序排列,得到最终的训练数据,其中训练数据由多个特征组成,其中每个特征具有多个类别;

步骤二:中间结果保存:将训练数据按照时间顺序依次输入到训练所使用的广告点击率预估模型中,并保留每条训练数据对应模型最后一层的输出,作为训练数据经过模型训练后的中间结果;

步骤三:历史数据处理:根据当前训练数据的用户识别号和时间戳,向前检索一定时间间隔的历史训练数据对应的训练后的中间结果,所述时间间隔由模型参数指定;并将按照时间顺序排列的这些中间结果加入注意力机制,对历史数据训练后的中间结果进行加权处理得到新向量,新向量为处理后的历史数据;若根据当前训练数据用户识别号和时间戳向前检索历史数据结果为空,则将新向量初始化为0向量,向量的长度与历史结果不为空的情况下向量长度相同;

加入注意力机制的模型能够学习用户历史行为序列中的行为对用户当前行为的影响程度;由于训练数据是按照时间顺序广告点击率预估模型中的,所以将训练数据中第i时刻的中间结果表示为hi,假设当前时刻为j,则将当前训练数据的输入表示为sj,其中sj为由当前训练数据进行独热编码和稠密嵌入处理后的向量;所述的注意力机制计算方法如下:

其中,wa为注意力机制的权重计算矩阵,通过模型的训练得到;tx为历史数据的条数;aji为最后的权重;a'ji为hi经过注意力机制处理过后的隐层表示;cj为通过加权平均得到的最终的历史数据,将作为下一步骤模型的输入的一部分;为sj的转置;

步骤四:当前数据训练或测试:对当前训练数据进行独热编码,对独热编码后的数据进行稠密嵌入处理作为当前训练数据的输入,并将当前训练数据的输入与步骤三处理完成的历史数据进行拼接,再输入到所用广告点击率预估模型中,训练得到最终的预测结果;最后根据评价指标评价模型的好坏。

2.根据权利要求1所述的一种广告点击率预估模型的建立方法,其特征在于,所述步骤二中,广告点击率预估模型为deepfm模型,deepfm模型最后一层的输出由宽度模型部分fm的输出与深度模型部分dnn的输出拼接,拼接后得到新向量,新向量长度为dnn部分最后一层神经元个数加上fm部分输出结果之和。

3.根据权利要求1所述的一种广告点击率预估模型的建立方法,其特征在于,所述步骤一中,数据预处理方法包括python中的pandas库。

4.根据权利要求1所述的一种广告点击率预估模型的建立方法,其特征在于,所述步骤三中,所述步骤四中采用的评价指标包括auc、准确率和对数损失函数。


技术总结
一种广告点击率预估模型的建立方法,属于计算机技术领域,包括四个阶段:数据预处理、中间结果保存、历史数据处理、当前时刻数据训练或测试。其中在数据处理阶段将数据按照时间排序按照用户标签分组,并按照一定的时间间隔分段。在模型训练阶段,将数据按照时间顺序依次输入到所选模型进行训练,并保存训练后的中间结果。在模型测试阶段,对于当前测试数据,按照用户标签和时间间隔向前检索所保留的中间结果,将这些中间结果取出,并加入注意力机制,得到一个新的向量,作为当前训练数据的输入中的一部分输入到模型中进行训练,最终的输出作为预测值。本发明适用于解决考虑特征组合的同时,兼顾用户的行为序列信息的点击率预估问题。

技术研发人员:吴迪;李佩颖;王欣
受保护的技术使用者:大连理工大学
技术研发日:2020.02.20
技术公布日:2020.06.26
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1