一种基于用户间相似关系的广告点击率预测方法
【专利摘要】本发明涉及一种基于用户间相似关系的广告点击率预测方法,基于用户间相似关系的广告点击率预测方法,基于广告点击日志中数据的提取,构建贝叶斯网络模型的结构和参数,实现用户之间相似关系的分析,由此,进一步实现用户对广告点击率的预测,最终实现广告的准确投放;其中,贝叶斯网络模型的建立,具有较高的准确性,不会导致结果没有依据,并且在创建贝叶斯网络模型时,去除了冗余边,增强了贝叶斯网络模型的可靠性和有效性;不仅如此,在贝叶斯网络模型的建立过程中,通过多种方法进行贝叶斯网络的推理,得到间接相似用户,具有较高的灵活性和选择性;实现了较好的广告点击率预测效果。
【专利说明】
一种基于用户间相似关系的广告点击率预测方法
技术领域
[0001]本发明涉及一种基于用户间相似关系的广告点击率预测方法,属于网络广告投放技术领域。
【背景技术】
[0002]广告本身是向社会大众传递信息的宣传手段,也是许多公司的重要收入来源之一。随着互联网广告的不断发展,在巨大利润的驱动下,怎样提高广告投放带来的利润也成为了研究热点。通过对广告点击率进行预测,可以有效地判断一个用户对一个广告点击行为的可能性,从而对其进行定向的广告投放,有效地提高被投放广告的广告商的利润。目前广告投放大体上分为两种:基于内容的广告点投放和定向技术。
[0003]基于内容的广告投放实行内容匹配策略,即投放广告时以用户搜索的搜索词内容或浏览网页的内容为中心,将广告内容与搜索词内容或网页内容进行匹配并投放匹配的广告,这种投放方式对广告内容进行匹配,并没有考虑针对于不同用户进行精确个性化推荐,对不同用户来说,可能在搜索相同搜索词或浏览同一页面时看到的广告都是一样的,但这些广告并不一定是他们感兴趣的内容,这种投放方式效果较差。
[0004]定向技术是一种在投放广告方面比较流行的技术,它利用历史数据对用户特征进行描述,然后根据用户特征向用户投放精确的广告,所以能够很好地提升用户的体验,所以目前较多的都是采用定向技术来进行广告投放。
[0005]但是由于在实际应用中,广告数量巨大,很多用户并不一定会有广告点击记录,或者很多用户点击的广告很少,此时历史记录中关于用户的点击记录就会过少,因此根据历史数据直接对用户进行广告投放就不能准确找到用户感兴趣的方向,此时广告投放效果就会大打折扣。因此,现有技术中的广告投放往往很难较好地预测到用户的兴趣,从而不能很精准地投放用户感兴趣的广告。
【发明内容】
[0006]本发明所要解决的技术问题是提供一种基于用户之间相似关系的分析,能够准确预测用户对广告的点击率,实现广告精确投放的基于用户间相似关系的广告点击率预测方法。
[0007]本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于用户间相似关系的广告点击率预测方法,包括如下步骤:
[0008]步骤001.根据服务器中的广告点击日志,分别针对各个用户,获得用户在预设筛选周期内其所有的搜索关键词,以及该用户在预设筛选周期内分别针对向其展示的各支广告的点击率,然后进入步骤002;
[0009]步骤002.针对所有用户,获得所有两两用户之间在预设筛选周期内搜索关键词上的相似度值,再选取大于预设相似度阈值的各个相似度值所分别对应的两两用户,分别构成各组具有直接相似关系的两个用户,并获得该各组两个用户之间的依赖关系,根据各组两个用户之间的依赖关系,确定各个用户的直接相似用户,然后进入步骤003;
[0010]步骤003.针对各组具有直接相似关系的两个用户,以及各组两个用户之间的依赖关系建立贝叶斯网络模型,其中,各个用户分别采用各个用户节点表示,各组具有直接相似关系的两个用户之间的依赖关系采用用户节点之间的有向箭头表示,然后进入步骤004;
[0011]步骤004.分别针对贝叶斯网络模型中的各个用户节点,若用户节点存在用户父节点,则获得该用户节点分别在其各个用户父节点点击广告和不点击广告两种状态的不同组合下,其对应点击广告状态的后验概率,即获得该用户节点以其各个用户父节点分别作为各个直接相似用户,在各个直接相似用户点击广告和不点击广告两种状态的不同组合下,该用户节点对应点击广告状态的后验概率;若用户节点不存在用户父节点,则获得该用户节点对应点击广告状态和不点击广告状态的概率;然后进入步骤005;
[0012]步骤005.根据贝叶斯网络模型的结构,以及不存在用户父节点的各个用户节点,对应点击广告状态和不点击广告状态的概率,分别针对贝叶斯网络模型中的各个用户节点,获得用户节点分别相对与其间接联系的其它各个用户节点在点击广告状态下,该用户节点对应点击广告状态的后验概率,并选取大于预设概率阈值的各个后验概率所分别对应的两个间接联系的用户节点,即分别构成各组具有间接相似关系的两个用户,然后进入步骤006;
[0013]步骤006.获得对应于目标预测用户的各个直接相似用户、各个间接相似用户,并进一步获得目标预测用户分别相对各个直接相似用户点击广告和不点击广告两种状态的不同组合下,目标预测用户对应点击广告状态的后验概率;以及目标预测用户分别相对各个间接相似用户在点击广告状态下,目标预测用户对应点击广告状态的后验概率,即将目标预测用户的直接相似用户、间接相似用户统称为相似用户,获得目标预测用户相对其各位相似用户、分别对应其点击广告状态的后验概率;然后进入步骤007;
[0014]步骤007.根据各个用户在预设筛选周期内分别针对向其展示的各支广告的点击率,获得目标预测用户相对各位相似用户、分别对应其点击广告状态的后验概率分别与对应各个相似用户针对目标广告的点击率的乘积,最后将各个乘积相加后乘以归一化因子所得值,即为目标预测用户针对目标广告的预测点击率。
[0015]作为本发明的一种优选技术方案:根据权利要求1所述一种基于用户间相似关系的广告点击率预测方法,其特征在于:所述步骤001具体包括如下步骤:
[0016]步骤001-1.根据服务器中的广告点击日志,分别针对各个用户,获得用户在预设筛选周期内其所有的搜索关键词、各支广告分别在预设筛选周期内向该用户的展示次数,以及该用户在预设筛选周期内分别针对向其展示的各支广告的点击次数,然后进入步骤001-2;
[0017]步骤001-2.分别针对各个用户,根据各支广告分别在预设筛选周期内向用户的展示次数,以及该用户在预设筛选周期内分别针对向其展示的各支广告的点击次数,获得该用户在预设筛选周期内分别针对向其展示的各支广告的点击率,然后进入步骤002。
[0018]作为本发明的一种优选技术方案:所述步骤002具体包括如下步骤:
[0019]步骤002-1.针对所有用户,获得所有对两两用户,分别针对各对两两用户,根据用户在预设筛选周期内其所有的搜索关键词,获得两个用户在预设筛选周期内共同搜索关键词的个数占该两个用户在预设筛选周期内所有搜索关键词的个数的比值,作为该对两两用户之间在预设筛选周期内搜索关键词上的相似度值,由此获得所有用户中各对两两用户之间在预设筛选周期内搜索关键词上的相似度值,然后进入步骤002-2;
[0020]步骤00202.选取大于预设相似度阈值的各个相似度值所分别对应的两两用户,分别构成各组具有直接相似关系的两个用户,并进入步骤002-3;
[0021]步骤002-3.分别针对各组具有直接相似关系的两个用户A和B,在预设筛选周期内做如下判断,然后进入步骤003;
[0022]判断若A、B两个用户共同搜索关键词的个数占A用户所有搜索关键词个数的比值,大于A、B两个用户共同搜索关键词的个数占B用户所有搜索关键词个数的比值,则A、B两个用户之间的依赖关系为用户A指向用户B,即用户A为用户B的用户父节点,用户B为用户A的用户子节点,即用户A为用户B的直接相似用户;
[0023]判断若A、B两个用户共同搜索关键词的个数占B用户所有搜索关键词个数的比值,大于A、B两个用户共同搜索关键词的个数占A用户所有搜索关键词个数的比值,则A、B两个用户之间的依赖关系为用户B指向用户A,即用户B为用户A的用户父节点,用户A为用户B的用户子节点,即用户B为用户A的直接相似用户;
[0024]判断若A、B两个用户共同搜索关键词的个数占B用户所有搜索关键词个数的比值,等于A、B两个用户共同搜索关键词的个数占A用户所有搜索关键词个数的比值,则进一步查看A、B两个用户之间是否已存依赖关系,是则针对A、B两个用户不做进一步操作;否则针对A、B两个用户之间随机设定依赖关系。
[0025]作为本发明的一种优选技术方案:所述步骤004具体包括如下步骤:
[0026]分别针对贝叶斯网络模型中的各个用户节点,将用户节点作为当前用户节点,按如下步骤进行操作:
[0027]步骤004-1.判断当前用户节点是否存在用户父节点,是则进入步骤004-2;否则进入步骤004-5;
[0028]步骤004-2.获得当前用户节点所对应用户父节点的个数N,根据各个用户节点分别对应点击广告和不点击广告的两种状态,将点击广告状态定义为I,不点击广告状态定义为0,进而获得当前用户节点不同状态与其所有用户父节点不同状态之间组合所构成的2的N+1次方个状态,然后进入步骤004-3 ;
[0029]步骤004-3.分别针对当前用户节点与其所有用户父节点之间组合所构成的各个状态,进一步分别针对状态中的各个用户节点,若用户节点状态为I,则取该用户节点在预设筛选周期内其所有的搜索关键词作为该用户节点的临时关键词;若用户节点状态为0,则在预设筛选周期内,取贝叶斯网络模型中所有用户节点的所有搜索关键词与该用户节点的所有的搜索关键词的差集,作为该用户节点的临时关键词,然后进入步骤004-4;
[0030]步骤004-4.分别针对当前用户节点与其所有用户父节点之间组合所构成的各个状态,获得状态中所有用户节点临时关键词的交集的关键词个数与状态中当前用户节点的所有用户父节点临时关键词的交集的关键词个数的比值,作为当前用户节点在该状态中的后验概率;由此获得当前用户节点在其各个用户父节点点击广告和不点击广告两种状态的不同组合下,当前用户节点对应点击广告状态的后验概率,即获得当前用户节点以其各个用户父节点分别作为各个直接相似用户,在各个直接相似用户点击广告和不点击广告两种状态的不同组合下,当前用户节点对应点击广告状态的后验概率;
[0031]步骤004-5.针对当前用户节点对应点击广告的状态,则在预设筛选周期内,取当前用户节点所有搜索关键词个数与贝叶斯网络模型中所有用户节点的所有搜索关键词个数的比值作为当前用户节点对应点击广告状态的概率;同时,针对当前用户节点对应不点击广告的状态,则在预设筛选周期内,取贝叶斯网络模型中所有用户节点的所有搜索关键词与当前用户节点所有搜索关键词的差集的搜索关键词的个数与贝叶斯网络模型中所有用户节点的所有搜索关键词的个数的比值,作为当前用户节点对应不点击广告状态的概率;由此获得当前用户节点对应点击广告状态和不点击广告状态的概率。
[0032]作为本发明的一种优选技术方案:所述步骤005中,采用吉布斯采样方法,根据贝叶斯网络模型的结构,以及不存在用户父节点的各个用户节点,对应点击广告状态和不点击广告状态的概率,分别针对贝叶斯网络模型中的各个用户节点,获得用户节点分别相对与其间接联系的其它各个用户节点在点击广告状态下,该用户节点对应点击广告状态的后验概率。
[0033]作为本发明的一种优选技术方案:所述步骤005中,采用吉布斯采样方法,分别针对贝叶斯网络模型中的各个用户节点,将用户节点作为当前用户节点,获得当前用户节点分别相对与其间接联系的其它各个用户节点在点击广告状态下,当前用户节点对应点击广告状态的后验概率,具体包括如下步骤:
[0034]步骤005-1.在与当前用户节点间接联系的其它各个用户节点当中,将对应点击广告状态的用户节点作为证据变量e,当前用户节点作为目标变量t,将贝叶斯网络模型中除证据变量、目标变量以外的其它用户节点作为非证据变量q,分别针对贝叶斯网络模型中的各个用户节点,将用户节点的用户父节点、用户子节点,以及用户子节点的用户父节点作为该用户节点的马尔可夫覆盖;然后进入步骤005-2;
[0035]步骤005-2.初始化所有用户节点的状态作为第一个样本,将证据变量状态赋值为I,非证据变量随机赋予状态O或I,并进入步骤005-3;
[0036]步骤005-3.循环非证据变量,对每一个非证据变量q,利用步骤004中后验概率的计算,计算当前非证据变量q在其马尔可夫覆盖中每个用户节点状态条件下的其分别为O和I的后验概率,然后进入步骤005-4;
[0037]步骤005-4.随机产生一个在O至当前非证据变量q为O和I的条件概率之和的随机数,若该随机数小于等于其为O的条件概率,则将当前非证据变量的状态改为0,若该随机数大于其为O的条件概率,且小于其为O和I的条件概率之和,则将当前非证据变量的状态改为I,由此更新每一个非证据变量的状态作为新的样本,然后进入步骤005-5;
[0038]步骤005-5.重复步骤005-2至步骤005-4步骤,不断抽样产生新的样本,统计所有样本中目标变量状态为I的样本数n,计算目标变量状态为I的样本数η与抽样次数s的比值,即为当前用户节点在已确定某一用户节点状态为I的条件下其本身也为I的后验概率。
[0039]作为本发明的一种优选技术方案:所述步骤007中归一化因子的获得通过如下方法:
[0040]首先在预设筛选周期内,获得目标预测用户的各个相似用户分别针对向其展示的各支广告的点击率之和,再计算I与该点击率之和的比值,即作为归一化因子。
[0041]本发明所述一种基于用户间相似关系的广告点击率预测方法采用以上技术方案与现有技术相比,具有以下技术效果:本发明所设计一种基于用户间相似关系的广告点击率预测方法,基于广告点击日志中数据的提取,构建贝叶斯网络模型的结构和参数,实现用户之间相似关系的分析,由此,进一步实现用户对广告点击率的预测,最终实现广告的准确投放;其中,贝叶斯网络模型的建立,具有较高的准确性,不会导致结果没有依据,并且在创建贝叶斯网络模型时,去除了冗余边,增强了贝叶斯网络模型的可靠性和有效性;不仅如此,在贝叶斯网络模型的建立过程中,通过多种方法进行贝叶斯网络的推理,得到间接相似用户,具有较高的灵活性和选择性;使得本发明所设计基于用户间相似关系的广告点击率预测方法,将广告内容与搜索内容匹配的同时,充分考虑了用户的兴趣和关注点,结合了两种投放广告的有点,避免了单种广告投放方式的片面性,具有较好的预测效果。
【附图说明】
[0042]图1是本发明设计的基于用户间相似关系的广告点击率预测方法的架构示意图;
[0043]图2是本发明设计的基于用户间相似关系的广告点击率预测方法中贝叶斯网络模型的构造流程图;
[0044]图3是本发明设计的基于用户间相似关系的广告点击率预测方法中采用吉布斯采样方法构造间接相似用户关系的流程图。
【具体实施方式】
[0045]下面结合说明书附图对本发明的【具体实施方式】作进一步详细的说明。
[0046]本发明所解决的问题是现有技术中,对于缺少用户点击记录或点击记录较少的情况下不能很精准地投放用户感兴趣的广告、广告投放不够有效的难题。基于用户间相似关系广告点击率预测方法,通过用户在搜索行为上的相似性、利用贝叶斯网络建立用户间的直接相似依赖关系,并通过该直接相似关系、利用贝叶斯网络的推理法推理出用户间的间接相似依赖关系,从而可以预测出某用户对某广告的点击率,从而对于某用户搜索的某一关键字,可以匹配出可能投放的所有广告,再通过预测可能投放的所有广告的点击率进行排序,进而通过该预测对用户进行定向的广告投放,有效提高广告投放商的收益和广告投放效果,解决了目前广告投放不够有效等问题。
[0047]如图1所示,本发明所设计的一种基于用户间相似关系的广告点击率预测方法,实际应用过程当中,具体包括如下步骤:
[0048]步骤001.根据服务器中的广告点击日志,分别针对各个用户,获得用户在预设筛选周期内其所有的搜索关键词,以及该用户在预设筛选周期内分别针对向其展示的各支广告的点击率,然后进入步骤002。
[0049]其中,所述步骤001具体包括如下步骤:
[0050]步骤001-1.从服务器中的广告点击日志中,筛选出用户特征标志、广告特征标志、用户搜索关键字描述、广告的展示次数和被点击的次数这五个字段,由此,分别针对各个用户,获得用户在预设筛选周期内其所有的搜索关键词、各支广告分别在预设筛选周期内向该用户的展示次数,以及该用户在预设筛选周期内分别针对向其展示的各支广告的点击次数,然后进入步骤001-2。
[0051 ]步骤001-2.分别针对各个用户,根据各支广告分别在预设筛选周期内向用户的展示次数,以及该用户在预设筛选周期内分别针对向其展示的各支广告的点击次数,获得该用户在预设筛选周期内分别针对向其展示的各支广告的点击率,然后进入步骤002。
[0052]步骤002.针对所有用户,获得所有两两用户之间在预设筛选周期内搜索关键词上的相似度值,再选取大于预设相似度阈值的各个相似度值所分别对应的两两用户,分别构成各组具有直接相似关系的两个用户,并获得该各组两个用户之间的依赖关系,根据各组两个用户之间的依赖关系,确定各个用户的直接相似用户,并保存,然后进入步骤003。
[0053]其中,如图2所示,步骤002具体包括如下步骤:
[0054]步骤002-1.针对所有用户,获得所有对两两用户,分别针对各对两两用户,根据用户在预设筛选周期内其所有的搜索关键词,获得两个用户在预设筛选周期内共同搜索关键词的个数占该两个用户在预设筛选周期内所有搜索关键词的个数的比值,作为该对两两用户之间在预设筛选周期内搜索关键词上的相似度值,由此获得所有用户中各对两两用户之间在预设筛选周期内搜索关键词上的相似度值,然后进入步骤002-2。
[0055]步骤00202.选取大于预设相似度阈值的各个相似度值所分别对应的两两用户,分别构成各组具有直接相似关系的两个用户,并进入步骤002-3。
[0056]步骤002-3.分别针对各组具有直接相似关系的两个用户A和B,在预设筛选周期内做如下判断,然后进入步骤003。
[0057]判断若A、B两个用户共同搜索关键词的个数占A用户所有搜索关键词个数的比值,大于A、B两个用户共同搜索关键词的个数占B用户所有搜索关键词个数的比值,则A、B两个用户之间的依赖关系为用户A指向用户B,即用户A为用户B的用户父节点,用户B为用户A的用户子节点,即用户A为用户B的直接相似用户。
[0058]判断若A、B两个用户共同搜索关键词的个数占B用户所有搜索关键词个数的比值,大于A、B两个用户共同搜索关键词的个数占A用户所有搜索关键词个数的比值,则A、B两个用户之间的依赖关系为用户B指向用户A,即用户B为用户A的用户父节点,用户A为用户B的用户子节点,即用户B为用户A的直接相似用户。
[0059]判断若A、B两个用户共同搜索关键词的个数占B用户所有搜索关键词个数的比值,等于A、B两个用户共同搜索关键词的个数占A用户所有搜索关键词个数的比值,则进一步查看A、B两个用户之间是否已存依赖关系,是则针对A、B两个用户不做进一步操作;否则针对A、B两个用户之间随机设定依赖关系。
[0060]步骤003.针对各组具有直接相似关系的两个用户,以及各组两个用户之间的依赖关系建立贝叶斯网络模型,其中,各个用户分别采用各个用户节点表示,各组具有直接相似关系的两个用户之间的依赖关系采用用户节点之间的有向箭头表示,然后进入步骤004。
[0061]步骤004.分别针对贝叶斯网络模型中的各个用户节点,若用户节点存在用户父节点,则获得该用户节点分别在其各个用户父节点点击广告和不点击广告两种状态的不同组合下,其对应点击广告状态的后验概率,即获得该用户节点以其各个用户父节点分别作为各个直接相似用户,在各个直接相似用户点击广告和不点击广告两种状态的不同组合下,该用户节点对应点击广告状态的后验概率,并保存;若用户节点不存在用户父节点,则获得该用户节点对应点击广告状态和不点击广告状态的概率,并保存;然后进入步骤005。
[0062]其中,上述步骤004具体包括如下步骤:
[0063]分别针对贝叶斯网络模型中的各个用户节点,将用户节点作为当前用户节点,按如下步骤进行操作:
[0064]步骤004-1.判断当前用户节点是否存在用户父节点,是则进入步骤004-2;否则进入步骤004-5。
[0065]步骤004-2.获得当前用户节点所对应用户父节点的个数N,根据各个用户节点分别对应点击广告和不点击广告的两种状态,将点击广告状态定义为I,不点击广告状态定义为0,进而获得当前用户节点不同状态与其所有用户父节点不同状态之间组合所构成的2的N+1次方个状态,每个状态都是由二进制的N+1个O或I组成,然后进入步骤004-3。
[0066]步骤004-3.分别针对当前用户节点与其所有用户父节点之间组合所构成的各个状态,进一步分别针对状态中的各个用户节点,若用户节点状态为I,则取该用户节点在预设筛选周期内其所有的搜索关键词作为该用户节点的临时关键词;若用户节点状态为0,则在预设筛选周期内,取贝叶斯网络模型中所有用户节点的所有搜索关键词与该用户节点的所有的搜索关键词的差集,作为该用户节点的临时关键词,然后进入步骤004-4。
[0067]步骤004-4.分别针对当前用户节点与其所有用户父节点之间组合所构成的各个状态,获得状态中所有用户节点临时关键词的交集的关键词个数与状态中当前用户节点的所有用户父节点临时关键词的交集的关键词个数的比值,作为当前用户节点在该状态中的后验概率;由此获得当前用户节点在其各个用户父节点点击广告和不点击广告两种状态的不同组合下,当前用户节点对应点击广告状态的后验概率,即获得当前用户节点以其各个用户父节点分别作为各个直接相似用户,在各个直接相似用户点击广告和不点击广告两种状态的不同组合下,当前用户节点对应点击广告状态的后验概率,并保存。
[0068]步骤004-5.针对当前用户节点对应点击广告的状态,则在预设筛选周期内,取当前用户节点所有搜索关键词个数与贝叶斯网络模型中所有用户节点的所有搜索关键词个数的比值作为当前用户节点对应点击广告状态的概率;同时,针对当前用户节点对应不点击广告的状态,则在预设筛选周期内,取贝叶斯网络模型中所有用户节点的所有搜索关键词与当前用户节点所有搜索关键词的差集的搜索关键词的个数与贝叶斯网络模型中所有用户节点的所有搜索关键词的个数的比值,作为当前用户节点对应不点击广告状态的概率;由此获得当前用户节点对应点击广告状态和不点击广告状态的概率,并保存。
[0069]步骤005.根据贝叶斯网络模型的结构,以及不存在用户父节点的各个用户节点,对应点击广告状态和不点击广告状态的概率,分别针对贝叶斯网络模型中的各个用户节点,获得用户节点分别相对与其间接联系的其它各个用户节点在点击广告状态下,该用户节点对应点击广告状态的后验概率,并选取大于预设概率阈值的各个后验概率所分别对应的两个间接联系的用户节点,即分别构成各组具有间接相似关系的两个用户,并保存,然后进入步骤006。
[0070]其中,如图3所示,上述步骤005中,采用吉布斯采样方法,分别针对贝叶斯网络模型中的各个用户节点,将用户节点作为当前用户节点,获得当前用户节点分别相对与其间接联系的其它各个用户节点在点击广告状态下,当前用户节点对应点击广告状态的后验概率,并保存,具体包括如下步骤:
[0071]步骤005-1.在与当前用户节点间接联系的其它各个用户节点当中,将对应点击广告状态的用户节点作为证据变量e,当前用户节点作为目标变量t,将贝叶斯网络模型中除证据变量、目标变量以外的其它用户节点作为非证据变量q,分别针对贝叶斯网络模型中的各个用户节点,将用户节点的用户父节点、用户子节点,以及用户子节点的用户父节点作为该用户节点的马尔可夫覆盖;然后进入步骤005-2。
[0072]步骤005-2.初始化所有用户节点的状态作为第一个样本,将证据变量状态赋值为I,非证据变量随机赋予状态O或I,并进入步骤005-3。
[0073]步骤005-3.循环非证据变量,对每一个非证据变量q,利用步骤004中后验概率的计算,计算当前非证据变量q在其马尔可夫覆盖中每个用户节点状态条件下的其分别为O和I的后验概率,然后进入步骤005-4。
[0074]步骤005-4.随机产生一个在O至当前非证据变量q为O和I的条件概率之和的随机数,若该随机数小于等于其为O的条件概率,则将当前非证据变量的状态改为0,若该随机数大于其为O的条件概率,且小于其为O和I的条件概率之和,则将当前非证据变量的状态改为I,由此更新每一个非证据变量的状态作为新的样本,然后进入步骤005-5。
[0075]步骤005-5.重复步骤005-2至步骤005-4步骤,不断抽样产生新的样本,统计所有样本中目标变量状态为I的样本数n,计算目标变量状态为I的样本数η与抽样次数s的比值,即为当前用户节点在已确定某一用户节点状态为I的条件下其本身也为I的后验概率。
[0076]步骤006.获得对应于目标预测用户的各个直接相似用户、各个间接相似用户,并进一步获得目标预测用户分别相对各个直接相似用户点击广告和不点击广告两种状态的不同组合下,目标预测用户对应点击广告状态的后验概率;以及目标预测用户分别相对各个间接相似用户在点击广告状态下,目标预测用户对应点击广告状态的后验概率,即将目标预测用户的直接相似用户、间接相似用户统称为相似用户,获得目标预测用户相对其各位相似用户、分别对应其点击广告状态的后验概率,并保存;然后进入步骤007。
[0077]步骤007.根据各个用户在预设筛选周期内分别针对向其展示的各支广告的点击率,获得目标预测用户相对各位相似用户、分别对应其点击广告状态的后验概率分别与对应各个相似用户针对目标广告的点击率的乘积,最后将各个乘积相加后乘以归一化因子所得值,即为目标预测用户针对目标广告的预测点击率。其中,对于归一化因子而言,首先在预设筛选周期内,获得目标预测用户的各个相似用户分别针对向其展示的各支广告的点击率之和,再计算I与该点击率之和的比值,即作为归一化因子。
[0078]基于上述技术方案,根据所设计获得用户针对广告的预测点击率,或是用户的搜索关键词,针对用户,精确实现符合其兴趣的广告的投放,达到提升广告投放效果的目的。
[0079]上述技术方案所设计一种基于用户间相似关系的广告点击率预测方法,基于广告点击日志中数据的提取,构建贝叶斯网络模型的结构和参数,实现用户之间相似关系的分析,由此,进一步实现用户对广告点击率的预测,最终实现广告的准确投放;其中,贝叶斯网络模型的建立,具有较高的准确性,不会导致结果没有依据,并且在创建贝叶斯网络模型时,去除了冗余边,增强了贝叶斯网络模型的可靠性和有效性;不仅如此,在贝叶斯网络模型的建立过程中,通过多种方法进行贝叶斯网络的推理,得到间接相似用户,具有较高的灵活性和选择性;使得本发明所设计基于用户间相似关系的广告点击率预测方法,将广告内容与搜索内容匹配的同时,充分考虑了用户的兴趣和关注点,结合了两种投放广告的有点,避免了单种广告投放方式的片面性,具有较好的预测效果。
[0080]上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
【主权项】
1.一种基于用户间相似关系的广告点击率预测方法,其特征在于,包括如下步骤: 步骤001.根据服务器中的广告点击日志,分别针对各个用户,获得用户在预设筛选周期内其所有的搜索关键词,以及该用户在预设筛选周期内分别针对向其展示的各支广告的点击率,然后进入步骤002; 步骤002.针对所有用户,获得所有两两用户之间在预设筛选周期内搜索关键词上的相似度值,再选取大于预设相似度阈值的各个相似度值所分别对应的两两用户,分别构成各组具有直接相似关系的两个用户,并获得该各组两个用户之间的依赖关系,根据各组两个用户之间的依赖关系,确定各个用户的直接相似用户,然后进入步骤003; 步骤003.针对各组具有直接相似关系的两个用户,以及各组两个用户之间的依赖关系建立贝叶斯网络模型,其中,各个用户分别采用各个用户节点表示,各组具有直接相似关系的两个用户之间的依赖关系采用用户节点之间的有向箭头表示,然后进入步骤004; 步骤004.分别针对贝叶斯网络模型中的各个用户节点,若用户节点存在用户父节点,则获得该用户节点分别在其各个用户父节点点击广告和不点击广告两种状态的不同组合下,其对应点击广告状态的后验概率,即获得该用户节点以其各个用户父节点分别作为各个直接相似用户,在各个直接相似用户点击广告和不点击广告两种状态的不同组合下,该用户节点对应点击广告状态的后验概率;若用户节点不存在用户父节点,则获得该用户节点对应点击广告状态和不点击广告状态的概率;然后进入步骤005; 步骤005.根据贝叶斯网络模型的结构,以及不存在用户父节点的各个用户节点,对应点击广告状态和不点击广告状态的概率,分别针对贝叶斯网络模型中的各个用户节点,获得用户节点分别相对与其间接联系的其它各个用户节点在点击广告状态下,该用户节点对应点击广告状态的后验概率,并选取大于预设概率阈值的各个后验概率所分别对应的两个间接联系的用户节点,即分别构成各组具有间接相似关系的两个用户,然后进入步骤006; 步骤006.获得对应于目标预测用户的各个直接相似用户、各个间接相似用户,并进一步获得目标预测用户分别相对各个直接相似用户点击广告和不点击广告两种状态的不同组合下,目标预测用户对应点击广告状态的后验概率;以及目标预测用户分别相对各个间接相似用户在点击广告状态下,目标预测用户对应点击广告状态的后验概率,即将目标预测用户的直接相似用户、间接相似用户统称为相似用户,获得目标预测用户相对其各位相似用户、分别对应其点击广告状态的后验概率;然后进入步骤007; 步骤007.根据各个用户在预设筛选周期内分别针对向其展示的各支广告的点击率,获得目标预测用户相对各位相似用户、分别对应其点击广告状态的后验概率分别与对应各个相似用户针对目标广告的点击率的乘积,最后将各个乘积相加后乘以归一化因子所得值,即为目标预测用户针对目标广告的预测点击率。2.根据权利要求1所述一种基于用户间相似关系的广告点击率预测方法,其特征在于:所述步骤001具体包括如下步骤: 步骤001-1.根据服务器中的广告点击日志,分别针对各个用户,获得用户在预设筛选周期内其所有的搜索关键词、各支广告分别在预设筛选周期内向该用户的展示次数,以及该用户在预设筛选周期内分别针对向其展示的各支广告的点击次数,然后进入步骤001-2; 步骤001-2.分别针对各个用户,根据各支广告分别在预设筛选周期内向用户的展示次数,以及该用户在预设筛选周期内分别针对向其展示的各支广告的点击次数,获得该用户在预设筛选周期内分别针对向其展示的各支广告的点击率,然后进入步骤002。3.根据权利要求1所述一种基于用户间相似关系的广告点击率预测方法,其特征在于:所述步骤002具体包括如下步骤: 步骤002-1.针对所有用户,获得所有对两两用户,分别针对各对两两用户,根据用户在预设筛选周期内其所有的搜索关键词,获得两个用户在预设筛选周期内共同搜索关键词的个数占该两个用户在预设筛选周期内所有搜索关键词的个数的比值,作为该对两两用户之间在预设筛选周期内搜索关键词上的相似度值,由此获得所有用户中各对两两用户之间在预设筛选周期内搜索关键词上的相似度值,然后进入步骤002-2; 步骤00202.选取大于预设相似度阈值的各个相似度值所分别对应的两两用户,分别构成各组具有直接相似关系的两个用户,并进入步骤002-3; 步骤002-3.分别针对各组具有直接相似关系的两个用户A和B,在预设筛选周期内做如下判断,然后进入步骤003; 判断若A、B两个用户共同搜索关键词的个数占A用户所有搜索关键词个数的比值,大于A、B两个用户共同搜索关键词的个数占B用户所有搜索关键词个数的比值,则A、B两个用户之间的依赖关系为用户A指向用户B,即用户A为用户B的用户父节点,用户B为用户A的用户子节点,即用户A为用户B的直接相似用户; 判断若A、B两个用户共同搜索关键词的个数占B用户所有搜索关键词个数的比值,大于A、B两个用户共同搜索关键词的个数占A用户所有搜索关键词个数的比值,则A、B两个用户之间的依赖关系为用户B指向用户A,即用户B为用户A的用户父节点,用户A为用户B的用户子节点,即用户B为用户A的直接相似用户; 判断若A、B两个用户共同搜索关键词的个数占B用户所有搜索关键词个数的比值,等于A、B两个用户共同搜索关键词的个数占A用户所有搜索关键词个数的比值,则进一步查看A、B两个用户之间是否已存依赖关系,是则针对A、B两个用户不做进一步操作;否则针对A、B两个用户之间随机设定依赖关系。4.根据权利要求1所述一种基于用户间相似关系的广告点击率预测方法,其特征在于:所述步骤004具体包括如下步骤: 分别针对贝叶斯网络模型中的各个用户节点,将用户节点作为当前用户节点,按如下步骤进行操作: 步骤004-1.判断当前用户节点是否存在用户父节点,是则进入步骤004-2;否则进入步骤004-5; 步骤004-2.获得当前用户节点所对应用户父节点的个数N,根据各个用户节点分别对应点击广告和不点击广告的两种状态,将点击广告状态定义为I,不点击广告状态定义为O,进而获得当前用户节点不同状态与其所有用户父节点不同状态之间组合所构成的2的N+1次方个状态,然后进入步骤004-3 ; 步骤004-3.分别针对当前用户节点与其所有用户父节点之间组合所构成的各个状态,进一步分别针对状态中的各个用户节点,若用户节点状态为I,则取该用户节点在预设筛选周期内其所有的搜索关键词作为该用户节点的临时关键词;若用户节点状态为0,则在预设筛选周期内,取贝叶斯网络模型中所有用户节点的所有搜索关键词与该用户节点的所有的搜索关键词的差集,作为该用户节点的临时关键词,然后进入步骤004-4; 步骤004-4.分别针对当前用户节点与其所有用户父节点之间组合所构成的各个状态,获得状态中所有用户节点临时关键词的交集的关键词个数与状态中当前用户节点的所有用户父节点临时关键词的交集的关键词个数的比值,作为当前用户节点在该状态中的后验概率;由此获得当前用户节点在其各个用户父节点点击广告和不点击广告两种状态的不同组合下,当前用户节点对应点击广告状态的后验概率,即获得当前用户节点以其各个用户父节点分别作为各个直接相似用户,在各个直接相似用户点击广告和不点击广告两种状态的不同组合下,当前用户节点对应点击广告状态的后验概率; 步骤004-5.针对当前用户节点对应点击广告的状态,则在预设筛选周期内,取当前用户节点所有搜索关键词个数与贝叶斯网络模型中所有用户节点的所有搜索关键词个数的比值作为当前用户节点对应点击广告状态的概率;同时,针对当前用户节点对应不点击广告的状态,则在预设筛选周期内,取贝叶斯网络模型中所有用户节点的所有搜索关键词与当前用户节点所有搜索关键词的差集的搜索关键词的个数与贝叶斯网络模型中所有用户节点的所有搜索关键词的个数的比值,作为当前用户节点对应不点击广告状态的概率;由此获得当前用户节点对应点击广告状态和不点击广告状态的概率。5.根据权利要求1所述一种基于用户间相似关系的广告点击率预测方法,其特征在于:所述步骤005中,采用吉布斯采样方法,根据贝叶斯网络模型的结构,以及不存在用户父节点的各个用户节点,对应点击广告状态和不点击广告状态的概率,分别针对贝叶斯网络模型中的各个用户节点,获得用户节点分别相对与其间接联系的其它各个用户节点在点击广告状态下,该用户节点对应点击广告状态的后验概率。6.根据权利要求5所述一种基于用户间相似关系的广告点击率预测方法,其特征在于:所述步骤005中,采用吉布斯采样方法,分别针对贝叶斯网络模型中的各个用户节点,将用户节点作为当前用户节点,获得当前用户节点分别相对与其间接联系的其它各个用户节点在点击广告状态下,当前用户节点对应点击广告状态的后验概率,具体包括如下步骤: 步骤005-1.在与当前用户节点间接联系的其它各个用户节点当中,将对应点击广告状态的用户节点作为证据变量e,当前用户节点作为目标变量t,将贝叶斯网络模型中除证据变量、目标变量以外的其它用户节点作为非证据变量q,分别针对贝叶斯网络模型中的各个用户节点,将用户节点的用户父节点、用户子节点,以及用户子节点的用户父节点作为该用户节点的马尔可夫覆盖;然后进入步骤005-2; 步骤005-2.初始化所有用户节点的状态作为第一个样本,将证据变量状态赋值为I,非证据变量随机赋予状态O或I,并进入步骤005-3; 步骤005-3.循环非证据变量,对每一个非证据变量q,利用步骤004中后验概率的计算,计算当前非证据变量q在其马尔可夫覆盖中每个用户节点状态条件下的其分别为O和I的后验概率,然后进入步骤005-4; 步骤005-4.随机产生一个在O至当前非证据变量q为O和I的条件概率之和的随机数,若该随机数小于等于其为O的条件概率,则将当前非证据变量的状态改为0,若该随机数大于其为O的条件概率,且小于其为O和I的条件概率之和,则将当前非证据变量的状态改为1,由此更新每一个非证据变量的状态作为新的样本,然后进入步骤005-5; 步骤005-5.重复步骤005-2至步骤005-4步骤,不断抽样产生新的样本,统计所有样本中目标变量状态为I的样本数n,计算目标变量状态为I的样本数η与抽样次数s的比值,即为当前用户节点在已确定某一用户节点状态为I的条件下其本身也为I的后验概率。7.根据权利要求1所述一种基于用户间相似关系的广告点击率预测方法,其特征在于:所述步骤007中归一化因子的获得通过如下方法: 首先在预设筛选周期内,获得目标预测用户的各个相似用户分别针对向其展示的各支广告的点击率之和,再计算I与该点击率之和的比值,即作为归一化因子。
【文档编号】G06Q30/02GK106096629SQ201610380746
【公开日】2016年11月9日
【申请日】2016年6月1日
【发明人】徐小龙, 刘欣欣
【申请人】南京邮电大学