一种互联网广告的个性化精准投放方法
【专利摘要】本发明提出了一种互联网广告的个性化精准投放方法。该方法根据用户点击广告的信号,来更新用户的特征向量和广告的特征向量;根据用户点击网页的信号,来更新用户的特征向量和网页的特征向量。多次使用上述方法更新多个用户、多个广告以及多个文档的特征向量。当一个用户点击一个网页后,根据该用户和该网页的特征向量,计算一组广告中每个广告的个性化排序值,并且根据该个性化排序值将所述一组广告中的至少一个广告呈现给该用户。本方法能够较好地解决推荐系统的数据稀疏性问题,实现互联网广告的个性化精准投放,进而提高互联网广告的点击率。
【专利说明】一种互联网广告的个性化精准投放方法
【技术领域】
[0001] 本发明涉及互联网领域,具体来说涉及一种互联网广告的个性化精准投放方法。
【背景技术】
[0002] 互联网广告是网络公司的主要变现方式,按点击付费是互联网广告的主要计费模 式。提高广告点击率,能够使网络公司、广告主和用户三方获益。
[0003] 常见的互联网广告,包括图片式广告、移动闪烁式广告,弹出式广告以及文本链接 广告等等。为提高广告点击率和展现率,网络公司通常根据网页的排名、广告的出价以及广 告与网页的相关程度来投放广告。现有广告投放技术的主要缺点是,无法根据用户的个性 化特征进行广告精准投放。在现有技术中不同用户在相同网页下看到的广告是相同的。由 于用户兴趣爱好千差万别,如果能够根据用户的个性化差异投放广告,将会显著提高广告 点击率和展现率。
[0004] 虽然现有的推荐系统也可以根据用户的特征投放个性化广告,但是该技术的缺 点是无法克服大数据应用环境下的数据稀疏问题。以协同过滤系统为例,它通过分析用 户兴趣,在用户群中找到与指定用户具有相似兴趣的用户,然后综合这些相似用户对某一 广告的点击浏览行为,形成该指定用户对此广告的关注程度预测,并据此向该指定用户推 荐广告。但是,在实际应用中发现99%以上的广告曝光没有用户点击浏览行为发生,例如 Facebook上的广告平均点击率小于1%。。因此,当推荐系统规模越来越大,用户和推荐广告 的数目会显著增加,这将造成两个用户之间选择相同推荐广告的概率非常低。如果以用户 和推荐广告之间已有的点击关系占所有可能存在的点击关系的比例来衡量系统的稀疏性, 那么现有推荐系统的稀疏度非常低,有的甚至达到百万分之一的量级。由于数据非常稀疏, 使得绝大部分基于关联分析的推荐系统,如协同过滤系统等,无法达到理想的应用效果。
【发明内容】
[0005] 鉴于上述现有技术存在的问题,本发明的目的在于提供一种互联网广告的个性化 精准投放方法,来提高互联网广告的点击率和展现率。
[0006] 根据以上所述的目的,本发明提出了一种互联网广告的个性化精准投放方法,其 特征在于,所述方法包括在接入互联网的服务器中执行如下步骤:
[0007] 步骤SI.获取并存储用户集U={1,2,...,M},网页集D={1,2,...,N},广告集A={1, 2,...,卩}以及特征集1(={1,2,...,1} ;
[0008] 步骤S2.为所述广告集A中的至少一个广告设置特征向量初始值;
[0009] 步骤S3.接收任一用户m(m e U)点击任一广告s(s e A)的信号,以及根据该信 号更新所述用户m的特征向量和所述广告s的特征向量;
[0010] 步骤S4.接收任一用户m(m e U)点击任一网页n(n e D)的信号,以及根据该信 号更新所述用户m的特征向量和所述网页η的特征向量;
[0011] 步骤S5.根据所述步骤S4中的所述信号,计算所述广告集A中的每个广告的个 性化排序值,并且根据所述个性化排序值将至少一个广告投放给所述用户m,返回所述步骤 S3 〇
[0012] 与现有技术相比,本方法能够根据用户点击广告日志和用户点击网页日志来获取 用户的个性化特征,以及根据用户的个性化特征和用户点击网页的信号,来实现互联网广 告的精准投放。该方法能够解决推荐系统的数据稀疏性问题,实现个性化广告的精准投放, 进而提高互联网广告的点击率和展现率。
【专利附图】
【附图说明】
[0013] 图1为在用户集U中每个用户的特征向量表示方法;
[0014] 图2为在网页集D中每个网页的参数向量表示方法;
[0015] 图3为在广告集A中每个广告的特征向量表示方法;
[0016] 图4为一种互联网广告的个性化精准投放方法流程图;
[0017] 图5为图4所述方法中步骤S3的具体实现方法;
[0018] 图6为图4所述方法中步骤S4的具体实现方法;
[0019] 图7为图4所述方法中步骤S5的具体实现方法。
【具体实施方式】
[0020] 结合附图对本发明方法作进一步详细说明。
[0021] 首先说明用户集U、网页集D、广告集A和特征集K的获取方法。该方法在接入互 联网的服务器中,获取并存储由多个用户标识组成的用户集U和由多个网页标识组成的网 页集D。所述用户标识是用户的唯一识别码,如用户帐号、手机号码、Cookie识别码、IP地 址、Email地址或者即时通信号码。所述网页标识是网页的URL地址。在互联网上获取多个 用户标识的一个例子是接收多个用户的注册信息并在其中提取用户标识,在互联网上获取 多个网页标识的一个例子是通过派遣蜘蛛程序在网络上进行搜索而获取多个网页的网址。 广告集A中的每个广告由广告唯一标识和广告描述两个部分组成。设所述用户集U含有M 个元素,所述网页集D含有N个元素,所述广告集A中含有P个元素。
[0022] 在所述接入互联网的服务器中,存储由多个特征标识组成的特征集K。所述多个特 征既是所述用户集U中用户的特征,又是所述网页集D中网页的特征,也是广告集A中每个 广告的特征。用户、网页和广告使用相同的特征集K。若用户具有"音乐"特征,说明用户爱 好音乐,而网页(或广告)具有"音乐"特征,说明网页(或广告)与音乐主题相关。设所 述特征集K含有L个元素。
[0023] 下面介绍用户、网页和广告的特征向量的表示方法。所述特征向量表示方法与向 量空间模型VSM的向量表述方法相似,即以特征项作为用户特征或网页特征的基本单位。 本专利中,以用户与各个特征的相关度的集合作为用户的特征向量,以网页与各个特征的 相关度的集合作为网页的特征向量,以广告与各个特征的相关度的集合作为广告的特征向 量。
[0024] 图1为在用户集U中每个用户的特征向量表示方法。在用户集U中任意一个用户 m (m e U)的特征向量设为(uwml, Uwm2,...,uwmk,...,UWml),其中所述uw mk表示所述用户m与 特征k(keK)的相关度。另外,将所述用户集U中的每个用户与特征k的相关度汇集在一 起,组成一个向量,叫做用户集U的第k个用户列向量(uwlk,uw2k,. . .,UWtt)。
[0025] 图2为在网页集D中每个网页的特征向量表示方法。在网页集D中任意一个网页 n (n e D)的特征向量设为(awnl, (Iwn2,. . . , (Iwnk,. . . , dwnI),其中所述(Iwnk表示所述网页η与 特征k(keK)的相关度。另外,将所述网页集D中的每个网页与特征k的相关度汇集在一 起,组成一个向量,叫做网页集D的第k个网页列向量(dw lk, dw2k, . . . , dwNk)。
[0026] 图3为在广告集A中每个广告的特征向量表示方法。在广告集A中任意一个广告 s (s e A)的特征向量设为(awsl, aws2, · · ·,awsk, · · ·,awsI),其中所述awsk表示所述广告s与 特征k(keK)的相关度。另外,将所述广告集A中的每个广告与特征k的相关度汇集在一 起,组成一个向量,叫做广告集A的第k个广告列向量(aw lk,aw2k,. . .,awpk)。
[0027] 所述相关度是一个非负实数值,它表示用户、网页或者广告与特征集K中的某个 特征的关系紧密程度。如果一个用户、网页或者广告与音乐特征关联多一点与体育特征 关联少一点,我们就说该用户、网页或者广告与音乐特征的相关度高,与体育特征的相关度 低。另外在特征选取时,有些特征之间是具有相关性的,因此可以通过减少特征之间的相关 性来降低特征集K的维度,减少服务器存储和计算的负荷,提高算法效率。有些特征不必直 接列入特征集K中,因为这些特征的相关度可以通过特征集K中的一个或几个其它特征的 相关度计算出来。
[0028] 下面说明广告、用户和网页的特征向量初始值的设置方法。本专利方法需要对广 告集A中的一部分广告设置特征向量初始值,同时也可以对用户集U中的一部分用户设置 特征向量初始值,以及对网页集D中的一部分网页设置特征向量初始值。广告、用户或网页 的特征向量初始值的取值范围通常设为对于每个s e A、m e U、n e D和k e K,有awsk e [0, 1],Uwmk e [0,ι]和dwnk e [0,ι]。如果广告、用户或网页的特征向量没有被设置初始值, 其特征向量初始值缺省设为零向量。下面以广告s、用户m和网页η为例说明特征向量初始 值设置方法。
[0029] 例1.直接设置法。例如设置特征总数L=5,特征集K=(科学,教育,财经,音乐,体 育),设置所述广告s的特征向量(aw sl, aws2, aws3, aws4, aws5)的初始值为(0,0· 9,0,1,0),即 广告s与"教育"特征的相关度为〇. 9,与"音乐"特征的相关度为1,与其它特征的相关度 均为零。同样方法可设置用户m的特征向量(uwml,uw m2, uwm3, uwm4, uwm5)的初始值,以及设 置所述网页η的特征向量(dwnl, (Iwn2, dwn3, dwn4, dwn5)的初始值。
[0030] 例2.设置用户m(m e U)的特征向量初始值的方法。首先由所述用户m提交一组 网页集合 H={···,r,··· } (HcD),所述网页 r(r e H)的特征向量为(dwrl, dwr2,···,dwrI), 然后对于每个特征keK,设置uwmk=(〇 / χ) ·Σ freH)dwA,其中x为所述集合H的元素个 数,σ为预设常数。同样方法,所述用户m也可以在所述用户集U中选择一组用户来计算 所述用户m的特征向量初始值。
[0031] 例3.设置网页的特征向量初始值的方法。分类目录是一种特殊网页,比如门户网 站通常包括新闻、音乐、体育、财经和科技等分类目录。我们假设相同分类目录下的网页具 有某些相同的特征,例如体育目录下的网页都与体育相关。如果所述网页n(n e D)是分类 目录h (h e D)下的一个网页,则所述网页η的特征向量初始值由所述分类目录h的特征向 量来决定。例如对于每个keK,设置dwnk=〇 ^dwhk,其中σ为预设常数。
[0032] 每个广告、用户和网页都设有其特征向量是否可被更新的标志,所述标志为1表 示广告、用户或网页的特征向量可以被更新,所述标志为O表示特征向量不可以被更新。
[0033] 图4为一种互联网广告的个性化精准投放方法流程图。该流程图包括在接入互联 网的服务器中执行如下步骤:
[0034] 步骤SL获取并存储用户集U={1,2,···,M},网页集D={1,2,···,N},广告集A={1, 2,···,Ρ}以及特征集 K= {1,2,...,L};
[0035] 步骤S2.为所述广告集A中的至少一个广告设置特征向量初始值;
[0036] 步骤S3.接收任一用户m(m e U)点击任一广告s(s e A)的信号,以及根据该信 号更新所述用户m的特征向量和所述广告s的特征向量;
[0037] 步骤S4.接收任一用户m(m e U)点击任一网页n(n e D)的信号,以及根据该信 号更新所述用户m的特征向量和所述网页η的特征向量;
[0038] 步骤S5.根据所述步骤S4中的所述信号,计算所述广告集A中的每个广告的个 性化排序值,并且根据所述个性化排序值将至少一个广告投放给所述用户m,返回所述步骤 S3 〇
[0039] 在图4所述的方法中,所述用户m代表用户集U中的任何一个用户,而不特指某个 用户,所述网页η代表网页集D中的任何一个网页,而不特指某个网页,所述广告s代表广 告集A中的任何一个广告,而不特指某个广告。例如某次执行所述步骤S3至S4时m=1023, n=3428, s=305,而下一次执行所述步骤 S3 至 S4 时 m=33456, n=28477, s=1049。
[0040] 在图4所述的方法的一个应用实例中,所述方法还包括在执行所述步骤S3至S4 达到预设次数后,在每个特征k e K下,分别对第k个用户列向量(uwlk,uw2k,...,uwMk)、对 第k个网页列向量(dw lk, dw2k,…,dwa)以及对第k个广告列向量(awlk,aw 2k,…,awpk)进 行规范化处理的步骤。以下的两个例子是以第k个用户列向量(uw lk,uw2k,. . .,WMk)为例 说明规范化处理步骤。同样方法,可以对第k个网页列向量和第k个广告列向量进行规范 化处理。根据设置要求,某些广告、用户和网页的特征向量不能使用如下方法进行规范化处 理。
[0041] 例1.对用户集U中第k个用户列向量(uwlk,uw2k,...,Uwtt)进行规范化处理的 方法如下:对于特征向量可被更新的每个用户m e U,如果uwmk彡Umax(k)则设uwmk=l,否 贝 1J设置UWmk=Uwmk / Umax(k),其中所述Umax(k)为第k个用户列向量(uwlk,uw 2k, ...,Uw1J中 数值最大的M1个分量的平均值,所述M1为预设常数,或者设置所述U max (k)为预设常数,如 Umax(k)=l. 02。
[0042] 例2.对用户集U中第k个用户列向量(uwlk,uw2k,...,Uwtt)进行规范化处理的 方法如下:对于特征向量可被更新的每个用户m e U,如果uwmk彡Umax(k)则设uwmk=l,否则 设置 uw^hjin^k / Umax (k)],其中所述 Umax(k)为第 k 个用户列向量(uwlk,uw2k,...,uwMk) 中数值最大的M 1个分量的平均值,所述M1为预设常数,或者设置所述Umax (k)为预设常数。 所述bOc)为增函数,比如设Iltl(X)=Xuw,所述u(k)为与特征k相关的预设常数,例如设置 u(k) e [1 / 5,5]。
[0043] 在图4所述方法的一个应用实例中,所述步骤S2还包括为所述用户集U中的至少 一个用户设置特征向量初始值,以及为所述网页集D中的至少一个网页设置特征向量初始 值的步骤。
[0044] 图5为图4所述方法中步骤S3的具体实现方法。包括如下步骤:
[0045] 步骤S31.接收任意一个用户m(m e U)点击任意一个广告s(s e A)的信号;
[0046] 步骤S32.根据所述信号,读取所述用户m的特征向量(uwml,uwm2, . . .,uwmk,..., uwmL·),其中所述uwmk表示所述用户m与特征k(k e κ)的相关度;
[0047] 步骤S33.根据所述信号,读取所述广告s的特征向量(awsl, aws2, · · ·,awsk, · · ·, awsI),其中所述awsk表示所述广告s与特征k(k e K)的相关度;
[0048] 步骤S34.应用如下算法,更新所述用户m和所述广告s的特征向量,
[0049] UWmk=UWmk+ λ 工(s,m,k) · A (awsk)(对于每个kE AKs g K:)
[0050] awsk=awsk+ λ 2 (m,s,k) · f2 (Uwmk)(对于每个kEUKm[K:)
[0051] 其中所述X1 (S,m,k)为在所述特征k下所述广告s对所述用户m的影响系数, λ Js, m, k)彡0,所述λ 2(m,s,k)为在所述特征k下所述用户m对所述广告s的影响系 数,A2(m,s,k) 和&〇〇均为非负增函数,所述UK m是由所述用户m的特征向量 (uwml, UWm2,UWmk, UWml)中数值最大的Pm个分量所对应的特征组成的集合,所述AKs 是由所述广告s的特征向量(awsl, aws2, · · ·,awsk, · · ·,awsI)中数值最大的Qs个分量所对应 的特征组成的集合,所述Pm和所述Q s为预设常数。
[0052] 在图5所述方法的一个应用实例中,所述f^aWsi^oHaWsk/X^keAKOaWsijaW, 所述f^UWmi^GHuWmk/I^lceUKnOUWmk]11?,其中,所述a (k)和U (k)是与特征k相关的 预设常数,例如设置a(k) e [1 / 5,5]和u(k) e [1 / 5,5],所述〇1和〇2为预设常数。
[0053] 在图5所述方法的一个应用实例中,所述(awsk) = 〇 i · [awsk]a(k),所述 f2(wmk) = 〇2· [wmk]u(k),其中,所述a(k)和所述u(k)是与特征k相关的预设常数,例如设 置 a(k) e [I / 5,5],u(k) e [1 / 5,5],所述 O2 为预设常数。
[0054] 在图5所述方法的一个应用实例中,设置所述(awsk)和所述f2 (Uwmk)的上界分别 为 D1 和 D2,如果 (awsk)彡 D1 则设置 (awsk) =D1,如果 f2 (Uwmk)彡 D2 则设置 f2 (Uwmk) =D2,其 中所述D1和D2是预设常数。对每个特征k e K,如果Cknk小于预设常数,则取(awsk) =0, 如果UWmk小于预设常数,则取f2 (UWmk) = 0。
[0055] 在图5所述方法的一个应用实例中,所述影响系数λ Js,m,k)和所述影响系数 λ 2(m,s,k)的具体设置方法包括如下实例:
[0056] 例1.所述λ Js7Iiuk)和所述λ 2(m,s,k)分别是所述用户m和所述广告s的特征 向量之间的相似度sim(m,s)的增函数。例如设置λ 士,m,IO=I^c1 · sim(m,s),λ 2(m, s, k)=l+c2 · sim(m,s),其中C1和c2为预设常数,且
[0057] sim (m, s) = [ Σ (k e K) (uwmk · awsk) ] / {[ Σ (k e K) (uwrnk)2]1/2 · [ Σ (k e K) (awsk)2]1/2}
[0058] 这个例子的含义是所述用户m和所述广告s的特征向量之间的相似度越高,它们 彼此"投票"的比例系数越大。另外,在计算sim(m, s)时,如果awsk彡min_aCk,则取awsk=0, 如果uw mk彡min_uCk,则取uwmk=0,其中min_aCk和min_uC k分别是与特征k相关的预设常数。
[0059] 例2.所述λ i (s, m, k)是Id1 (k)的增函数,所述λ 2 (m, s, k)是b2(k)的增函数,比 如设置λ i (s, m, k) =Id1 (k)以及设置λ 2 (m, s, k) =b2 (k),其中所述Id1 (k)和所述b2 (k)分别是 与特征k相关的预设正常数。
[0060] 例3.所述λ i (s, m, k)和所述λ 2 (m, s, k)分别是所述用户m点击所述广告集A的 频次的减函数,如设 λ 丨(s, m, k)=l / hJfreqOn)],λ 2(m, s, k)=l / hJfreqOn)]。所述Ii1(X) 为增函数,比如设所述111(叉)为分段函数,若叉〈31则113(叉)=1,若^;彡3 1则111(叉)=1+32(叉-&1), 若X彡贝_ λ i (s,m,k) = O和λ 2(m,s,k)=0,其中a" a2和a3为预设正常数。所述 freq(m)为所述用户m点击所述广告集A中的广告的频次,所述频次是指在预设时段内所述 用户m点击所述广告集A中的广告的次数。
[0061] 例4.所述λ2(ηι,s,k)是所述广告s被点击频次的减函数,如设λ 2(ηι,s,k)=l / h2[freql(s)],其中所述1!2〇〇为增函数,所述h 2(x)的设置方法与所述Ill(X)相似。所述 freql (s)为所述广告s被点击的频次,所述频次是指在预设时段内所述广告s被点击的次 数。
[0062] 例5.所述入1(8,111,1〇是{[[(1^/^)3从5]<;]/[[(1^10&'\¥5) <;]}的增函数,所述入2(111,8,1〇 是{[Z(keUKm)UWmk]/[Z(keK)UWmk]}的增函数。比如设置tmpdl^keAKoaWsiJ/I^k 味)已'^1<;]},则入1(8,111,10=1+〇.1:1]5)1,比如设置1;111卩2 ={[2](1^1]&11)11\¥111](]/[[(1^10口评1111 <]}, 则X2(m,s,k)=l+0 ^tmp2,其中所述σ为预设常数。
[0063] 例 6.所述 λ 丄(s, m, k) =B1 (s) · U2 (m),所述 λ 2 (m, s, k) =U1 (m) · a2 (s),其中 B1 (s) 表示广告s的特征向量是否可以用于更新用户集U中用户的特征向量,U2(Hi)表示用户m的 特征向量是否可以被广告集A中广告的特征向量更新,U 1 (m)表示用户m的特征向量是否可 以用于更新广告集A中广告的特征向量,a2(s)表示广告s的特征向量是否可以被用户集U 中用户的特征向量更新。U1 (m),u2 Onha1(S)和%(8)是预设参数,它们的取值为0或者1。 1代表是,〇代表否。
[0064] 例 7.所述 λ Js,!!!,k)=a(xs),所述 λ 2(m, s, k)=b(ym),其中所述 Xs 为所述广告 s 的重要程度分值,比如所述广告s的被点击次数或者出价,所述ym为所述用户m的重要程 度分值,比如所述用户m的粉丝数量,所述a (X)和b(y)均为增函数,所述a (X)把X映射到 一个预设区间[l,d],所述b(y)把y映射到一个预设区间[l,e],其中d和e为预设常数。
[0065] 例8.使用上述例1至例7所述各方法中的至少两种方法的组合,来生成所述 λ i (s, m, k)和 λ 2 (m,s,k),比如
[0066] λ i (s,m,k) = [1+(^ · sim(m,s) ] · Iia1 (s) · U2 (m) ] · Id1 (k) · a (Xs)
[0067] λ 2(m, s, k) = [l+c2 · sim(m, s)] · [U1 (m) · a2 (s) ] *b2(k) · b (ym)
[0068] 图6为图4所述方法中步骤S4的具体实现方法。包括如下步骤:
[0069] 步骤S41.接收任意一个用户m(m e U)点击任意一个网页n(n e D)的信号;
[0070] 步骤S42.根据所述信号,读取所述用户m的特征向量(uwml, uwm2, ...,uwmk,..., uwmL·),其中所述uwmk表示所述用户m与特征k(k e K)的相关度;
[0071] 步骤S43.根据所述信号,读取所述网页η的特征向量(dwnl, (Iwn2, . . . , (Iwnk,..., dw"L),其中所述dwnk表示所述网页η与特征k(k e K)的相关度;
[0072] 步骤S44.应用如下算法,更新所述用户m和所述网页η的特征向量,
[0073] UWmk=UWmk+ λ 3 (n, m,k) · f3 ((Iwnk)(对于每个kG DKn Q Κ:)
[0074] (Iwnk=Clwnk+ λ 4 (m,n,k) · f4 (uwmk)(对于每个keUKmQ K )
[0075] 其中,所述X3(n,m,k)为在所述特征k下所述网页η对所述用户m的影响系数, 且A 3(n,m,k)彡0,所述X4(m,n,k)为在所述特征k下所述用户m对所述网页η的影响系 数,且λ 4(m, n, k) > 0, f3(x)和f4(x)均为非负增函数,所述UKm是由所述用户m的特征向 量(UWml, UWm2, ...,UWmk, ...,UW1J中数值最大的Pm个分量所对应的特征组成的集合,所述 DKn是由所述网页η的特征向量(dwnl, (Iwn2, . . . , dwnk,. . . , (Iwhl)中数值最大的Rn个分量所 对应的特征组成的集合,所述Pm和所述R n为预设常数。
[0076] 在图6所述方法的一个应用实例中,所述f3(dwnk) =G3.tdwnk/X^keDKj〇dwniJd( k), 所述,其中所述d (k)和所述U (k)是与特征k相关 的预设常数,例如设d(k) e [I / 5,5],u(k) e [1 / 5,5],所述〇3和〇4为预设常数。
[0077] 在图6所述方法的一个应用实例中,所述f3 ((Iwnk) = σ 3 · [dwnk]d(k),所述 f4 (Wmk) = σ 4 · [wmk]u(k),其中所述d (k)和所述u (k)是与特征k相关的预设常数,例如设置 d(k) e [I / 5,5],u(k) e [1 / 5,5],所述 〇3和 σ4 为预设常数。
[0078] 在图6所述方法的一个应用实例中,设置所述f3 (dwnk)和所述f4 (Uwnik)的上界分别 为 D3 和 D4,如果 f3 (dwj > D3 则设置 f3 (dwj = D3,如果 f4 (uwj > D4 则设置 f4 (Uwmk) =D4,其 中所述D3和D4是预设常数。对于每个特征k e K,如果Cknk小于预设常数,则取f3 (Cknk) =0, 如果UWmk小于预设常数,则取f4 (UWmk) =0。
[0079] 在图6所述方法的一个应用实例中,所述影响系数λ 3(n,m,k)和所述影响系数 A4(m,n,k)的具体设置方法,包括如下实例:
[0080] 例1.所述λ 3(n, m, k)和所述λ 4(m,n,k)分别是所述用户m和所述网页η的 特征向量之间的相似度sim(m, η)的增函数。例如设置λ 3(n, m, k)=l+c3 · sim(m,η), λ 4(m, n, k)=l+c4 · sim(m, η),其中 c3 和 c4 为预设常数,且
[0081 ] sim (m, η) = [ Σ (k e K) (uwmk · dwnk) ] / {[ Σ (k e K) (uwmk)2]1/2 · [ Σ (k e K) (dw^)2]1/2}
[0082] 这个例子的含义是所述用户m和所述网页n的特征向量之间的相似度越高,它们 彼此"投票"的比例系数越大。另外,在计算sim(m,n)时,如果(Iw nk彡mindCk,则取dwnk=0, 如果uwmk彡min_uC k,则取uwmk=0,其中min_dCk和min_uCk分别是与特征k相关的预设常数。
[0083] 例2.所述λ 3(n, m, k)是Id1 (k)的增函数,所述λ 4(m, n, k)是b2(k)的增函数,比 如设置λ 3 (n, m, k) =Id1 (k)以及设置λ 4 (m, n, k) =b2 (k),其中所述Id1 (k)和所述b2 (k)分别是 与特征k相关的预设正常数。
[0084] 例3.所述λ 3 (n, m, k)和所述λ 4 (m, n, k)分别是所述用户m点击所述网页集D的 频次的减函数,如设 X3(n,m,k)=l / h3[freq(m)],X4(m,n,k)=l / h3[freq(m)]。所述h3(x) 为增函数,比如设所述113 (X)为分段函数,若x〈ajljh3 (x)=l,若x彡B^lJh3(X)=Ha2(X-B1), 若X彡S 3M1则取λ 3(n,m,k)=0和λ 4(m,n,k)=0,其中a2和a3为预设正常数。所述 freq(m)为所述用户m点击所述网页集D中的网页的频次,所述频次是指在预设时段内所述 用户m点击所述网页集D中的网页的次数。
[0085] 例4.所述λ 4 (m, n, k)是所述网页η被点击频次的减函数,如设λ 4 (m, n, k) =1 / h4[freql(n)],其中所述比")为增函数,其设置方法与所述h3(x)相似,所述freql(n)为 所述网页η被点击的频次,所述频次是指在预设时段内所述网页η被点击的次数。
[0086] 例 5.所述 λ 3 (n,m,k)是{ [Z(keDKn)dwnk]/[ Z(keK)dwnk] }的增函数,所述 λ 4 (m,n,k) 是{[ Z(I^UKm)UWmk]/!; Z(keK)uwmk]}的增函数。比如设置 tmpd [ [(keDKn) dwnk]/[ Z(k eK)dwnk]}JJ A3(n,m,k)=l+〇 Hmp1,比如设置tmpfUZo^uKnoUWmkMhkeioUWmk]},则 X4(m,n,k)=l+〇 .tmp2,其中所述σ为预设常数。
[0087] 例 6.所述 λ 3 (n, m, k) =Cl1 (η) · u2 (m),所述 λ 4 (m, n, k) =U1 (m) · d2 (η),其中(I1 (η) 表示网页η的特征向量是否可以用于更新用户集U中用户的特征向量,U2(Hi)表示用户m的 特征向量是否可以被网页集D中网页的特征向量更新, Ul(m)表示用户m的特征向量是否可 以用于更新网页集D中网页的特征向量,d2 (η)表示网页η的特征向量是否可以被用户集U 中用户的特征向量更新。U1 (m),u2 Onhd1 (η)和(12 (η)是预设参数,它们的取值为O或者1。 1代表是,〇代表否。
[0088] 例 7.所述 λ 3(n,m,k)=c(zn),所述 λ 4(m,n,k)=b(ym),其中所述 ζη 为所述网页 η 的重要程度分值,比如所述网页η的被点击次数或者PageRank值。所述ym为所述用户m的 重要程度分值,比如所述用户m的粉丝数量,所述c (z)和b (y)均为增函数,所述c (z)把z 映射到一个预设区间[I,d],所述b (y)把y映射到一个预设区间[I,e],其中d和e为预设 常数。
[0089] 例8.使用上述例1至例7所述各方法中的至少两种方法的组合,来生成所述 λ 3 (n,m,k)和 λ 4 (m,n,k),比如
[0090] λ 3 (η, m, k) = [l+c3 · sim(m, η) ] · [(I1 (η) · u2 (m) ] · Id1 (k) · c (ζη)
[0091] λ 4(m, η, k) = [l+c4 · sim(m, η)] · [U1 (m) *d2(n)] · b2 (k) · b (ym)
[0092] 在图6所述方法的一个应用实例中,所述步骤S4中接收到的信号是在一预设时段 内从用户点击网页的众多信号中随机抽取的。例如在所述一预设时段内,对所述用户集U 中的每个活跃用户抽取相同数量的点击信号作为所述步骤S4的所述信号。所述活跃用户 是指在所述一预设时段内,点击所述网页集D达到预设次数的用户。
[0093] 图7为图4所述方法中步骤S5的具体实现方法。包括如下步骤:
[0094] S51.根据所述步骤S4的所述信号,读取所述用户m的特征向量(uwml,uwm2,..., uwmk,...,UWnJ,其中所述uwmk表示所述用户m与特征k (k e K)的相关度;
[0095] S52.根据所述步骤S4的所述信号,读取所述网页η的特征向量(dwnl, (Iwn2, , (Iwnk,. . . , dwnI),其中所述dwnk表示所述网页η与特征k(k e K)的相关度;
[0096] S53.根据所述用户m的特征向量、所述网页η的特征向量以及所述广告集A中每 个广告的特征向量,计算所述广告集A中每个广告的个性化排序值;
[0097] S54.根据所述个性化排序值对所述广告集A中的每个广告进行排序,以及根据排 序结果将至少一个广告投放给所述用户m。
[0098] 在图7所述方法的一个应用实例中,所述个性化排序值的计算方法如下。用AR(g, m)表示广告g(g e A)与用户m(m e U)的相似度,用DR(g, η)表示广告g(g e A)与网页 η (n e D)的相似度,用Rank (g I m, η)表示在用户m点击网页η的前提下广告g的个性化排 序值,因此,有如下定义:
[0099] AR (g, m) = [ Σ (k e K) (awgk · uwmk) ] / {[ Σ (k e K) (awgk)2]1/2 · [ Σ (k e K) (uwmk)2]1/2}
[0100] DR (g, n) = [ Σ (k e k) (awgk · dwnk) ] / {[ Σ (k e K) (awgk)2]1/2 · [ Σ (k e K) (dwnk)2]1/2}
[0101] Rank (g I m, n) = β · AR(g, ηι) + (1-β ) *DR(g, n)
[0102] 其中所述awgk表示广告g与特征k(k e K)的相关度,所述丽^表示用户m与特征 k(k e K)的相关度,所述^^表示网页η与特征k(k e K)的相关度,β是一个预设常数, 且 β e [0,ι]。
[0103] 应用实例I
[0104] 这是图5所述方法的一个具体实现方法。假设在互联网上有两个用户和三 幅广告,即用户集U={1,2},广告集A={1,2,3}。设特征集K={1,2},P 1=P2=Q1=Q2=Qg, 且UK1=UK 2=AK1=AK2=AK3=K= {1,2}。用户1和用户2的特征向量分别设为(Uw11,Uw12)和 (UW21, UW22),广告1、广告2和广告3的特征向量分别设为(awn, aw12)、(aw21, aw22)和 (aw31, aw32),其中uwmk表示所述用户m e U与特征k的相关度,awsk表示所述广告s e A与 特征k的相关度。对于任意广告s e A设置对于任 意用户 m e U 设置f^UWmj^Gs.tuWmk/hkeuK-UWmk]·)。
[0105] 多次接收用户对广告的点击信号,并分别更新用户和广告的特征向量。例如当收 至IJ了用户2点击广告3的信号后,则根据所述步骤S34的算法以及Waw sk)和以11~)的上 述定义,对用户2和广告3的特征向量进行如下更新:
[0106] UW21=Uw21+λ 丄(3, 2,1) · 〇 1 · [aw 31 / (aw31+aw 32) ] "1)
[0107] UW22=Uw22+λ 丄(3, 2, 2) · 〇 i · [aw32 / (aw 31+aw32) ] "2)
[0108] aw31=aw31+λ 2 (2, 3,1) · σ 2 · [uw 21 / (uw21+uw 22) ]uW
[0109] aw32=aw32+λ 2 (2, 3, 2) · 〇 2 · [uw22 / (uw 21+uw22) ]u?
[0110] 其中,0 i = σ 2=001,a(l)=a⑵=u⑴=11(2)=1, λ "3,2,10 表示在所述特征 k e K 下所述广告3对所述用户2的影响系数,λ 2 (2,3, k)表示在所述特征k e K下所述用户2 对所述广告3的影响系数,且对于每个k e K有
[0111] λ i(3,2, kXl+Ci · sim(2,3)] · {1 / hjfreq⑵]} · Id1GO · Iia1O · u2(2)]
[0112] λ 2 (2, 3, k) = [l+c2 · sim(2, 3) ] · {1 / h1[freq(2)]} · b2 (k) · [U1 (2) · a2 (3)]
[0113] 其中,C1=C2=S, sim(2, 3) = (uw21 · aw31+uw22 · aw32) / {[ (Uw21)2+(Uw22)2]1/2 ·[ (a w31)2+(aw32)2] 1/2},Ii1(X)=Ha2(X-B1), 8^300,a2=0. 01,freq(2)=500,Id1(I) = b2(l)=l, b1 (2) =b2 (2) =1. 5, U1 (2) =U2 (2) = B1 (3) =a2 (3) =1 〇
[0114] 在执行完上述算法后,对用户列向量(uwn, uw21)和(uw12, uw22)进行规范化处理, 以及对广告列向量(awn,aw21,aw 31)和(aw12,aw22,aw32)进行规范化处理。
[0115]对用户列向量规范化处理的算法如下:设HWT=Inax(UWlbUw21),则对于特征 k=l 设置Uw11 = UW11ZnW^, Uw2I =uw21/nW^;设HWp=Inax(UW125Uw22),则对于特征 k=2 设置UW12 = UW12/UW2, UW22 = UW22/ UW2 O
[0116] 对广告列向量规范化处理的算法如下:设IW^zmaxbwAawAaww),则对 于特征 k=l 设置 awn^awu/awi,aw2i = aw2i/aw7, aw31 = aw31/aw!;设- max(awi2,aw22,aw32),则对于特征 k=2 设置 aWl2_aWl2'aw2,aW22_aW22^aW2, aw32 = aw32/ aw2 〇
[0117] 应用实例2
[0118] 这是图6所述方法的一个具体实现方法。假设在互联网上有两个用户和三个 网页,即用户集υ={1,2},网页集D=U,2, 3}。设特征集K={1,2},P1=P2=R1=R2=Rg,且 UK1=UK2=DK1=DK2=DK3=K=U, 2丨。用户1和用户2的特征向量分别设为(uwn,UW12)和(UW 21, UW22),网页1、网页2和网页3的特征向量分别设为(dwn, dw12)、(dw21, dw22)和(dw31, dw32), 其中uwmk表示所述用户m e U与特征k的相关度,dwnk表示所述网页n e D与特征k的相关 度。对于任意网页n e D设置f3(dwnk)=G3_[dwnk/[(keDK n)dwnk]d(k),对于任意用户m e U 设置f^UWmk^G^UWmkGikeUKnOUWmk]1^,所述d (k)和所述U (k)是与所述特征k相关 的预设常数。
[0119] 多次接收用户对网页的点击信号,并分别更新用户和网页的特征向量。例如当收 至IJ了用户2点击网页3的信号后,则根据所述步骤S44的算法以及f 3(dwnk)和&(^〇的上 述定义,对用户2和网页3的特征向量进行如下更新:
[0120] UW21=Uw21+λ 3 (3, 2,1) · σ 3 · [dw31 / (dw31+dw32) ] "1)
[0121] UW22=Uw22+λ 3 (3, 2, 2) · 〇 3 · [dw32 / (dw31+dw32) ] "2)
[0122] dw31=dw31+λ 4 (2, 3,1) · σ 4 · [uw21 / (uw21+uw22) ]uW
[0123] dw32=dw32+λ 4 (2, 3, 2) · 〇 4 · [uw22 / (uw21+uw22) ]u?
[0124] 其中,〇 3= σ 4=〇. 01,d(l) = d(2)=u(l)=u(2)=l, λ 3(3, 2, k)表示在所述特征 k 下 所述网页3对所述用户2的影响系数,λ 4 (2, 3, k)表示在所述特征k下所述用户2对所述 网页3的影响系数,且对于每个k e K有
[0125] λ 3 (3, 2, k) = [l+c3 · sim(2, 3) ] · {1 / h3 [freq (2) ]} · Id1 (k) · [(I1 (3) · U2 (2)]
[0126] λ 4(2,3, k) = [l+c4 · sim(2,3)] · {1 / h3[freq(2)]} · b2 (k) · [U1 (2) · d2 (3)]
[0127] 其中,c3=c4=5, sim(2, 3) = (uw21 · (^31+ιη^2 · dw32) / {[ (Uw21)2+(Uw22)2]1/2 ·[( dw31)2+(dw32)2]1/2},Ii 3(X)=I^a2(Xi1), 8^300,a2=0. 01,freq(2) =500,Id1(I)=Id2(I)=I, Id1 (2) =b2 (2) =1. 5, U1 (2) =U2 (2) =Cl1 (3) = d2 (3) =1。
[0128] 在执行完上述算法后,对用户列向量(UW11UW21)和(uw 12,uw22)进行规范化处理,以 及对网页列向量(dwn, dw21, dw31)和(dw12, dw22, dw32)进行规范化处理。
[0129] 对用户列向量规范化处理的算法如下:设=max( UW11,uw21),则对于特征 k=l 设置Uw11 = UW11Znw^, Uw2I=Uw21Zuw1 H^HW^=max(Iiw12,UW22),则对于特征 k=2 设置UW12 = UW12/ UW2,UW22 = UW22/ UW^〇
[0130] 对网页列向量规范化处理的算法如下:设dw^^max^dwmdwzhdw^),则对 于特征 k=l 设置Ciw11 = Ciw11Zdw1, Ciw2I = Ciw2IZdw1, = max(dw12,dw22,dw32),则对于特征 k=2 设置 dwusdwn/dwz,dw22 = dw22/dw2 , dw32= dw32/ dw2 〇
[0131] 以上所述应用实例仅为本发明的较佳的应用实例,并非用以限定本发明的保护范 围。
【权利要求】
1. 一种互联网广告的个性化精准投放方法,其特征在于,所述方法包括在接入互联网 的服务器中执行如下步骤: 步骤SI.获取并存储用户集U= {1,2,...,11},网页集0={1,2,...,《,广告集六={1, 2,...,卩}以及特征集1(={1,2,...,1}; 步骤S2.为所述广告集A中的至少一个广告设置特征向量初始值; 步骤S3.接收任一用户m(meU)点击任一广告s(seA)的信号,以及根据该信号更 新所述用户m的特征向量和所述广告s的特征向量; 步骤S4.接收任一用户m(meU)点击任一网页n(neD)的信号,以及根据该信号更 新所述用户m的特征向量和所述网页η的特征向量; 步骤S5.根据所述步骤S4中的所述信号,计算所述广告集A中的每个广告的个性化排 序值,并且根据所述个性化排序值将至少一个广告投放给所述用户m,返回所述步骤S3。
2. 根据权利要求1所述的方法,其特征在于,所述步骤S2还包括为所述用户集U中的 至少一个用户设置特征向量初始值,以及为所述网页集D中的至少一个网页设置特征向量 初始值的步骤。
3. 根据权利要求1所述的方法,其特征在于,所述步骤S3的一种具体实现方法包括如 下步骤: 步骤S31.接收任意一个用户m(meU)点击任意一个广告s(seA)的信号; 步骤S32.根据所述信号,读取所述用户m的特征向量(uwml,uwm2,. . .,uwmk,. . .,UWml), 其中所述uwmk表示所述用户m与特征k(keK)的相关度; 步骤S33.根据所述信号,读取所述广告s的特征向量(awsl,aws2, · · ·,awsk, · · ·,awsI), 其中所述awsk表示所述广告s与特征k(keK)的相关度; 步骤S34.应用如下算法,更新所述用户m和所述广告s的特征向量, UWmk=UWmk+λi(S,m,k) · (awsk)(对于每个keAKsQK)awsk=awsk+λ2 (m,s,k) ·f2 (uwmk)(对于每个k£UKj"£K:) 其中,所述A1 (s,m,k)为在所述特征k下所述广告s对所述用户m的影响系数,且λi(s,m,k)彡0,所述λ2 (m,s,k)为在所述特征k下所述用户m对所述广告s的影响系数, 且A2(m,s,k) >0,A(X)和&〇〇均为非负增函数,所述UKm是由所述用户m的特征向量 (uwml,UWm2,...,UWmk,...,UWml)中数值最大的Pm个分量所对应的特征组成的集合,所述AKs 是由所述广告s的特征向量(awsl,aws2,· · ·,awsk,· · ·,awsI)中数值最大的Qs个分量所对应 的特征组成的集合,所述Pm和所述Qs为预设常数。
4. 根据权利要求3所述的方法,其特征在于,所述方法还包括在执行所述步骤S3达到 设定次数后,在每个特征keK下,分别对第k个用户列向量uwlk,uw2k,...,Uwltlk)和第k个 广告列向量(awlk,aw2k, . . . ,awpk)进行规范化处理的步骤。
5. 根据权利要求3所述的方法,其特征在于,在所述方法的一个应用实例中所述 fKaWskhaHaWsk/hkeAKOaWsk]^),所述f^UWmkhGHuWmk/hkeUKnOUWmk]1100,其中 O:和O2为预设常数,所述a(k)和所述u(k)是与特征k相关的预设常数。
6. 根据权利要求3所述的方法,其特征在于,所述影响系数A1(^nuk)和所述影响系 数λ2(m,s,k)分别是所述用户m的特征向量和所述广告S的特征向量之间的相似度的增 函数。
7. 根据权利要求1所述的方法,其特征在于,所述步骤S4的一种具体实现方法包括如 下步骤: 步骤S41.接收任意一个用户m(meU)点击任意一个网页n(neD)的信号; 步骤S42.根据所述信号,读取所述用户m的特征向量(uwml,uwm2,. . .,uwmk,. . .,UWml), 其中所述uwmk表示所述用户m与特征k(keK)的相关度; 步骤S43.根据所述信号,读取所述网页η的特征向量(dwnl,dwn2, . . .,dwnk, . . .,dwnI), 其中所述dwnk表示所述网页n与特征k(keK)的相关度; 步骤S44应用如下算法,更新所述用户m和所述网页η的特征向量, UWmk=UWmk+λ3 (n,m,k) ·f3 (dwnk)(对于每个kEDKnGK)dwnk=dwnk+λ4 (m,n,k) ·f4 (uwmk)(对于每个keUKtnGKJ 其中,所述λ3(n,m,k)为在所述特征k下所述网页η对所述用户m的影响系数,且λ3 (n,m,k)彡0,所述λ4(m,n,k)为在所述特征k下所述用户m对所述网页η的影响系数, 且λ4(m,n,k) > 0,f3(x)和f4(x)均为非负增函数,所述UKm是由所述用户m的特征向量 (uwml,uwm2, ...,uwmk,...,UW1J中数值最大的Pm个分量所对应的特征组成的集合,所述DKn 是由所述网页η的特征向量(dwnl, (Iwn2. . .,dwnk,. . .,(Iwhl)中数值最大的Rn个分量所对应 的特征组成的集合,所述Pm和所述Rn为预设常数。
8. 根据权利要求7所述的方法,其特征在于,所述方法还包括在执行所述步骤S4达到 设定次数后,在每个特征keK下,分别对第k个用户列向量(uwlk,uw2k,...,uwMk)和第k 个网页列向量(dwlk,dw2k, . . . ,dwNk)进行规范化处理的步骤。
9. 根据权利要求7所述的方法,其特征在于,在所述方法的一个应用实例中所述 fsCdWn^artdWnk/hkeDKodWnk]^),.所述f4(UWn*) =G4.[UW址《(keUKmpWfflJ·),其 〇3和O4为预设常数,所述d(k)和所述U(k)是与特征k相关的预设常数。
10. 根据权利要求1所述的方法,其特征在于,所述步骤S5的一种具体实现方法包括如 下步骤:
551. 根据所述步骤S4中的所述信号,读取所述用户m的特征向量(uwml,uwm2,..., UWmk,…uwmI),其中所述UWmk为所述用户m与特征k(keK)的相关度;
552. 根据所述步骤S4中的所述信号,读取所述网页η的特征向量(dwnl,dWn2, ..., (Iwnk,. . . ,dwnI),其中所述dwnk为所述网页η与特征k(keK)的相关度;
553. 根据所述用户m的特征向量、所述网页η的特征向量以及所述广告集A中每个广 告的特征向量,计算所述广告集A中每个广告的个性化排序值;
554. 根据所述排序值对所述广告集A中的每个广告进行排序,以及根据排序结果将至 少一个广告投放给所述用户m。
【文档编号】G06Q30/02GK104463615SQ201310455951
【公开日】2015年3月25日 申请日期:2013年9月20日 优先权日:2013年9月20日
【发明者】祁勇 申请人:祁勇