一种基于信息增益的推荐方法与流程

文档序号:33470916发布日期:2023-03-15 08:24阅读:42来源:国知局
一种基于信息增益的推荐方法与流程

1.本发明属于计算机领域,涉及一种基于信息增益的推荐方法。


背景技术:

2.随着用户获取信息的渠道和方式越来越多元化,单个特征在反馈用户行为偏好上也越来越片面化,基于海量数据营销的获客成本越来越高。这就需要我们整合用户随机繁杂的行为数据信息,将对目标事物感兴趣的潜在用户进行信息聚焦。
3.在我们实际的业务数据分析中,受限于计算资源,偏好使用randomforest、tgi、lr、基于标签逻辑的规则等简单方法;这些方法推荐的头部用户效果较好,但是随着规则下探,推荐用户的效果衰退较快,往往无法做到快速扩量的目的。经分析,我们常用的方法大都基于极大似然估计,以数据特征的权重计算为主,筛选强相关特征覆盖的用户进行业务营销;而对每个用户本身行为特征的变化分析还不够深入。这里将结合人群整体的行为共性和个体行为的特性做进一步挖掘。


技术实现要素:

4.有鉴于此,本发明的目的在于提供一种基于信息增益的推荐方法。
5.为达到上述目的,本发明提供如下技术方案:
6.一种基于信息增益的推荐方法,该方法包括以下步骤:
7.s1:对于单个用户网络行为信息值的计算,将该用户浏览行为看成一个事件;对于不同访问行为,看成是对应事件的不同结果,该用户的信息值为:
[0008][0009]
p(xi)表示随机事件x为xi的概率;m表示特征数;使用统计周期内,用户不同访问行为的占比来代替不同访问行为发生的概率;用户接收到的信息量跟具体发生的事件有关,而信息的大小跟随机事件的概率有关;概率越小的事件发生,产生的信息量越大;越大概率的事件发生,产生的信息量越小;当用户的访问行为越来越纯粹时,信息值就会越来越小;
[0010]
s2:使用给定样本人群n,训练集n,其中包含m个特征,计算不同特征所覆盖人群整体的目标偏好度qi:
[0011]
qi=(n∩ni)/ni,i∈1,...,m
[0012]
其中,ni代表训练集中特征i覆盖用户量;qi是以单个特征下目标用户的占比衡量该特征覆盖人群对目标事物的整体偏好强度;
[0013]
s3:计算单个用户k所有特征行为的目标事物累计兴趣度vk:
[0014][0015]
其中,表示用户k对特征i的有效访问频次;vk以单用户的有效访问频次乘以对应特征对目标事物偏好度,再对所有特征进行累计求和,得到该用户整体访问行为下对目
标事物的偏向程度;
[0016]
s4:计算单个用户带有访问偏好的信息值;用户k访问偏好信息值hk公式为:
[0017][0018]
其中,hk>0,用户访问行为越丰富,对应信息值越大;
[0019]
s5:计算周期内用户k访问行为的信息增益gain(hk):
[0020]
gain(hk)=hk(t1)-hk(t0)
[0021]
其中,上述公式反映周期内用户k的在初始时间段t0,以及最终时段t1的兴趣偏好变化对应的信息增益,在t0或t1里无行为状态用户对应的时段信息值为0;当用户访访问行为变得越纯粹时,gain(hk)就会越小于0;当用户访问行为越丰富时,gain(hk)就会越大于0;
[0022]
s6:计算单用户k周期内对目标事物的综合偏好信息值sk:
[0023][0024]
其中,它满足用户的访问行为变得越纯粹,且用户对目标事物强相关特征越感兴趣,那么该用户综合信息值sk就会越大,且sk>0;
[0025]
s7:遍历所有用户,求每个用户对目标事物的综合偏好度值,排序并进行人群推荐。
[0026]
可选的,将所述推荐方法用于游戏业务的人群推荐,具体步骤为:
[0027]
s11:使用最近一个月数据的正样本计算训练数据集的各特征目标偏好度系数,有效特征为68536个,覆盖用户量超过8000w,并将训练数据集按两周为区间分成两个子集;
[0028]
s12:基于各特征目标偏好度系数,计算一个月内训练集中每个用户的累计兴趣度;
[0029]
s13:分别基于前两周训练子集、后两周训练子集计算每一个用户初始状态信息值和即时状态信息值,并得到用户一个月内网络行为信息增益值;
[0030]
s14:结合s12和s13的中间结果计算每一个用户综合偏好度值并排序;
[0031]
s15:营销对比验证;根据营销结果验证,将训练得到的用户按分值从高到低挑选生成三条测试规则:top10w、top10w~20w、top20w~30w,对应的成本占收比分别是40%、65%、81%;与此对比的randomforest模型,对应量级规则的成本占收比分别是41%、78%、129%。
[0032]
本发明的有益效果在于:
[0033]
本方法中,对目标事物的累计兴趣度结果保证了人群整体的偏好度倾向;而用户信息增益的计算,则能够较精准地把握每个用户的兴趣转移状态。所以能够更精准的挖掘潜在业务偏好人群。这个方法兼顾了人群整体行为特性和个体的兴趣状态变化,所以能够更有效地聚焦业务潜在营销群体。
[0034]
本发明计算复杂度低。本方法计算逻辑简单,在有限的计算资源下可实现大批量数据的处理。
[0035]
本发明调参方便。通过扩充训练正样本量级以及调整训练样本集时间跨度等简单操作即可实现人群精准度调整。
[0036]
本发明完备性。新方法结合了人群整体行为的共性和个体行为的特性,对每个用
户都进行了更加完备的分析。
[0037]
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0038]
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
[0039]
图1为本发明流程图。
具体实施方式
[0040]
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0041]
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0042]
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0043]
本发明在样本量较大、特征较多且大部分数据特征与目标业务相关度较低的情况下,尽量保留原始样本信息完整性,并结合人群整体的行为特性和个体的特征行为变化对每个用户的兴趣点做精准定位,由此进行业务的扩量和营销的降本。
[0044]
如图1所示,单个用户网络行为信息值的计算,需要将该用户浏览行为看成一个事件;而不同访问行为可以看成是对应事件的不同结果。那么该用户的信息值为:
[0045][0046]
p(xi)表示随机事件x为xi的概率。这里使用统计周期内,用户不同访问行为的占比来代替不同访问行为发生的概率。用户接收到的信息量跟具体发生的事件有关,而信息的大小跟随机事件的概率有关。概率越小的事件发生了,产生的信息量越大;越大概率的事件发生了,产生的信息量越小。当用户的访问行为越来越单一时,他的信息值就会越来越小。
[0047]
数据特征能够反馈所覆盖人群的整体兴趣偏好,但是每一个用户的整体访问行为和单一特征下的兴趣表现也有区别;本发明综合考量单用户在人群整体特征行为偏好下的表现和用户本身的兴趣转移表现,对目标人群进行针对性的筛选。具体实施步骤如下:
[0048]
第一步,使用给定样本人群n,训练集n(包含m个特征),计算不同特征所覆盖人群整体的目标偏好度qi:
[0049]
qi=(n∩ni)/ni,(i∈1,...,m)
[0050]
其中,ni代表训练集中特征i覆盖用户量。qi是以单个特征下目标用户的占比衡量该特征覆盖人群对目标事物的整体偏好强度。
[0051]
第二步,计算单个用户k所有特征行为的目标事物累计兴趣度vk:
[0052][0053]
其中,表示用户k对特征i的有效访问频次。vk以单用户的有效访问频次乘以对应特征对目标事物偏好度,再对所有特征进行累计求和,得到该用户整体访问行为下对目标事物的偏向程度。
[0054]
第三步,计算单个用户带有访问偏好的信息值。第二步计算结果是基于样本人群在每一个特征上的整体偏好度,继而反推单个用户的整体访问偏好;但忽略了单个用户的特有访问偏好。但是,信息值计算公式表明,用户访问行为越单一时,用户的信息值越小。本方法需要找到访问行为尽可能单一且对目标事物强相关特征兴趣越高的用户。这里的用户k访问偏好信息值hk公式为:
[0055][0056]
其中,hk>0,用户访问行为越丰富,对应信息值越大。
[0057]
第四步,计算周期内用户k访问行为的信息增益gain(hk):
[0058]
gain(hk)=hk(t1)-hk(t0)
[0059]
其中,上述公式反映周期内用户k的在初始时间段t0,以及最终时段t1的兴趣偏好变化对应的信息增益(在t0或t1里无行为状态用户对应的时段信息值为0)。当用户访访问行为变得更纯粹时,gain(hk)就会小于0;当用户访问行为越来越丰富时,gain(hk)就会大于0。
[0060]
第五步,计算单用户k周期内对目标事物的综合偏好信息值sk:
[0061][0062]
其中,它满足用户的访问行为变得越纯粹,且用户对目标事物强相关特征越感兴趣,那么该用户综合信息值sk就会越大,且sk>0。
[0063]
第六步,遍历所有用户,求每个用户对目标事物的综合偏好度值,排序并进行人群推荐。
[0064]
以游戏业务的人群精准推荐为例,使用infora方法:
[0065]
第一步,使用近期正样本计算训练数据集(最近一个月数据)各特征目标偏好度系数,涉及有效特征68536个,覆盖用户量超过8000w,并将训练数据集按两周为区间分成两个子集。
[0066]
第二步,基于各特征目标偏好度系数,计算一个月内训练集中每个用户的累计兴趣度。
[0067]
第三步,分别基于前两周训练子集、后两周训练子集计算每一个用户初始状态信息值和即时状态信息值,并得到用户一个月内网络行为信息增益值。
[0068]
第四步,结合第二步、第三步中间结果计算每一个用户综合偏好度值并排序。
[0069]
第五步,营销对比验证。根据营销结果验证,将本方法训练得到的用户按分值从高到低挑选生成三条测试规则(top10w、top10w~20w、top20w~30w),对应的成本占收比分别是40%、65%、81%。与此对比的randomforest模型,对应量级规则的成本占收比分别是41%、78%、129%。可以看出,新方法最头部用户和随机森林算法最头部用户营销效果相当;但是,下探的第二、三条规则新方法效果比后者提升分别在17%、37%左右。因此,本发明方法对于业务扩量降本能力有明显的提升。这个方法还可以通过扩充正样本量级优化特征的目标偏好度,通过调整训练样本集时间跨度及增加样本人群兴趣状态等进行优化。
[0070]
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1