基于协同过滤推荐算法的机型推荐系统的制作方法
【技术领域】
[0001] 本发明涉及建立一个基于运营商数据的机型推荐系统,该系统利用协同过滤推荐 算法的框架,结合机型生命周期模型来和相应的打分函数来为用户推荐机型。
【背景技术】
[0002] 伴随着数据库技术的迅速发展和数据库管理系统的广泛应用,数据积累得越来越 多。面对激增的数据,人们希望能够挖掘出隐藏在背后的许多重要的信息,从而可以更好地 利用这些数据为人们服务。运营商拥有大量的和用户有关的个人信息和历史消费数据,如 何利用这些数据创造新的效益是运营商面临的问题,而利用这些数据向用户进行手机机型 推荐就是这样一个典型的应用。
[0003] 推荐系统的推荐方法主要有基于内容的过滤方法和协同过滤方法。其中,在信息 检索领域主要应用的是基于内容的过滤。基于内容的过滤需要分析文件资源的描述,并分 析每个用户的兴趣和偏好,从而建立起用户偏好模型。通过用户兴趣偏好模型向用户提供 推荐服务,但是它具有一定的局限性的。正所谓"近朱者赤,近墨者黑",身边其他人会影响 一个人的行为思想。协同过滤推荐技术主要有两个假设:1)那些与目标用户有相同兴趣与 偏好的人对某个信息的喜爱程度可以用来衡量目标用户对该信息的偏好;2)用户的喜好 具有持续性,即现在会喜欢过去喜爱的信息的相似信息。因此,基于这两个假设,在网络信 息服务中向用户推荐信息时,可以利用其他用户的信息或者目标用户自身的信息对某些信 息产生评价,选取评价最高的几项信息推荐给目标用户。
[0004] 协同过滤推荐方法主要有两种:基于用户的协同过滤和基于项目的协同过滤。基 于用户的协同过滤:首先求与目标用户有相同或相似兴趣和爱好的N个最近邻居用户;然 后计算出这K个用户对目标项目I的打分值;最后根据这些打分和N个最近邻居用户与目 标用户的相似度预测出目标用户对目标项目I的打分值。基于项目的协同过滤:首先找出 目标项目I的相似目标,其中,这些相似项目都是用户所感兴趣的项目,然后查询出用户对 这些项目的打分值,最后根据相似项目与目标项目之间的相似度和打分可以预测出目标用 户对目标项目的打分值。
[0005] 本发明所使用的基于混合信息的协同过滤算法综合考虑了两方面的信息:用户自 身的特征和项目特征。其中,用户的特征是指用户自身的属性,比如有年龄、性别、消费信息 等等。项目特征是指目标用户所使用的机型属性,比如价格、品牌、机型、性能等等。
【发明内容】
[0006] 发明目的:本发明所要解决的问题是为目标用户推荐合适的手机机型,尤其是基 于协同过滤推荐算法的机型推荐。
[0007] 为解决上述问题,本发明技术方案是:基于协同过滤推荐算法的机型推荐方法,利 用协同过滤推荐算法的框架,结合机型生命周期模型和相应的打分函数来为用户精确推荐 机型,包括如下步骤:
[0008] 1)最近邻计算阶段:
[0009] b)数据预处理,清除噪声和异常数据,排除不符合要求的用户和机型,从用户数据 库中抽取目前正在使用的用户的个人信息和历史消费信息,从机型数据库中抽取用户目前 使用机型的相关属性;
[0010] C)利用预处理后的数据将相应的信息抽取出来为每个用户构建对应的用户向量, 并使用本系统设计的方法计算用户间的相似度;
[0011] d)计算目标用户与其他用户的相似度取相似度最大的前N个作为目标用户的最 近邻居;
[0012] 具体过程如下:
[0013] (1)数据预处理,对于正在使用的用户,清理掉山寨机用户和刚入网不到半年的用 户,得到正常用户集合A。山寨机用户的清理方法是如果有同一串号对应多个手机则是山寨 机,入网不到半年的用户则是通过入网时间距离当前月份大于六个月来筛选;
[0014] (2)对A中的用户建立用户向量集合U,用户向1/7加入U中,包含三类信息,分别 是用户本身属性,消费信息和当前使用机型信息;
[0015] (3)将用户Ui的性别、年龄、入网时长信息加入用户向量巧。
[0016] (4)将用户七的消费信息,包括平均通话时长、短信、消费、流量等信息加入到用户 向量珥;
[0017] (5)将用户七当前的用机信息,包括机型所对应的价格、制式、品牌、操作系统、 是否是智能机、是否支持TD、是否支持摄像头、是否支持GPRS、尺寸等信息加入到用户向量
[0018] (6)计算用户Ui与所有其他用户的相似度,得到相似度矩阵,相似度计算如下:
【主权项】
1.基于协同过滤推荐算法的手机机型推荐方法,其特征是利用协同过滤推荐算法的框 架,结合机型生命周期模型和相应的打分函数来为用户精确推荐机型,包括如下步骤: 1) 最近邻计算阶段: a) 数据预处理,清除噪声和异常数据,排除不符合要求的用户和机型,从用户数据库中 抽取目前正在使用的用户的个人信息和历史消费信息,从机型数据库中抽取用户目前使用 机型的相关属性; b) 利用预处理后的数据将相应的信息抽取出来为每个用户构建对应的用户向量,并使 用本系统设计的方法计算用户间的相似度; C)计算目标用户与其他用户的相似度取相似度最大的前N个作为目标用户的最近邻 居; 具体过程如下: (1) 数据预处理,对于正在使用的用户,清理掉山寨机用户和刚入网不到半年的用户, 得到正常用户集合A。山寨机用户的清理方法是如果有同一串号对应多个手机则是山寨机, 入网不到半年的用户则是通过入网时间距离当前月份大于六个月来筛选. (2) 对A中的用户建立用户向量集合U,用户向量兩加入U中,包含S类信息,分别是用 户本身属性,消费信息和当前使用机型信息; (3) 将用户Ui的性另Ij、年龄、入网时长信息加入用户向量U1。 (4) 将用户Ui的消费信息,包括平均通话时长、短信、消费、流量等信息加入到用户向量 Ui; 妨将用户Ui当前的用机信息,包括机型所对应的价格、制式、品牌、操作系统、是否是 智能机、是否支持TD、是否支持摄像头、是否支持GPRS、尺寸等信息加入到用户向量n,; (6) 计算用户Ui与所有其他用户的相似度,得到相似度矩阵,相似度的计算如下:
其中马和兩表示用户Ui,Uj.所对应的用户向量。余弦部分计算的是用户向量中用户 本身信息和消费信息部分的相似度,由于该部分数据属性是混合属性,而余弦度量要求向 量中的每个属性必须是实数,所W需要对分类属性进行量化。性别分别用0和1表示。 Sim师e(u^Uj')计算的则是用户Ui和uj当前使用机型的相似度,同一品牌同一机型相似度为 1,同一品牌不同机型相似度为0. 5,不同品牌的相似度为0; (7) 取相似度最大的前N个用户构成目标用户Ui的最近邻居集合N 巧)结束; a)结束; 2) 机型推荐阶段: a) 构建所有机型的生命周期模型并计算出处于成熟期及之前阶段的机型集合; b) 使用目标用户的最近邻为所有机型进行打分,之后向目标用户推荐; 具体过程如下: (1)查询用户集合U中的所有用户当前使用的机型并构造机型集合P; (2) 建立一个集合MATURE用于存放处于成熟期及之前阶段的机型; (3) 查询P中的每个机型Pi自上市W来每个月的使用量增量数据得到向量z'n"巧,increment^中的第d维元素表示机型Pi上市后第d月的使用量增量; (4) 对P中的每个机型Pi分别构造生命周期模型nii,方法是采用S次多项式拟合 increment^中的增量数据,多项式方程为;Y(t)=aa+ait+a2t2+a3t3。拟合后得到相应的参 数值a。,ai,32, 33,其中Y(t)表示机型Pi上市后第t月的使用量增量; (5) 确定机型Pi所处的生命阶段。计算
,令当前月份是机型Pi上市的第t月,如 果twfG(ta,ti),则处在引入期姻果(t^t2),则处在成长期;如果twfG(t2,t3), 则处在成熟期;如果twt>t3,则进入衰退期,销量逐渐减少,即将退出市场,不参与机型推 荐; (6) 将P中处在成熟期W及之前阶段的所有机型加入到集合MATURE中; (7)为MATURE中的每个机型Qk打分,打分的方法是
其中Ni是目标用户Ui的最近邻居集合; (8) 对打分结果进行降序排序,取最高的N个机型推荐给目标用户Ui,将结果保存到文 件中; (9) 将推荐结果交由营销人员进行营销; (10) 结束; C)结束; 结束。
【专利摘要】基于协同过滤推荐算法的手机机型推荐方法,利用协同过滤推荐算法的框架,结合机型生命周期模型和相应的打分函数来为用户精确推荐机型,包括如下步骤,包括最近邻计算阶段和机型推荐阶段:数据预处理,清除噪声和异常数据,排除不符合要求的用户和机型,从用户数据库中抽取目前正在使用的用户的个人信息和历史消费信息,从机型数据库中抽取用户目前使用机型的相关属性;利用预处理后的数据将相应的信息抽取出来为每个用户构建对应的用户向量,并使用本系统设计的方法计算用户间的相似度;计算目标用户与其他用户的相似度取相似度最大的前N个作为目标用户的最近邻居。
【IPC分类】G06Q30-02
【公开号】CN104794635
【申请号】CN201510186307
【发明人】吴骏, 苗霁, 彭岳, 戴恒宇, 王崇骏, 李宁
【申请人】南京大学
【公开日】2015年7月22日
【申请日】2015年4月17日