基于用户历史数据的移动流量套餐推荐算法

文档序号:9631939阅读:2280来源:国知局
基于用户历史数据的移动流量套餐推荐算法
【技术领域】
[0001] 本发明涉及一种流量套餐推荐算法,即利用用户历史消费数据并采用数据挖掘技 术发现潜在提升用户,利用协同过滤推荐算法向其推荐合适的流量套餐。
【背景技术】
[0002] 随着移动互联网时代的到来,用户的生活方式发生了变化,使得电信运营商的经 营重心发生转移,流量业务将逐渐替代传统话音业务成为电信行业的竞争焦点与利润点。 利用精准营销准确地预测出潜在提升流量套餐的用户,并向用户推荐合适的流量套餐。通 过精准营销不仅可以刺激用户流量的使用,也可以提高用户的满意度。
[0003] 传统的流量套餐推荐面向所有用户并且推荐较为随机,使得推荐效果不明显并且 为很多用户反感。本发明利用公司内部巨大的业务数据,使用数据挖掘的方法挖掘出更换 流量套餐的规律,发现潜在提升流量套餐的人群,然后对他们进行定向推送,从而提升流量 套餐营销的成功率,真正做到为合适的人推荐合适的套餐,达到精准营销的目的。

【发明内容】

[0004] 本发明的目的,构造所需的训练数据集和预测数据集,在数据集上实施随机森林 分类算法,准确快速地挖掘出潜在流量套餐提升用户作为目标用户,然后利用K-means聚 类算法得到粗略相似用户簇,最后使用协同过滤算法对目标用户实施ΤορΝ推荐算法。
[0005] 为解决上述问题,本发明的技术方案是,基于用户历史消费信息并采用数据挖掘 分析技术的移动用户流量套餐推荐算法,包括如下步骤:
[0006] 1)目标用户发现阶段:
[0007] a获取已处理生成的数据集,包括训练集和预测集;
[0008]b从训练集S中有放回的随机抽取样本形成新的数据集St;实施随机森林分类算 法发现潜在流量套餐提升用户作为目标用户;
[0009] c结束;
[0010] 2)流量套餐推荐阶段:
[0011] a获取已处理生成的预测集;
[0012]b实施K-means聚类算法得到粗略相似用户簇;
[0013]c获取l)_b中得到的目标用户;
[0014] d在同一簇中根据用户的相似度函数,为目标用户实施ΤορΝ推荐算法;
[0015]e结束;
[0016] 步骤1) _a中所述的数据集具体构造过程如下:
[0017] 1)选择用户状态表中状态正常的用户作为我们的预测用户,每个用户都有一个唯 一的user_id;
[0018] 2)以时间点为分割,规划出每个用户在该时间点之前的消费信息、换机信息等,并 通过userid关联起来,以当前月为时间分割点的是预测数据集,以前的其他月为时间分 割点的是训练数据集;
[0019] 3)求出每个属性的信息增益率,选择信息增益率大的属性,摒弃信息增益率小的 属性;
[0020] 4)过滤掉消费属性值为空的数据;
[0021] 5)过滤掉性别异常的用户;
[0022] 6)为训练数据集的每一条记录添加类标,具体方法是比较上个月的消费总流量与 当月的消费总流量,若当月流量提高,则置为1 ;否则,置为〇 ;
[0023] 7)结束;
[0024] 步骤1)_b中所述的随机森林分类算法具体过程如下:
[0025] 1)从训练集S中有放回的随机抽取样本形成新的数据集St,抽取的数量是原来数 据总量的三分之一;
[0026] 2)在属性集合X中随机选取k个属性,k=sqrt(η)+1,用这k个属性中的数据构 造成训练集St';
[0027] 3)在训练集S/上构建决策树分类器;
[0028] 4)重复1) -3)过程T次,构建T个决策树分类器;
[0029] 5)将这T棵决策树组合生成随机森林分类模型,对于每一条数据或记录,每棵决 策树都会决策出一个类标,(类似于对该类标投了一票),最后选择得票数最多的类标作为 该数据的最终类标。
[0030] 步骤2) -b中K-means聚类算法具体过程如下,其中K预先确定:
[0031] 1)在数据集中随机选取K个数据作为每个类别的初始聚簇中心;
[0032] 2)根据欧式公式,把数据分配到离它最近的聚簇中,公式如下:
[0033]
[0034] 其中d(i,c)为数据i与中心点c的距离,Xlik为数据i的属性k的值,η为属性个 数;取d(i,c)时最小c的作为数据i的中心点;
[0035] 3)重新计算每个簇中新的中心值;
[0036] 4)重复2)和3)直到满足收敛条件,收敛函数如下:
[0037]
[0038] 其中E是所有数据到聚簇中心的距离平方之和,p是其中的一个数据,!111是所属第 i个类别中的聚簇中心点,k是聚簇的个数。
[0039] 步骤2) -d中为用户实施ΤορΝ流量套餐推荐算法具体过程如下:
[0040] 1)利用用户的消费属性和自身属性所构成的特征计算用户的相似度,关于用户相 似度公式如下:
[0041]
[0042] 公式中Vi=(VVii2, . . .,Viin)表示第i用户的特征属性组成的η维向量,η是 属性的个数,而且所有的属性值都是归一化以后的,在区间[0, 1],g表示第i用户所有属 性的均值;
[0043] 2)通过相似度公式求出用户之间的相似度,然后得出用户的近邻用户集为NNU,结 合用户对项目的打分,能得出用户u对目标项目s的预测打分公式如下:
[0044]
[0045] 上式中RliS表示第i用户对第s项目的打分,公式如下:
[0046]
[0047] 3)最后根据用户对目标项目的预测打分情况,对打分进行排序,并且过滤掉比用 户原来使用量少的流量套餐,得出用户的ΤορΝ的目标项目作为推荐项目列表。
[0048] 本发明有益效果:本发明基于用户的历史消费数据,采用随机森林的分类算法,可 以快速准确地发现有潜在流量套餐提升的用户;使用K-means聚类算法首先进行粗略相似 用户计算,可大大降低后期推荐算法的计算复杂度;推荐算法采用协同过滤的ΤορΝ,配合 前期K-means相似用户簇,推荐效果明显且计算效率高。
【附图说明】
[0049] 图1为移动用户流量套餐推荐操作流程图。
[0050]图2为本发明的基于用户历史消费信息并采用数据挖掘分析技术的移动用户流 量套餐推荐算法的流程图。
[0051] 图3为采用随机森林分类算法挖掘潜在提升用户的流程图。
[0052] 图4为采用K-means聚类算法获得粗略相似用户簇的流程图。
[0053] 图5为采用协同过滤算法得到套餐推荐列表的流程图。
【具体实施方式】
[0054] 为了更了解本发明的技术内容,特举实例并配合所附图式说明如下。
[0055] 如图1所示,移动用户流量套餐推荐算法是通过数据预处理生成训练数据集和 预测训练集,然后采用随机森林分类算法挖掘出潜在提升用户作为目标用户,最后采用 K-means聚类算法得到相似用户簇,即用户近邻,并在用户近邻的基础上使用协同过滤算法 得到用户对项目的打分矩阵,得到ΤορΝ套餐推荐列表。
[0056] 随机森林分类算法挖掘潜在用户和K-means与协同过滤相结合的套餐推荐算法 是该发明的主要步骤,本发明的思路就是通过集成数据挖掘技术,采用多种算法相结合的 方法来提高算法的准确性和运行速度。
[0057] 本发明的基于用户历史消费信息并采用数据挖掘分析技术的移动用户流量套餐 推荐算法的如图2所示。
[0058] 步骤0为本发明的起始状态;
[0059] 在目标用户发现阶段(步骤1-3),步骤1是数据预处理,即对获取到的原始数据集 进行过滤和整合,得到所需的训练集和预测集;
[0060] 步骤2是在步骤1所生成的训练集和预测集上运行随机森林分类算法;
[0061 ] 步骤3是将挖掘出的目标用户保存至数据库中。
[0062] 在流量套餐推荐阶段(步骤4-6),步骤4,在步骤1所生成的训练数据集上运行 K-means聚类算法得到用户近邻;
[0063] 步骤5是在步骤4所得到的用户近邻的基础上实施协同过滤算法得到目标用户对 项目的打分矩阵,并进行排序,过滤等操作得到套餐推荐列表;
[0064] 步骤6是将步骤5所得到的套餐列表保存至数据库。
[0065] 步骤7是本发明的基于用户历史消费信息并采用数据挖掘分析技术的移动用户 流量套餐推荐算法的结束步骤。
[0066] 图3是对图2中步骤2的详细描述。
[0067] 步骤8为起始状态;
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1