一种基于xgboost与mlp的客户流失预测方法
技术领域
1.本发明涉及数据处理技术,尤其是指一种基于xgboost与mlp的客户流失预测方法。
背景技术:2.随着社会的快速发展以及产品的日趋同质化,企业之间的竞争日趋激烈,对于一家富有活力且经营正常的公司来说,客户是其最重要的资产之一。在业务多元化、市场饱和化以及经济全球化的背景下,企业吸引新客户的成本远远高于保留老客户,因此防止老客户的流失能够有效地提高企业的利润,越来越多的企业开始意识到保留现有客户的重要性。作为以客户为导向的经营策略中不可缺少的一部分,如何精准识别那些具有高度流失概率的客户,具有至关重要的意义。因此,基于客户的历史信息来构建针对客户流失的早期预警系统成为了企业发展的重点。
3.通过客户流失预测系统,企业能够及时发现潜在的流失客户并制定相应的策略,来改善客户不满意度并防止客户的流失。具体而言,客户流失预测就是根据客户的历史信息来计算其未来流失的概率值,即终止与公司关系的可能性,这些概率值可以被用来将客户从最不可能流失到最可能流失进行排序,并对最容易流失的客户进行促销优惠活动。在一项研究中,一家拥有500万客户的公司通过客户流失预测系统对10%的潜在流失客户进行了营销保留活动,由此获得了数十万美元的额外利润。
4.然而,由于客户历史数据存在复杂度高、冗余度高以及维度高的特点,如何构建预测模型成为了数据挖掘领域中一个重要的课题。近些年来,随着数据挖掘算法的不断优化,客户流失预测领域也得到了长足的发展,预测算法精度不断提高,对于客户历史特征的理解也不断深入。信息化的快速推进,也使得各式各样的营销手段层出不穷,客户经常会收到各种优惠活动,如“分期免息”,“打折促销”与“加送赠品”等。这些手段极大的影响了客户的忠诚度,企业若不能及时发现,并制定相应的策略,极有可能丧失在市场中的竞争力。因此,构建一个精准的客户流失预测系统对企业来说,具有极高的战略价值,特别是服务同质化严重的行业。
5.与新客户相比,长期客户往往能使企业更具备竞争力,因此构建客户流失预测系统有着极为现实的意义,其总结如下:(1)成功的企业往往与现有的客户有着长期的关系,这使得这些企业能专注于提高自身的服务质量,而不是一味地吸引新客户,因为新客户最典型的特征就是流失率高;(2)流失的客户会影响他们社交网络中其他的客户;(3)在利润方面,长期客户倾向于购买更多的产品或者服务;(4)在成本方面,由于企业充分掌握了长期客户的信息,并且了解他们的需求,所以降低了服务成本;(5)竞争性的营销活动对长期客户的影响较低;(6)保留一个长期客户的成本往往比吸引新客户的成本低数倍。
6.在当今的大数据时代,各家企业的客户数据都有高数量、高维度、高价值的特点,同时由于涉及客户隐私,所以需要兼顾保密性。由于以上特性,构建一个完整客户流失预测系统除了要保证预测准确度外,还要具备较强的计算能力和安全性,因此本发明选择国产
的申威3231双路服务器作为底层平台。经过多年的发展,申威cpu处理器的国产化产业链布局完整,软硬件产品可堪重用,在国家多项重大专项项目的支持以及产业界持续的努力下,形成了以自主研发的申威cpu为核心的国产生态体系。不同于海光、兆芯与鲲鹏等其他使用国外指令集架构的国产芯片,申威cpu使用国产自研架构,具备较高的安全性,不会受到国外断供的影响。比如,基于申威3231cpu的双路服务器拥有64个核,可以提供强有力的计算支持。
技术实现要素:7.为此,本发明所要解决的技术问题在于改善当前客户流失预测系统的准确性低以及时效性差的问题,同时使用国产的申威服务器作为基础平台,解决国产芯片受制于国外的问题。
8.为解决上述技术问题,本发明提出了一种基于xgboost与mlp的客户流失预测方法,所述预测方法使用环境在申威平台上,且能够改善客户流失预测系统的准确性以及时效性,包括如下步骤:
9.步骤s1:收集相关的客户历史数据包括流失客户与非流失客户的多属性数据,并打上对应的标签以形成相应的训练数据;
10.步骤s2:计算特征方差,然后将方差排序并删除方差较低的特征,可以提高预测准确度并降低计算量;
11.步骤s3:将数值型特征中缺失的数据替换为该特征的平均值,再进行z-score归一化处理;
12.步骤s4:使用one-hot编码处理离散型特征,整理预处理后客户数据;
13.步骤s5:使用xgboost算法处理数值型特征,将计算后获得的叶子节点的编号替代原有的数值型特征,然后将更新后的客户数据输入mlp,构建损失函数,使用梯度下降算法训练预测模型;
14.步骤s6:将训练好的预测模型部署在申威服务器上,计算出企业客户的流失概率。
15.在本发明的一个实施例中,所述步骤s1中标签以形成相应的客户数量为m特征数量为n的训练数据d={(xi,yi)|i=1,
…
,m},其中客户标签yi={0,1}表示如果yi=0则客户为非流失客户,yi=1则客户为流失客户;另外定义predi为客户流失预测系统的预测值。
16.在本发明的一个实施例中,所述步骤s2方差的计算公式如下:
[0017][0018]
对n个特征分别计算方差后,根据方差将特征从高到低排序,并删除方差低的特征。
[0019]
在本发明的一个实施例中,所述步骤s3中归一化处理公式,如下:
[0020][0021]
在本发明的一个实施例中,所述步骤s4中one-hot编码将输入样本处理后转变为高维的稀疏向量,其中的输入样本为[gender=male,weekday=monday,country=china]:
[0022][0023]
在本发明的一个实施例中,所述步骤s4中客户数据处理后整理成相应的客户数量为m,特征数量为n的训练数据d={(xi,yi)|i=1,
…
,m},其中
[0024]
在本发明的一个实施例中,所述步骤s5中xgboost算法定义为第i个样本在第t次迭代的预测值,t为叶子节点的数量,损失函数则为:
[0025][0026]
其中,f
t
(xi)表示残差,ω(f
t
)表示正则化;然后使用二阶泰勒展开式将损失函数展开:
[0027][0028]
其中,和分别为一阶导数和二阶导数;常数项l(yi,pred
(t-1)
)可以被简化为:
[0029][0030]
通过计算可以得出最优权重:
[0031][0032]
另外,分裂候选集可通过以下公式计算:
[0033][0034]
当使用xgboost训练预测模型后,对生成的每颗分类回归树(cart)叶子节点编号进行one-hot编码处理,并导出与原始离散特征处理后的one-hot向量拼接:
[0035]
e=[e1,e2,
…
,ed,e
dis
]
[0036]
其中,d为生成的cart数量,e
dis
即为原始离散特征处理后的one-hot向量;
[0037]
将处理后的客户数据输入mlp,激活函数使用elu函数:
[0038][0039]
其中,α为超参数;相比于sigmoid函数与relu函数,elu函数可以有效地防止梯度消失并增加负值信息;在输出层,只有一个神经元,并使用sigmoid函数:
[0040]
[0041]
该函数可以使输出值介于0到1之间,当输出值大于或等于0.5时,则意味该客户是潜在流失客户,否则即为正常客户。
[0042]
本发明的上述技术方案相比现有技术具有以下优点:本发明所述的基于xgboost与mlp的客户流失预测方法,与dnn不同的是,基于树结构的预测算法能够较好地处理数值特征;且这个模型主要分为两个阶段:第一阶段,提取客户数据中的数值型特征,使用xgboost算法计算出叶子节点的编号;第二阶段,使用mlp处理叶子节点的值和原始离散特征转化的one-hot向量,获得预测结果。另外还有以下优点:
[0043]
1.结合xgboost与mlp的预测算法,拥有两者的优势;
[0044]
2.本算法中的mlp可以有效地学习xgboost从客户特征中得出的知识;
[0045]
3.有效地提升了目前客户流失预测算法的预测准确度;
[0046]
4.同时使用国产的申威服务器作为基础平台,可以有效地提升安全性与计算速度。
附图说明
[0047]
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明。
[0048]
图1是基于xgboost和mlp的客户流失预测算法;
[0049]
图2是使用申威服务器并行计算的效果图。
具体实施方式
[0050]
本实施例提供一种基于xgboost与mlp的客户流失预测方法,所述预测方法使用环境在申威平台上,且能够改善客户流失预测系统的准确性以及时效性,包括如下步骤:
[0051]
步骤s1:收集相关的客户历史数据包括流失客户与非流失客户的多属性数据,并打上对应的标签以形成相应的客户数量为m特征数量为n的训练数据d={(xi,yi)|i=1,
…
,m},其中m},其中客户标签yi={0,1}表示如果yi=0则客户为非流失客户,yi=1则客户为流失客户。另外定义predi为客户流失预测系统的预测值。
[0052]
步骤2:对客户数据进行特征选择,由于方差较小离散特征对于预测算法来说几乎是无用的,并且预处理后会产生大量的稀疏数据,因此删除方差较低的特征,可以提高预测准确度并降低计算量。方差的计算公式如下:
[0053][0054]
对n个特征分别计算方差后,根据方差将特征从高到低排序,并删除方差低的特征。
[0055]
步骤s3:将数值型特征中缺失的数据替换为该特征的平均值,再进行z-score归一化处理。
[0056][0057]
步骤s4:在客户数据中离散特征的数量往往是巨大的,一般来说使用one-hot编码
处理离散型特征。例如,输入样本为[gender=male,weekday=monday,country=china],经过one-hot编码处理后转变为高维的稀疏向量:
[0058][0059]
整理预处理后客户数据成相应的客户数量为m,特征数量为n的训练数据d={(xi,yi)|i=1,
…
,m},其中
[0060]
步骤s5:如图1所示,使用xgboost算法处理数值型特征,将计算后获得的叶子节点的值替代原有的数值型特征。xgboost是一种高度可扩展的boosting树型结构算法,在并行计算效率和预测性能上表现都十分的优秀。首先定义为第i个样本在第t次迭代的预测值,t为叶子节点的数量。损失函数则为:
[0061][0062]
其中,f
t
(xi)表示残差,ω(f
t
)表示正则化。然后使用二阶泰勒展开式将损失函数展开:
[0063][0064]
其中,和分别为一阶导数和二阶导数。常数项l(yi,pred
(t-1)
)可以被简化为:
[0065][0066]
通过计算可以得出最优权重:
[0067][0068]
另外,分裂候选集可通过以下公式计算:
[0069][0070]
当使用xgboost训练预测模型后,对生成的每颗分类回归树(cart)叶子节点编号进行one-hot编码处理,并导出与原始离散特征处理后的one-hot向量拼接:
[0071]
e=[e1,e2,
…
,ed,e
dis
]
[0072]
其中,d为生成的cart数量,e
dis
即为原始离散特征处理后的one-hot向量。
[0073]
将处理后的客户数据输入mlp,激活函数使用elu函数:
[0074]
[0075]
其中,α为超参数。相比于sigmoid函数与relu函数,elu函数可以有效地防止梯度消失并增加负值信息。在输出层,只有一个神经元,并使用sigmoid函数:
[0076][0077]
该函数可以使输出值介于0到1之间,当输出值大于或等于0.5时,则意味该客户是潜在流失客户,否则即为正常客户。在反向传播过程中使用adam优化算法:
[0078][0079][0080]
来最小化交叉熵损失函数:
[0081][0082]
其中,θ代表神经网络内的权重及偏移量等参数。
[0083]
步骤s6:如图2所示,将设计好的预测模型部署在申威服务器上,计算出企业客户的流失概率,本发明提供的算法具备并行计算的能力,因此可以依靠申威cpu在多核并行计算方面的优势,来提高预测系统的时效性。
[0084]
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。