本发明属于数据处理领域,涉及一种筛选属性数据的方法及客户流失预警方法
背景技术:
目前,随着汽车经销商、维修站数量的不断增加,汽车售后服务市场的竞争愈发激烈,加之客户对服务价格的敏感性和进店服务的满意度的不断提升,使得4s店的客户流失率逐年攀升,客户大量的流失的直接后果便是经济上的损失,从更深程度来思考,这也会间接地影响到4s店的声誉,从而陷入收益与信誉不断降低的恶性循环。那么从4s店的角度思考,如何有效识别流失概率较高的客户,以及如何成功地实现客户的挽留是做好客户关系管理的重中之重。此外,随着数据挖掘技术的不断成熟以及4s店经营数据的不断积累,使得从数据的角度探索客户流失可能性提供了良好的基础。本文发明一种方法,在深入利用4s店经营数据的基础上,提出了一种基于决策树算法的客户流失预警模型,通过该模型4s店可以掌握未来一段时间内流失概率较高的客户名单,从而为客户关系维护提供了良好的条件。
技术实现要素:
为了解决上述问题,本发明提出如下方案:.一种筛选属性数据的方法,包括:使用信息增益法筛选属性数据;使用点双列相关系数法筛选属性数据;根据信息增益法和点双列系数法分别得到若干个属性数据,并二者取交集得到筛选后的属性数据。
本发明还提出一种一种客户流失预警方法,其特征在于,包括:s1.采集客户的基本属性数据、购买车辆数据及售后进4s店行为数据;s2.确定目标变量、自变量;s3.筛选自变量;s4.构建决策树模型;s5.使用决策树模型实际预测,并在必要时发布流失报警;其中,筛选自变量,以本发明任一项所述的筛选属性数据的方法进行筛选。
有益效果:将信息增益法和点双列相关系数法两种自变量筛选方法结合起来,从而为分类模型的变量筛选方法提供了一种新的思路,以提高筛选准确性,此外,所选择的属性具有汽车行业客户关系管理的特色,从而使构建的决策树模型更具有行业适用性,为汽车行业客户关系管理提供了一种可行的客户流失预警方案。
附图说明
图1为客户流失预警流程图。
具体实施方式
本发明主要通过以下技术方案来实现:
1.收集每位客户的基本属性数据、购买车辆数据及售后进4s店行为数据,构建数据库
1)客户基本属性数据主要包括身份证号码、姓名、性别、年龄、省份、城市、联系方式、教育程度、兴趣好爱、行业等信息;
2)购买车辆数据主要包括底盘号、所属经销商、车型、售价等数据;
3)售后进4s店行为数据主要包括进店类型(例如维修、保养、出险、索赔等)、进店时间、进店消费金额、进店里程、人工费、备件费、结算日期、维保项目等。
2.数据清洗
1)缺失值处理:例如缺失的性别、年龄、省份、城市可以由身份证号码相应位数进行翻译后补充;缺失的车型可以根据底盘号进行翻译后补充;缺失的售价可以根据该车车型售价的均值进行补充;缺失的进店消费金额可以根据维保项目及项目单价进行计算后补充等;
2)噪声数据的识别与处理:由于数据采集、录入方面的原因,客户售后进店数据会存在部分噪声数据。首先,需要对该部分数据进行识别,本发明中主要使用dbscan算法(一种基于密度的聚类算法)识别噪声数据;其次,对于识别出来的离群点,使用分箱方法“光滑”数据。
3.确定目标变量
目标变量(流失或非流失)根据规定时间内客户是否进4s店进行确定,若在规定时间内进4s店则为非流失客户,否则为流失客户,常用的时间窗口为3个月、6个月或者一年,本发明中使用一年作为时间窗口。
4.计算自变量
根据步骤2所得到的经过数据清洗后的数据,计算与客户流失行为相关的若干基本属性,主要包括年龄、售价、车龄、最后一次进4s店里程数、进4s店次数、出险次数、累计出险费用、保养次数、年均保养次数、次均保养费用、超期保养次数、累计保养费用、维修次数、年均维修次数、次均维修费用、累计维修费用。
5.筛选自变量
结合信息增益法和点双列相关系数法对步骤4中的自变量的重要性进行评估,从而筛选出重要性较高的若干属性。
其中,信息增益法的主要过程如下:
1)计算将d中观测正确分类的期望信息info(d)
其中,d表示所有观测数据集,pi是d中任意观测属于类ci的非零概率,并用|ci,d|/|d|估计;
2)计算根据属性a对d中观测进行分类所需要的信息量
其中,属性a根据数据集d具有v个不同值{a1,a2,…,αv},可以用属性a将d划分为v个分区域子集{d1,d2,…,dv},其中dj包含d中的观测,它们的a值为αj。3)计算属性a的信息增益
gain(a)=info(d)-infoa(d)
4)设定阈值,去除信息增益很小的基本属性
点双列相关系数法主要过程如下:
1)计算目标变量y中取某值的变量比例yp及取另外一值的变量比例yq;
2)计算自变量x中与yp对应部分的平均值
3)计算自变量x中与yq对应部分的平均值
4)计算自变量x的标准差sx;
5)根据公式
根据信息增益法和点双列系数法可以分别得到若干个重要性较高的自变量,二者取交集便可以得到两种方法的综合结果。
经过上述方法的筛选,得到重要性较高的自变量包括最后一次进4s店里程数、出险次数、售价、年均保养次数、次均保养费用、超期保养次数。
6.构建决策树模型
利用步骤5中筛选所得的自变量构建决策树模型,计算每个属性的信息增益,选择信息增益最大的属性作为根节点,并为该属性的每个取值建立一个分枝,对于每个分枝,对剩下的其他所有属性计算信息增益,同样选择信息增益最大的属性作为新的分裂节点并建立相应分枝,递归以上过程,直到没有任何属性,定义该节点为叶子节点,并将该节点标记为所有样本中个数最多的类别。此外,还需将无任何样本的叶子节点进行剪枝。
7.验证模型的准确性
将标注流失、非流失标签的客户数据输入构建好的决策树模型进行分析,比较预测结果和实际结果的差异,从而确定模型的准确性并对模型进行修正。
8.实际预测,发布流失预警
根据修正后的流失预测模型对当前的非流失客户进行预测,重点关注流失概率较高的客户,发布流失预警。