本发明涉及数据挖掘技术领域,具体而言,尤其涉及一种基于rfmca模型的多指标客户细分方法。
背景技术:
随着市场竞争的日益加剧,零售业的利润日渐微薄,吸引新客户变得更加困难。越来越多的企业正从以产品为中心的商业模式向以客户为中心的商业模式转变。对于现在供过于求的零售业来说,如何赢得和保留客户并将客户价值最大化变得尤为重要。零售业存在大量的客户数据和销售数据,这些数据的数量随着时间的推移呈现爆炸式增长。信息技术的飞速发展和大数据时代的到来使企业能够借助数据分析技术,充分利用这些海量数据对客户进行细分,提高决策质量。在更好地满足客户需求的同时,为企业获取持续忠诚的客户和更高的利润。
客户细分是企业成功实施客户保持的关键。由于不同客户的价值不同,客户细分可以使企业识别不同客户群体,为客户提供差异化、个性化产品和服务,从而增加客户满意度和忠诚度。根据80/20原则,企业20%最具赢利性的客户创造了企业80%的利润。企业自身资源的局限性决定了企业不可能达到让所有顾客都满意的目的,这就导致了企业在新客户识别的同时,也存在客户流失现象。因此,辨别有价值的客户对于企业来说非常关键,这就需要企业对客户进行分类,针对不同的客户群体采取不同的服务策略,以满足不同客户的特定购物需求和偏好。
已有的零售业客户细分研究存在以下几点不足:一是尚未形成完整的适用于零售业的客户细分指标体系;二是客户细分模型准确度偏低,时间复杂度比较大。
传统的客户细分方法已经不能适应当前市场,客户的消费数据呈现出多维度的特性。这就要求企业根据客户的消费行为对客户进行细分,进而为不同类型的客户提供不同的产品或服务,做到精准营销。
技术实现要素:
根据上述提出的技术问题,而提供一种基于rfmca模型的多指标客户细分方法,更好的解决客户细分问题,使得测定结果更加快速、精确。
本发明采用的技术手段如下:
一种基于rfmca模型的多指标客户细分方法,包括以下步骤:
步骤s1:获取网络数据与本地数据,构造样本数据,并对样本数据进行预处理;
步骤s2:对上述预处理后的数据进行分析,并构建基于rfmca模型的多指标客户细分模型;
步骤s3:对上述多指标客户细分模型的结果进行评估,得到细分后的数据,并与传统细分指标进行对比分析;
步骤s4:对上述细分后的数据进行类内关联规则挖掘。
进一步地,所述步骤s2中构建基于rfmca模型的多指标客户细分模型的具体步骤如下:
步骤s21:创建rfmca多指标客户细分体系,对步骤s1中预处理后的样本数据,根据构建的rfmca多指标客户细分体系进行计算;
步骤s22:采用熵值法为rfmca多指标客户细分体系进行赋权,根据各项指标观测值所提供的信息的大小来确定指标权重;
步骤s23:采用因子分析法进行数据降维,通过kaiser-meyer-olkinandbartlett’stest,根据度量标准来确定因子变量之间是否适合进行因子分析,并通过累计方差贡献率、碎石图和特征根来确定因子的数目;
步骤s24:对上述步骤s23中的因子变量进行聚类,完成客户细分。
进一步地,所述步骤s22中根据各项指标观测值所提供的信息的大小来确定指标权重,具体步骤如下:
步骤s221:建立数据矩阵
步骤s222:对数据进行非负化处理,其中,
正向指标:
负向指标:
其中,xij为第i个客户,第j个细分指标的值,max(x1j,x2j,…xnj)和min(x1j,x2j,...xnj)分别表示客户中第j个细分指标的最大值和最小值,n和m分别表示客户的总数和指标的总个数;
步骤s223:根据数据处理后的x’ij,计算第i个客户,第j个指标的特征比重pij:
其中,x’ij为数据预处理后第i个客户,第j个细分指标的值,n,m分别表示客户的总数和指标的总个数,pij为指标的特征比重;
步骤s224:计算第j项指标的熵值ej:
其中,k=1/lnn,ln为自然对数,pij为指标的特征比重,n为客户数量,ej≥0;
步骤s225:计算第j项指标的差异系数gj:
gj=1-ej
其中,ej为指标的熵值,gj越大,指标越重要;
步骤s226:计算各项指标的权值wj:
其中,m表示指标的总个数,gj为指标的差异系数。
令
a'=aw。
其中,a为步骤s221中建立的原始数据矩阵,w为指标的权重矩阵。
进一步地,所述步骤s24中聚类的具体算法如下:
步骤s241:根据手肘法确定最佳聚类数目k;
步骤s242:从输入的数据点集合中随机选择一个点作为初始聚类中心;
步骤s243:对数据集中的每一个点,计算其与初始聚类中心距离最近的种子点的距离d(x),并存放在一个数组里,将其距离相加得到sum(d(x));
其中,xi是样本i所有指标形成的向量,cj是簇j的质心对应所有指标的向量,xiu为样本i对应的第u个指标的值,cju为簇j对应的第u个指标的值,n为指标的个数;
步骤s244:取一个能落在sum(d(x))中的随机值random,random=sum(d(x))*random(0~1),找出当前random所在区间,random=random-d(x),直到random小于等于0,此时的点即为下一个种子点;
步骤s245:重复步骤s242和步骤s243,直到选出最佳聚类数目k个初始聚类中心;
步骤s246:利用所述k个初始聚类中心运行标准的k-means算法。
进一步地,所述步骤s222中还包括为了避免求熵值时对数的无意义,需要进行数据平移的步骤。
较现有技术相比,本发明具有以下优点:
1、本发明提供的基于rfmca模型的多指标客户细分方法,形成了完整的适用于零售业的客户细分指标体系,其多指标客户细分模型准确度较高,时间复杂度较小。
2、本发明所提出的方法在区分客户行为特征,进行客户细分方面明显优于传统rfm的细分方法,能够更好地为企业区分不同类型客户,制定差异化营销策略,使企业合理利用有限资源来提高客户满意度和忠诚度,提升企业自身价值。
基于上述理由本发明可在数据挖掘等领域广泛推广。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图。
图2为本发明数据预处理流程图。
图3为本发明方法中随机种子选择示意图。
图4为碎石图。
图5为本发明手肘法结果图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明提供了一种基于rfmca模型的多指标客户细分方法,包括以下步骤:
步骤s1:获取网络数据与本地数据,构造样本数据,并对样本数据进行预处理;
步骤s2:对上述预处理后的数据进行分析,并构建基于rfmca模型的多指标客户细分模型;
步骤s3:对上述多指标客户细分模型的结果进行评估,得到细分后的数据,并与传统细分指标进行对比分析;
步骤s4:对上述细分后的数据进行类内关联规则挖掘。
实施例
为了验证本发明的效果,进行了以下试验研究,将提出的研究模型运用到实际数据集中,完成某零售商的客户细分。具体内容如下:
步骤s1:获取网络数据与本地数据,构造样本数据,并对样本数据进行预处理;如图2所示,将得到的结构化数据、半结构化数据以及非结构化数据进行数据的协同和提取,存储到相应的数据库中,然后再根据业务需求将数据库中的数据进行预处理操作,包括:数据清洗、转化、集成、规约。
将零售商提供的过去5年的pointofsales(pos)数据作为案例,数据集包含3万多条会员信息,约38万条消费记录.我们对原始数据集进行预处理工作,对存在多个属性值缺失的会员信息予以删除,并对数据进行清洗和整合,最终保留了31099条会员信息记录以及362368条消费记录,约95%的原始数据,其中男女比例和年龄比例约3:7,可以看出,在购物过程中女性占大多数,且中老年是主要客户群体。
步骤s2:对上述预处理后的数据进行分析,并构建基于rfmca模型的多指标客户细分模型;
步骤s21:创建rfmca多指标客户细分体系,对步骤s1中预处理后的样本数据,根据构建的rfmca多指标客户细分体系(如下表1所示)进行计算;
表1:客户细分指标
其中,在近度值的选取上我们根据客户最近一次购买产品的时间,并按照购买先后顺序进行排序,然后将客户群划分成五等份,最近购买的客户记5分,购买时间最远的客户记1分。此外,我们将“近期内”时间设置为“最近一年”。rfmca多指标客户细分体系将每个维度扩充为两个指标,分别从宏观和微观两个角度来观察客户行为。相比较传统rfm模型,我们增加了对已消费物品种类和数量的考虑。表1中,r1,f1,m1,c1和a1为从宏观角度刻画客户的长期行为的指标,r2,f2,m2,c2和a2为从微观角度来刻画客户的近期动态的指标。从宏观角度来讲,将客户自身指标与全体客户对应指标的平均值比较,可以更清楚地确定客户在整体中的相对位置。从微观角度来讲,将客户的最近一年指标与历史指标对照,可以从自身的角度观察客户的近期行为取向。
部分计算数据如下表3所示:
表3:多指标体系
步骤s22:采用熵值法为rfmca多指标客户细分体系进行赋权,根据各项指标观测值所提供的信息的大小来确定指标权重;
具体步骤如下:
步骤s221:建立数据矩阵
步骤s222:对数据进行非负化处理,为了避免求熵值时对数的无意义,对数据进行平移计算。其中,
正向指标:
负向指标:
其中,xij为第i个客户,第j个细分指标的值,max(x1j,x2j,...xnj)和min(x1j,x2j,…xnj)表示客户中第j个细分指标的最大值和最小值,n和m分别表示客户的总数和指标的总个数;
步骤s223:根据数据处理后的x’ij,计算第i个客户,第j个指标的特征比重pij:
其中,x’ij为数据预处理后第i个客户,第j个细分指标的值,n,m分别表示客户的总数和指标的总个数,pij为指标的特征比重;
步骤s224:计算第j项指标的熵值ej:
其中,k=1/lnn,ln为自然对数,pij为指标的特征比重,n为客户数量,ej≥0;
步骤s225:计算第j项指标的差异系数gj:
gj=1-ej
其中,ej为指标的熵值,gj越大,指标越重要;
步骤s226:计算各项指标的权值wj:
其中,m表示指标的总个数,gj为指标的差异系数。
令
步骤s23:采用因子分析法进行数据降维,通过kaiser-meyer-olkinandbartlett’stest,根据度量标准来确定因子变量之间是否适合进行因子分析,并通过累计方差贡献率、碎石图和特征根来确定因子的数目;特征根要求大于1,累计方差贡献率一般要不小于85%。度量标准如表2所示:
表2:kmoandbartlett’stestmetrics
得出结果如下表4所示:可以看出kmo=0.857,说明比较适合进行因子分析。bartlett’stestsig.值<0.05,说明拒绝零假设,即相关矩阵不是单位矩阵,原矩阵之间有共同因素存在,适合进行因子分析
表4:kmoandbartlett’stest
表5:totalvarianceexplained
从表5可以看出,因子1的方差百分比为57.428%,因子2的方差百分比为15.969%,因子3的方差百分比为13.605%,前三个因子累积贡献率为87.002%。另外,观察特征值和如图4所示的碎石图,可以看出前三个因子的特征值都是大于1的,从第4个因子开始,曲线开始变得比较平缓,最后接近一条直线。据此,我们可以抽取3个因子。
步骤s24:对上述步骤s23中的因子变量进行聚类,完成客户细分。
步骤s241:根据手肘法确定最佳聚类数目k;
步骤s242:从输入的数据点集合中随机选择一个点作为初始聚类中心;
步骤s243:对数据集中的每一个点,计算其与初始聚类中心距离最近的种子点的距离d(x),并存放在一个数组里,将其距离相加得到sum(d(x));
其中,xi是样本i所有指标形成的向量,cj是簇j的质心对应所有指标的向量,xiu为样本i对应的第u个指标的值,cju为簇j对应的第u个指标的值,n为指标的个数;
步骤s244:如图3所示,取一个能落在sum(d(x))中的随机值random,random=sum(d(x))*random(0~1),找出当前random所在区间,random=random-d(x),直到random小于等于0,此时的点即为下一个种子点;
步骤s245:重复步骤s242和步骤s243,直到选出最佳聚类数目k个初始聚类中心;根据肘部对应的k值为5,所以对于这个数据集来说,最佳聚类数应选5类。所以,在初始点的选择上,选取尽可能远的5个点作为初始聚类中心。结果如表6所示:
表6:初始聚类中心
步骤s246:利用所述5个初始聚类中心运行标准的k-means算法,将客户分为5类。聚类信息表7所示:
表7:客户细分结果
根据聚类结果将客户划分为五个等级,分别为:c4重要保持客户,c2重要发展客户,c1重要挽留客户,c5一般客户,c3低价值客户。
步骤s3:对上述多指标客户细分模型的结果进行评估,体现出与传统细分结果的优越性;得到细分后的数据,并与传统细分指标进行对比分析;
对同一个数据集,依据传统rfm细分指标对客户进行细分,聚类信息如表8所示:
表8:传统指标细分结果
将两种模型的结果进行对比,很容易发现,传统rfm模型细分结果中每个类别除了花费金额差异较大,其余特征差异相对较小,并且聚类结果显示各个类内距离相对较大,而通过表7可以看出,采用多指标客户细分方法得到的各个类之间差异较大,类内差异较小,聚类效果更为紧凑。表明本发明所提出的方法在区分客户行为特征,进行客户细分方面明显优于传统rfm的细分方法,能够更好地为企业区分不同类型客户,制定差异化营销策略,使企业合理利用有限资源来提高客户满意度和忠诚度,提升企业自身价值。
步骤s4:对上述细分后的数据进行类内关联规则挖掘,旨在提供精准的服务。作为本发明优选的实施方式,根据多指标客户细分结果对客户购物篮访问进行关联规则挖掘,旨在找出每一类客户所喜好的产品,有助于制定精准营销策略,提高交叉销售能力。其中重要客户类内关联规则挖掘部分如下表9,10,11所示。(购物篮数据在关联规则之前已经划分为61个类别,包括捆绑销售的大类15种(pca-001到pca-015)和46种小类(p0001-p0045))。
表9:重要保持客户关联规则
表10:重要发展客户关联规则
表11:重要挽留客户关联规则
根据挖掘结果,在重要保持客户中,对于大类捆绑产品pca-002(海鲜拼盘,火锅肉类,底料,调味酱料)与pca-005(肉片类,肉制品)规则支持度比较高。购买pca-005的顾客有2000多例占总人数的62%左右。其中,大约76%的顾客同时购买了pca-002,同时购买这两种产品的顾客约60%。另外,高级酒类(p0018)和pca-002在重要保持客户中有密切联系。在重要发展客户中发现,咖啡(p0015)、茶类饮品(p0017)规则支持度比较高。此外,重要挽留客户中,啤酒类(pca-011)、饮品(p0034)、瓜果(p0011)以及蔬菜(p0010)规则支持度比较高。在一般客户和低价值客户中发现,规则的支持度比较低,究其原因可能是购买的产品比较单一,属于一次性购物客户比较多。另外,我们分别计算出5类客户中,产品购买力最大的前三种。如表12所示:
表12:类内产品购买力
由表12可以看出,在所有的客户群体中菜类产品比较受顾客欢迎,其次,在重要客户中发现高级酒类受人们喜爱,在一般客户中,人们比较喜爱购买肉类和水产品。根据调查,此零售商经销的果蔬类和水产品受到周围顾客的喜爱,其次是有高档酒水的代购品。可以看出。案例分析结果与客户实际购买力相吻合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。