本发明涉及数据挖掘领域,尤其涉及一种基于crfm模型的计量行业客户细分方法。
背景技术:
利用数据挖掘技术提取客户的交易行为特征,逐渐成为各行业制定差异化营销策略,提高客户忠诚度,促进客户价值最大化的重要战略手段。为了解不同客户群体的消费行为,客户细分等技术被广泛利用。目前,国内计量机构没有一个比较完整的客户细分系统,以统一整合计量客户资源。
在众多的客户关系管理(crm)的分析模式中,rfm模型是被广泛提到的,rfm模型是衡量客户价值和客户创利能力的重要工具和手段,其是通过一个客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来描述该客户的价值状况,其中,r(recency)指上次购买至现在的时间间隔,f(frequency)为某一期间内的购买次数,m(monetary)是某一期间内购买的金额。单一的rfm模型并不能满足每一类客户关系的管理,也无法全面地对客户的行为特征进行细分,鉴于此,本发明提出一种基于改进的rfm模型(crfm模型)的计量行业客户细分方法,实现计量行业利润最大化。
技术实现要素:
本发明要解决的技术问题,在于提供一种基于crfm模型的计量行业客户细分方法,可结合计量行业实际业务需求,实现客户细分,为定制个性化服务提供依据。
本发明是这样实现的:一种基于crfm模型的计量行业客户细分方法,包括如下步骤:
步骤s1、对计量客户的历史样本数据进行抽取;
步骤s2、对抽取的样本数据进行预处理;
步骤s3、定义并计算crfm模型中的指标值,并对这些指标值进行归一化处理,所述指标值包括最近送检时间r、送检频率f、检测金额m和平均送检周期c;
步骤s4、基于crfm模型的指标值,利用k-means算法对计量送检客户进行聚类;
步骤s5、计算聚类后的不同客户群的各个指标的平均值,与聚类前的所述样本数据对应的各个指标的平均值进行比较,并根据这些指标值的变化创建客户分类矩阵,对客户群进行价值分类。
进一步的,所述步骤1中历史样本数据包括客户基本档案信息和客户送检交易记录信息,所述客户送检交易记录信息包括送检单位代码、器具名称、送检日期、检测金额和检测周期。
进一步的,所述步骤2中的预处理进一步包括:
s2.1、缺失值处理,在抽取的样本数据中,对存在缺失的数据进行填充处理;
s2.2、异常值处理,对抽取的样本数据中超出指标阈值范围的数据,通过同类型数据结合插值算法进行修正处理;
s2.2、数据转换处理,把抽取的样本数据根据需要转换为与算法匹配的形式。
进一步的,所述步骤3进一步包括:
s3.1、定义crfm模型的指标值,包括最近送检时间r、送检频率f、检测金额m和平均送检周期c,其中,所述最近送检时间r和送检频率f由送检时间计算得到,所述送检金额m为各送检器具检测金额之和,所述平均送检周期c根据客户对应的送检器具的周期取平均值得到。
s3.2、采用最小最大值法,零均值法或小数点标定法对各个指标进行归一化处理。
进一步的,所述步骤4进一步包括:
s4.1、确定聚类数k,通过设置k的取值范围,对取值范围内的每一个k值进行聚类计算,之后计算类内误差平方和,根据类内误差平方和选取其中最佳聚类数k;
s4.2、初始化聚类中心点,从计量客户送检数据样本集中随机选择k个样本作为k-means聚类的中心点,将聚类中心点作为各聚类的代表;
s4.3、迭代计算最优聚类中心,通过迭代方法,不断计算新的聚类中心点,直至所有样本数据均与中心点之间的距离最小;
s4.4、输出分群数据,根据上述计算得出的最优聚类中心得到每个样本数据所属的聚类中心。
进一步的,所述步骤5具体为:计算聚类后的不同客户群的各个指标的平均值,与聚类前的所述样本数据对应的各个指标的平均值进行比较,建立价值-潜力矩阵与crfm模型中四个指标值的对应关系,通过各个客户群对应的四个参数的变化规律,分析客户的价值和潜力属性,将客户分为高价值高潜力客户、高价值低潜力客户、低价值高潜力客户和低价值低潜力客户四类群体。
本发明具有如下优点:通过引入周期变量创建价值评估模型,使其更贴合计量行业的特点和需求,通过总金额和平均送检周期可构建客户价值矩阵来简化基于crfm模型分析的客户细分过程,并利用不同等级客户价值差异定制优化的个性化服务方案,提高计量行业利润。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1为本发明方法执行流程图。
具体实施方式
如图1所示,本发明的一种基于crfm模型的计量行业客户细分方法,包括如下步骤:
步骤s1、对计量客户的历史样本数据进行抽取;
步骤s2、对抽取的样本数据进行预处理;
步骤s3、定义并计算crfm模型中的指标值,并对这些指标值进行归一化处理,所述指标值包括最近送检时间r、送检频率f、检测金额m和平均送检周期c;
步骤s4、基于crfm模型的指标值,利用k-means算法对计量送检客户进行聚类;
步骤s5、计算聚类后的不同客户群的各个指标的平均值,与聚类前的所述样本数据对应的各个指标的平均值进行比较,并根据这些指标值的变化创建客户分类矩阵,对客户群进行价值分类。
较佳的,所述步骤1中历史样本数据包括客户基本档案信息和客户送检交易记录信息,所述客户送检交易记录信息包括送检单位代码、器具名称、送检日期、检测金额和检测周期。
较佳的,所述步骤2中的预处理进一步包括:
s2.1、缺失值处理,在抽取的样本数据中,对存在缺失的数据进行填充处理;
s2.2、异常值处理,对抽取的样本数据中超出指标阈值范围的数据,通过同类型数据结合插值算法进行修正处理;
s2.2、数据转换处理,把抽取的样本数据根据需要转换为与算法匹配的形式。
较佳的,所述步骤3进一步包括:
s3.1、定义crfm模型的指标值,包括最近送检时间r、送检频率f、检测金额m和平均送检周期c,其中,所述最近送检时间r和送检频率f由送检时间计算得到,所述送检金额m为各送检器具检测金额之和,所述平均送检周期c根据客户对应的送检器具的周期取平均值得到。
s3.2、采用最小最大值法,零均值法或小数点标定法对各个指标进行归一化处理。
较佳的,所述步骤4进一步包括:
s4.1、确定聚类数k,通过设置k的取值范围,对取值范围内的每一个k值进行聚类计算,之后计算类内误差平方和,根据类内误差平方和选取其中最佳聚类数k;
s4.2、初始化聚类中心点,从计量客户送检数据样本集中随机选择k个样本作为k-means聚类的中心点,将聚类中心点作为各聚类的代表;
s4.3、迭代计算最优聚类中心,通过迭代方法,不断计算新的聚类中心点,直至所有样本数据均与中心点之间的距离最小;
s4.4、输出分群数据,根据上述计算得出的最优聚类中心得到每个样本数据所属的聚类中心。
较佳的,所述步骤5具体为:计算聚类后的不同客户群的各个指标的平均值,与聚类前的所述样本数据对应的各个指标的平均值进行比较,建立价值-潜力矩阵与crfm模型中四个指标值的对应关系,通过各个客户群对应的四个参数的变化规律,分析客户的价值和潜力属性,将客户分为高价值高潜力客户、高价值低潜力客户、低价值高潜力客户和低价值低潜力客户四类群体。
下面结合一具体实施例对本发明做进一步说明:
本发明结合计量行业送检产品的独特性,对rfm模型进行改进,将周期(circle)变量引入到rfm价值评估模型中,提出了crfm(cycle,recency,frequency,monetary)模型,使之更贴合计量行业的特点和需求。针对送检客户送检的器具类型多样化,且不同器具周期不同的特点,本发明对周期变量进行了处理,通过计算客户的器具平均送检周期,将其作为改进后的模型的输入变量和衡量客户价值的指标之一,同时,提出用送检总金额m和平均送检周期c两个指标构建客户价值矩阵来简化基于crfm分析的客户细分过程,最后通过比较不同等级客户的价值差异,定制优化的个性化服务方案,实现计量行业利润最大化的终极目标,本发明的具体细分步骤如下:
步骤s1、从计量自动化系统以及检测管理系统中抽取一些能反应客户送检行为特征的历史样本数据,所述样本数据中包括客户基本档案信息(例如送检客户编号、送检客户单位、行业类别、信用情况信息等)和客户送检交易记录信息,其中,客户送检交易记录信息包括送检流水号、送检单位代码、器具名称、送检日期、数量、送检金额和检测周期等;
步骤s2、对所述抽取的样本数据进行预处理,包括对所述抽取的样本数据(即原始计量数据)进行缺失值处理、异常值处理和数据转换处理;
所述缺失值处理是对其中存在缺失现象的数据进行填充处理,确保建模所需数据的有效性,可以通过人工处理方式、简单填充方式或估计填充方式进行,例如,在客户送检交易记录信息录入过程中,对于器具送检周期这一重要字段,可能由于业务受理疏忽,出现了空缺值,这时就需要根据该器具的常规送检周期对该空缺值进行填充;
所述异常值处理是对超出指标预制范围的数据,通过同类型数据结合插值算法进行修正处理;
所述数据转换处理是样本数据根据需要转换为与算法匹配的形式,数据转换常见的形式是计算和生成衍生数据,比如平均值、总和或完成相应的统计计算或业务计算,例如,要计算某客户最近一次送检的时间间隔,就需要用选取的时间节点减去客户最近一次送检的交易时间,可以设置一个衍生字段来存放客户最近一次送检的时间间隔天数,再比如,需要统计客户半年来的平均送检周期,就需要计算半年内的各器具送检周期总和,再除以器具的数量,数据转换处理得到的这些衍生数据或统计数据可更好的应用于后续算法中;
步骤s3、对预处理后的样本数据以客户为单位进行汇总,定义并计算出crfm模型所需的指标值,如表1crfm模型的定义;
表1
其中,所述最近送检时间r和送检频率f可由送检时间计算得到,最近送检时间r以天数作为单位,所述送检金额m为各送检器具检测金额之和,具体的计算公式为:
其中,j表示第j种器具,sum(m)表示某一客户送检的所有器具的总检测金额,mj表示该客户送检的第j种器具的总检测金额,n表示该客户送检的器具种数;
所述平均送检周期c根据客户对应的送检器具的周期取平均值得到,由于器具的坚定具有周期性这一性质,相对应的客户的检定具有一定的周期性,该参数会影响客户的检定记录,但不同类别器具周期性不同,为此,对客户对于的送检器具的周期取平均值,将客户的平均送检周期作为衡量客户价值的指标之一,具体计算公式如下所示:
其中,c表示某一客户在统计期内送检的器具的平均送检周期,j表示该客户送检的第j种器具,nj表示该客户在统计期内送检的第j种器具的数量,n表示该客户在统计期内送检的器具的总数量,cj表示该客户在统计期内第j种器具的送检周期,n表示该客户统计期内送检的器具种数。
对每一客户的这些指标值进行归一化处理,即进行标准化处理,从而消除分布差异较大和量纲不同的影响,主要采取最小最大值法、零均值法或小数点标定法,以最小最大值法为例进行说明:用r*,f*,m*,c*分别表示某送检客户标准化后的r、f、m、c指标值。由于r和c对客户价值存在负相关关系,f和m对客户价值存在正相关关系,因此,r、f、m、c指标标准化的计算公式如下:
式中,r*指该客户标准化后的r值,r指该客户在统计期内最近一次送检时间的时间间隔,rmax和rmin分别指分析的所有客户中r的最大值和最小值;f*指客户标准化后的f值,f指该客户在统计期内的送检次数,fmax和fmin分别指分析的所有客户中f的最大值和最小值;m*指该客户标准化后的m值,m指该客户在统计期内的送检总金额,mmax和mmin分别指分析的所有客户中m的最大值和最小值;c*指该客户标准化后的c值,c指该客户在统计期内的器具平均送检周期,cmax和cmin分别指分析的所有客户中c的最大值和最小值;
步骤s4、基于crfm模型的四个指标值,利用k-means算法对计量送检客户进行聚类,具体如下:
确定聚类数k,k作为算法的输入参数,对最终聚类结果有很大的影响,由于事先对类的个数并没有一个直观上的了解,因此尝试不同的聚类个数,以决定最优的一个,例如,可设置k=2至k=25,针对不同的k,每一次聚类完成后,计算类内误差平方和,根据类内误差平方和选取最佳聚类数k;
聚类中心点初始化,从计量客户送检数据样本集(即所抽取的样本数据)中随机选择k个样本作为k-means聚类的中心点,将聚类中心点作为各聚类的代表,迭代计算最优聚类中心,通过不断计算新的聚类中心点,直至所有样本数据均与中心点之间的距离最小,得到每个样本数据所属的聚类中心,输出分群数据;
步骤s5、分析聚类后的不同客户群中各指标(r、f、m、c)的平均值,并根据这些指标值的变化对这些客户群进行价值分类分析,为简化说明,基于crfm模型的客户分析过程,本实施例中通过构造2x2的客户价值矩阵来对不同客户群进行价值分类分析,具体过程为:在k-means算法聚类后,计算各簇内的平均c值和平均m值,如果该簇的平均m值超过聚类前的总平均m值,则显示向上箭头↑(即高价值),否则显示向下箭头↓(即低价值);如果该簇的平均c值超过聚类前总平均c值,则显示向上箭头↑(即高潜力),否则显示向下箭头↓(即低潜力),例如,将计量客户分为以下四类:高价值高潜力客户(c↑m↑),高价值低潜力客户(c↓m↑),低价值高潜力客户(c↑m↓),低价值低潜力客户(c↓m↓),得到一客户价值分类矩阵表如表2所示:
表2
ⅰ类客户(高价值高潜力客户):该类客户既具有很高的当前价值,又有巨大的增值潜力。他们具有较高的忠诚度,是企业获得持续利润的基石;
ⅱ类客户(高价值低潜力客户):该类客户具有很高的当前价值,但增值潜力不大。他们可能是客户关系已进入稳定期的忠诚客户;
ⅲ类客户(低价值高潜力客户):该类客户当前价值不高,但是具有很高的增值潜力;
ⅳ类客户(低价值低潜力客户):该类客户的当前价值和增值潜力都很低。
上述实施例中,本发明通过建立价值-潜力与crfm模型中的四个参数的对应关系,实现对客户(价值、潜力)属性的细分,同理,按本发明客户细分方法,客户的其他属性也可采用类似的方式进行参数定义、计算、聚类和解释分析,从而为不同的客户群采用不同的营销策略提供依据。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。