一种基于k-means和神经网络聚类的客户细分方法
【技术领域】
[0001] 本发明涉及数据挖掘领域,特别涉及一种基于k-means和神经网络聚类的客户细 分方法。
【背景技术】
[0002] 随着我国加入世界贸易组织后,面对外资银行的进入和金融改革的深化,金融竞 争愈发激烈,优质客户逐渐成为银行竞争的焦点。不同类型客户给银行所带来的价值差异 是十分明显的,银行可通过识别、区分这种差异,指导其更合理地配置市场销售、服务和管 理资源,以较少的投入获取更大的收益,解决这一问题就需要进行客户细分。银行客户细分 是指银行在明确的战略、业务模式和特定的市场中,根据客户的属性、行为、需求、偏好以及 价值等因素对于客户进行分类,并提供针对的产品、服务和营销模式的过程。
[0003]目前,传统上对银行客户细分有经验分类方法和基于统计分析法。经验法的银行 客户细分是最原始的划分方法,一般由决策者根据自己经验对客户进行类别划分,具有很 强的主观性,细分的结果不客观,缺少说服力。基于统计方法的客户细分是一种量化研宄, 根据对客户属性特征统计结果进行客户类别划分,细分的结果往往与分类标准具有极强的 关联性,如果分类标准不合理,分类的结果也不合理。随着我国银行化信息化建设的不断深 入,银行已经积累了大量的个人历史交易数据和客户资料,同时随着网络的发展,将会积累 越来越多的客户数据,面对海量的客户数据,传统的客户细分方法更将显得力不从心。近年 来。数据挖掘技术得到了迅速的发展,其融合了数据库、人工智能、和统计学等多个领域技 术,能够从大量的、不完全的、有噪声的、模糊的原始数据中,挖掘出有用、可信、新颖的信息 和知识的过程,其中K-means聚类是一种最重要的数据挖掘方法,其在银行客户细分中得 到了广泛的应用。
[0004] K-means算法是数据挖掘技术中基于分裂法的一个经典的聚类算法,因其理论可 靠、算法简单、收敛速度快而被广泛应用。K-means算法采用迭代更新的思想,首先随机地选 择K个对象初始的代表聚类或簇的中心,再对剩下的每个对象根据其与各个簇的中心的距 离将它重新赋给最近的簇,然后重新计算每个簇的中心作为下一次迭代的聚类中心。不断 重复这个过程,直到各聚类中心不再变化时终止。迭代使得选取的聚类中心越来越接近真 实的簇中心,所以聚类效果越来越好,最后把所有对象划分为K个簇。
[0005] 传统的K-means算法的具体步骤:
[0006] 输入:聚类树木K和包含N个对象的数据集X= {xl,x2,x3,x4, . . .xn}。
[0007] 输出:K个聚类簇{Sl,s2,s3…sk},使目标函数最小。
[0008] 具体步骤:
[0009] (1)从数据集X中随机选择K个对象作为初始聚类中心cl,c2,c3,…,ck;
[0010] (2)逐个将对象xi(i= 1,2, 3,…,n)按照欧式距离分配给最近的一个聚类中心cj,l^j^K;
[0011] (3)重新计算每个簇中新的聚类中心cj,
[0012] (4)直到K个聚类中心不再变化,准则函数收敛。
[0013] 图1为传统的K-means算法的基本流程图。
[0014] K-means算法是解决聚类问题的经典算法,这种算法简单快速。但是,传统的 K-means算法有着对孤立点敏感的致命缺点,如果数据集中存在孤立点,那么k-means算法 的聚类效果就不是很理想。并且在聚类过程中对每一个属性都同等对待,这样就区分不出 不同的属性对聚类结果的影响。
【发明内容】
[0015] 本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于k-means和 神经网络聚类的客户细分方法,在第一步只是抽取少数样本,这样在样本中抽取到孤立点 的概率就很低,可以忽略不计,并且采用BP神经网络计算出每个属性的权值,避免了每个 属性对结果影响一样。
[0016] 为了实现上述发明目的,本发明提供了以下技术方案:
[0017] -种基于k-means和神经网络聚类的客户细分方法,包括以下步骤:
[0018] (1)从总体数据中随机抽样,抽取部分数据作为样本数据;
[0019] (2)对步骤⑴抽取的样本数据进行k-means聚类,计算出每个样本数据所属的类 别;
[0020] (3)将步骤(2)的聚类结果作为训练样本,采用神经网络计算出每个属性每一层 的权值,并得到一个训练好的神经网络;
[0021] (4)将总体数据输入到训练好的神经网络中,计算出其所属的类别。
[0022] 优选的,所述神经网络为BP神经网络。
[0023] 优选的,所述BP神经网络为3层或大于3层的前馈型BP网络。
[0024] 优选的,所述部分数据不大于总体数据的30%。
[0025] 优选的,所述部分数据不大于总体数据的15%。
[0026] 优选的,所述部分数据不大于总体数据的5%。
[0027] 优选的,所述k-means聚类的聚类数目为5。
[0028] 优选的,所述步骤(1)中总体数据在随机抽样前先进行数据预处理。
[0029] 优选的,所述数据预处理采用中心化与标准化变换方法。
[0030] 与现有技术相比,本发明的有益效果:
[0031] 1.本发明的方法在第一步只是随机抽取总体数据中的少数样本,这样在样本中抽 取到孤立点的概率就很低,可以忽略不计,提高了聚类的正确率;
[0032] 2.本发明的方法采用BP神经网络计算出每个属性的权值,避免了每个属性对结 果影响一样,聚类效果更切合客户细分的实际需求。
【附图说明】
[0033] 图1为传统的K-means算法的基本流程图
[0034] 图2为本发明客户细分方法的具体流程图
【具体实施方式】
[0035]下面结合试验例及【具体实施方式】对本发明作进一步的详细描述。但不应将此理解 为本发明上述主题的范围仅限于以下的实施例,凡基于本
【发明内容】
所实现的技术均属于本 发明的范围。
[0036] 本发明的基于k-means和神经网络聚类的客户细分方法具体实现步骤如下:
[0037] (1)从总体数据中随机抽样,抽取少部分数据作为样本;
[0038] (2)对第一步抽取的样本数据进行k-means聚类,计算出每个样本所属的类别;
[0039] (3)将第二步的聚类结果作为训练样本,采用BP神经网络计算出每个属性每一层 的权值,并得到一个训练好的BP神经网络。
[0040] (4)将总体数据输入到第三步训练好的BP神经网络中,计算出其所属的类。
[0041] 作为本具体实施例的总体数据来自国内某市银行的个人理财业务系统中的客户 分类数据。输入有2000个银行客户样本,每条记录包括的属性字段有:客户编号、年龄、工 作年限、客户月薪、本银行存款数目、银行使用次数、借贷状况及住房情况,总共八个字段。 将银行客户客户输出为5大类,即高级客户,大客户,一般客户,小客户,潜在客户。
[0042] 本发明的方法对客户细分的具体流程图如图2所示,首先对原始数据进行数据预 处理。原始数据收集过程中可能因为人为的偏差,数据库含有着不完整、含噪声的数据,同 时数据库中记录的各个字段代表不同特征,往往使用不同的度量单位,其值相差十分悬殊。 因此,必要对原始数据进行预处理以提高数据质量,从而使数据挖掘过程更加有效、分类更 加准确。本发明方法的数据预处理采用中心化与标准化变换方法。中心化目的为了各字段 值都有相同的基点,具体执行按照下式进行:
【主权项】
1. 一种基于k-means和神经网络聚类的客户细分方法,其特征在于,包括以下步骤: (1) 从总体数据中随机抽样,抽取部分数据作为样本数据; (2) 对步骤(1)抽取的样本数据进行k-means聚类,计算出每个样本数据所属的类别; (3) 将步骤(2)的聚类结果作为训练样本,采用神经网络计算出每个属性每一层的权 值,并得到一个训练好的神经网络; (4) 将总体数据输入到训练好的神经网络中,计算出其所属的类别。
2. 根据权利要求1所述的基于k-means和神经网络聚类的客户细分方法,其特征在于, 所述神经网络为BP神经网络。
3. 根据权利要求2所述的基于k-means和神经网络聚类的客户细分方法,其特征在于, 所述BP神经网络为3层或大于3层的前馈型BP网络。
4. 根据权利要求1所述的基于k-means和神经网络聚类的客户细分方法,其特征在于, 所述部分数据不大于总体数据的30%。
5. 根据权利要求4所述的基于k-means和神经网络聚类的客户细分方法,其特征在于, 其特征在于,所述部分数据不大于总体数据的15%。
6. 根据权利要求5所述的基于k-means和神经网络聚类的客户细分方法,其特征在于, 其特征在于,所述部分数据不大于总体数据的5%。
7. 根据权利要求1所述的基于k-means和神经网络聚类的客户细分方法,其特征在于, 所述k-means聚类的聚类数目为5。
8. 根据权利要求1所述的基于k-means和神经网络聚类的客户细分方法,其特征在于, 所述步骤(1)中总体数据在随机抽样前先进行数据预处理。
9. 根据权利要求8所述的基于k-means和神经网络聚类的客户细分方法,其特征在于, 所述数据预处理采用中心化与标准化变换方法。
【专利摘要】本发明公开了一种基于k-means和神经网络聚类的客户细分方法,包括步骤:(1)从总体数据中随机抽样,抽取部分数据作为样本数据;(2)对步骤(1)抽取的样本数据进行k-means聚类,计算出每个样本数据所属的类别;(3)将步骤(2)的聚类结果作为训练样本,采用神经网络计算出每个属性每一层的权值,并得到一个训练好的神经网络;(4)将总体数据输入到训练好的神经网络中,计算出其所属的类别。本发明的方法在第一步只是抽取少数样本,抽取到孤立点的概率很低,并且采用BP神经网络计算出每个属性的权值,避免了每个属性对结果影响一样,从而克服了传统的K-means聚类算法的缺点,聚类效果更切合客户细分的实际需求。
【IPC分类】G06N3-08, G06K9-62
【公开号】CN104850868
【申请号】CN201510323644
【发明人】刘念
【申请人】四川友联信息技术有限公司
【公开日】2015年8月19日
【申请日】2015年6月12日