数据挖掘及分类方法
【技术领域】
[0001]本发明涉及数据挖掘及分类方法,更具体地,涉及基于聚类技术的数据挖掘及分类方法。
【背景技术】
[0002]目前,随着计算机和网络应用的日益广泛以及不同领域的业务种类的日益丰富,对特定的对象进行有效的分类以便针对不同类别的对象实施不同的处理方案。
[0003]在现有的技术方案中,通常根据与目标对象相关联的单一属性数据来对目标对象进行分类,即基于每个目标对象的某个特定的属性数据的值对目标对象进行分类。
[0004]然而,现有的技术方案存在如下问题:由于仅仅基于单一属性数据对目标对象进行分类,故分类结果的精确度较低。
[0005]因此,存在如下需求:提供能够根据目标对象的多个属性数据的值来挖掘和分类目标对象的基于聚类技术的数据挖掘及分类方法。
【发明内容】
[0006]为了解决上述现有技术方案所存在的问题,本发明提出了能够根据目标对象的多个属性数据的值来挖掘和分类目标对象的基于聚类技术的数据挖掘及分类方法。
[0007]本发明的目的是通过以下技术方案实现的:
一种数据挖掘及分类方法,所述数据挖掘及分类方法包括下列步骤:
(Al)基于预定规则从目标数据集中收集目标对象的至少一个属性数据的值,并且随之针对每个目标对象,将与该目标对象对应的至少一个属性数据的值表示为属性向量;
(A2)针对所述属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,所述分类结果指示每个属性向量所对应的目标对象的分类。
[0008]在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(BI)规范化初始的属性向量,以消除属性向量中的不同属性的取值差异所引入的数据偏移。
[0009]在上面所公开的方案中,优选地,所述步骤(BI)进一步包括:使用z-score规范化过程对初始的属性向量进行规范化,其包括:针对属性向量中的任一属性值A,使得规范化后的值Anrat是该属性值A与该属性值的均值之差除以该属性值的标准差而得到的商值。
[0010]在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(B2)针对规范化后的属性向量进行2-类聚类处理,其包括:(Cl)确定两个类别的“种子”向量以将其作为聚类中心;(C2)利用所确定的聚类中心并以Kmeans聚类处理过程对所述规范化后的属性向量进行迭代聚类。
[0011]在上面所公开的方案中,优选地,所述步骤(Cl)进一步包括:将所有已知的第一类目标对象所对应的属性向量在向量空间中的几何中心作为第一聚类中心,并且将所有已知的第二类目标对象所对应的属性向量在向量空间中的几何中心作为第二聚类中心。
[0012]在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(B3)从被聚类到第一聚类中心的属性向量群中挑选出其所对应的目标对象原本属于第二类目标对象的属性向量,以构成第一部分的潜在对应于第一类目标对象的属性向量。
[0013]在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(B4)对被聚类到第二聚类中心的属性向量进行离群点分析,所述离群点分析包括:(1)将距所述第二聚类中心的距离大于预定的离群距离阈值的属性向量确定为离群点;(2)以如下方式筛选所确定的离群点:将位于以第一聚类中心和第二聚类中心之间的距离为直径并且所述第一聚类中心和第二聚类中心在其表面上的向量空间内的离群点构成第二部分的潜在对应于第一类目标对象的属性向量。
[0014]在上面所公开的方案中,优选地,所述基于聚类处理的分类操作进一步包括:(B5)合并所述第一部分的潜在对应于第一类目标对象的属性向量和所述第二部分的潜在对应于第一类目标对象的属性向量以获得分类结果。
[0015]在上面所公开的方案中,优选地,所述数据挖掘及分类方法以分布式计算的方式被实现。
[0016]本发明所公开的基于聚类技术的数据挖掘及分类方法具有以下优点:能够根据目标对象的多个属性数据的值来挖掘和分类目标对象并且具有良好地可扩展性,从而显著的提高了分类准确性。
【附图说明】
[0017]结合附图,本发明的技术特征以及优点将会被本领域技术人员更好地理解,其中:
图1是根据本发明的实施例的数据挖掘及分类方法的流程图。
[0018]图2是根据本发明的实施例的数据挖掘及分类方法中的离群点分析及筛选基本原理的示意图。
【具体实施方式】
[0019]图1是根据本发明的实施例的数据挖掘及分类方法的流程图。如图1所示,本发明所公开的数据挖掘及分类方法包括下列步骤:(Al)基于预定规则从目标数据集(例如金融领域中的交易记录集合)中收集目标对象(例如金融卡用户)的至少一个属性数据(例如消费金额、消费次数、消费场景等等)的值,并且随之针对每个目标对象,将与该目标对象对应的至少一个属性数据的值表示为属性向量(例如,属性向量的每一位代表可以描述金融卡消费行为的不同含义,如金融卡的消费金额、消费次数、消费时间等等,并且属性向量的位数可以任意定制和扩展,即可以采用任意多的指标来描述金融卡的消费行为);(A2)针对所述属性向量执行基于聚类处理的分类操作,以获得所述属性向量的分类结果,所述分类结果指示每个属性向量所对应的目标对象的分类。
[0020]优选地,在本发明所公开的数据挖掘及分类方法中,所述属性向量的位数能够根据实际需求而被任意扩展。
[0021]优选地,在本发明所公开的数据挖掘及分类方法中,所述基于聚类处理的分类操作进一步包括:(BI)规范化初始的属性向量,以消除属性向量中的不同属性的取值差异所引入的数据偏移(这也可以提高后续处理步骤的迭代速率)。
[0022]优选地,在本发明所公开的数据挖掘及分类方法中,所述步骤(BI)进一步包括:使用Z-score规范化过程对初始的属性向量进行规范化,其包括:针对属性向量中的任一属性值A,使得规范化后的值Anrat是该属性值A与该属性值的均值之差除以该属性值的标准差而得到的商值(其中,所述均值和所述标准差是针对所有属性向量中对应该属性值的位的值而言的)。
[0023]优选地,在本发明所公开的数据挖掘及分类方法中,所述基于聚类处理的分类操作进一步包括:(B2)针对规范化后的属性向量进行2-类聚类处理,其包括:(C1)确定两个类别的“种子”向量以将其作为聚类中心;(C2)利用所确定的聚类中心并以Kmeans聚类处理过程对所述规范化后的属性向量进行迭代聚类。
[0024]优选地,在本发明所公开的数据挖掘及分类方法中,所述步骤(Cl)进一步包括:将所有已知的第一类目标对象(例如金融领域中的高端持卡人,诸如白金卡持卡人)所对应