专利名称:基于聚类的循环集成动态选择方法
技术领域:
基于聚类的循环集成动态选择方法属于数据挖掘的选择性集成学习算法领域。
背景技术:
作为人工智能的分支领域,机器学习主要參与设计和开发能够使得计算机独立进行“学习”的算法和技木。目前分类器集成是机器学习和模式识别中比较活跃的领域。集成学习系统尤其是Boosting和Bagging决策树,表现出比基学习系统更加強大的预测能力。目前集成分类器已在多个领域得到应用,包括生物信息学、软件重构、人脸识别以及疾病诊断等.但是,大量的冗余基学习器会降低集成学习器的泛化性,同吋,随着基学习器数量的增多,集成学习器预测的速度下降,存储空间增多。正是考虑到集成学习中存在的种种问题,周志华等人首先提出了 “选择性集成”的概念。选择性集成学习,首先通过独立的训练多个基学习器,然后通过一定的选择策略,从多个候选学习器中,选取ー些对当前数据预测较好且各个学习器之间差异性较大的基学习器构建集成学习器,得到更好的预测結果。 现有的选择性集成学习算法主要分为4个方面。基于聚类的方法。Lazarevic和Obradovic通过基学习器得到的结果,基于欧式距离应用K-均值聚类将基学习器进行分组。Giacinto和Roli定义两个基学习器之间的距离,通过层次凝聚的聚类算法来找到具有相似预测结果的基学习器子集。基于排序的方法。Bryll等人根据分类准确性对特征子集进行排序,选取秩数较高的一些子集所训练的基学习器构建集成学习器。目前对基学习器排序的主要指标包括K统计量、互补性等。基于选择的方法。这种方法可以根据如何对检验集进行预测分为静态选择法和动态选择法。静态选择法根据一定指标获得基学习器的子集进行集成,然后对所有的检验集进行预测;动态选择法则是根据检验集中每个样本的情况选择不同的基学习器子集进行集成,然后进行预测。基于优化的方法。这类方法中最具代表性的成果就是在2002年,周志华等提出的基于实值编码遗传算法的选择性集成学习方法,首次从理论上证明了选择性集成学习方法的有效性。
发明内容
提出ー种基于聚类算法并结合循环集成的静态选择方法,解决基于聚类选择策略不稳定性和静态选择策略含有冗余分类器过多,导致耗时过大,分类精度下降的问题。本发明的特征在于,它依次含有以下步骤
步骤(I.)输入验证集!^,基分类器集合的Γ=(らら'.ぷふ每个基分类器q对验证集1*_进行预测,得到预测结果9 =其中表示第I个分类器对验证集
中第^个实例进行预测的结果(正确为し错误为ο);步骤(2.)为了避免在循环集成框架下,选入太多的冗余分类器,导致系统的整体冗余度过高,时间复杂度过大,进而影响系统的整体性能的发挥,我们在循环集成进行之前,先进行ー轮基于KMeans聚类算法的选择策略,筛选出差异性较大的基分类器,形成候选分类器。系统的聚类选择策略按照以下步骤进行
步骤(2. I.):设置聚类簇数!;,将(Oi,看作新的实例集,从中随机选择f个实例作为初始聚类中心;
步骤(2. 2.) :通过公式#ら )=ι-ρ ι< >!!5, / 4ν 4€Γ,计算每个实
例到聚类中心的距离,其中Pr ob(CJmIs, CJmIs)表示出现基分类器Cf5与错分交集的概率;
步骤(2. 3.):选择最近的聚类中心,并加入到该聚类中心所在的聚类; 步骤(2. 4.):根据新产生的聚类,计算该聚类新的聚类中心;
步骤(2. 5.):重复以上操作,直到每个聚类不再发生变化为止;
步骤(2. 6.):取出!:个聚类中实例对应预测效果最好的分类器,然后形成新的候选分
类器1=(44.丨4);
步骤(3.):在开始进行循环集成之前,为了能够更好地保证循环集成的进行,我们对其设置初始精度阈值_!,控制精度变化的步长I.分类器数量阈值界同时令精度阈值
θ=Ir组合序列=0,局部最优组合序列5Upei =s ;
步骤(4.)首先判断组合序列中基分类器的个数|:|,如果|:|超过了分类器数量的阈
值况那么就将组合序列修剪为否则就根据选择策略,向组合序列f中
添加基分类器=
步骤(5.)利用新产生的组合序列I对验证集£^!进行集成分类,判断集成分类得到的精度是否达到了精度阈值沒,如果达到,则返回组合序列;?,否则就采用评优标准P,记录下局部最优的组合序列,需要说明的是本文所采用的评优标准和差异性度量方式都为相互一致性度量AT。度量r按照以下步骤进行计算
步骤(5.1.):计算每两个基分类器Gfi和Ga的不一致度量Disi是ー种成对差异性度量方式,它的计算如下
Λ%=FTFTF.....TF'
步骤(5. 2.):将得到的每两个基分类器之间的不一致度量DlSil,推广到£个分类器之间,计算如下
2 ^ ^
= 7/.....r..........................i' I* L
Um 一 V 4 λ- -Φ
步骤(5. 3.):计算J;个个体基分类器在验证集Zfa!下的平均准确率,,,的计算如下Iガヱ
P=—> y j.·,
步骤(5. 4.):通过£个基分类器之间的不一致度量£fe2j|之和以及平均准确率f",计算相互一致性度量如下
r =ト^^も步骤(6.):当所计算的最高精度值无法满足精度阈值时,系统就将精度阈值沒通过步长Δ51进行调整,然后重复执行步骤(4.)。按照上述实施方式,我们利用UCI数据集对本文中的方法进行验证。我们将本方法应用于两种静态选择策略一集成前序选择(EFSS)和集成后序选择(EBSS)并将所得结果同原先的选择策略和单纯基于KMeans的选择策略的性能进行比较。从表I中可以看出,经过改进的选择策略所耗费的时间都小于原选择策略的时 间,这主要是由于经过K-Means聚类之后将部分冗余的基分类器筛选出候选子集,留下差异性相对较大的k个基分类器,通过聚类修剪获取k个基分类器的时间消耗比起选择策略自身小得多,因此基于聚类算法修剪的静态选择策略在运行时间上得到了不小提升。从表2中我们可以看出,EBSS初始化时将全部的候选分类器加入选择队列中,并通过不断的判定删除某个分类器的前后候选子集的集成性能,最終确定集成子集,由于初始子集中含有许多冗余分类器,导致初始子集性能较差,如果不能适当地删除冗余分类器,那么可能导致耗时过大或者性能不如基分类器等问题。通过K-Means预先进行ー轮子集修剪,然后通过循环框架进行集成,EBSS和EFSS的性能明显得到提升,主要因为K-Means提取出相互之间差异较大的分类器子集,使EBSS的初始分类器子集得到了优化,分类器数量变少,并结合改进循环集成框架循环修剪候选子集,使得EBSS和EFSS在性能上得到进ー步提升。综上所述,将聚类和基于循环集成的静态选择策略相结合,该方法提高了聚类算法的精度同时使得集成后序选择等静态选择策略耗时下降。在标准的UCI数据集与当前的其他方法进行了比较,均取得了更好的运行速度以及良好的分类器效果,证明了本方法的有效性。
图I.本发明的整体流程图。附表说明
表I.改进策略同原选择策略单轮耗时比较;
表2.聚类与静态选择相结合的策略与原策略在精确度上的比较。
具体实施例方式目前没有选择策略可以完全优于其他策略,因为它们各自都存在些许不足,比如聚类算法的不稳定性影响了其自身性能的发挥,排序算法和选择算法大多基于全部的基分类器进行操作需要耗费大量的时间,各种优化算法需要花费很长的时间查找最优解,并且缺少灵活性。根据各种方法所存在的优点,设计ー种结合聚类和基于循环集成的静态选择策略减小系统的冗余度,降低时间复杂度,实现提高整体性能的目的,是本发明的主要贡献。该方法的基本思想对全部的基分类器进行独立训练获得全部基分类器的分类效果,然后系统通过聚类算法对基分类器进行第一轮筛选,将筛选得到的基分类器通过基于循环集成框架下的静态选择策略进行第二轮筛选,系统在进入循环集成之前设置精度阈值和控制精度变化的步长。在循环集成框架下,系统根据特定的静态选择策略不断地向基分类器组合序列中放入基分类器,为了降低直接判断集成精度的时间复杂度,我们首先判断基分类器进入前后整体差异性变化情況,如果差异性增长,再进ー步判断集成精度。系统为了进ー步避免组合序列中含有过多的 冗余基分类器,还为循环集成框架设置了分类器数量的阈值,并且记录下具有最大差异性的组合序列,当分类器数量超过阈值之后,就对序列进行修剪操作,退回到差异性最大的组合序列,以上的操作是根据差异性是整体集成精度提高的关键要素之一。本发明的整体流程见图I ;
为了能够更好地进行差异性度量,本发明采用相互一致性度量!:来衡量差异性,首先是因为非成对差异性度量在根据差异性度量结果预测系统性能方面比成对的差异性度量方法要好,其次因为本文模型的第二层中用到了循环集成框架,相互一致性度量!:除了考虑分类器之间的预测差异性,同时还考虑分类器的精度,这样使得差异性度量对于组合序列中已经存在的分类器不会那么的排斥,降低了差异性度量对于同种分类器的敏感性,增大了找出较好集成效果组合的可能性。
权利要求
1.基于聚类的循环集成动态选择,其特征在于,该方法依次含有以下步骤 输入验证集Zw,基分类器集合的jT=(C1,每个基分类器验证集Zvai进行预测,得到预测结果^ = ( , …,其中%表示第/个分类器对验证集中第j个实例进行预测的结果(正确为1,错误为ο); 为了避免在循环集成框架下,选入太多的冗余分类器,导致系统的整体冗余度过高,时间复杂度过大,进而影响系统的整体性能的发挥,我们在循环集成进行之前,先进行一轮基于KMeans聚类算法的选择策略,筛选出差异性较大的基分类器,形成候选分类器; 系统的聚类选择策略按照以下步骤进行 设置聚类簇数I, 将跳… ,Of)看作新的实例集,从中随机选择f个实例作为初始聚类中心; 通过公式,Q = I-Proi(CjWilClZdi)jVCjiCl eT,计算每个实例到聚类中心的距离,其^hobiCJmk CJmk)表示出现基分类器与Gf错分交集的概率; 选择最近的聚类中心,并加入到该聚类中心所在的聚类; 根据新产生的聚类,计算该聚类新的聚类中心; 重复以上操作,直到每个聚类不再发生变化为止; 取出i个聚类中实例对应预测效果最好的分类器,然后形成新的候选分类器在开始进行循环集成之前,为了能够更好地保证循环集成的进行,我们对其设置初始精度阈值^,控制精度变化的步长Δ參分类器数量阈值同时令精度阈值沒=ξ,组合序列0,局部最优组合序列=S ; 首先判断组合序列中基分类器的个数|:|,如果|ι |超过了分类器数量的那么就将组合序列修剪为^__,否则就根据选择策略,向组合序列I中添加基分类器 5f={cr;4,.—.,Φ; 利用新产生的组合序列对验证集Zw进行集成分类,判断集成分类得到的精度是否达到了精度阈值沒,如果达到,则返回组合序列公,否则就采用评优标准P,记录下局部最优的组合序列需要说明的是本文所采用的评优标准和差异性度量方式都为相互一致性度量[; 度量Ir按照以下步骤进行计算 步骤(5.1.):计算每两个基分类器C^pCfjt的不一致度量|}@|,Dgjt是一种成对差异性度量方式,它的计算如下 ^hm^Nw 将得到的每两个基分类器之间的不一致度量Disa,推广到I;个分类器之间,计算如下
全文摘要
本发明公开了一种基于聚类的循环集成动态选择方法,其特征在于以下步骤对全部的基分类器进行独立训练,然后系统通过聚类算法进行筛选,将筛选得到的基分类器通过基于循环集成框架下的静态选择策略进行选择性集成,系统在进入循环集成之前设置精度阈值和控制精度变化的步长。在循环集成框架下,系统根据特定的静态选择策略不断地向基分类器组合序列中放入基分类器。系统为了避免集成过多的分类器,为循环集成框架设置了分类器数量的阈值,当分类器数量超过阈值之后,就对序列进行修剪操作,以上的操作是根据差异性是整体集成精度提高的关键要素之一。系统通过聚类修剪,设置阈值控制循环集成等操作来减小系统的冗余度,最终实现提高性能的目的。
文档编号G06F17/30GK102819548SQ20121009526
公开日2012年12月12日 申请日期2012年3月31日 优先权日2012年3月31日
发明者邹权, 邱诚 申请人:常熟市支塘镇新盛技术咨询服务有限公司