基于相关系数的互信息特征选择方法与流程

文档序号:22326185发布日期:2020-09-25 17:55阅读:397来源:国知局
基于相关系数的互信息特征选择方法与流程
本发明属于数据挖掘方法
技术领域
,涉及一种基于相关系数的互信息特征选择方法。
背景技术
:随着互联网技术的不断发展及其相关移动设备的普及,互联网上的数据量每天都在以几何级数的增长。每天互联网用户的所有出行数据,健康数据,购物数据等都会上传到网络,同样互联网上的文本数据,音频数据,视频数据也会传送到用户的移动设备上,所有使用互联网的用户既在产生数据也在消费数据。当互联网上数据极具增长时,这些数据逐渐表现出四个特点:数据体量大,数据类型繁多,数据价值密度低和数据处理速度快。若是无法从这些庞大的数据中快速找到有价值的信息,那么这些数据是毫无意义的。模式识别和数据挖掘的研究热点就是从庞大数据中挖掘有价值的信息。在已有数据上寻找规律,借用数学手段建立模型,以此完成对数据的分类或者推荐。由于数据的信息是由特征刻画的,所以数据集的特征数量越多,对数据的表示越详细,但是当特征非常多的时候,有些特征会提供相同的信息,这些特征就是冗余特征。冗余特征数量越多,会增加模型训练时间,减慢数据挖掘过程,使得最终建立的模型变得复杂。复杂的模型虽然可以很好的解释现有的数据,但是泛化能力差。所以在模式识别和数据挖掘工作中需要进行特征降维,即在不影响模型精确度的前提下将高维数据降为低维数据。特征降维分为特征选择和特征提取。两种技术最终结果都是降低了特征的维数,区别在于特征提取使用数学的方法对某些特征进行融合产生了新的特征,新的特征只具有数学含义,难以找到其现实意义。而特征选择不会产生新的特征,仅仅是通过评价函数对特征进行评价,选择出重要的特征。按照特征选择过程与分类器之间的关系,特征选择方法被分为过滤式特征选择法,包装式特征选择方法和嵌入式特征选择方法三大类。嵌入式特征选择方法在选择特征的过程中完成分类。包装式特征选择方法是使用分类算法对特征选择得到的特征子集进行评价。过滤式特征选择方法是独立于分类器的,不会使用分类器来判断是否应该选择某个特征,所以相比于前两种特征选择方法,过滤式特征选择方法简单高效,并且可以作为数据挖掘过程中的一个预处理步骤。过滤式特征选择方法主要包括子集生成和子集评价,此处子集评价主要是根据特征与类之间的关系和特征与特征之间的关系对该特征进行打分。常用的度量工具有距离度量,卡方统计,互信息等。基于相关系数的互信息特征选择方法属于过滤式特征选择方法,并且使用了互信息作为度量工具进行子集评价。互信息从信息学的角度将特征与特征之间关系和特征与类之间的关系解释为信息量。与已有的基于互信息的特征选择方法不同,本文提出了基于相关系数的互信息特征选择方法,条件互信息作为特征与类之间相关性描述较互信息更加具体,而通过加入相关系数的方式可以更好的调节评价函数中的特征相关项和特征冗余项的重要程度,从而达到更好的分类效果。技术实现要素:本发明的目的是提供一种基于相关系数的互信息特征选择方法,解决了现有技术中存在的基于互信息的特征选择方法分类准确率低的问题。本发明所采用的技术方案是,一种基于相关系数的互信息特征选择方法,具体按照以下步骤实施:步骤1.对原数据集进行预处理,对原数据进行标准化处理,得到标准化处理后的数据集;步骤2.对步骤1所得标准化处理后的数据集进行离散化处理,离散化处理后的数据集中的所有特征值被划分在不同的特征等级中;步骤3.计算步骤2离散化处理后的数据集中所有特征x与类变量y之间的相关程度,即所有特征x与类变量y之间的互信息i(x;y);步骤4.根据步骤3计算出的特征与类之间的相关程度i(x;y)后,选择相关程度i(x;y)中最大的特征作为重要特征,将重要特征从原特征集合中删除,并添加到候选特征集合中,作为第一个被选入候选特征集的候选特征,再计算其他候选特征。本发明的特点还在于:步骤1具体按照以下步骤实施:数据集中的每一列为一个特征,每个特征有n行,使用min-max标准化,将每个特征的取值范围压缩到0和1之间,公式如下:式(1)中max是数据集中每列特征中选择的绝对值的最大值,然后使用每列的每个值除以最大值即可,从而得到预处理后的特征x;步骤2具体按照以下步骤实施:步骤2离散化过程如下:步骤2.1,对步骤1预处理后的特征x中的所有元素进行升序排序得到x’;步骤2.2,分别取步骤2.1所得x’中第n/5,第2*n/5,第3*n/5,第4*n/5,第5*n/5位置的元素;步骤2.3,定义k为特征等级,0<=x[i]<x’[n/5],则k=1,x’[n/5]<=x[i]<x’[2*n/5],则k=2,x’[2*n/5]<=x[i]<x’[3*n/5],则k=3,x’[3*n/5]<=x[i]<x’[4*n/5],则k=4,x’[4*n/5]<=x[i]<=x’[5*n/5],则k=5,即特征x中所有元素都被划分在不同的特征等级中,其中,k∈{1,2,3,4,5},i代表特征x的第i个元素,x[i]表示特征x的第i个特征值。步骤3计算特征x与类变量y之间的相关程度计算公式如下:式(2)中,类变量y指的是原数据集中的标签列,d是相对熵,x表示特征,x是x的取值,y表示类变量,y是y的取值,p(y)是y的概率分布,p(x)是x概率分布,p(x,y)表示x和y同时发生时候的联合概率分布。式(3)中,n(x=x)表示x取值为x的个数,n(x≠x)表示不包含x取值为x的个数。式(4)中,n(y=y)表示y取值为y的个数,n(y≠y)表示不包含y取值为y的个数。步骤4计算其他候选特征的具体步骤如下:当候选特征集合中的特征个数大于1的时候,使用前向迭代算法选择m-1个重要特征,计算候选特征在特征集合中的重要程度,每一次迭代,选择当前阶段最重要的特征,然后把重要的特征从原特征集中删除,并加入候选特征集s中,经过m-1次迭代,最终得到大小为m的特征子集,而计算特征重要程度的评价标准ccmi(featureselectionbasedonmutualinformationwithcorrelationcoefficient,基于相关系数的互信息特征选择)为:式(5)中,xm为目标特征,xs为候选特征集s中的某个已选特征,类c指的是数据集中标签列,i(xm;c|xs)表示给定已选特征xs条件下,目标特征xm和类c的相关性,i(xm;xs)表示已选特征xs和目标特征xm之间的冗余。表示候选特征xm与已选择特征xs之间的相关系数:式(6)中,d(xm)是xm的方差,d(xs)是xs的方差。cov(xm,xs)表示候选特征xm与已选择特征xs之间的协方差:cov(xm,xs)=e{[xm-e(xm)][xs-e(xs)]}(7)式(7)中,e是随机变量的数学期望。本发明的有益效果是:1.在分类准确率上,与已有的6种特征选择算法做对比,即cife算法、jmi算法、mim算法、mri算法、relaxfs算法和mrmr算法,本发明在uci数据集basehock、cane9、coil20、isolet、lcx、mfeatfac、orlraws10p、relathe、semeion、usps、warppie10p和wine上都具有明显的较好的结果。因为本算法引入了相关系数作为相关项与冗余项之间的平衡因子,平衡相关项与冗余项之间的重要程度,有效选择出对分类重要的特征,得到更高的分类准确率。2.在与不同的分类器配合上,将本发明和其他6种算法选择的特征子集分别在svm和knn这两种著名的分类器上运行,最终结果表明本发明结果具有稳定性,无论使用哪种分类器都可以获得较好的分类准确率。附图说明图1是本发明一种基于相关系数的互信息特征选择方法的流程图;图2是本发明一种基于相关系数的互信息特征选择方法的举例说明图;图3是一种基于相关系数的互信息特征选择方法与其它6种特征选择算法在数据集basehock上的分类结果图;图4是一种基于相关系数的互信息特征选择方法与其它6种特征选择算法在数据集cane9上的分类结果图;图5是一种基于相关系数的互信息特征选择方法与其它6种特征选择算法在数据集coil20上的分类结果图;图6是一种基于相关系数的互信息特征选择方法与其它6种特征选择算法在数据集isolet上的分类结果图图7是一种基于相关系数的互信息特征选择方法与其它6种特征选择算法在数据集lcx上的分类结果图;图8是一种基于相关系数的互信息特征选择方法与其它6种特征选择算法在数据集mfeatfac上的分类结果图;图9是一种基于相关系数的互信息特征选择方法与其它6种特征选择算法在数据集orlraws10p上的分类结果图;图10是一种基于相关系数的互信息特征选择方法与其它6种特征选择算法在数据集relathe上的分类结果图;图11是一种基于相关系数的互信息特征选择方法与其它6种特征选择算法在数据集semeion上的分类结果图;图12是一种基于相关系数的互信息特征选择方法与其它6种特征选择算法在数据集usps上的分类结果图;图13是一种基于相关系数的互信息特征选择方法与其它6种特征选择算法在数据集warppie10p上的分类结果图;图14是一种基于相关系数的互信息特征选择方法与其它6种特征选择算法在数据集wine上的分类结果图。具体实施方式下面结合附图和具体实施方式对本发明进行详细说明。定义1熵:熵是用来度量随机变量不确定程度的工具,也称为随机变量的混乱程度。假设y表示一个离散型的随机变量,p(y)为随机变量y的密度函数。随机变量y的熵h(y)定义如下:其中对数log所用的底是2,熵的单位用比特表示。h(y)表示随机变量y的混乱程度,一个事件发生的概率越低,其混乱程度越大,相应的这个事件的信息量就越大。定义2条件熵:条件熵是对给定一个变量的条件下,另一个变量的不确定性的度量。条件熵的定义如下:其中p(y|x)表示在给定x条件下y的概率分布,p(x,y)表示x和y的联合概率分布。h(y|x)的值越小,意味着x可以提供更多的信息使得y变得稳定。定义3互信息:互信息可以用来衡量两个随机变量的独立程度。对于两个随机变量x和y,它们的联合概率密度函数为p(x,y),边缘概率密度函数为p(x)和p(y)。互信息i(x;y)为联合分布p(x,y)和乘积分布p(x)p(y)之间的相对熵,即:其中,d表示相对熵。相对熵是两个随机分布之间距离的度量。如果x和y的互信息值为0,x和y是相互独立的。如果x和y的互信息值大于0,且值越大,两个变量越相关。定义4条件互信息:条件互信息用来度量在给定一个变量的条件下另外两个变量之间的独立程度,条件互信息的定义如下:本发明一种基于相关系数的互信息特征选择方法,如图1所示,具体按照以下步骤实施:一种基于相关系数的互信息特征选择方法,具体按照以下步骤实施:步骤1.对原数据集进行预处理,对原数据进行标准化处理,得到标准化处理后的数据集,由于在不同的数据集中,特征具有不同的含义,每个特征的值具有不同的取值范围,所以为了消除量纲对特征评价值的计算的影响,需要对数据进行规范化处理。将特征的取值范围压缩为0到1之间;步骤2.对步骤1所得标准化处理后的数据集进行离散化处理,离散化处理后的数据集中的所有特征值被划分在不同的特征等级中;步骤3.计算步骤2离散化处理后的数据集中所有特征x与类变量y之间的相关程度,即所有特征x与类变量y之间的互信息i(x;y);步骤4.根据步骤3计算出的特征与类之间的相关程度i(x;y)后,选择相关程度i(x;y)中最大的特征作为重要特征,将重要特征从原特征集合中删除,并添加到候选特征集合中,作为第一个被选入候选特征集的候选特征,再计算其他候选特征。步骤1具体按照以下步骤实施:数据集中的每一列为一个特征,每个特征有n行,使用min-max标准化,将每个特征的取值范围压缩到0和1之间,公式如下:式(1)中|max|是数据集中每列特征中选择的绝对值的最大值,然后使用每列的每个值除以最大值即可,从而得到预处理后的特征x;步骤2具体按照以下步骤实施:步骤2离散化过程如下:步骤2.1,对步骤1预处理后的特征x中的所有元素进行升序排序得到x’;步骤2.2,分别取步骤2.1所得x’中第n/5,第2*n/5,第3*n/5,第4*n/5,第5*n/5位置的元素;步骤2.3,定义k为特征等级,0<=x[i]<x’[n/5],则k=1,x’[n/5]<=x[i]<x’[2*n/5],则k=2,x’[2*n/5]<=x[i]<x’[3*n/5],则k=3,x’[3*n/5]<=x[i]<x’[4*n/5],则k=4,x’[4*n/5]<=x[i]<=x’[5*n/5],则k=5,即特征x中所有元素都被划分在不同的特征等级中,其中,k∈{1,2,3,4,5},i代表特征x的第i个元素,x[i]表示特征x的第i个特征值。步骤3计算特征x与类变量y之间的相关程度计算公式如下:式(2)中,类变量y指的是原数据集中的标签列,d是相对熵,x表示特征,x是x的取值,y表示类变量,y是y的取值,p(y)是y的概率分布,p(x)是x概率分布,p(x,y)表示x和y同时发生时候的联合概率分布。式(3)中,n(x=x)表示x取值为x的个数,n(x≠x)表示不包含x取值为x的个数。式(4)中,n(y=y)表示y取值为y的个数,n(y≠y)表示不包含y取值为y的个数。步骤4计算其他候选特征的具体步骤如下:当候选特征集合中的特征个数大于1的时候,使用前向迭代算法选择m-1个重要特征,计算候选特征在特征集合中的重要程度,每一次迭代,选择当前阶段最重要的特征,然后把重要的特征从原特征集中删除,并加入候选特征集s中,经过m-1次迭代,最终得到大小为m的特征子集,而计算特征重要程度的评价标准ccmi(featureselectionbasedonmutualinformationwithcorrelationcoefficient,基于相关系数的互信息特征选择)为:式(5)中,xm为目标特征,xs为候选特征集s中的某个已选特征,类c指的是数据集中标签列,i(xm;c|xs)表示给定已选特征xs条件下,目标特征xm和类c的相关性,i(xm;xs)表示已选特征xs和目标特征xm之间的冗余。表示候选特征xm与已选择特征xs之间的相关系数:式(6)中,d(xm)是xm的方差,d(xs)是xs的方差。cov(xm,xs)表示候选特征xm与已选择特征xs之间的协方差:cov(xm,xs)=e{[xm-e(xm)][xs-e(xs)]}(7)式(7)中,e是随机变量的数学期望。本发明一种基于相关系数的互信息特征选择方法的执行过程如下表1所示:表1ccmi特征选择算法的伪代码本发明一种基于相关系数的互信息特征选择方法基于以下原理:数据预处理完之后,设定特征子集的大小,如果原始特征数小于50,则特征子集大小设置为原数据集的特征数,如果原始特征数大于50,则特征子集大小设置为50,即只选择50个特征用于验证特征选择算法的分类性能。以上即确定了前向迭代算法中要选择的特征数目m。使用前向迭代算法选择m个特征,在每次迭代阶段,选择当前阶段最好的特征,经过m次迭代得到大小为m的特征子集。在特征评价的时候,使用条件相关和加入相关系数的冗余项分别描述特征与类之间的关系以及特征与特征之间的关系。如果一个特征与类是高度相关,与已选特征集中的特征是低度冗余,那么这个特征就会被选入到特征子集中。本发明主要提出了一种新的特征评价标准。brown等人提出了一种框架实现特征选择,该框架能够适合很多已经提出的基于互信息的特征选择的算法,具体框架如下:上式中β是候选特征xm与已选择特征xj之间冗余项的权重,γ是在给出类标签c的条件下候选特征xm与已选择特征xj之间冗余项的权重。由上面这个框架可以看出,β和γ作为权重的取值不同会影响最终选择出的特征子集的好坏。所以,本发明将研究怎样更好的调节相关项与无关项之间的重要程度。相关系数ρxy是用来研究变量之间线性相关程度的,具体计算如下:cov(x,y)=e{[x-e(x)][y-e(y)]}上述两式中,cov(x,y)是随机变量x与y的协方差,d(x)是随机变量x的方差,d(y)是随机变量y的方差,e是随机变量的数学期望。当相关系数值为0时,说明两变量之间不相关,相关系数的绝对值越接近0,说明两变量之间的线性相关程度越弱,而相关系数的绝对值越接近1,说明两变量之间的线性相关程度越强,等于1说明必然存在线性相关。所以,本发明采用相关系数作为权重,去调节相关项与冗余项之间的重要程度。我们对原始特征集合中的两两特征之间计算相关系数,将其作为冗余项的权重,筛除掉候选特征与已选择特征子集之间相关程度高的特征。基于互信息的特征选择的目标是使选择的特征子集与类之间高度相关,根据链式法则,有i(s;c)=i(sm-1∪xm;c)=i(sm-1;c)+i(xm;c|sm-1)其中sm-1表示除去候选特征xm的特征子集,我们的目标是最大化i(s;c),上式中i(sm-1;c)与xm无关,可以看作是常数,因此得到下式:所以,基于互信息的特征选择算法的目标转化为最大化i(c;xm|s)。在已有的特征选择算法中,经过对cmim算法与jmi算法进行对比分析:可以看出cmim算法取的是条件相关项的最小值,而jmi算法侧重于整体的平均情况。在图2中,矩形部分代表原始数据集,椭圆部分表示特征,其中x1,x2,x3和x4是已选择特征子集中的特征,xm表示候选特征,c表示类标签。我们的目标是从图2中可以看出i(xm;c|sm-1)=i(xm;c|x2,x3,x4)={13}对于jmi算法,有可以看出,jmi算法的结果中有很多重复出现的区域,有的甚至重复了三次。对于cmim算法,有可以看出cmim算法中没有重叠计算的部分,并且其结果接近我们的目标说明最小化原则比整体均值原则准确。最小化原则强调个体对于整体的影响,与整体均值原则相比选择出的特征子集冗余性更低,使得最终分类更加准确。所以,我们对提出的算法的相关项与冗余项均使用最小化原则,本发明提出的基于相关系数的互信息特征选择(ccmi)算法的评价函数如下:上述两式中表示候选特征xm与已选择特征xs之间的相关系数,cov(xm,xs)表示候选特征xm与已选择特征xs之间的协方差,d(xm)是xm的方差,d(xs)是xs的方差。本发明一种基于相关系数的互信息特征选择方法进行性能评测,结果如下:为了验证本发明的有效性,使用了12个数据集和6种对比算法,6种对比算法是仅仅考虑相关性的mim算法、考虑平均条件相关的jmi算法、基于相关和平均冗余的mrmr算法、基于相关和类内冗余的cife算法、基于相关和条件冗余的relaxfs算法和基于条件互信息度量特征之间互补性的mri算法,12个数据集是basehock、cane9、coil20、isolet、lcx、mfeatfac、orlraws10p、relathe、semeion、usps、warppie10p和wine,数据集具体信息在下面表2中详细描述。表2数据集信息描述实验使用k近邻分类算法(knn算法)和支持向量机分类算法(svm算法)在12个数据集上测试分类准确率,其中使用“10次10折交叉验证”,对每个数据集进行10折交叉验证,并重复进行10次10折交叉验证,最终的分类正确率取10次10折交叉验证结果的均值,作为最终评价指标。本发明中,knn算法的参数k设置为3,svm分类器使用线性核。实验结果对比:表3和表4记录了ccmi算法与其他6个特征选择算法在12个数据集上的平均分类准确率和标准偏差,其中表3的分类器是svm,表4的分类器是knn。从表3和表4中的平均值一行可以看出,ccmi算法在svm分类器和knn分类器上都取得了最高的平均分类准确率,分别为84.70%和81.84%,说明在整体情况下,提出的算法ccmi比其他算法的分类性能要好。relaxfs算法在svm分类器和knn分类器上的平均分类准确率仅次于ccmi算法。在表3中,除了basehock和wine两个数据集外,ccmi算法在其他数据集上取得了最高的分类性能。其中,在数据集semeion上,ccmi较仅次于其准确率的relaxfs的准确率高了6.71%;在isolet数据集上,ccmi较仅次于其准确率的mri的准确率高了5.76%,与relaxfs相比高了5.96%;在cane9数据集上,ccmi较仅次于其准确率的relaxfs的准确率高了2.14%;在数据集relathe和usps上,ccmi较仅次于其准确率的relaxfs的准确率高了近1.8%。在basehock数据集上,mrmr算法性能最好,relaxfs算法和ccmi算法的准确率仅次于mrmr,相差0.06%。在wine数据集上,mim算法取得了最好的分类准确率,ccmi比他低0.42%,可以看出,在wine这个数据集上所有算法之间的准确率相差不大。在表3的最后一行可以看出,ccmi算法相比于其他的算法都有显著性的提高。表3七种算法在svm分类器上分类准确率在表4中,除了数据集orlraws10p和wine,ccmi在其他数据集上比cife,mim,mrmr,jmi,mri和relaxfs的分类性能高。其中,在semeion数据集上,ccmi比仅次于其准确率的relaxfs的准确率高了6.55%;在relathe数据集上,ccmi比仅次于其准确率的relaxfs的准确率高了4.69%;在isolet数据集上,ccmi比仅次于其准确率的mri的准确率高了3.94%,比relaxfs的准确率高了4.91%;在cane9数据集上,ccmi比仅次于其准确率的relaxfs的准确率高了2.3%;在usps数据集上,ccmi比仅次于其准确率的relaxfs的准确率高了2.17%。在orlraws10p数据集上,jmi分类性能最好,取值为94.80%,ccmi比他低0.9%。而在wine数据集上分类性能最好的是mri,ccmi仅次于他,相差0.3%。最后一行反映了从knn分类器上的分类准确率来看,ccmi相比于其他算法的分类性能有显著性的提高。表4七种算法在knn分类器上的分类准确率datasetcifejmimimmribasehock83.08±0.08(+)86.73±0.09(+)86.27±0.10(+)87.32±0.10(=)cane963.49±0.10(+)70.68±0.16(+)69.11±0.18(+)71.30±0.16(+)coil2090.29±0.19(+)87.54±0.18(+)62.42±0.24(+)90.36±0.19(+)isolet40.24±0.07(+)53.11±0.12(+)34.91±0.14(+)61.63±0.16(+)lcx60.70±0.02(=)62.32±0.03(=)61.76±0.02(=)61.57±0.02(=)mfeatfac87.06±0.17(+)86.34±0.17(+)81.00±0.19(+)87.99±0.17(+)orlraws10p63.02±0.06(+)94.80±0.09(-)72.78±0.14(+)92.00±0.09(+)relathe64.81±0.10(+)66.79±0.07(+)64.95±0.06(+)67.70±0.07(+)semeion60.49±0.12(+)59.37±0.15(+)54.43±0.18(+)63.19±0.14(+)usps84.04±0.13(+)82.25±0.12(+)61.16±0.14(+)83.71±0.12(+)warppie10p86.12±0.12(+)92.08±0.14(+)81.29±0.18(+)92.41±0.15(+)wine88.76±0.07(+)90.94±0.08(=)90.73±0.08(=)91.36±0.08(=)average72.68±0.1077.75±0.1268.40±0.1479.21±0.12w/t/l11/1/09/2/110/2/09/3/0datasetmrmrrelaxfsccmibasehock86.68±0.10(=)86.97±0.10(=)87.56±0.10cane970.67±0.16(+)71.59±0.16(+)73.89±0.16coil2088.89±0.18(+)90.53±0.19(+)91.30±0.19isolet54.96±0.13(+)60.66±0.15(+)65.57±0.17lcx60.46±0.03(=)62.35±0.03(=)62.55±0.04mfeatfac87.41±0.17(+)88.37±0.18(=)88.76±0.17orlraws10p93.92±0.09(=)94.70±0.09(-)93.90±0.09relathe69.29±0.06(+)69.72±0.06(+)74.41±0.09semeion61.42±0.15(+)64.21±0.14(+)70.76±0.16usps84.76±0.14(+)85.80±0.13(+)87.97±0.14warppie10p92.96±0.14(+)93.19±0.14(+)94.32±0.15wine91.02±0.08(=)90.98±0.08(=)91.06±0.08average78.54±0.1279.92±0.1281.84±0.13w/t/l8/4/07/4/1为了比较在不同特征数量下不同特征选择算法的分类准确率,图3至图14给出了ccmi算法与其他6个特征选择算法在knn分类器上分别训练12个数据集产生的分类准确率图。在这些图中,横轴表示了特征子集中的特征数量,纵轴表示了分类准确率。图中使用不同形状来区分不同的特征选择方法。根据图3至图14中12个准确率图的分布情况,将它们大致分为3类。第一类是basehock,coil20,mfeatfac,orlraws10p和warppie10p数据集。这些数据集产生的分类准确率图有一个共同特点就是ccmi算法的准确率较其他算法相比相差程度在一个小的范围内。其中orlraws10p数据集上,ccmi整体略低于relaxfs,jmi和mrmr,这与在表4中的数据是一致的。在除了orlraws10p数据集以外的其他4个数据集上,ccmi的准确率都是高于其他算法的,并且,随着特征数量的增加,分类准确率也不断增加,在特征数目大于20以后,分类准确率的增加趋于平缓。第二类是cane9,isolet,relathe,semeion和usps数据集。在这几个数据集上ccmi的分类准确率明显高于其他的特征选择算法。ccmi在relathe和semeion数据集上的分类准确率曲线比其他所有算法高出很多,尤其在特征数大于15以后,提出的算法一直在保持与其他算法的准确率之间的较大差值的情况下提高准确率。cane9和usps数据集在特征数小于15时,ccmi分类准确率与其他算法没有显著的差异,在特征数大于15时,ccmi的分类准确率与其他算法相比有了显著的提高。在usps数据集上,特征数到达30以后,ccmi分类准确率几乎不再变化。ccmi在cane9数据集上,当特征数到达30后,准确率有小幅度的降低,并且也逐渐趋于一个固定值。在isolet数据集上,ccmi在特征数到达10以后与其他算法的准确率相比明显的提高了。第三类是lcx和wine数据集。在图中看出lcx数据集在特征数小于20时,ccmi的准确率明显高于其他算法,特征数大于20后,与其他算法相比没有显著的区别,整体来看,所有算法随着特征数量的增加,准确率有下降的趋势。在wine数据集上,cife算法明显准确率比其他算法低,ccmi与其他算法相比,准确率不相上下。本实验最高选用50个特征,在这50个特征的范围内,通过比较不同的特征选择算法在选择不同的维数时候得到的分类准确率,可以清晰的看到,维数越高分类准确率也越高。表5和表6描述了7个特征选择算法分别在svm分类器和knn分类器上的分类准确率的最大值。表5中,除了basehock和coil20数据集,ccmi在其他数据集上的分类准确率最大值比其他6个算法都高。在basehock数据集上,mrmr的分类准确率最大值比其他算法高,比ccmi高了0.05%;在coil20数据集上,relaxfs的分类准确率的最大值比其他算法高,比ccmi高了0.07%。在wine数据集上,ccmi,relaxfs,mrmr,mri,cife的分类准确率最大值相同,值为96.63%。表5七种算法在svm上的最高分类准确率在表6中,ccmi在所有的数据集上的分类准确率的最大值都比其他的算法高。其中,在cane9数据集上,ccmi,relaxfs,mri的最大值均为85.74%,高于其他算法。在orlraws10p数据集上,ccmi和relaxfs的最大值相同,高于其他算法。表6七种算法在knn上的最高分类准确率当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1