本发明涉及数据特征选择的技术领域,特别是涉及一种基于扩展熵的无监督特征的选择方法及系统。
背景技术:
近年来,很多领域的数据规模和数据的维度变得越来越大,如基因工程、文本分类、图像检索、消费者关系管理等。这给很多机器学习算法的扩展性和学习性能都带来很大的问题,如何选择信息量最大的特征子集仍然是机器学习的研究重点问题。
特征选择技术是用来发现原特征集合中相关特征子集,用于聚类、分类和搜索。特征选择是机器学习和模式识别中重要研究内容。针对这个主题已有大量的研究工作,根据是否有标签信息,特征选择主要分成两类,即有监督方法和无监督方法,前者是针对分类的有标签样本,后者主要是针对聚类的无标签样本。许多有监督的特征选择方法已被提出,并应用到很多领域,典型的有监督特征选择方法包括相关系数法、信息增益法、逻辑回归法等,一般来说,有监督特征选择方法要好于无监督方法,但在实际应用中,很多采用的样本是没有标签,如何提高无监督特征选择的性能是目前面临的重要难题。
有监督特征选择方法通常用特征变量与类变量之间的相关性来度量特征的重要性,然而,在实际应用中,获取大量有标签的样本是非常昂贵或不可能的,因此,对于利用大量无标签样本选择信息量大的特征组合的无监督的特征选择方法研究是非常重要的。
目前,已有一些无监督的特征选择方法被提出,如最大方差法、拉普拉斯打分法、基于聚类的方法等。为处理多簇特征选择问题,文献提出了谱回归和基于稀疏空间学习方法。特征选择是要选择原特征集合信息量最大的特征子集,要剔除冗余信息,相关度是度量特征之间相关性的重要测度,不同的相关度测度会导致不同的选择结果,已提出的相关测度有皮尔森相关系数、互信息等。互信息能够度量变量之间的任意统计相关性,但离散变量之间、离散变量与连续变量之间的互信息计算是非常复杂的,特别是联合互信息的计算。基于信息瓶颈理论的信息损失量是一种非常有效的相关测度,已广泛应用到很多应用领域,但基于概率的信息损失不能够处理连续的特征变量,使得选择的特征变量的信息少,使用价值降低。
技术实现要素:
本发明的目的是提供一种基于扩展熵的无监督特征的选择方法及系统,可处理连续的特征变量,以提高选择的特征变量组合的信息量。
为实现上述目的,本发明提供了如下方案:
一种基于扩展熵的无监督特征的选择方法,所述选择方法包括:
根据原始备选特征集中的任意备选特征变量与所述原始备选特征变量集中剩余备选特征变量之间的相关度,从所述原始备选特征集中选择第一个特征变量,并将所述第一个特征变量添加到已选特征集中,从所述原始备选特征集中剔除所述第一个特征变量;
根据当前备选特征集中的任意备选特征变量与所述备选特征集中剩余备选特征变量之间的相关度、当前备选特征集中的任意特征变量与已选特征集之间的信息损失量,确定当前特征变量以及对应的相关度变化参数;
将当前特征变量添加到已选特征集中,更新已选特征集;
判断所述相关度变化参数是否小于设定阈值,如果是则选择结束,当前已选特征集包含全部无监督特征变量;否则,将从当前备选特征集中剔除当前特征变量,更新备选特征集,继续选择下一个特征变量。
可选的,所述根据原始备选特征集中的任意备选特征变量与所述原始备选特征变量集中剩余备选特征变量之间的相关度,从所述原始备选特征集中选择第一个特征变量,具体包括:
根据以下公式确定备选特征集中各个特征变量yi对应的扩展概率r(j|yi):
其中,yi=(yi1,yi2,...,yin),i=1,2,...,m,m表示备选特征变量的序号,n表示每个备选特征变量的特征值的序号,j=1,2,...,n;
将两个备选特征变量yp,yq,p,q∈{1,2,...,m},合并所生成c的扩展概率r(j|c):
根据以下公式计算当前备选特征集中的各备选特征变量与当前备选特征集中其余备选特征变量之间的信息损失量d(yi,{yk\yi}):
其中,|·|表示向量的势;
根据以下公式确定所述第一个特征变量
ρ(yi,{y0\yi})=1/d(yi,{y0\yi}),
其中,0≤k≤m,yk表示原始备选特征集中剔除了k个特征向量的备选特征集,y0表示原始备选特征集,y0={y1,y2,...,ym},y0\yi表示原始备选特征集y0中除备选特征变量yi以外的剩余备选特征变量,argmax()为取最大值函数。
可选的,所述确定当前特征变量,具体包括:
根据以下公式确定第w个特征变量:
ρ(yi,{yw-1\yi})=1/d(yi,{yw-1\yi});
其中,2≤w≤m,m表示备选特征变量的序号,sw-1表示包含了(w-1)个备选特征向量的已选特征集,s0表示初始已选特征集,为空集,yw-1表示原始备选特征集中剔除了(w-1)个特征向量的备选特征集;d(yi,sw-1)表示备选特征变量yi与已选特征变量集sw-1之间冗余信息程度。
可选的,所述相关度变化参数包括第w个特征变量相关度的增加量变化率与第2个特征变量相关度的增加量变化率的变化率比值uw,第w个特征变量相关度增加量与第1个特征变量相关度的增加量比值vw,且所述变化率比值uw对应第一设定阈值α,所述增加量比值vw对应第二设定阈值β;
根据以下公式确定相关度变化参数:
uw=(fw-1-fw)/(f1-f2);
vw=fw/f1。
可选的,所述第一设定阈值α和第二设定阈值β的取值范围分别为[0,1]。
为实现上述目的,本发明还提供了如下方案:
一种基于扩展熵的无监督特征的选择系统,所述选择系统包括:
初次选择单元,用于根据原始备选特征集中的任意备选特征变量与所述备选原始特征变量集中剩余备选特征变量之间的相关度选择第一个特征变量,并将所述第一个特征变量添加到已选特征集中,从所述原始备选特征集中剔除所述第一个特征变量;
过程选择单元,用于根据当前备选特征集中的任意备选特征变量与所述备选特征集中剩余备选特征变量之间的相关度、当前备选特征集中的任意备选特征变量与已选特征集之间的信息损失量,确定当前特征变量以及对应的相关度变化参数;
添加单元,用于将当前特征变量添加到已选特征集中,更新已选特征集;
判断单元,用于判断所述相关度变化参数是否小于设定阈值;
所述过程选择单元与所述判断单元连接,还用于在所述判断单元的判断结果为所述相关度变化参数小于设定阈值时,选择结束,当前已选特征集包含全部无监督特征变量;在所述判断单元的判断结果为所述相关度变化参数大于或等于设定阈值时,将从当前备选特征集中剔除当前特征变量,更新备选特征集,继续选择下一个特征变量。
可选的,所述初次选择单元包括:
第一计算模块,用于根据以下公式确定备选特征集中各个特征变量yi对应的扩展概率r(j|yi):
其中,yi=(yi1,yi2,...,yin),i=1,2,...,m,m表示备选特征变量的序号,n表示每个备选特征变量的特征值的序号,j=1,2,...,n;
将两个备选特征变量yp,yq,p,q∈{1,2,...,m},合并所生成c的扩展概率r(j|c):
第二计算模块,用于当前备选特征集中的各备选特征变量与当前备选特征集中其余备选特征变量之间的d(yi,{yk\yi}):
其中,|·|表示向量的势;
第三计算模块,用于根据以下公式确定所述第一个备选特征变量
ρ(yi,{y0\yi})=1/d(yi,{y0\yi});
其中,0≤k≤m,yk表示原始备选特征集中剔除了k个特征向量的备选特征集,y0表示原始备选特征集,y0={y1,y2,...,ym},y0\yi表示原始备选特征集y0中除备选特征变量yi以外的剩余备选特征变量,argmax()为取最大值函数;
初选模块,用于将所述第一个特征变量添加到已选特征集,从所述原始备选特征集中剔除所述第一个特征变量。
可选的,所述过程选择单元确定当前特征变量,包括:
根据以下公式确定第w个备选特征变量:
ρ(yi,{yw-1\yi})=1/d(yi,{yw-1\yi});
其中,2≤w≤m,m表示备选特征变量的序号,sw-1表示包含了(w-1)个备选特征向量的已选特征集,s0表示初始已选特征集,为空集,yw-1表示原始备选特征集中剔除了(w-1)个特征向量的备选特征集;d(yi,sw-1)表示备选特征变量yi与已选特征变量集sw-1之间冗余信息程度。
可选的,所述相关度变化参数包括:所述相关度变化参数包括第w个特征变量相关度的增加量变化率与第2个特征变量相关度的增加量变化率的变化率比值uw,第w个特征变量相关度增加量与第1个特征变量相关度的增加量比值vw,且所述变化率比值uw对应第一设定阈值α,所述增加量比值vw对应第二设定阈值β;
根据以下公式确定相关度变化参数:
uw=(fw-1-fw)/(f1-f2);
vw=fw/f1。
可选的,所述第一设定阈值α和第二设定阈值β的取值范围分别为[0,1]。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明通过引入相关度,从原始备选特征集中选择第一个特征变量,进而根据相关度及冗余信息程度,确定当前特征变量和相关度变化参数,根据相关度变化参数进行循环,连续不断的选择符合条件的特征变量添加到已选特征集中,使得选择的特征变量组合的信息量最大。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于扩展熵的无监督特征的选择方法的流程图;
图2为乳腺癌数据的每步相关度增加量曲线图;
图3为智能手机记录的每步相关度增加量曲线图;
图4为信用卡记录数据的每步相关度增加量曲线图;
图5为间皮瘤数据每步对应的相关度增加值曲线图;
图6为本发明施例基于扩展熵的无监督特征的选择系统的模块结构示意图。
符号说明:
初次选择单元—1,过程选择单元—2,添加单元—3,判断单元—4。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于扩展熵的无监督特征的选择方法,通过引入相关度,从原始备选特征集中选择第一个特征变量,进而根据相关度及冗余信息程度,确定当前特征变量和相关度变化参数,根据相关度变化参数进行循环,连续不断的选择符合条件的特征变量添加到已选特征集中,使得选择的特征变量组合的信息量最大。
其中,熵是一种基于概率的度量信息量的测度,常规的熵都是基于概率的,概率是基于样本统计的,而在很多场合数据是没有概率特性的。发明提出了一种新的熵定义形式,即扩展熵,定义如下。
(1)香农熵:
设特征变量用向量x=(x1,x2,...,xm)t表示,其中xi=(xij),i=1,2,...,m,j=1,2,...,n,xi表示第i个变量,该变量有n个可能取值,类变量用y,y=(yk)k=1,2,...,k表示,这意味着所有特征映射到k个不同的类。p(xi)表示特征变量xi的概率分布,py表示类变量y的概率分布,
类变量y的香农熵表示为:
特征变量和类变量之间的联合熵表示为:
其中,xi能够用特征向量子集s代替,联合熵能够推广到p个变量。
(2)扩展熵
设n数据向量表示为di,i=1,2,…,n,每个向量有n个正数值yi1,yi2,…,yin,i=1,2,…,n,则每个正数与所有正数和的比值为:
r(yi|di)与条件概率形式很相似,满足
(3)信息瓶颈理论
信息瓶颈理论是针对聚类问题提出的方法,它是基于互信息的。目标空间x和特征空间y的联合分布可表示为ρ(x,y),根据信息瓶颈理论,通过最小化信息损失
信息瓶颈理论是根据香农的率失真理论,其提供了聚类数的下边界。给定一个随机变量x和失真测度d(x1,x2),则变量x可用不超过r个字节表示,率失真函数表示为
其中
由于聚类
其中,d(f||g)=eflog(f/g)是相对熵,率失真函数为
这是信息瓶颈理论中的最小化尊则,即找到一个聚类使得目标与特征之间的互信息损失最小。
设c1和c2是两个聚类,由于合并而产生的信息损失表示为:
d(c1,c2)=i(c1;y)+i(c2;y)-i(cl,c2;y)(10)。
标准信息理论运算表示为:
其中,p(ci)=|ci|/|x|,|ci|表示ci的势,|x|表示目标空间x的势,p(c1∪c2)=|c1∪c2|//|x|。
当计算两个类的联合概率时,假设两个类是独立的,联合概率为
根据公示(12)得到的基于概率的信息损失仅能处理离散变量,因此,常规的信息损失在很多场合不适用,扩展熵可处理任意的正数集,因此,本发明将扩展熵引入到信息瓶颈理论中,在该方法中,数据集y的每个元素被看作是一个不同的取值,该取值的概率用该元素取值与y所有取值的和的比值表示。
设n个样本,每个样本包括m个特征,特征之间的相关度根据每个样本的值进行计算,每个特征看作是n维向量,即yi=yi1,yi2,...,yin,i=1,2,...,m。每个样本当作特征变量的一个值,n个样本意味着每个特征有n个值,特征yij的扩展概率根据该特征值与所有特征值和的比值计算,即
能够满足以下条件要求:
基于扩展概率的扩展熵定义为:
由于两类合并而产生的信息损失与信息瓶颈理论一样
根据信息损失量的计算公式,当两个变量p,q∈{1,2,...,n}合并成一个变量cj,变量cj的扩展概率表示为
本发明引入新的相关度定义形式,两个备选特征变量x和y之间的相关度定义为:
ρ(x,y)=1/d(x,y)(17);
信息损失量的值与相关度成反比,当y是个特征计划,首先根据式(16)将集合中的所有特征变量合并成一个变量,然后,根据式(15)计算信息损失量d(x,y)。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明基于扩展熵的无监督特征的选择方法包括:
步骤100:根据原始备选特征集中的任意备选特征变量与所述原始备选特征变量集中剩余备选特征变量之间的相关度,从所述原始备选特征集中选择第一个特征变量,并将所述第一个特征变量添加到已选特征集中,从所述原始备选特征集中剔除所述第一个特征变量;
步骤200:根据当前备选特征集中的任意备选特征变量与所述备选特征集中剩余备选特征变量之间的相关度、当前备选特征集中的任意特征变量与已选特征集之间的信息损失量,确定当前特征变量以及对应的相关度变化参数;
步骤300:将当前特征变量添加到已选特征集中,更新已选特征集;
步骤400:判断所述相关度变化参数是否小于设定阈值;
步骤500:如果是,则选择结束,当前已选特征集包含全部无监督特征变量;
步骤600:否则,将从当前备选特征集中剔除当选特征变量,更新备选特征集,继续选择下一个特征变量。
其中,在步骤100中,所述根据原始备选特征集中的任意备选特征变量与所述原始备选特征变量集中剩余备选特征变量之间的相关度,从所述原始备选特征集中选择第一个特征变量,具体包括:
步骤101:根据公式(20)备选特征集中各个特征变量yi对应的扩展概率r(j|yi):
其中,yi=(yi1,yi2,...,yin),i=1,2,...,m,m表示备选特征变量的序号,n表示每个备选特征变量的特征值的序号,j=1,2,...,n。
步骤102:根据公式(21),将两个备选特征变量yp,yq,p,q∈{1,2,...,m},合并所生成c的扩展概率r(j|c):
步骤103:根据公式(22)-(24)计算当前备选特征集中的各备选特征变量与当前备选特征集中其余备选特征变量之间的信息损失量d(yi,{yk\yi}):
其中,|·|表示向量的势。
步骤104:根据公式(25)和(26)确定所述第一个备选特征变量
ρ(yi,{y0\yi})=1/d(yi,{y0\yi})(25),
其中,0≤k≤m,yk表示原始备选特征集中剔除了k个特征向量的备选特征集,y0表示原始备选特征集,y0={y1,y2,...,ym},y0\yi表示原始备选特征集y0中除备选特征变量yi以外的剩余备选特征变量,argmax()为取最大值函数。
在步骤200中,所述确定备选特征变量,具体包括:
根据公式(27)-(31)确定第w个特征变量:
ρ(yi,{yw-1\yi})=1/d(yi,{yw-1\yi})(28);
其中,2≤w≤m,m表示备选特征变量的序号,sw-1表示包含了(w-1)个备选特征向量的已选特征集,s0表示初始已选特征集,为空集,yw-1表示原始备选特征集中剔除了(w-1)个特征向量的备选特征集;d(yi,sw-1)表示备选特征变量yi与已选特征变量集sw-1之间冗余信息程度。公式(28)中的d(yi,{yw-1\yi})根据公式(22)计算得到。
进一步地,所述相关度变化参数包括第w个特征变量相关度的增加量变化率与第2个特征变量相关度的增加量变化率的变化率比值uw,第w个特征变量相关度增加量与第1个特征变量相关度的增加量比值vw,且所述变化率比值uw对应第一设定阈值α,所述增加量比值vw对应第二设定阈值β;
根据公式(32)-(34)确定相关度变化参数:
uw=(fw-1-fw)/(f1-f2)(33);
vw=fw/f1(34)。
其中,所述第一设定阈值α和第二设定阈值β的取值范围分别为[0,1],具体值可根据实际需要进行指定,当分析问题比较复杂时,所述第一设定阈值α和第二设定阈值β应小,当分析问题比较简单时,所述第一设定阈值α和第二设定阈值β应大。
下面以具体实施例进行详细说明本发明基于扩展熵的无监督特征的选择方法的优越性:
如表1所示,选择了有标签的分类数据集进行分析,下载数据包括乳腺癌门诊数据、智能手机记录数据、信用卡记录数据和间皮瘤数据等,每个数据集的基本信息如表1所示。
表1数据集信息
在特征选择过程中,标签信息被忽略掉,只考虑特征信息。为计算扩展熵,所有特征都变换到[0,1]区间的正数值,选择结果如下。
(1)乳腺癌诊断数据
该数据由威斯康星大学门诊科学中心提供,用于乳腺癌肿块的诊断,数据集包括569个样本,每个样本有30实数值特征,所有样本分为两类,即良性和恶性。首先,每个特征变换到[0,1]区间,然后根据第5部分介绍方法计算特征的扩展熵和选择特征,为确定选择特征变量的个数,uw和vw的阈值设为α=0.1和β=0.1。对应每步的相关度增加量如图2所示,最后,选择了14个特征。
(2)智能手机记录数据集
智能手机数据用来识别人的行为,共收集了10299条记录,每条记录有561个特征,人的行为被分成6类。首先,将数据转换到[0,1]区间,然后根据本发明提出的fsbee方法进行特征选择,uw和vw的阈值设为α=0.01和β=0.01。对应每步的相关度增加量如图3所示,最后,选择了178个特征。
(3)信用卡记录
该数据集是用来根据用户的个人支付记录识别用户是否为可信用户,共有30000条记录,每条记录有24个特征,在这些特征中,一些是二值变量,一些是连续变量,为计算方便,所有特征变换到[0,1]区间,都看作是连续变量,然后根据本发明提出的fsbee方法进行特征选择,uw和vw的阈值设为α=0.1和β=0.1。对应每步的相关度增加量如图4所示,最后,选择了10个特征。
(4)间皮瘤数据
该数据用来识别病人的间皮瘤是良性还是恶性,有324个样本,每个样本有34个特征,首先,所有的特征转换到[0,1]区间,然后根据本发明提出的fsbee方法进行特征选择,uw和vw的阈值设为α=0.1和β=0.1。对应每步的相关度增加量如图5所示,最后,选择了15个特征。
为了比较,采用信息增益、相关系数、逻辑回归等有监督特征选择方法进行选择,libsvm分类器根据不同特征选择方法选择的特征进行分类,所有特征选择方法所选择的特征个数与fsbee相同,分类结果如表2所示。
采用k均值特征选择、基于方差的特征选择和基于互信息的无监督特征选择方法来选择特征,所选择的特征数量与本发明基于扩展熵的无监督特征的选择方法相同,基于不同无监督特征选择方法所选择特征的分类结果如表3所示。
从上面的分类结果可以发现,本发明基于扩展熵的无监督特征的选择方法是非常有效的,通过与有监督特则选择方法的比对,分类结果与有监督特征提取方法所提取特征的分类结果相近,甚至有时好于一些有监督的特征选择方法。通过与其他无监督特征选择方法的分类结果比对,可以发现本发明提出的特征选择方法好于其他方法,而且本发明基于扩展熵的无监督特征的选择方法可有效降低计算的复杂度。
表2基于有监督特征选择方法所选特征的分类结果
无样本标签的特征选择是模式识别领域重要的任务,为提高无监督特征选择的效率和性能,本发明提出了一种新的无监督特征选择方法,在该方法中,扩展熵用来计算两个备选特征变量之间的信息损失量,并用信息损失量度量变量之间的距离。在特征选择过程中,即考虑了变量本身的信息量,同时也考虑了变量与已选特征之间的信息冗余量,从而保证了所选特征组合具有最大的信息量。该方法的有效性可总结为3个方面,一是扩展熵能够简化信息损失量的计算过程,从而提高计算速度;二是能够保证所选特征集具有最大的信息量;三是提供了一种确定特征选择数量的客观标准。实例分析表明,本发明提出的方法是有效的,可广泛应用于各无监督的特征选择领域。
此外,本发明还提供一种基于扩展熵的无监督特征的选择系统。如图6所示,本发明基于扩展熵的无监督特征的选择系统包括初次选择单元1、过程选择单元2、添加单元3及判断单元4。
其中,所述初次选择单元1根据原始备选特征集中的任意备选特征变量与所述备选原始特征变量集中剩余备选特征变量之间的相关度选择第一个特征变量,并将所述第一个特征变量添加到已选特征集中,从所述原始备选特征集中剔除所述第一个特征变量;
所述过程选择单元2根据当前备选特征集中的任意备选特征变量与所述备选特征集中剩余备选特征变量之间的相关度,当前备选特征集中的任意备选特征变量与已选特征集之间的信息损失量,确定当前特征变量以及对应的相关度变化参数;
所述添加单元3将当前特征变量添加到已选特征集中,更新已选特征集;
所述判断单元4判断所述相关度变化参数是否小于设定阈值;
所述过程选择单元2与所述判断单元4连接,还用于在所述判断单元4的判断结果为所述相关度变化参数小于设定阈值时,选择结束,当前已选特征集包含全部无监督特征变量;在所述判断单元4的判断结果为所述相关度变化参数大于或等于设定阈值时,将从当前备选特征集中剔除当前特征变量,更新备选特征集,继续选择下一个特征变量。
可选的,所述初次选择单元1包括第一计算模块、合成模块、第二计算模块、第三计算模块及初选模块。
所述第一计算模块根据公式(20)备选特征集中各个特征变量yi对应的扩展概率r(j|yi):
其中,yi=(yi1,yi2,...,yin),i=1,2,...,m,m表示备选特征变量的序号,n表示每个备选特征变量的特征值的序号,j=1,2,...,n。
所述合成模块根据公式(21),将两个备选特征变量yp,yq,p,q∈{1,2,...,m},合并所生成c的扩展概率r(j|c):
第二计算模块根据公式(22)-(24)计算当前备选特征集中的各备选特征变量与当前备选特征集中其余备选特征变量之间的信息损失量d(yi,{yk\yi}):
其中,|·|表示向量的势。
第三计算模块根据公式(25)和(26)确定所述第一个备选特征变量
ρ(yi,{y0\yi})=1/d(yi,{y0\yi})(25),
其中,0≤k≤m,yk表示原始备选特征集中剔除了k个特征向量的备选特征集,y0表示原始备选特征集,y0={y1,y2,...,ym},y0\yi表示原始备选特征集y0中除备选特征变量yi以外的剩余备选特征变量,argmax()为取最大值函数。
所述初选模块用于将所述第一个特征变量添加到已选特征集,从所述原始备选特征集中剔除所述第一个特征变量。
可选的,所述过程选择单元2确定备选特征变量,包括:
根据公式(27)-(31)确定第w个特征变量:
ρ(yi,{yw-1\yi})=1/d(yi,{yw-1\yi})(28);
其中,2≤w≤m,m表示备选特征变量的序号,sw-1表示包含了(w-1)个备选特征向量的已选特征集,s0表示初始已选特征集,为空集,yw-1表示原始备选特征集中剔除了(w-1)个特征向量的备选特征集;d(yi,sw-1)表示备选特征变量yi与已选特征变量集sw-1之间冗余信息程度。公式(28)中的d(yi,{yw-1\yi})根据公式(22)计算得到。
可选的,所述相关度变化参数包括第w个特征变量相关度的增加量变化率与第2个特征变量相关度的增加量变化率的变化率比值uw,第w个特征变量相关度增加量与第1个特征变量相关度的增加量比值vw,且所述变化率比值uw对应第一设定阈值α,所述增加量比值vw对应第二设定阈值β。
所述过程选择单元2根据公式(32)-(34)确定相关度变化参数:
uw=(fw-1-fw)/(f1-f2)(33);
vw=fw/f1(34)。
可选的,所述第一设定阈值α和第二设定阈值β的取值范围分别为[0,1]。
相对于现有技术,本发明基于扩展熵的无监督特征的选择系统与上述基于扩展熵的无监督特征的选择方法的有益效果相同,在此不再赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本发明中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。