本发明属于数据降维处理,具体涉及一种基于结构图和局部线性嵌入的显式无监督特征选择方法。
背景技术:
1、近年来,高维数据在图像处理、数据挖掘、机器学习、模式识别等领域广泛应用。通常情况下,高维数据中包含噪声、异常值、冗余和与当前任务不相关的特征,这些特征可能会增加存储成本和计算复杂度、降低后续学习任务的性能和可解释性。作为缓解上述问题的热门方法之一,特征选择受到了相当大的关注。在过去的几十年中,特征选择已经成为机器学习和数据挖掘领域的一个热门研究课题,其目的是从原始特征集合中识别出最佳的特征子集。由于大量未标记数据的存在,且对无标签数据打标签代价相对较高,专门用于处理高维无标记数据的特征选择方法变的越来越重要。正是由于标签信息的缺乏,使得无监督特征选择极具挑战。尽管如此,近年来,无监督特征选择方法在性能、鲁棒性和效率等方面取得了巨大的进步。
2、根据搜索的策略,现有的无监督特征选择方法可以分为封装式方法、过滤式方法和嵌入式方法。封装式方法依赖于预定义学习算法的预测性能来评估所选特征的质量。给定一个特定的学习算法,封装式方法通常执行两个步骤:①搜索一个特征子集,②评估特征子集的质量,重复步骤①~②直到满足预定义的停止准则。特征集搜索组件首先生成特征子集,然后学习算法充当黑盒,根据学习性能来评估这些特征的质量。尽管封装式方法表现良好,但由于在原始集合的幂集中进行穷举搜索,计算成本很高;过滤式方法独立于任何学习算法,依赖数据的特征来评估特征的重要性,过滤式方法通常比封装式方法具有更高的计算效率;然而,由于缺乏特定的学习算法指导特征的选择,所选择的特征对于目标学习算法而言可能并不是最优的。典型的过滤式方法包括两个步骤:①根据一些特征评价标准对特征重要性进行排序,②排序低的特征被过滤掉。从性能和计算效率的角度,嵌入式方法是过滤式方法和封装式方法的折中,将特征选择嵌入到模型学习中,不需要迭代地评估特征集。因此,嵌入式方法继承了过滤式方法和封装式方法的优点,即嵌入式方法包含了与学习算法的交互并且比封装式方法更有效。这类方法通常是寻找一个矩阵,如变换矩阵、表示系数矩阵、潜在特征矩阵等用于选择有用的特征。从特征选择矩阵建模的角度,嵌入式方法分类为:基于伪标签、基于自表示、基于非负矩阵分解的方法。基于伪标签的方法通常利用聚类算法得到数据的伪标签,然后将伪标签作为目标进行线性或非线性拟合以获得变换矩阵。基于非负矩阵分解的算法将给定的数据矩阵分解为潜在特征和聚类指示矩阵的乘积。假设每个特征都可以表示为其相关特征的线性组合,基于自表示的方法以数据本身为目标,训练线性模型得到表示系数矩阵。为了更好地达到选择最优特征的目的,上述三类方法通常采用稀疏正则化来获取矩阵的稀疏性。
3、图学习可以极大提升无监督特征选择的性能。到目前为止,大多数现有的图学习工作要么使用预先定义的相似矩阵,要么在某个低维子空间中实现假设。虽然这两种策略在一定程度上提高了学习性能,但不能充分挖掘有用信息并生成期望的相似图,导致了次优解的产生,使得特征选择结果不佳。
技术实现思路
1、本发明的目的在于提供一种基于结构图和局部线性嵌入的显式无监督特征选择方法,用以解决采用现有技术中的方法造成的特征选择结果不佳的问题。
2、为解决上述技术问题,本发明提供了一种基于结构图和局部线性嵌入的显式无监督特征选择方法,包括如下步骤:
3、1)构建用于表示是否选择特征的显式特征选择矩阵;
4、2)基于局部线性嵌入,以利用低维空间中的近邻点对特征数据进行重构得到包含有显式特征选择矩阵的目标函数的第一项;基于结构图学习,在拉普拉斯矩阵上施加秩约束来学习图中的结构性信息以得到包含有显式特征选择矩阵的目标函数的第二项;
5、3)整合包括第一项和第二项在内的所有项得到目标函数,求解该目标函数,利用求解得到的显式特征选择矩阵进行特征选择。
6、进一步地,所述目标函数的第一项表示为:
7、
8、
9、式中,xi为数据矩阵x中的第i个样本点;xj为数据矩阵x中的第j个样本点;w为投影矩阵;ψ为显式特征选择矩阵;d为满足显式特征选择矩阵所需满足的条件的所有矩阵集合;表示与xi最接近的k个样本的指标集;ψtxi表示样本xi在特征子空间中的对应样本;n为样本点总数。
10、进一步地,所述目标函数的第二项表示为:
11、
12、
13、式中,ψ为显式特征选择矩阵;n为样本点总数;xi为数据矩阵x中的第i个样本点;xj为数据矩阵x中的第j个样本点;sij表示样本点xi与xj之间的相似度得分;α表示正则化参数;ls表示拉普拉斯矩阵;c表示聚类中簇的数目;rank(ls)表示拉普拉斯矩阵ls的秩。
14、进一步地,构建的显式特征选择矩阵所需满足的条件包括:显式特征选择矩阵中矩阵元素包括0和1,显式特征选择矩阵的每一列中只有一个位置的值为1,其他位置的值为0,以及显式特征选择矩阵的每一行中的1的个数至多为1。
15、进一步地,所述目标函数还包括第三项,表示为:
16、min tr(qtlsq),q∈rn×c,qtq=ic
17、式中,c表示聚类中簇的数目;q∈rn×c表示辅助求解矩阵;n为样本点总数;tr(·)表示矩阵的迹算子;ls表示拉普拉斯矩阵;ic表示c×c的单位矩阵。
18、进一步地,目标函数所包含的需求解参数除了所述显式特征选择矩阵和辅助求解矩阵外,还包括相似度矩阵和投影矩阵;采用交替迭代更新方法对目标函数中的需求解参数进行优化求解。
19、进一步地,采用交替迭代更新方法时所有未知参数的优化求解顺序依次为:投影矩阵、显式特征选择矩阵、相似度矩阵和辅助求解矩阵。
20、本发明的有益效果为:本发明属于开拓型发明创造,将显式特征选择矩阵的设计与结构图学习和局部线性嵌入相融合,设计出基于局部线性嵌入得到的目标函数的第一项和基于结构图学习得到的目标函数的第二项,进而整合所有项得到目标函数,对该目标函数进行求解得到最优的用于特征选择的显式特征选择矩阵。本发明在特征子空间中利用局部线性嵌入对数据进行重构,可以有效去除噪声和离群点,并且利用结构图学习去自适应学习样本之间的相似度,学习数据中的结构信息,因此,局部线性嵌入和结构图学习的联合优化使得显式特征矩阵选择能够评估特征的重要性、相关性和有用性,使其适合用于特征选择。
1.一种基于结构图和局部线性嵌入的显式无监督特征选择方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于结构图和局部线性嵌入的显式无监督特征选择方法,其特征在于,所述目标函数的第一项表示为:
3.根据权利要求1所述的基于结构图和局部线性嵌入的显式无监督特征选择方法,其特征在于,所述目标函数的第二项表示为:
4.根据权利要求1所述的基于结构图和局部线性嵌入的显式无监督特征选择方法,其特征在于,构建的显式特征选择矩阵所需满足的条件包括:显式特征选择矩阵中矩阵元素包括0和1,显式特征选择矩阵的每一列中只有一个位置的值为1,其他位置的值为0,以及显式特征选择矩阵的每一行中的1的个数至多为1。
5.根据权利要求1所述的基于结构图和局部线性嵌入的显式无监督特征选择方法,其特征在于,所述目标函数还包括第三项,表示为:
6.根据权利要求5所述的基于结构图和局部线性嵌入的显式无监督特征选择方法,其特征在于,目标函数所包含的需求解参数除了所述显式特征选择矩阵和辅助求解矩阵外,还包括相似度矩阵和投影矩阵;采用交替迭代更新方法对目标函数中的需求解参数进行优化求解。
7.根据权利要求6所述的基于结构图和局部线性嵌入的显式无监督特征选择方法,其特征在于,采用交替迭代更新方法时所有未知参数的优化求解顺序依次为:投影矩阵、显式特征选择矩阵、相似度矩阵和辅助求解矩阵。