基于虚拟样本的kpca特征抽取方法及模式识别方法

文档序号:6650712阅读:421来源:国知局
专利名称:基于虚拟样本的kpca特征抽取方法及模式识别方法
技术领域
本发明涉及一种基于KPCA特征抽取方法,尤其涉及一种基于虚拟样本的KPCA特 征抽取方法,可用于模式识别、机器学习、计算机视觉、工业自动化与图像处理等技术领域。
背景技术
特征抽取式对某一模式的组测量值进行变换,以突出该模式具有代表性特征的一 种方法。广泛应用于模式识别、机器学习、计算机视觉、工业自动化与图像处理等技术领域, 例如,在计算机视觉和图像处理中,它指的是使用计算机抽取图像信息,决定每个图像的 点是否属于一个图像特征。特征抽取的结果是把图像上的点分为不同的子集,这些子集往 往属于孤立的点、连续的曲线或者连续的区域。主成分分析(Principal-Component Analysis, PCA)是最小均方误差意义上的最 优维数压缩技术,这种方法基于数据的二阶统计信息(即基于相应协方差矩阵)进行分析, 抽取不相关的各个特征分量。应用中,PCA方法可通过求解特征方程实现,并选择对应较大 特征值的特征向量作为变换轴。PCA作为一种常用的特征抽取方法,属于线性算法,不能抽 取出数据中非线性的结构,因此在实际应用中存在较多限制。核方法可以将非线性不可分 离数据变转换为线性可分离数据,因而被引入主成分分析,用来解决一些较为复杂的特征 抽取问题。目前,核主成分分析(Kernel Principal-Component Analysis,KPCA)已广泛应 用于模式识别、机器学习、计算机视觉、工业自动化与图像处理等领域。KPCA的思想可以描 述为借助“核技巧”隐式地将输入空间映射到一非线性的特征空间,在该特征空间中进行 线性主分量分析。由于映射的非线性,特征空间中的线性主分量对应输入空间中的非线性 矢量,因此KPCA是一种非线性主分量分析方法。然而KPCA特征抽取方法在应用中还存在 着一些瓶颈问题,如核方法特征抽取效率会随着训练集的增大而降低。然而,在实际应用中 通常需要较大的训练集来保证识别率,所以核方法在计算上效率不高甚至是不实用的。

为了提高KPCA特征抽取方法的效率,研究者提出了若干改进算法,如Y. Xu 等(参见文献[Y. Xu, J. -Y. Yang, J. Lu, D. -J. Yu. An efficient renovation on kernel Fisher discriminant analysis and face recognition experiments, Pattern Recognition, 2004,37(10) : 2091—2094· ]; [Y. Xu, D. Zhang, Z. Jin, M. Li, J. -Y. Yang. A fast kernel-based nonlinear discriminant analysis for multi-class classification, Pattern Recognition, 2006,39(6): 1026-1033. ] ; [Y. Xu, J. -Y. Yang, J. Yang. A reformative kernel Fisher discriminant analysis, Pattern Recognition, 2004,37(6): 1299-1302. ] ; [Y. Xu, D. Zhang, F. Song, Jing-Yu Yang, Zhong Jing, Miao Li. A method for speeding up feature extraction based on KPCA, Neurocomputing, 2007, 70(4-6): 1056-1061.])对 KFDA、KPCA 以及 KMSE 核方法进行特征 抽取的效率提升。作者根据不同核方法的本质设定不同的目标函数,然后依据该目标函数 对候选样本进行最优值的计算;并根据结果对候选样本进行筛选,从中选取显著节点;最 后根据显著节点进行核函数特征抽取的重新计算。例如在KFDA方法中,应用最大Fisher值来选取显著节点。Μ. Ε. Tipping也是利用PCA方法的本质提出一种稀疏KPCA方法(sparse PCA)(参见文献[Μ. E. Tipping. Sparse kernel principal component analysis. NIPS 2000: Neural Information Processing Systems, MIT Press, 2000,633-639.])。可以 看出,以上这些改进方法在训练阶段计算量很大,相对于特征抽取时的高效相比,计算效率 很低。这种性质也会降低这些改进方法的实际应用。

发明内容
本发明要解决的技术问题在于解决现有KPCA特征抽取方法及其改进方法所存在 的训练时间长、效率较低的缺点,提供一种算法简单、效率高的基于虚拟样本的KPCA特征 抽取方法。本发明采用以下技术方案解决上述技术问题
一种基于虚拟样本的KPCA特征抽取方法,其特征在于,所述KPCA特征抽取是在一个在 输入的基准数据集样本基础上构建的虚拟样本空间中进行,该虚拟样本空间包含#个维数 相同的随机虚拟样本矢量,#为输入的基准数据集中的训练样本数。进一步的,所述#个维数相同的随机虚拟样本矢量采用梯度下降的迭代方法进行 寻优选取得到;具体按照以下步骤进行
步骤1、设置#个维数相同的随机虚拟样本矢量初值,其元素为0到1之间的数,#为输 入的基准数据集中的训练样本数;
步骤2、使用梯度下降法迭代求出第1个虚拟样本特征矢量,迭代条件是该虚拟样本矢 量与已有数据集特征空间的距离最小,具体按照以下公式,
权利要求
1.一种基于虚拟样本的KPCA特征抽取方法,其特征在于,所述KPCA特征抽取是在一个 在输入的基准数据集样本基础上构建的虚拟样本空间中进行,该虚拟样本空间包含#个维 数相同的随机虚拟样本矢量,#为输入的基准数据集中的训练样本数。
2.如权利要求1所述基于虚拟样本的KPCA特征抽取方法,其特征在于,所述#个维数 相同的随机虚拟样本矢量采用梯度下降的迭代方法进行寻优选取得到;具体按照以下步骤 进行步骤1、设置#个维数相同的随机虚拟样本矢量初值,其元素为0到1之间的数,#为输 入的基准数据集中的训练样本数;步骤2、使用梯度下降法迭代求出第1个虚拟样本特征矢量,迭代条件是该虚拟样本矢 量与已有数据集特征空间的距离最小,具体按照以下公式,其中,X10表示第一个虚拟样本矢量,Λ为学习比率,df表示4与已有数据集特征空间的距离,丨代表核函数,JV为输入的训练样本数,O 为输入的样本特征矢量;步骤3、使用梯度下降法迭代求出第r个(r = 23,…,Μ-1,Ι)虚拟样本特征矢量,迭代 条件是该虚拟样本矢量与r-Ι个虚拟样本矢量的内积最小,具体按照以下公式,其中,χ 表示第f个虚拟样本特殊矢量,/ 为学习比率,fe代表核函数。
3.如权利要求2所述基于虚拟样本的KPCA特征抽取方法,其特征在于,所述学习比率 A和μ.2的取值分别为0. 001和0. 003。
4.如权利要求2所述的基于虚拟样本的KPCA特征抽取方法,其特征在于,所述核函数 为高斯核函数。
5.一种模式识别方法,该方法首先对输入的基准数据集进行特征抽取,然后根据提取 的特征利用分类器进行模式识别,其特征在于,所述特征抽取采用权利要求1-4中任一项 所述的基于虚拟样本的KPCA特征抽取方法。
全文摘要
本发明公开了一种基于虚拟样本的KPCA特征抽取方法,可用于模式识别、机器学习、计算机视觉、工业自动化与图像处理等技术领域。本发明方法在现有KPCA特征抽取方法基础上,运用梯度下降的迭代算法,结合一定的约束条件,构造虚拟样本矢量集替代原始训练集。本发明方法确定的虚拟样本矢量空间能够很好的近似特征样本空间,在相同的识别率情形下能够有效降低KPCA特征抽取时间,改进其效率。同时该方法和同类KPCA改进方法相比,具有算法简单、效率高的优点。本发明还公开了一种采用上述方法进行特征抽取的模式识别方法。
文档编号G06N7/00GK102096843SQ20111002669
公开日2011年6月15日 申请日期2011年1月25日 优先权日2011年1月25日
发明者侯荣涛, 赵英男 申请人:南京信息工程大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1