专利名称:一种对图像、视频进行维数约简的方法
技术领域:
本发明涉及模式识别、图像处理技术,尤其涉及一种对图像、视频进行低维约简的方法,该方法可以应用到模式识别领域。
背景技术:
利用有限高维样本数据进行学习通常遭遇维数灾难问题,而避免维数灾难问题最常见的方法是降维。传统的线性子空间方法对非线性结构的数据不能进行有效地处理。高维数据的几何特性使得在低维嵌入流形上建立模型成为可能,因此,流形学习作为一种能够发现高维数据非线性几何结构的有效方法,成为近几年来的研究热点。其研究成果和技术已经应用于模式识别、计算机视觉、图像处理等相关领域。如高维数据的可视化、可听化;基于内容检索的模型;视频中三维对象的跟踪和检测;从静态二维图像中进行三维对象的姿态估计和识别;二维和三维对象的形状重构;从运动中构建结构、从阴影中成形等。此外流形学习还应用于自然语言处理、基因表达分析等生物信息处理领域,特别是在基因表达分析中,用于检测和区分不同的疾病和疾病类型。
总体而言,流形学习方法可以分为局部方法和全局方法。全局方法主要有主成分分析(Principle Component Analysis,PCA)与Kernel PCA,多尺度分析(Multidimensional Scaling,MDS)与等特征匹配(Isometric featuremapping,Isomap);局部方法主要有局部线性嵌入(LocalLinearEmbedding,LLE)、Laplacian特征映射(Laplacian Eigenmap,LE)、Hessian特征映射(Hessian LLE)、扩散映射(Diffusion Map)、局部切空间对齐(LocalTangentSpaceAlignment,LTSA)等。
LLE算法[Roweis 2000]的主要思想是把输入的数据点以某种方式映射到一个唯一的低维全局坐标系统之中,并使得这种映射能够保留相邻数据点之间的某些关系。LLE算法期望每个数据点和它的相邻数据点都能位于某个流形的局部线性块上或其附近。事实上,通过将每个数据点都用它的相邻点的线性组合来估计,就可以捕获到该局部线性块的内在几何特性。而这些组合系数对上面所提到的三种变换操作(平移、旋转和缩放)具有不变性。因此,捕获到的局部几何特性在原始高维空间中的描述在低维空间中将同样正确有效。这样,LLE算法就找到了一个低维数据点的集合,使得它的每个数据点能够由其相邻的数据点使用上述原始高维空间中得到的组合系数进行线性重构。
Tenenbaum等人提出了Isomap算法[Tenenbaum 2000,Balasubramanian2002],其主要思想是应用经典多尺度分析MDS算法把数据点从原始高维空间映射到低维空间的坐标系上。算法的关键就在于输入给MDS的数据点的距离不再是欧式距离,而是流形上的测地线距离。所谓测地线距离通俗地讲就是流形上的两点沿流形曲面的最短距离。流形的形状只能从作为样本的输入数据中寻找线索,但并不能准确得到。因此算法中实际使用的测地线距离是由一系列短距离的和来近似的。这里的短距离指的是两个邻点之间的距离。最后,算法将测地线距离作为MDS算法的输入去寻找一个具有类似成对距离的低维数据点的集合。
Belkin和Niyogi提出的Laplacian特征映射算法[Belkin,2001;Belkin,2003]是为找到一个在平均意义上保留数据点局部特性(近邻点通过映射后仍为近邻点)的映射,Donoho D和Grimes C认为Isomap要求参数空间的概率测度有凸支撑,进行全局等距映射这个条件过于严格,而局部等距更合理,从而提出一种Hessian特征映射算法[Donoho 2002]。Hessian特征映射和Laplacian特征映射的理论框架非常相似,只是使用Hessian算子代替了Laplacian算子。
很多的流形学习方法的目标函数都归结于最小化一个低维表示的二次函数,这个问题可以很自然地转化为求关系矩阵的特征向量问题。如果关系矩阵的每一行的和都为1,那么元素就可以看作随机意义上从到的一步转移概率。受此启发,Coifman等首先使用高斯核函数定义图中任意两点的边,然后利用归一化方法构建图上的扩散过程。扩散过程的转移矩阵构成算子的核,对应于一次转移概率,表示从到随机游走步的转移概率。而对核进行特征分解可得到映射到低维空间的特征向量,Coifman等称之为扩散映射[Coifman 2005;Nadler 2005]。
对于非线性流形来说,全局的非线性结构来自于局部线性分析和局部线性信息的全局对齐,根据这个思想浙江大学张振跃等提出局部切空间对齐算法(LTSA)[Zhang 2004]。
上述方法大都是非线性降维方法,近年来,也有一些线性的方法出现。Xiaofei He基于谱图理论给出了Laplacian特征映射的线性化方法LocalPreserving Projections[He 2004],Jian Yang在LPP基础上给出了无监督的鉴别方法Unsupervised Discriminant Projection[Yang]。
目前,大部分的流形学习方法取得了很多重要的研究成果,但是还存在着两方面的问题。首先,目前的算法大都在图像库,特别是人造数据集上进行测试,而对视频数据进行研究的方法并不多。事实上,仅考虑空间特性是远远不够的,图像序列的时间相关性是更为重要的特性,因此,有必要研究视频序列的流形学习方法。
其次,目前的流行学习算法并不适合模式识别应用。大部分算法都是保持近邻关系,与模式识别应用没有直接的关系。同时,包括ISOmap和LLE在内,都只是发现训练样本集上的低维坐标,对于新的测试样本,并没有直接的转换公式来计算测试样本的低维坐标,因此,并不适合模式识别应用。
近年来,神经科学的研究取得很多重大发展,大量神经元对信息的编码方法成为对人脑表示方法研究的基础。如果一个神经元的触发率对应于高维空间中的一维,那么图像信息就能够由和像素个数相等的神经元所表示。神经生物学研究表明,光照或视角的不同引起刺激图像发生微小的变化时,视感知系统的响应具有某种特性的不变性。神经生理学和心理学理论认为连续变化的信号本身蕴含了这种不变性。神经生理学研究还发现整个神经细胞群的点火率可以由少量变量组成的连续函数描述,如人眼转动的角度[McFarlandand Fuchs,1992]和头旋转的方向[Taube,1998],这表明神经元的群体活动被限定在低维空间光滑流形上,并由其内在的低维结构所控制。
事实上,人类的视觉系统在对外界环境进行观察的过程中,传感信号和环境表示都是随着时间而迅速变化的,而相关的特征则是随时间而缓慢变化的,例如某个对象或者其位置等都是一定时间内保持不变的。因此,如果能够从快速变化的外界信号中提取缓慢变化的特征,那么这些特征就可以反映环境的性质,对于平移、旋转、缩放、视角等具有不变性,或者至少具有鲁棒性。这种特性叫做慢变性(Temporal Slowness)。
也就是说,从高维的图像原始空间,按照慢变性准则,可以得到低维流形上的嵌入坐标,并且能够保持平移、旋转、缩放、视角等具有不变性。
总之,本方法借鉴人类视觉感知系统的特性,针对目前流形学习方法存在的上述问题,提出了一种新的适合于视频数据的不变特征表示方法。该方法可以很方便地修改成有监督的形式,因此,可以用于模式识别应用中。
前文所引用的参考文献如下 [Balasubramanian 2002]Balasubramanian M.,Schwartz E.L.TheIsomap algorithm and topological stability.Science,Vol.295(5552)7a,2002 [Belkin 2001]Belkin M.,Niyogi P.Laplacian eigenmaps andspectral techniques for embedding and clustering.Advances in NeuralInformation Processing Systems 14(NIPS’2001),pp.585-591,2002. [Belkin 2003]Belkin M.,Niyogi P.Laplacian eigenmaps fordimensionality reduction and data representation.Neural Computation,Vol.15,no.6,pp1373-1396,2003 [Coifman 2005]Coifman R.R.,Lafon S.,Lee A.B.,Maggioni M.,Nadler B.,Warner F.,Zucker S.W.Geometric diffusions as a tool forharmonic analysis and structure definition of data.Part Idiffusionmaps.Proceedings of the National Academy of Sciences,Vol.102,no.21,pp7426-7431,2005 [Donoho 2003]Donoho D.L.,Grimes C.Hessian Eigenmapsnewlocally linear embedding techniques for high-dimensional data.Technical Report TR-2003-08,Department of Statistics,StanfordUniversity,2003 [He 2003]He Xiaofei,Niyogi P.Locality Preserving Projections,Advances in Neural Information Processing Systems 16(NIPS 2003),Vancouver,Canada,2004 [Nadler 2005]Nadler B.,Lafon S.,Coifman R.R.,Kevrekidis I.G.Diffusion maps,spectral clustering and eigenfunctions ofFokker-Planck operators.NIPS 18,2005. [Roweis 2000]Roweis S.T.,Saul L.K.Nonlinear dimensionalityanalysis by locally linear embedding.Science,Vol.290,No.12,pp2323-2326,2000 [Tenenbaum 2000]Tenenbaum J.B.,Silva V.de,Langford J.C.A global geometric framework for nonlinear dimensionality reduction.Science,Vol.290,No.12,pp2319-2323,2000 [Wiskott 2002]L.Wiskott,T.Sejnowski.Slow feature analysisUnsupervised learning of invariances.Neural Computation,14(4)715-770,2002 [Yang 2007]Yang Jian,Zhang David,Yang Jing-yu,Niu Ben,Globally Maximizing,Locally MinimizingUnsupervised DiscriminantProjection with Applications to Face and Palm Biometrics,IEEETransactions on Pattern analysis and machine intelligence,Vol.29,No.4,pp650-664,2007 [Zhang 2004]Zhenyue Zhang,Hongyuan Zha.Principal manifoldsand nonlinear dimensionality reduction via tangent space alignment.SIAM Journal of Scientific Computing,Vol.26,No.1,pp313-338,2004
发明内容
为了解决现有技术中的不足,本发明提出了一种新的非线性维数约简的方法,该方法以时间序列为处理对象,使得相邻时间序列上的数据点,尽可能变换缓慢,这些变换缓慢的特征就是所求的低维嵌入坐标。对于没有显示的时间序列的图像数据,本方法首先构建高维空间的每一个样本点的近邻,样本点与其近邻可以认为近似地构成了一个时间序列,然后对于每个样本点与近邻优化目标是使得每一个样本点和它的近邻在低维嵌入空间上仍能保持变化缓慢。
根据本发明,提出一种非线性邻域保留算法(Nonlinear NeighborhoodPreserve method,简称NNP算法)。
该算法的流程如下 给定一个时间序列,x(t)=((x1(t),x2(t),…,xn(t))T,t∈[t0,t1](T表示矩阵的转置,以下同),根据慢变性准则,希望能够寻找到一个变换Y=WX,使得变换后得到的低维坐标Y满足 首先,利用Wiskott提出的慢变特征分析(Slow Feature Analysis,SFA)方法[Wiskott 2002]来求解目标函数(1)。
为了求解低维嵌入空间的坐标,一般都假定在高维流形空间的每个局部可以由欧式空间近似。LPP算法假定从高维到低维是一个线性变换,这样的近似并一定正确,因此,在SFA方法中,先将原始数据扩展到非线性空间中,再寻找线性变换,得到低维空间的坐标。
首先,将高维空间的原始序列X扩展到非线性空间Φ,记为
。记i=1,2,…n-1,则经过一个变换后,满足目标函数(1)的约束条件。
为了求解目标函数(1),将上述问题附加一个约束条件,要求变换后的低维空间数据Y的均值为0,方差为1 E{Y}=0 (2) E{YYT}=I(3) 目标函数(1)可以变为 则有,优化目标J1变为 其中, 这是一个广义特征向量问题, AW=ΛBW (9) 其中W是广义特征向量,Λ是广义特征值。通过舍弃那些零特征值对应的特征向量而保留d个最小的非零特征值对应的特征向量使问题满足目标函数(1)的约束。
事实上,对于转换矩阵W,可以将其归一化,得到(i和j表示矩阵W的第i行和第j列),这样也就满足了约束条件(2)和(3)。
本算法采用的非线性扩展是多项式扩展,包括二阶、三阶多项式扩展等。
前面给出的算法适用于具有明显时间结构(指样本具有时间上的发生顺序)的数据,如视频序列、声音等。对于一些没有明显时间结构的数据,如图像等,需要将上述方法进行适当的修改。
该算法对于没有明显时间结构的数据,如图像,进行处理的步骤如下 首先,对于给定包含N个数据点的集合{xi}(i=1,2,…,N),对于数据集中的每个数据点,选择其k个近邻; 然后,仍然将高维空间的原始数据X扩展到非线性空间Φ,记为
,这样,每个数据点和它的近邻构成的序列,则S的长度为2×N×k。
设Δsj=s2i-s2i-1,j=1,2,…N×k,则经过一个变换后,满足条件 也就是说经过变换到低维坐标后,原本在高维空间中保持近邻关系的点,在低维空间中仍然保持近邻关系。
对于式(1)的求解方法,则与前面所述相同,仍然附加一个约束条件,要求变换后的低维空间数据Y的均值为0,方差为1,公式(1)可以变为 ΔY=WTΔSΔSTW=WTCW(11) 则有,优化目标变为J2 其中, C=ΔSΔST (14) 本算法采用的非线性扩展是多项式扩展,包括二阶、三阶多项式扩展等。下面给出根据本发明的NNP算法的计算步骤 如果原始空间中的数据集具有时间结构,则 (1)、将原始数据xi,i=1,2,…,N扩展到非线性扩展空间中
,i=1,2,…,N; (2)、计算i=1,2,…n-1,并根据公式(7)和(8)计算协方差矩阵A和B; (3)、利用广义特征向量求解满足约束条件(7)的矩阵W,保留d个最小的非零特征值对应的特征向量,从而获得低维嵌入空间中的坐标。
如果原始数据没有明显的时间结构,则需要构建时间序列,构建时间序列的具体步骤如下 (1)、对于原始数据集中的每个数据点xi,i=1,2,…,N,寻找其k个近邻; (2)、将原始数据扩展到非线性扩展空间
,i=1,2,…,N中; (3)、所有数据点与其k个近邻构成不重复的序列 (4)、计算并根据公式(8)和(9)计算协方差矩阵A和B; (5)、利用广义特征向量求解满足约束条件(7)的转换矩阵W,保留d个最小的非零特征值对应的特征向量,从而获得低维嵌入空间中的坐标。
在上述算法中,主要考虑了局部的近邻关系的保持,在有些情况下,就会造成数据点嵌入到低维空间中发生数据点比较紧密的特点。例如优选地,在Gaussian Random Sampled数据集上(该数据集为现有的标准数据集,现有流形学习算法均在该数据集上进行性能比较)的实验结果不够理想,不能保持高维空间非均匀采样嵌入到低维空间上的合理样本间距。
因此,在保证高维空间中保持近邻关系的点,在低维空间中仍然保持近邻关系的前提下,可以附加一个约束条件,就是在高维流形中距离比较远的点,在低维空间中仍然保持比较远的距离。这样可以将上述方法加以改进,在构建S的同时,对于每个数据点,构建与其距离最远的l个数据点。得到一个序列进而得到ΔFj=f2i-f2i-1j=1,2,…N×l。
这样,最终的优化条件J3就可以变为 其中, C=ΔSΔST (17) D=ΔFΔFT (18) 基于核方法的问题求解 在上述NNP方法中,对于非线性的情况,需要做非线性扩展,由于扩展到非线性空间导致变换后的维数过高,容易陷入维数灾难,为了解决这个问题,可以利用kernel技巧来避免这个问题。
利用kernel方法,公式(7)、(8)、(14)、(18)变为 其中,S和F均由原始空间的数据样本{xi}组成,i=1,2,…,N,前面已经给出了具体定义。设则 其中,Kij=φ(xi)Tφ(xj),ΔKi=Ki+1-Ki-1,i=1,2,…,N-1。
其中, Kij=φ(xi)Tφ(sj) ΔKj=K2i-K2i-1,j=1,2,…,N×k(26) 其中, 公式(6)最终的判别式J1变为 核函数可以选择与支持向量机(Support Vector Machine,SVM)相同的多项式核,高斯核,或者RBF核((有关核函数的定义与参数选择,可以参考“模式识别”(边肇祺等著,清华大学出版社,2000))等,最终可以转化成下式的广义特征值问题 ΔKΔKTα=ΛKKTα(30) 同理,公式(13)最终的判别式J2变为 公式(16)最终的判别式J3变为 为了进一步说明本发明的原理及特性,以下结合附图和具体实施方式
对本发明进行详细说明。
下面通过附图及具体实施例对本发明进行详细阐述。
图1是哥伦比亚对象数据库COIL-20中的鸭子图像示例。
图2是根据本发明方法对图1所示图像进行处理后的结果示意图。
图3是根据本发明方法对视频进行处理后的流形图。
图4是本方法和其它经典流形学习方法的处理结果对比图。
图5是对非均匀采样的数据集进行处理之后的结果示意图。
图6是在数据集稀疏的情况下进行处理的对比结果示意图。
图7是本发明方法与其他经典方法对哥伦比亚大学对象数据库COIL-20中的鸭子对象进行处理之后的流形图。
图8是采用公式(13)和(16)分别对哥伦比亚大学对象数据库COIL-20中的鸭子对象进行处理之后的流形图。
图9是对人脸库进行处理后的流形图。
具体实施例方式 下面结合附图详细描述本发明的具体实施方式
。
根据本发明的方法,在视频和图像数据集上分别进行了实验验证,并在流形学习的经典数据集上也作了对比试验。试验结果表明该方法能够有效地发现高维数据的几何结构。该方法在有监督情况下的算法实现,并在手写体应用中加以验证。
针对具有明显时间结构的视频数据,具体实施方式
为 步骤1提取视频序列的每一帧图像; 步骤2进行非线性扩展,以三维输入数据x=(x1,x2,x3)进行二阶多项式扩展为例,扩展的公式如下 h(x)=(x12,x1x2,x1x3,x22,x2x3,x32,x1,x2,x3)(32) 步骤3计算
,并根据公式(7)和(8)计算协方差矩阵A和B; 步骤4利用广义特征向量求解满足约束条件(7)的转换矩阵W,保留d个最小的非零特征值对应的特征向量,从而获得低维嵌入空间中的坐标。
如果数据的维数过高,可以选择基于核的NNP方法进行具体实施,从而避免计算量过大的问题。
针对没有明显时间结构的图像数据,具体实施方法为 步骤1对于原始数据集中的每个数据点xi,i=1,2,…,N,寻找其k个近邻; 步骤2将原始数据扩展到非线性扩展空间
,i=1,2,…,N;扩展的方法如公式(32); 步骤3所有数据点与其k个近邻构成不重复的序列 步骤4计算并根据公式(8)和(9)计算协方差矩阵A和B; 步骤5利用广义特征向量求解满足约束条件(7)的转换矩阵W,保留d个最小的非零特征值对应的特征向量,从而获得低维嵌入空间中的坐标。
视频序列上的实验结果 采用哥伦比亚对象数据库COIL-20(Columbia object image library)数据库(此数据库是现有流形学习算法均在此数据库上进行比较,属于Benchmark的数据库,可以从网上下载,网址为http://www1.cs.columbia.edu/CAVE/software/softlib/coil-20.php)合成试验中使用的视频序列。该数据库中共有20个对象,对每一个对象从0°~360°进行水平方向的旋转,每隔5°采样一幅图像,这样每一对象共有72幅图像。整个数据库共有1440幅图像,图像大小为64×64,将图像向量化以后,观察数据的维数为64×64=4096。图1给出了其中一个鸭子作为对象的图像示例。
对于其中的每一个对象,视频序列是这样构成的从0°~360°~0°共72幅图像构成了该对象的一段视频。为了降低运算效率,将原始图像,利用主分量分析(Principle Component Analysis,PCA)先进行降维,从4096降到10维,具体降维方法为对于72幅图像x,计算协方差矩阵的特征值和特征向量,将特征值从大到小排序,λ1≥λ2≥…≥λr,其对应的特征向量为ui,取前10个大的特征值对应的特征向量矩阵W得到降维后的坐标WX,就是一个10维的向量。
接下俩,利用NNP方法进行低维空间的坐标计算。实验中选择二阶多项式扩展。实验中选取了两段视频,一段视频是只包含一个鸭子对象;另一段视频则包含鸭子和工件两个对象。实验结果如图2所示,其中横纵坐标代表利用NNP方法得到的二维嵌入坐标。
另一段视频来自微软的Analogue Vista Clock(Vista系统中带有该软件),通过屏幕截取形成了60秒钟的一段时钟视频,每帧图像的大小240×240,并同样利用住分量分析方法将其降维到20维,利用NPP算法计算低维嵌入坐标,结果如图3所示,其中横纵坐标代表利用NNP方法得到的二维嵌入坐标。
由于时钟经过60秒钟后,分针也会移动一格,因此并没有形成鸭子视频中的环状流形。
人工数据集上的实验结果 为了说明本文提出的算法的效果,将根据公式(6)作为优化目标的NNP算法与Isomap、LLE、HessianLLE、LE、Diffusion Map、LTSA六个流形方法进行了比较,在九个典型的数据集上进行了测试。包括Swiss Roll、S Curve、3DCluster(Cluster=3、8)、Punctured Sphere、Twin Peaks、Gaussian RandomlySampled、Occluded Disks、Corner Planes和Toroidal Helix数据集(这些数据集可以从因特网获取,网址为http://www.math.umn.edu/~wittman/mani/)。数据集由800个三维的点集组成。
NNP算法有两个参数需要设置多项式扩展的阶数(Punctured Sphere数据集上选择)、近邻数。多项式扩展选为常用的二阶多项式扩展,如公式(32)所示。其他经典流形学习算法的实验结果利用了Todd Wittman编写的manimatlab包(该程序可以从网上免费获取,网址为http://www.math.umn.edu/~wittman/mani/)。实验结果如图4所示,图4中分别为ISOmap、LLE、HessianLLE、LE、DiffusionMap、LTSA六个经典的流形学习算法与本发明的NNP方法进行比较的试验结果。从(a)到(j)图分别给出了在Swiss Roll、S Curve、3DCluster(Cluster=3、8)、Punctured Sphere、Twin Peaks、Occluded Disks、Corner Planes、Toroidal Helix(取样率为1.0)和Gaussian Randomly Sampled数据集上得到的低维嵌入坐标。其中横纵坐标表示得到的原始三维数据的二维坐标。
从实验结果中,可以看出在九个经典的数据集上进行的实验表明本文提出的方法可以很好地将高维数据嵌入到正确的低维空间中。但是在SwissRoll数据集上的结果与LLE近似,有聚类效果。
在数据比较稀疏(取样点比较少,所得到的分布比较稀疏)的情况下,本发明方法具有很好的性能。实验结果如图5所示。其中(a)为Toroidal Helix(取样率为0.8)采用各种流形学习方法和本发明方法进行对比的结果。(b)为SwissRoll数据集上样本点个数仅为400时得到的对比结果。(c)为S Curve数据集上样本点个数为200时得到的对比结果。其中横纵坐标代表三维原始数据的二维嵌入坐标。
同时,可以看到对于非均匀采样的数据集,如Gaussian Randomly Sampled例子,本方法采用公式(10)可以一定程度上解决在低维嵌入空间中反映非均匀采样的数据分布情况,结果如图6所示。其中横纵坐标代表三维原始数据的二维嵌入坐标。
真实数据集 利用视频序列在哥伦比亚大学对象数据库COIL-20(Columbia objectimage library)数据库(可以从网上下载,网址为http://www1.cs.columbia.edu/CAVE/software/softlib/coil-20.php)上进行试验。下面利用NPP算法的两个目标函数(13)和(16)作同样的实验,实验中选择二阶多项式扩展。近邻参数选为k=3。
与其他经典流形算法相比,在COIL-20数据库的鸭子对象进行试验,得到的二维嵌入流形如图7所示,分别为Isomap、LLE、HessianLLE、LE、Diffusion Map、LTSA与本发明方法NNP进行对比得到的试验结果。其中横纵坐标代表原始高维图像数据的二维嵌入坐标。
从图7的实验结果中,可以看出NNP算法能够很好地发现存在的环状路径,并将其嵌入到二维空间中。72幅旋转一周的图像流形投影在二维空间形成一个近似于圆的流形。只有基于全局信息的ISOMap得到的结果比较理想。
用公式(13)和(16)两个目标函数进行比较,结果如图8所示从实验结果中同时发现,采用公式(16)进行低维坐标的计算时,由于在保持近邻关系的同时,将离的远的数据点拉大,因此得到的流形并不是一个理想的圆形。
在人脸库上进行了低维可视化实验。如图9所示,其中横纵坐标代表原始高维图像数据的二维嵌入坐标。
从图9中可以看到,NNP算法能够发现人脸图像内在的自由度,横坐标代表了脸部姿态从左至右的变化;纵坐标代表了从俯视到仰视的变化。
有监督分类方法及其在手写体识别中的应用 事实上,上述非线性降维方法可以很方便地将其应用到有监督的学习问题中,只需将公式(1)中的由近邻构成的序列对增加一个约束条件,即要求是同属于一类的样本构成一个序列对,算法步骤如下 (1)、对于原始数据集中的每个数据点xi,i=1,2,…,N,寻找其k个同属于一类的样本; (2)、所有数据点与它的k个同一类样本构成不重复的序列{xi,xi,j}(j=1,2,…,k) (3)、将原始数据扩展到非线性扩展空间中; (4)、寻找满足约束条件(7)的转换矩阵w,保留d个最小的非零特征值对应的特征向量,从而获得低维嵌入空间中的坐标。
对于测试样本,选择最简单的基于马氏距离的k近邻分类器进行分类。
选择手写体识别中的MNIST数据库(现有的数据库)进行试验。MNIST数据库由60000万个训练样本和10000个测试样本组成,每个图像的大小是28×28。分别采用公式(13)和公式(16)作为目标函数得到的错误率分别为1.51%和1.42%。
虽然以上描述了本发明的具体实施方式
,但是本领域的技术人员应当理解,这些具体实施方式
仅是举例说明,本领域的技术人员在不脱离本发明的原理和实质的情况下,可以对上述方法和系统的细节进行各种省略、替换和改变。例如,合并上述方法步骤,从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此,本发明的范围仅由所附权利要求书限定。
权利要求
1、一种对视频进行维数约简的方法,其特征在于,该方法包括下列步骤
步骤1提取视频序列的每一帧图像xi,i=1,2,...,N;
步骤2将所述视频序列的每一帧图像的原始数据扩展到非线性扩展空间
,i=1,2,...,N;
步骤3计算i=1,2,…n-1,根据下列公式(7)
计算协方差矩阵A,
步骤4利用广义特征向量问题求解满足公式(7)的广义特征向量,对于原始D维数据空间,保留小于等于D个最小的非零特征值对应的特征向量,从而获得低维嵌入空间中的坐标。
2、根据权利要求1的方法,其特征在于,所述非线性扩展是多项式扩展,包括二阶、三阶多项式扩展。
3、一种对图像进行维数约简的方法,其特征在于,该方法包括下列步骤
步骤1对于原始数据集中的每个数据点xi,i=1,2,...,N,寻找其k个近邻;
步骤2将图像中的原始数据扩展到非线性扩展空间
,i=1,2,...,N;
步骤3所有数据点与其k个近邻构成不重复的序列
(i=1,2,…,N,j=1,2,…,k)
步骤4计算并根据下列公式(8)和(9)
AW=ΛBW(9)
计算协方差矩阵A和B,其中W是广义特征向量,Λ是广义特征值;
步骤5利用广义特征向量求解满足公式(7)
的广义特征向量,对于原始D维数据空间,保留小于等于D个最小的非零特征值对应的特征向量,从而获得低维嵌入空间中的坐标。
4、根据权利要求3的方法,其特征在于,所述非线性扩展是多项式扩展,包括二阶、三阶多项式扩展。
5、根据权利要求1-4之一的方法,其特征在于,当扩展到非线性扩展空间过程中导致变换后的维数过高时,利用核函数进行降维。
全文摘要
本发明利用人类视觉感知的时间一致性准则来解决非线性维数约简问题。时间一致性准则的基本思想是从快速变化的外界刺激中寻找变化缓慢的特征,这些特征位于在低维空间光滑流形上。因此,利用时间一致性准则研究流形学习问题就成为可能。本方法的优点在于由于利用了时间结构,因此可以方便地将其应用在视频序列中。在经典的流形学习数据集上的实验结果说明了方法的有效性。在MNIST库上的实验结果说明有监督的方法可以用于分类应用中。
文档编号G06K9/62GK101609510SQ20091008929
公开日2009年12月23日 申请日期2009年7月15日 优先权日2009年7月15日
发明者黄雅平 申请人:北京交通大学