专利名称:一种多线性大间距的特征提取方法
技术领域:
本发明属于机器学习和模式识别领域,具体地说是一种多线性大间距的特征提取方法。
背景技术:
随着数据收集以及存储能力的提高,在各个应用领域每天都会产生大量多维数据,行之有效的特征提取方法就变得尤为重要。传统的基于向量的降维方法,例如主成分分 |斤(Principal component analysis,PGA),线 f生 1 另Ij 分 |斤(Linear discriminantanalysis, LDA)以及局部保留投影(Local preserve projection, LPP)都是将图像矩阵转换成更高维数的向量,这在图像序列识别中必然会带来维数灾难。而且,采用Fisher判别准则的方法(如LDA)需要计算类内散度矩阵的逆,这会带来小样本问题,同时也破坏了原始图像的结构信息。为了获得更好的特征提取性能,在图像(或图像序列)处理中直接利用矩阵或张量数据形式进行特征提取。Yang等人提出了二维主成分分析(Two dimensional PCA, 2DPCA)[1],Li等人提出了二维判别分析方法(Two dimensional LDA, 2DLDA) [2],这不但提高了特征提取的效率,还可避免原始图像特征向量化造成结构信息的破坏。但是,对于图像序列乃至更多模式的数据,例如灰度图像序列,彩色图像等,基于矩阵的特征提取方法并不能有效地处理多模式的高维数据。因此,基于张量的特征提取方法逐渐成为研究的热点。吕海平等人提出了多线性主成分分析(Multilinear principal component analysis, MPCA) [3],并且归纳了张量在多线性子空间学习中的研究成果⑷。MPCA虽然没有破坏张量数据的结构信息,但是是一种无监督的学习方法,因此识别率可以进一步提高。Tao等人提出了广义张量判别分析(General Tensor Discriminant Analysis, GTDA)是一种有监督的张量学习方法,它是优化类间散度与类内散度之差达到最大[5]。与本发明相关的公开报道有: [I] Yang J, Zhang D, Frangi A F,Yang J Y.Two-dimensional PCA: a newapproach to appearance-based face representation and recognition (二维主成分分析:一种基于外观的人脸表示与识别新方法).IEEE transactions on Pattern Analysisand Machine Intelligence (国际 IEEE 模式分析与机器智能期刊),2004,26 (I): 131-137。[2]Li M, Yuan B Z.2D-LDA:a statistical linear discriminant analysisfor image matrix (二维线性判别分析:一种对图像矩阵的统计线性判别分析).PatternRecognition Letters (国际模式识别快报),2005,26 (5): 527-532。[3]Haiping Lu, Plataniotis K N, Venetsanopoulos A N.MPCAiMultilinearPrincipal Component Analysis of Tensor Objects (MPCA:张量个体的多线性主成分分析).IEEE Transactions on Neural Networks.(国际 IEEE 神经网络期刊)2008,19(1): 18-39。[4] Haiping Lu, K.N.Plataniotis, A.N.Venetsanopoulos.A survey ofMultilinear Subspace Learning for Tensor Data (张量数据的多线性子空间学习方法综述).Pattern Recognition (国际模式识别期刊),2011, 44(7): 1540-1551。[5]Dacheng Tao, Xuelong Li, Xindong Wu, et al.General Tensor DiscriminantAnalysis and Gabor Features for Gait Recognition (广义张量判别分析和 Gabor 特征的步态识别方法) IEEE Transactions on Pattern Analysis and Machine Intelligence(国际IEEE模式分析与机器智能期刊) 2007,29(10): 1700-1715。传统的基于向量的特征提取方法是通过将图像矩阵(或图像序列)向量化来实现的,但在多模式数据降维中会造成维数灾难和破坏原始特征的结构信息。而已有的张量方法,MPCA、GTDA虽然得到了令人鼓舞的识别效果,但是识别性能仍有提升的空间。
发明内容
为了克服这些缺点,本发明的目的在于提供一种既能避免维数灾难,同时引入监督信息和Laplacian矩阵,优化类间Laplacian散度与类内Laplacian散度之差达到最大,可避免小样本问题,同时获得具有更高识别性能的多线性大间距的特征提取方法。本发明是通过如下技术方案来实现的:假设第m个训练样本用N阶张量^ G R糾.K..外表示,其中,R代表空间,In(n=l,…,N)为张量的“n-模式”的维数,那么M个训练样本集合可以表示为{xm,m=l,一,M},它们是张量空间R7' R/:中的张量;将张量空间R'1 0…雜1-、'映射到
权利要求
1.一种多线性大间距的特征提取方法,其特征是,假设第m个训练样本用N阶张量 +表示,其中,R代表空间, η(η=1,...,Ν)为张量的“η-模式”的维数,那么M个训练样本集合可以表示为{ xm,m=l,…,Μ},它们是张量空间R/1 0R,1中的张量;将张量空间Rf〗桃60…⑩映射到Rfl 0 Ril 0…0 (Pn < Ιη,η=I,…,N),其中,Ρη(η=1,…,N)表示降维后的张量的“η-模式”的维数,映射后的张量能捕捉到原始张量数据“变化”最大的方向
2.如权利要求1所述的多线性大间距的特征提取方法,其特征是,具体操作步骤如下: (1)预处理阶段:利用MPCA方法对整个张量训练集进行降维处理,得到的特征记为
全文摘要
本发明提供的是一种多线性大间距的特征提取方法。首先,提取视频流样本的一个周期的步态序列数据,并且表示成张量结构;第二,用多线性主成分分析(MPCA)进行张量数据预处理,使高维的张量数据投影到一个低维的张量结构,去除冗余和噪声信息;第三,优化类间Laplacian散度和类内Laplacian散度之差,使其值最大,通过不断迭代求值,使其解收敛并达到迭代终止条件,得到各个模式下的投影矩阵,通过张量乘法得到一个维数更低、带有监督信息的低维张量;最后,通过基于欧氏距离的最近邻分类器进行分类。本发明所提供的方法较MPCA有更高的识别率,最终降维后的特征也更短一些。
文档编号G06K9/46GK103218617SQ201310176389
公开日2013年7月24日 申请日期2013年5月13日 优先权日2013年5月13日
发明者贲晛烨, 张鹏, 江铭炎, 宋雨轩, 梁泽滨, 刘天娇 申请人:山东大学