一种基于数据概率分布和多核的流形正则分类方法与流程

文档序号:15348874发布日期:2018-09-04 23:05阅读:200来源:国知局

本发明涉及机器学习的技术领域,尤其涉及到一种基于数据概率分布和多核的流形正则分类方法。



背景技术:

机器学习是从已知的数据集中学习,如何充分挖掘和利用给定的数据样本信息和标签信息,是机器学习成功的一个关键。如果设x表示数据,ω表示数据空间,在数学上,数据x可以看成是在数据空间ω上取值的随机变量或向量。数据空间中有各种不同的数据。例如,如果数据空间可以表示所有512×512像素的数字图像,则数x可以表示所有512×512像素的人脸数字图像,或者表示所有512×512像素的风景数字图像。不同性质的数据可以用不同的概率分布来区别。如果把数据看作是一个随机变量,那么数据样本可以看作是这个随机变量在一个概率分布上的采样值。因此在机器学习中,可以通过估计数据的概率分布来分析数据。

当前在机器学习领域,分类算法非常多,分类是机器学习中数据分析的一个重要步骤和关键过程。根据数据标签信息的多少可以把分类算法分为两大类:监督学习和半监督学习。监督学习的分类算法里,数据集的标签信息需要全部给出。监督学习通过充分利用给出的标签信息,并按照一定的算法机制来进行数据的分类。比如,经典的监督学习算法lda(文献1,keinosukefukunaga.introductiontostatisticalpatternrecognition.academicpress,1972.)。通过最大化数据集之间的类间散度同时最小化数据集的类内散度,在同类数据进行归类的同时把不同类的数据分开。lda学习算法可以直接得到分类结果,但是数据点和它对应的估计标签之间没有一个明确的模型关系。因此,根据数据点与对应估计标签之间是否存在一个明确的模型关系的判断准则,分类算法又可以分为直推式和诱导式两大类。许多经典的学习算法包括lda、核lda(文献2,s.mika,g.ratsch,andj.westonfisherdiscriminantanalysiswithkernels.ieeesignalprocessingsocietyworkshop,neuralnetworkforsignalprocessing,1999.)、mfa(文献3,s.yan,d.xu,b.zhang,h.zhang,q.yang,ands.lingraphembeddingandextensions:ageneralframeworkfordimensionalityreductionieeetrans.patternanalysisandmachineintelligence,2007),核pca(文献4,j.suykensandj.vandewalle.leastsquaressupportvectormachineclassifiers.neuralprocessinglettter,1999)、高斯场调和函数(文献5,x.zhu,z.ghahramani,andj.lafferty.semi-supervisedlearningusinggaussianfieldsandharmonicfunctions.proc.20ndinternationalconferenceonmachinelearning(icml),2003.)等等都是纯粹的直推式方法。相对于直推式的分类算法,诱导式的学习方法在数据点和其对应的估计标签之间建立了一个明确的模型关系。这个模型关系可以是线性的也可以是非线性的。正则的分类算法比如svm(文献6,j.suykensandj.vandewalle.leastsquaressupportvectormachineclassifiers.neuralprocessinglettter,1999.),流形正则(文献7,m.belkin,p.niyogiandv.sindhwani.manifoldregularization:ageometricframeworkforlearningfromlabeledandunlabeledexamples.journalofmachinelearningresearch,2006.),稀疏正则(文献8,m.fan,n.n.gu,h.qiao,andb.zhang.sparseregularizationforsemi-supervisedclassification.patternrecognition,2011),它们通过使用核函数在数据点和对应估计标签之间建立一个明确的非线性的模型关系。流形正则分类方法是流形学习算法里,一个非常有代表性的半监督学习方法,它通过增加描述流形数据几何结构的流形正则项,挖掘数据概率分布的本质结构,来达到对数据分类的目的。然而,此种流形正则分类方法工作效率较低、而且分类结果不太不尽人意。



技术实现要素:

本发明的目的在于克服现有技术的不足,提供一种工作效率高、分类结果较为准确的基于数据概率分布和多核的流形正则分类方法。

为实现上述目的,本发明所提供的技术方案为:根据给定数据集估计数据概率分布,然后调制判别函数里核函数的参数,由此衍生的新的核函数进一步在函数空间应用,并用于重新定义内积,为学习问题建立新的解空间,最后学习问题的最优解即为分类结果。具体步骤如下:

s1、根据已有的数据样本集估计数据的概率分布p(xi);

s2、由于流形正则方法里,判别函数的基函数为:k(x,xi|θi),(一般的流形正则方法里,参数θ仅为实验均值,没有考虑数据分布信息),其中基函数的参数θi=θ(p(xi))的大小由概率分布p(xi)决定。本步骤根据步骤s1估计的概率分布p(xi)来调整核函数的参数θi,得到多个不同的核函数{ki(x|θi)|i=1,…,n},其中n表示样本集的个数;

s3、根据步骤s2得到的核函数{ki(x|θi)|i=1,…,n}以及给定的数据样本集,计算矩阵kd,但由于矩阵kd不是对称矩阵,因此基于矩阵kd重新定义一个对称正定的矩阵:其中ρ>0,i∈rn×n为单位矩阵;

s4、由步骤s2得到的核函数{ki(x|θi)|i=1,…,n},张成线性空间sd(ω);

s5、根据步骤s3得到的对称正定矩阵md,定义线性空间sd(ω)的内积<f,g>d;

s6、构建新的解空间,hd=(sd(ω),<f,g>d);

s7、在新的解空间hd=(sd(ω),<f,g>d)中求解目标函数最后求得的最优解f*即为所有数据的估计标签,即分类结果。

进一步地,步骤s1中采用parzen窗函数估计数据的概率分布。

与传统方案相比,本方案原理及优点如下:

利用数据的概率分布信息来调整核函数的参数,然后把参数调整后的核函数在数据空间的局部应用。同时通过重新定义一个对称正定矩阵的方式,来得到一个新的内积,为分类学习问题建立新的解空间。从空间角度来讲,本方案根据数据分布信息调整基核参数获取不同的核函数,改进了学习问题的解空间,提高了工作效率;从几何角度来讲,依赖数据分布信息的核函数可以保证判别函数里基函数支集的并集能够有效覆盖数据分布的非零区域,从而提高分类结果的准确率。

附图说明

图1为本发明一种基于数据概率分布和多核的流形正则分类方法的流程图。

具体实施方式

下面结合具体实施例对本发明作进一步说明:

参见附图1所示,本实施例所述的一种基于数据概率分布和多核的流形正则分类方法,包括以下步骤:

s1、根据已有的数据样本集估计数据的概率分布p(xi):

假设给定的数据集为x={xi|i=1,…,n},其中{x1,…,xl}表示有标签的数据样本,对应的类别标签为{y1,…,yl},{xl+1,…,xl+u}表示无标签的数据样本;

采用parzen窗函数的方法来估计数据的概率分布p(xi),即

其中,n(i)表示样本xi邻域,且邻点的个数|n(i)|设为10,d表示样本xi维数,h表示带宽,kh表示高斯核;进一步,归一化估计密度函数,即

s2、根据步骤s1估计的概率分布p(xi)来调整核函数的参数θi,衍生得到多个不同的核函数{ki(x|θi)|i=1,…,n}:

在流形正则方法框架里,判别函数f由数据样本和基函数来确定,即基函数k可以为多项式核函数,也可以为高斯核函数。但核函数的参数θi=θ(p(xi))受数据样本的概率分布p(xi)影响;一旦选定为核函数,根据估计的每个点的概率分布p(xi)和该数据点,可得到一个对应的核函数ki(xθi);从而得到n=l+u个新的核函数。

s3、根据步骤s2得到的核函数{ki(x|θi)|i=1,…,n}以及给定的数据样本集,计算矩阵kd,但由于矩阵kd不是对称矩阵,因此基于矩阵kd重新定义一个对称正定的矩阵:其中ρ>0,i∈rn×n为单位矩阵。

s4、由步骤s2得到的核函数{ki(x|θi)|i=1,…,n},张成线性空间sd(ω):

s5、根据步骤s3得到的对称正定矩阵md,定义线性空间sd(ω)的内积<f,g>d,即:

其中,

s6、构建新的解空间,hd=(sd(ω),<f,g>d)。

s7、在新的解空间hd=(sd(ω),<f,g>d)中求解目标函数最后求得的最优解f*即为所有数据的估计标签,即分类结果;

具体求解过程如下:

根据给定的数据集,对于任意函数f∈hd,有因而可以得到

f的范数,

流形正则项,

式中,lx表示数据样本x的图拉普拉斯矩阵,l=d-w;d表示对角元素为的对角矩阵;w表示相似矩阵,它的元素wij表示两个数据xi和xj之间的相似关系;

通过上述三个公式,把学习问题的求解从函数空间转移到欧式空间:

进一步,如果选择平方差函数为代价函数v(y,f(x)),

式中,表示选择矩阵,使得成立;

这样公式(1)所表示的问题可以转化为一个对称正定的二次型问题;对称正定的二次型问题具有解析解;

这里,

把求得的最优系数带入便可求得最优解即为所有数据样本的估计标签,完成数据分类。

本实施例利用数据的概率分布信息来调整核函数的参数,然后把参数调整后的核函数在数据空间的局部应用。同时通过重新定义一个对称正定矩阵的方式,来得到一个新的内积,为分类学习问题建立新的解空间。从空间角度来讲,本实施例根据数据分布信息调整基核参数获取不同的核函数,改进了学习问题的解空间,提高了工作效率;从几何角度来讲,依赖数据分布信息的核函数可以保证判别函数里基函数支集的并集能够有效覆盖数据分布的非零区域,从而提高分类结果的准确率。

以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1