一种小样本数据模式识别的特征选择方法

文档序号:6362759阅读:1055来源:国知局
专利名称:一种小样本数据模式识别的特征选择方法
技术领域
本发明属于模式识别技术领域,涉及一种小样本数据模式识别的特征选择方法。
背景技术
模式识别系统主要由4个部分组成数据获取,预处理,特征选择与提取,分类决策,如图I所示。其中特征选择与提取部分就是要根据原始数据,选择和提取最能反映分类本质的特征。特征选择是模式识别中的一个关键问题。由于在很多实际问题中常常不容易找到那些重要的特征,这就使特征选择和提取的任务复杂化而成为构造模式识别系统最困难的任务之一。这个问题已经越来越受到人们重视。特征重要性度方法是特征选择排序的核心。现有度量方法包括基于熵函数、类内类间距离、相关性分析、基尼系数(Gini Index)等,由于这些方法都是基于传统统计理论,存在抗噪声能力低、样本数量要求大等局限性,不适合于小样本、非线性、高维数据的模式识别的特征选择处理。

发明内容
本发明的目的是提供一种小样本数据模式识别的特征选择方法,以解决现有方法不适合于小样本数据的特征选择处理问题。为实现上述目的,本发明的小样本数据模式识别的特征选择方法步骤如下(I)根据训练样本集构造SVM分类面模型;(2)确定SVM分类面模型的边界点,选择合理异类边界点对,计算各合理异类边界点对的分类面点;(3)根据所有分类面模型的分类面点,由特征重要性度量模型计算各特征的重要性度量值;(4)对于计算出的特征重要性度量值,值越大表示越重要,由大至小进行特征排序,并优先选择排在前面的特征。进一步的,所述步骤(I)中构造SVM分类面模型的方式为对于多分类问题的每个类别,构造该类与其它类别所组成的2分类SVM分类面模型Modeli, i = 1,2,. . .,C,其中,C为类别数;对于2分类问题,则仅构造I个SVM分类面模型。进一步的,所述步骤(I)中,对于给定的训练样本集
第m个样本点的特征值向量,yffl e {-I, +1}为相应的二分类类别标号,则SVM的最优分类面模型可表示为
I
权利要求
1.一种小样本数据模式识别的特征选择方法,其特征在于,该方法的步骤如下 (1)根据训练样本集,构造SVM分类面模型; (2)确定SVM分类面的边界点,选择合理异类边界点对,计算各合理异类边界点对的分类面点; (3)根据所有分类面模型的分类面点,由特征重要性度量模型计算各特征的重要性度量值; (4)对于计算出的特征重要性度量值,值越大表示越重要,由大至小进行特征排序,并优先选择排在前面的特征。
2.根据权利要求I所述的方法,其特征在于,所述步骤(I)中构造SVM分类面模型的方式为对于多分类问题的每个类别,构造该类与其它类别所组成的2分类SVM分类面模型Modeli, i = 1,2,...,C,其中,C为类别数;对于2分类问题,则仅构造I个SVM分类面模型。
3.根据权利要求I或2所述的方法,其特征在于,所述步骤(I)中,对于给定的训练样本集s =其中X111 e Rn为第m个样本点的特征值向量,Yni e {-I, +1}为相应的ニ分类类别标号,则SVM的最优分类面模型可表示为
4.根据权利要求3所述的方法,其特征在于所述步骤(2)中确定模型Modeli的边界点,对于任一样本点X,若χ属于-I类,则必有Z(X) < 1,若χ属于+1类,则必有Z(X) >1,Z(x) I = I的邻近区域为分类边界区域,则对于给定的训练样本集S,其边界点集合Sb为 Sb = {χ I χ e S,IZ (χ) I < θ , Θ > 0}(2) 其中Θ为给定的边界点的分类值门限,取Θ <1.2。
5.根据权利要求4所述的方法,其特征在于,所述步骤(2)中选择合理异类边界点对的步骤如下 (211)对于给定的训练样本集S和边界点集合SB,求出由所有异类边界点对构成的连线中点集合So,并求出各异类边界点对连线中点Oi的邻近点数N(Oi), Oi e S0, i = I,...,S0I, S0I为连线中点个数; (212)若连线中点集合S。为空,则结束; (213)若
6.根据权利要求5所述的方法,其特征在于,所述步骤(2)中计算各合理异类边界点对的分类面点Xd的步骤如下 (221)在0-1之间,系数P均勻取r点,5彡r彡O,各点为Pi; i = I, . . . , r, P。=O, Pr=I5 (222)从PC1 = O点开始,计算第i点P i的SVM分类面模型值Z (P J,若 Z(P1^)ZiP1XO ,则转步骤(223);(223)计算插值点
7.根据权利要求6所述的方法,其特征在干所述步骤(3)中对于离散特征,给定的训练样本子集Sr和分类面点子集*5/^ ; CS,,由Sr内所有样本求出特征x4的各种取值,并由小到大排序,形成特征χ的取值集合'=Wv2,...,v|^,根据
全文摘要
本发明涉及一种小样本数据模式识别的特征选择方法,首先根据训练样本集构造SVM分类面模型;确定SVM分类面的边界点,选择合理异类边界点对,计算各合理异类边界点对的分类面点;根据所有分类面模型的分类面点,由特征重要性度量模型计算各特征的重要性度量值;依计算出的特征重要性度量值大小进行特征排序与选择;本发明的方法具有特征重要性度量准确快速等特点,可满足小样本分类器设计的特征选择与排序的实际需要,为模式识别等领域特征选择与排序提供了新的有效技术。
文档编号G06K9/62GK102663417SQ20121007327
公开日2012年9月12日 申请日期2012年3月19日 优先权日2012年3月19日
发明者于俊伟, 刘灿, 张德贤, 张苗, 李保利, 杨卫东, 梁义涛, 王洪群, 许伟涛, 靳小波 申请人:河南工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1