面向大规模训练数据的svm主动学习分类算法
【专利摘要】本发明涉及遥感分类与图像形象信息处理技术的交叉领域,尤其涉及面向大规模训练数据的SVM主动学习分类算法。本发明方法基于聚类和不确定性评价方法,在大量样本中选取出距离聚类质心较远、距离两类分界面又较近的边界样本,通过引入主动学习的方法,进行分类器的迭代优化。边界样本选择的过程不是盲目的,而是科学的,通过迭代学习系统不断地比较样本的不确定性信息和分布信息的差别,并根据比较结果,自动地控制和调整压缩集,反演推导出最优的训练样本集合,完成遥感影像的自动分类,提高分类的质量。
【专利说明】面向大规模训练数据的SVM主动学习分类算法
【技术领域】
[0001]本发明涉及遥感分类与图像形象信息处理技术的交叉领域,尤其涉及面向大规模训练数据的SVM主动学习分类算法。
【背景技术】
[0002]遥感影像客观真实地记录和反映了地表物体的电磁辐射的强弱信息,是遥感探测地物信息的一种表现形式。利用遥感影像进行地物分类在城市监测、农业监测、土壤调查及林业监测等领域都有重要的应用。现有遥感影像地物分类方法主要集中在利用遥感影像像素的波谱信息(或者辅以纹理等空间信息),采用距离、角度、概率等聚类准则或支持向量机、神经网络等方法实现分类。在构筑一个遥感影像监督分类系统时,为了训练分类模型,需要采集样本数据作为分类系统的训练数据。训练数据是影响遥感影像监督分类系统分类精度的一个重要因素(张华,2012)。随着遥感信息科技的发展,遥感信息数据日渐呈现出高维和海量的特点,如何从这些大规模遥感数据中采集分类系统的训练数据成了遥感影像地物分类方法需要研究的问题(宫鹏,2009)。
[0003]传统的遥感影像地物分类系统往往采用人工标注方法来采集训练数据,这种方法耗时耗力、成本高昂,并且人工判读比较困难。因此,在全球或大规模遥感影像处理过程中要求自动化建立训练数据样本库。多年来,国内外学者一直在探求能够自动地、高效地实现遥感影像解译方法。目前讨论比较广泛的是将遥感领域知识引入到机器学习过程中,亦即将专家目视解译时用到的知识加入到计算机自动解译过程中进行综合分类,提高整个过程的智能化程度。例如美国马里兰大学John Townshend教授和Chengquan Huang的团队所研究的全球森林覆盖变化检测(Global Forest Cover Change)项目,将地物光谱知识引入到计算机解译算法,研究出了训练样本的自动获取算法。采用该算法,在一景LandsatETM+影像上自动产生的森林-非森林样本的数目达到近“千万个”(C.Huang 2008,2009 ;J.R.Townshend 2012 ;J.0.Sexton 2013)。
[0004]目前在大训练样本集中进行样本选择通常采用的是简单的分层等距离抽样方法,但是由于不采用数据的任何信息,这种方法带有盲目性。一个好的训练样本的选择是一个试错的工程,而试错工程是一个迭代的过程,要反复经过样本选择、执行分类、评价结果和更新样本集四个步骤,直到达到满意的结果,是一个非常耗时的过程。因此,需要引入机器学习领域中样本选择优化的方法,解决遥感大训练样本集中样本选择的自动优化问题。
【发明内容】
[0005]为了克服上述不足之处,本发明提出面向大规模训练数据的SVM主动学习分类算法,该方法综合机器学习领域的样本优化选择方法,分析不同训练样本对分类的影响,采用聚类方法和主动学习中的基于不确定性采样策略选取边界样本,研究遥感影像分类器在边界训练样本情况下的优化算法,提高分类精度和工作的效率。
[0006]本发明解决上述技术问题所采用的技术方案是:面向大规模训练数据的SVM主动学习分类算法,其不同在于,首先从海量机器标记样本中使用聚类方法分别选取出初始压缩集和训练样本集;然后使用初始压缩集训练好的SVM分类器对训练样本子集进行分类,统计分类精度,与机器标记对比,从中选出误分样本;根据分类模型F,对误分样本集合的每一个样本的类别进行预测,选择最优标号概率和次优标号概率之差值最小的一部分样本作为边界样本,并加入到初始压缩集中重新训练SVM分类器,迭代使用训练样本集优化分类器,计算最后三次对训练样本集迭代分类的分类精度平均值和方差,< 且一O,则停止迭代,输出优化的SVM分类器;否则,持续进行迭代。
[0007]优选的,其方法包括以下步骤:步骤I)、对原始机器标记样本使用基于近邻规则的聚类分析方法进行分析,得到每类样本的聚类中心,按照类别分别抽取聚类子集的聚类中心,以聚类中心作为初始压缩集A ;
步骤2)、计算各聚类质心的聚类半径r、聚类离散度以及各样本到所属聚类质心的距离d,设聚类内离散度阈值门限为T,若,则选取的样本组成训练样本集B,并将B随机均分为
η个大小相同的子集{bl, b2, b3, b4, b5......bn};
步骤3)、采用初始压缩集A训练SVM分类器,得到初次分类模型F ;
步骤4)、使用初次分类模型F对训练样本子集分类;
步骤5)、评价本次分类的分类精度,并从bl集合中提取出误分样本,形成误分样本集合;
步骤6)、根据分类模型F,对误分样本集合的每一个样本的类别进行预测,得到其属于各个可能的类别的概率P (yi I χ),计算样本最优标号的概率与次优标号的概率之差,选择两者差值最小的部分样本加入到边界样本集G ;
步骤7)、将边界样本集G加入到初始压缩集A中,作为新的初始压缩集;
步骤8)、迭代步骤3-7,并计算最近三次迭代分类时,分类精度的平均值和方差,若〈且—0,则停止迭代,输出优化的SVM分类器,否则持续迭代。
[0008]本发明的有益效果是:本发明方法基于聚类和不确定性评价方法,在大量样本中选取出距离聚类质心较远、距离两类分界面又较近的边界样本,通过引入主动学习的方法,进行分类器的迭代优化。边界样本选择的过程不是盲目的,而是科学的,通过迭代学习系统不断地比较样本的不确定性信息和分布信息的差别,并根据比较结果,自动地控制和调整压缩集,反演推导出最优的训练样本集合,完成遥感影像的自动分类,提高分类的质量。
【专利附图】
【附图说明】
[0009]图1是基于主动学习选取样本的改进SVM分类器方法示意图。
[0010]图2是边界样本优化拟合最优分类面示意图。
[0011]图3是边界样本在基于近邻规则的聚类分析后分布特性图。
[0012]图4是边界样本在不确定性概率分析中的表现结果示意图。
【具体实施方式】
[0013]为了实现以上技术方案,本发明需要解决以下具体问题:初始压缩集的设计,大训练样本集的分解策略,训练样本集的产生、迭代学习期间样本选择策略的设计和停止条件的确定,边界样本集的选取方法,样本集分布离散度的计算等。
[0014]图1是基于主动学习选取样本的改进SVM分类器方法示意图,使用基于近邻规则的聚类分析方法对海量机器标记的原始样本进行分析,选取类质心部分样本作为初始压缩集A,计算剩下的样本到聚类质心的距离、聚类簇的聚类半径、每个聚类簇的离散度,设置聚类离散度阈值等训练样本集选取参数,从剩下的大量样本中选取出训练样本集;将初始压缩集A作为训练样本输入初始SVM分类器,得到分类模型F,使用分类模型F对训练样本子集进行分类;分析分类结果,计算此次分类的分类精度,若分类精度大于期望阈值,输出优化的影像分类器;若分类精度低于期望阈值,则从误分样本中进一步选出边界样本加入到初始压缩集A中,继续优化影像分类器。
[0015]支持向量机分类方法在解决小样本、非线性及高维模式识别中表现出许多特有的优势,其中初始压缩集的设计与样本间的相似性度量有关,初始压缩集的设计决定了初始分类超平面的好坏,在后期主动学习过程中极大的影响了学习时间和最终分类器稳定性,而初始压缩集选取的关键在于选取有类代表性的样本。本发明使用基于近邻规则的聚类分析方法对海量机器标记原始样本进行分析,靠近聚类中心的样本能较好的代表该类样本的特征,因此本发明选取聚类中心附近的部分样本作为初始压缩集。
[0016]训练样本集质量的好坏是迭代系统分类精度与收敛速度的决定性因素,选取训练样本集不仅与海量机器标记样本集的分解策略有关,而且与相邻样本之间的相似度也有关。海量原始样本集太大,不能直接作为支持向量机的训练样本集,本发明筛选位于分类超平面附近的边界样本对分类器进行优化训练。之所以要用边界样本来优化分类器,是因为训练样本中被正确识别的样本的存在可以使得训练出的类区域更加紧凑,不同类别区域间隔更大;但被正确识别的样本数目太多,容易使得训练出的类区域过于狭小,从而增加了边界样本和被误分样本的误识风险;训练样本中被误分样本的存在可能使得训练出的类区域尽可能的大,同时也使得不同类别之间容易产生重叠,增大了分类误差。
[0017]图2是边界样本在基于近邻规则的聚类分析后分布特性图,选取边界样本需要分析边界样本的样本特征:边界样本在超平面空间中处于分类面附近,同时具有两种类别特征,具有判别模糊性,而且,类特征并不是十分明显。在基于近邻规则的聚类分析结果中边界样本的分布特征表现为:大部分边界样本分布于聚类半径附近,如图2中空心样本点所
/Jn ο
[0018]本发明选取聚类分析中距离聚类质心距离d的样本作为训练样本集B,d满足:。
[0019]α是边界上线参数,β是边界下线参数。
[0020]确定了训练样本集B之后,使用初始压缩集A训练初始支持向量机分类器,得到分类模型F,然后使用分类模型F对一部分训练样本集bi进行分类,评价此次分类的分类精度,若分类精度大于期望阈值T,则输出该SVM分类器;若分类精度小于期望阈值T,就继续从误分样本中筛选出边界样本,将边界样本添加进初始压缩集A重新训练SVM分类器。
[0021]图3是边界样本优化拟合最优分类面示意图,三角形和圆形对象表示机器标记的不同类别样本,在子图(a)中使用初始压缩集A训练SVM分类器,得到分类超平面F,图中红色标记的样本是被误分的样本。
[0022]子图(b)中的样本是训练样本集B的子集bi,使用分类超平面对训练样本集的子集bi进行分类,分类结果如子图(C)所示。
[0023]边界样本位于分类超平面附近,容易被误分,因此我们可以从误分样本中选取边界样本,再用边界样本进一步改良分类超平面。在子图(C)中选出分类结果与机器标记不同的样本,作为误分样本集,如图红色标记对象。误分样本集并不完全是边界样本,子图(C)中H样本集即为边界样本集,而G样本距离分类超平面距离很远,却被误分了,这种误分样本产生的原因是在机器标记的时候就把样本标签属性预测错了,所以分类后的结果与机器预测标签不符,被认为是误分样本。
[0024]由于边界样本在超平面空间中处于分类面附近,同时具有两种类别特征,本发明通过引入不确定性阈值方法来选取分布在分类超平面附近的边界样本。
[0025]图4是边界样本在不确定性概率分析中的表现结果示意图,采用不确定性阈值方法,根据当前的分类模型F,对误分样本集合的每个样本的类别进行预测,得到其属于各个可能的类别的概率P (yi Ix),计算样本的最优标号的概率与次优标号的概率以及两者的差值,不确定性阈值判断:概率差值高于阈值的样本属于确定程度较高的样本,将其舍去;反之,低于阈值的样本属于不确定性较高的样本,将其加入边界样本集。
[0026]边界样本集筛选完毕,将边界样本加入初始压缩集A中,作为新的初始压缩集训练SVM分类器,迭代步骤4-7,直到分类器分类精度高于期望阈值。
[0027]本发明提出面向大规模训练数据的SVM主动学习分类算法,综合机器学习领域的样本优化选择方法,主动选择要学习的样例从而有效地降低学习算法的样本复杂度分析不同训练样本对分类的影响,在达到同样或更好的学习效果的前提下,精选训练集,从而有效地减少人工标记样本所耗费的代价,然后采用聚类方法和基于不确定性采样策略选取边界样本,研究遥感影像分类器在边界训练样本情况下的优化算法,有效处理遥感领域数据量剧增带来的样本优选、分类精度下降等实际问题,而非仅仅以提高分类正确率为检验分类器好坏的惟一标准。
【权利要求】
1.一种基于主动学习方法选取样本的改进SVM分类器,其特征在于,其方法包括以下步骤: 步骤a)、首先对海量机器标记样本进行聚类分析,选取各类别的聚类中心部分样本作为初始压缩集A,计算样本到聚类质心的距离d、聚类半径r、聚类内离散度,选取聚类模糊样本作为训练样本集B {bl, b2, b3, b4, b5……bn}; 步骤b)、使用初始压缩集训练SVM分类器,并用该分类器对训练样本集(i=l,2…n)进行分类,计算分类器分类精度,并挑选出分类结果中的误分样本,用当前分类模型对每个样本的类别进行预测,然后使用不确定性阈值判断法从误分样本中进一步挑选出靠近分类超平面的边界样本; 步骤c)、将边界样本加入到初始压缩集A中,迭代进行步骤b),直到分类精度保持在较高的水平停止迭代,输出优化后的SVM分类器。
2.如权利要求1所述的基于主动学习方法选取样本的改进SVM分类器,其特征在于,所述步骤a)包括以下具体步骤: 步骤al)、对海量机器标记样本聚类分析,得到每个类别的聚类中心,在各类别聚类中心附近选取部分样本,构成初始压缩集A ; 步骤a2)、计算各样本到所属聚类质心的距离d、聚类半径r、聚类内离散度,设聚类内离散度阈值门限为T,若,则选取的样本组成训练样本集B,并将B随机均分为η个大小相同的子集{bl, b2, b3, b4, b5......bn}。
3.如权利要求1所述的基于主动学习方法选取样本的改进SVM分类器,其特征在于,所述步骤b)包括以下具体步骤: 步骤bl )、采用初始压缩集A对SVM分类器进行训练,得到初次分类模型F,再使用F对子集进行分类; 步骤b2)、评价此次分类的分类精度,并从bl集合中提取出误分样本,形成误分样本集合; 步骤b3)、根据分类模型F,对误分样本集合的每一个样本的类别进行预测,得到其属于各个可能的类别的概率P (yi I χ),计算样本最优标号的概率与次优标号的概率之差,选择两者差值最小的一部分样本,这部分样本即为边界样本集G。
4.如权利要求1所述的基于主动学习方法选取样本的改进SVM分类器,其特征在于,所述步骤c)包括以下具体步骤: 步骤Cl)、将边界样本G加入到初始压缩集A中,然后迭代步骤b,使用新的初始压缩集训练SVM分类器,评价分类精度,并计算最后3次迭代分类精度的平均值和方差,若〈且—O,则停止迭代输出优化的SVM分类器;否则持续迭代步骤b)。
【文档编号】G06K9/66GK104331716SQ201410665206
【公开日】2015年2月4日 申请日期:2014年11月20日 优先权日:2014年11月20日
【发明者】刘福江, 林伟华, 徐战亚, 郭艳, 黄彩春, 郭振辉 申请人:武汉图歌信息技术有限责任公司