专利名称:一种支持向量回归机的训练方法
技术领域:
本发明属于人工智能、机器学习和数据挖掘领域,具体涉及一种支持向量回归机的训练方法,可广泛应用于非线性回归、时间序列分析等领域。
背景技术:
支持向量机(Support Vector Machines, SVM)理论源于Vapnik提出的用于解决模式识别问题的支持向量方法,之后Vapnik在提出损失函数的基础上建立支持向量回归机。SVM是基于结构风险最小化原则构建的,具有很强的学习能力和泛化性能,能够较好地解决小样本、高维数、非线性、局部极小等问题,广泛应用于模式分类和非线性回归。SVM最终归结为求解一个二次规划(QP,Quadratic Programming)问题。如果直接求解,当训练点的数量比较大时,就会造成占据的存储空间过大,致使训练的速度降低。因此常用的方法就是将问题进行分解,如选块算法、分解算法和序列最小最优化算法 (sequentialminimal optimization, SM0)算法等。其中SMO算法将优化问题分解到最小, 在每次迭代过程中只需要对两个拉格朗日乘子的最优化问题进行解析求解,没有矩阵运算,容易实现,是目前应用最为广泛的算法。参考文献Gary. W. F, Steve. L. Efficient SVM Regression Training with SMO[J]. MachineLearning, 2002 (46) :271-290 中详细介绍了 ε -支持向量回归机应用 SMO 方法求解过程中子优化问题的求解,即两个拉格朗日乘子的解析求解方法。但SMO方法中两个训练点的选取直接影响算法的精度以及收敛速度,目前没有统一的原则来确定如何选取两个训练点的方法。通常SMO方法中通过2步来实现训练点的选取首先,从选择违反KKT条件最严重的点为第一个训练点;其次根据解的步进最大化原则来选取第二个训练点。这种选取训练点的方法主要不足有没有确定的原则来判断违反KKT条件的严重程度, 只能通过计算搜索合适的训练点;另外该方法在选择第二个训练点时只考虑解的进展,但是求解的最终的目的是使得目标函数达到最小,因此该选择方法意义不明确,很可能造成在训练过程中目标函数会增大。
发明内容
针对现有技术中SMO方法求解支持向量机回归问题时训练过程中两个训练点的选取的不足,本发明提出一种支持向量回归机的训练方法,该方法从直接逼近目标函数的角度出发,物理意义明确,并充分利用中间变量,计算简单,运算效率高。一种支持向量回归机的训练方法,其特征在于具体包括以下几个步骤步骤一设定训练样本集合设定训练样本集合为T = ^5,1)1:,输入空间的特征属性、e Rn,铲为输入空
间,η为输入空间的维数,输出空间的值yp e R,R为输出空间;(Xp,yp)表示第P个样本点, 1为训练样本集合中样本的总数,设定不敏感损失因子ε和惩罚因子C;
步骤二 计算核函数矩阵K并进行初始化计算核函数矩阵K,kpq = K (xp, xq),kpq表示第ρ个样本点\和第q个样本点Xq的核函数积;初始化拉格朗日乘子向量λ = (λ^ λ2,...,λρ,...,λ) =0,决策函数偏置 b = 0,决策函数向量f = (f1; f2,. . .,fp,. . .,= 0 ;其中λ p表示决策函数中第ρ个样本点\对应的拉格朗日乘子,b表示决策函数的偏置,fp表示第ρ个样本点\对应的决策函数值;步骤三对目标函数W求偏导,取使偏导数绝对值最大的分量下标作为第一个训练点;
权利要求
1. 一种支持向量回归机的训练方法,其特征在于具体包括以下几个步骤 步骤一设定训练样本集合设定训练样本集合为
2.根据权利要求1所述的一种支持向量回归机的训练方法,其特征在于所述的步骤三的3.2中判断目标函数求偏导取绝对值后降序排列的
全文摘要
本发明提出一种支持向量回归机的训练方法,具体包括步骤一设定训练样本集合;步骤二计算核函数矩阵并初始化;步骤三计算第一个训练点;步骤四计算第二个训练点;步骤五解析拉格朗日乘子;步骤六更新中间变量;步骤七判断训练样本集的所有样本是否满足最优条件步骤八计算回归决策函数。本发明中中间变量的更新利用了前一次训练的值,减少计算量;且在求目标函数的偏导以及目标函数下降值中,充分利用中间变量,从而减少了大量的计算,实现了快速选取训练点,提高训练的收敛速度。
文档编号G06K9/66GK102184421SQ201110102550
公开日2011年9月14日 申请日期2011年4月22日 优先权日2011年4月22日
发明者许喆平, 邓小乐, 郎荣玲 申请人:北京航空航天大学