一种面向大规模数据的并行结构化支持向量机分类方法

文档序号：6545576阅读：339来源：国知局

一种面向大规模数据的并行结构化支持向量机分类方法
【专利摘要】本发明公开了一种面向大规模数据的并行结构化支持向量机分类方法，具体包括如下步骤：样本归一化；求得大规模训练样本集结构化信息；利用大规模训练样本集训练分类模型；根据分类模型对测试样本进行分类。本发明采用并行结构化支持向量机，利用目前最流行的云计算平台之一Hadoop进行实现，能够有效地处理大规模数据分类问题；此外，并行结构化支持向量机在原始的支持向量机模型中融入了样本的结构信息，使得训练模型更加符合数据的分布，从而提高分类的精度。因此本发明提出的方法具有较高的使用价值。
【专利说明】一种面向大规模数据的并行结构化支持向量机分类方法
【技术领域】
[0001]本发明属于人工智能模式识别分类领域，特别是一种面向大规模数据的并行支持向量机分类方法。
【背景技术】
[0002]分类问题是机器学习的主要研究内容，支持向量机作为主流的分类方法之一，在软件模块缺陷检测、图像识别等领域取得了广泛的应用，倍受研究者的关注。为了获得更好的分类效果，研究者们也相继提出了最小二乘支持向量机、模糊支持向量机等。标准的支持向量机问题的实质是一个二次规划问题，在支持向量机的求解方面，研究者也做了大量的工作，较为常用的方法有牛顿法、分块方法、分解方法、梯度下降的方法等。然而，随着时代的发展，科技的进步，我们所面临的数据规模不断的增大，经典的串行支持向量机主要针对小规模数据，面对大规模数据存在效率低的不足。为此，设计适用于大规模样本的并行支持向量机分类方法成了关键任务。
[0003]目前，经典的并行支持向量机的研究主要集中在数据层面，即在原始数据集的多个子数据集上并行训练支持向量机，进而通过合并得到最终分类结果。相对于面向数据层面的并行支持向量机而言，在求解算法上进行并行支持向量机还不多见。
[0004]已有的并行支持向量机算法在模型中考虑类分布信息的研究工作还比较少。样本的结构信息往往对大间隔分类器的分类面的确定同样具有指导意义。目前，研究者也提出了很多考虑样本结构信息的大间隔分类器算法，如:最小最大概率机、最大最小间隔机、结构大间隔机、结构支持向量机等。

【发明内容】

[0005]本发明为了能够解决大规模数据的支持向量机分类问题，并且提高分类精度，提出了一种面向大规模数据的并行支持向量机分类方法，在有效处理大规模数据分类问题的同时还提高了分类效果。
[0006]本发明采用的技术方案如下:
[0007]—种面向大规模数据的并行结构化支持向量机分类方法，包括如下步骤:
[0008]步骤I，样本归一化:对训练样本和测试样本分别进行归一化到相同的范围内；
[0009]步骤2，求得大规模训练样本集结构化信息:由于协方差矩阵往往可以反映样本的分布信息，因此在Hadoop平台上分别求得正、负类样本的协方差矩阵作为样本的整体结构信息；
[0010]步骤3，利用大规模训练样本集训练分类模型；根据并行结构化支持向量机随机次梯度投影并行执行的方法，在Hadoop平台上训练得到并行结构化支持向量机模型；
[0011]步骤4，根据分类模型对测试样本进行分类；根据步骤3训练得到的并行结构化支持向量机模型，对测试样本进行分类。
[0012]所述步骤2具体包括如下步骤:在Hadoop平台下，大规模训练样本被划分为多个子集，分散地存放在多个数据节点上，求得大规模训练样本的协方差矩阵可以借助一个MapReduce (映射归约)任务完成；
[0013]为了方便描述，记给定的大规模训练样本集
【权利要求】
1.一种面向大规模数据的并行结构化支持向量机分类方法，其特征在于，包括如下步骤: 步骤I，样本归一化:对训练样本和测试样本分别进行归一化到相同的范围内；步骤2，求得大规模训练样本集结构化信息:由于协方差矩阵往往可以反映样本的分布信息，因此在Hadoop平台上分别求得正、负类样本的协方差矩阵作为样本的整体结构信息；步骤3，利用大规模训练样本集训练分类模型；根据并行结构化支持向量机随机次梯度投影并行执行的方法，在Hadoop平台上训练得到并行结构化支持向量机模型；步骤4，根据分类模型对测试样本进行分类；根据步骤3训练得到的并行结构化支持向量机模型，对测试样本进行分类。
2.根据权利要求1所述的一种面向大规模数据的并行结构化支持向量机分类方法，其特征在于，所述步骤2具体包括如下步骤: 在Hadoop平台下，大规模训练样本被划分为多个子集，分散地存放在多个数据节点上,求得大规模训练样本的协方差矩阵可以借助一个MapReduce任务完成；为了方便描述，记给定的大规模训练样本集S = {(Ul:，其中Xi e Rn,Ii e {+I, -1}，将训练样本集S分成N个子集，记为& = {(χ7., V1-^1，i = 1，...，N，Yj e j+1,-1!(x 〗，^)表示Si中的正、负类样本，记Σ为样本的整体协方差，
3.根据权利要求1所述的一种面向大规模数据的并行结构化支持向量机分类方法，其特征在于，所述步骤3利用大规模训练样本集训练分类模型具体包括如下步骤: (1)计算出样本的协方差矩阵Σ； (2)初始化向量W，任取向量&，使其满足WtU1A-A2SX1，其中AjP λ2为正则化参数，A为单位矩阵，Σ为样本的协方差矩阵；(3)记当前循环次数为t，第t次循环得到的向量w记为Wt，进行T轮循环:①从训练集S中选取样本个数为k的子集At ∈ S，并用新的目标函数
4.根据权利要求3所述的一种面向大规模数据的并行结构化支持向量机分类方法，其特征在于，所述步骤3随机次梯度投影迭代并行执行的具体包括如下步骤: 随机次梯度投影的每一轮迭代作为一个单独的MapReduce任务； Map阶段: ①随机抽取k/N个样本； ②定义零向量Vje Rn5 ③逐个判断这k/N个样本，如果.V,<1，则Vj= Vj+y^Xi ； ④翻当前节点上的其中4+=L.Vi)M:
【文档编号】G06K9/66GK103971136SQ201410185389
【公开日】2014年8月6日申请日期:2014年5月4日优先权日:2014年5月4日
【发明者】杨明, 郭丽娜, 高阳申请人:南京师范大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨明;郭丽娜;高阳
技术所有人：南京师范大学
我是此专利的发明人

上一篇：一种用于住宅工业化建造和部品化装配的模块化系统及设计方法
上一篇：一种面向大规模基因数据的读段定位方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。