面向半监督学习的拉普拉斯多层极速学习机方法及系统与流程

文档序号:16001042发布日期:2018-11-20 19:27阅读:427来源:国知局

本发明涉及模式识别和机器学习领域,具体涉及面向半监督学习的拉普拉斯多层极速学习机方法及系统。



背景技术:

极速学习机是一种高效简洁的单隐层前馈神经网络的学习算法。极速学习机只需要设定网络的隐层节点数,并且不需要调整网络的输入权值以及隐层的偏置,只需要学习一次就可得到唯一的最优解,所以极速学习机具有学习速度快、泛化性能好的优点。许多学者研究极速学习机在分类和回归上应用,例如:结合结构风险最小化理论提出了正则化极速学习机、针对非均衡数据的加权极速学习机、结合流形正则化的半监督极速学习机等。这些都给极速学习机注入了新的活力,并且极速学习机的可行性也在理论层次上得到了证明。

半监督学习是机器学习的热点之一,目前的半监督学习算法大致可划分为三类:基于聚类假设的算法、基于协同训练的算法、基于图正则化框架的算法。基于图模型的半监督学习算法是半监督学习的一个热点,流形正则化是常用的图正则化框架。半监督极速学习机是基于流形正则化的半监督学习算法,但它们都是浅层学习算法。

深度学习是一种多隐层多层感知器的人工神经网络学习算法,实现复杂函数的逼近并缓解了以前多层神经网络算法的局部最小性问题。深度置信网、堆叠自动编码器、卷积神经网络等深度学习网络模型的提出,并且近些年学术界的发展极大地推动了工业界的发展。近年来,多层极速学习机的概念被提出,它通过堆叠极速学习机-自动编码器算法构建多层神经网络模型,不仅具有深度学习的优点,还有较快的学习速度。



技术实现要素:

为了解决半监督极速学习机逼近能力问题,本发明提出面向半监督学习的拉普拉斯多层极速学习机方法及系统,直接将有标记和无标记的数据与有标记数据对应的标签作为输入,训练得到深度极速学习机神经网络模型,该模型不仅可以对数据进行多次非线性映射,实现数据的深度特征提取,还能利用无标记的数据的结构特征得到隐层的特征表示,从而得到无标记数据对应的标签,明显提高了标记的正确率。

本发明是通过以下方案实现的:

本发明涉及面向半监督学习的拉普拉斯多层极速学习机分类方法,通过构建少量带标签的训练集和大量无标签的训练集作为样本集对多层极速学习机网络进行训练,并将训练好的神经网络处理未标记的数据,最后根据神经网络的输出向量判断分类结果。

本发明具体步骤如下:

步骤1,预处理得到训练集:根据少量标记样本与大量未标记样本,制作多层网络的训练集和标签集,分为两部分:一是所有数据的属性构成训练集,用于无监督逐层学习隐层的特征表示和计算流形正则化框架的拉普拉斯矩阵;二是少量标记样本对应的训练集和标签集,用于最小化流行正则化框架。

步骤2,构造三隐层的多层极速学习机神经网络:输入层的数据是样本的属性(输入层的节点数为属性数目),隐层结构人为指定为500-500-2000(其权值用极速学习机-自动编码器逐层学习),输出层的数据是样本的标签(输出层的节点数为类别数目)。

步骤3,训练拉普拉斯多层极速学习机神经网络,网络的基本参数和规格设置完成后,首先利用极速学习机-自动编码器学习前三层隐层的连接权值,最后结合最小化流行正则化框架方法根据标记样本的标签与对应的最后一层隐层输出、所有样本的拉普拉斯矩阵计算网络的输出权值,具体过程如下:

步骤3.1:计算输入层与第一层隐层间的权值:建立一个极速学习机-自动编码器的网络模型,其输入与输出都是所有样本的属性,其隐层节点数为多层神经网络第一层隐层的节点数500,网络的输入权值随机确定,用最小二乘方法一次计算出输出权值,最后此输出权值的转置对应的就是输入层与第一层隐层间的权值;

步骤3.2:计算第一层隐层与第二层隐层间的权值:同样建立一个极速学习机-自动编码器的网络模型,其输入与输出都是所有样本的第一层隐层输出,其隐层节点数为多层神经网络第二层隐层的节点数500,网络的输入权值随机确定,用最小二乘方法一次计算出输出权值,最后此输出权值的转置对应的就是第一层隐层与第二层隐层间的权值;

步骤3.3:计算第二层隐层与第三层隐层间的权值:同样建立一个极速学习机-自动编码器的网络模型,其输入与输出都是所有样本的第二层隐层输出,其隐层节点数为多层神经网络第三层隐层的节点数2000,网络的输入权值随机确定,用最小二乘方法一次计算出输出权值,最后此输出权值的转置对应的就是第二层隐层与第三层隐层间的权值;

步骤3.4:计算最后一层隐层与输出层间的权值:首先利用所有样本的属性计算拉普拉斯矩阵,然后根据上述得到的网络权值计算标记样本最后一层隐层输出,最后利用流行正则化框架、标记样本最后一层隐层输出与其对应的标签计算最后一层隐层与输出层间的权值。

步骤4:未标记样本的分类,将所有样本的特征属性输入到训练好的神经网络中,最终得到对应的一组标签。

通过以上内容可知,本发明申请提供的是面向半监督学习的拉普拉斯多层极速学习机方法及系统,首先制作根据实际需要制作训练集和标签,然后设计网络的层数、每层的节点数目等等,之后将训练集预处理后输入网络中完成对网络权值的学习,最后输入样本属性,输入训练完成神经网络,完成对未标记样本的分类。本申请通过拉普拉斯多层极速学习机网络模型实现半监督学习,实现了标记样本与未标记样本的多层特征提取,直接将样本属性作为网络的输入,分类准确率很高;且网络一经训练即可反复使用,处理效率高;训练时间短。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种拉普拉斯多层极速学习机方法的示意图。

图2为本申请所使用的拉普拉斯多层极速学习机神经网络结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

实施例1

如图1所示,本实施例包括以下步骤:

步骤1,预处理得到训练集:

步骤1.1:标记样本与未标记样本的属性构成训练集。

步骤1.2:少量标记样本对应的训练集和标签集。

步骤2,构建拉普拉斯多层极速学习机神经网络:

本实施例中采用的拉普拉斯多层极速学习机网络是一个多层的神经网络,由输入层、隐层和输出层等多层组成。

步骤2.1:隐层结构人为指定为500-500-2000;

步骤2.2:输出层节点设置为类别数目。

步骤3,训练拉普拉斯多层极速学习机网络:

步骤3.1:利用所有样本属性构成的训练集与极速学习机-自动编码器网络计算前三层隐层的连接权值;

步骤3.2:利用所有样本属性构成的训练集计算拉普拉斯矩阵;

步骤3.3:利用步骤3.1得到的网络权值计算标记样本最后一层隐层输出,然后利用流行正则化框架、标记样本最后一层隐层输出与其对应的标签计算最后一层隐层与输出层间的权值。

步骤4,未标记样本的分类:将未标记样本的特征属性输入到训练好的神经网络中,最终得到对应的一组标签。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1