基于l21范数的提升卷积神经网络泛化能力的方法
【技术领域】:
[0001] 本发明涉及计算机视觉、深度学习特征表示技术领域,具体涉及一种基于L21范 数的提升卷积神经网络泛化能力的方法。
【背景技术】:
[0002] 卷积神经网络是人工神经网络的一种,深层的卷积神经网络已成为当前语音分析 和图像识别领域的研究热点,也是众多公开数据集上冠军的保持者。它的权值共享网络结 构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网 络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识 别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个 多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。
[0003] 1962年,Hubel和Wiesel通过对猫视觉皮层细胞的研究,提出了感受野的概念。 1984年日本学者Fukushima基于感受野概念提出的神经认知机(neocognitron)可以看作 是卷积神经网络的第一个实现网络,也是感受野概念在人工神经网络领域的首次应用。卷 积神经网络是在此基础之上发展而来,它是一个多层的神经网络,每层由多个二维平面组 成(成为特征图),而每个平面由多个独立神经元组成。卷积神经网络大致由卷积层和池化 层交叠组成,卷积层提取特征,每个神经元的输入与前一层的局部感受野相连,并提取该局 部的特征,一旦该局部特征被提取后,它与其他特征间的位置关系也随之确定下来。池化层 求解局部平均(平均池化)或者记录局部最大特征(最大池化),使得输入图像对较小的畸 变,变形具有较高的容忍能力。
[0004] 卷积神经网络为有监督的学习方法,通过在最后一层添加体现分类目标的代价函 数,在训练样本集上面最小化代价函数,来达到卷积神经网络参数学习的目的。
【发明内容】
:
[0005] 本发明的目的在于针对上述现有技术的不足,提供了一种基于L21范数的提升卷 积神经网络泛化能力的方法。
[0006] 为达到上述目的,本发明采用如下技术方案予以实现的:
[0007] 基于L21范数的提升卷积神经网络泛化能力的方法,包括以下步骤:
[0008] 1)将待处理图像集划分为训练集、验证集和测试集;
[0009] 2)设计用于待处理图像集分类任务的卷积神经网络,包括层数,卷积核大小,每一 层的特征图个数以及全链接层的节点个数,各层参数初始化策略;
[0010] 3)选定步骤2)中设计好的卷积神经网络中的一层或几层,对选定层的特征添加 基于类内特征的L21范数约束,使得同一类输入图像的激活相对一致,形成新的卷积神经 网络模型;
[0011] 4)按照基于mini-batch的随机梯度下降方法,利用训练集来训练新的卷积神经 网络模型,新的卷积神经网络模型训练好之后,利用训练好的卷积神经网络模型完成对待 处理图像特征提取。
[0012] 本发明进一步的改进在于,设计好步骤2)中的卷积神经网络的结构;
[0013] 设选定的卷积神经网络模型共有M层,给定一个mini-batch的训练样本
η为一个mini-batch的大小!Xi表示输入的原始待处理图像;c {1,2,…,C} 是相应的类别标签,C是类别总数,选定的卷积神经网络模型的目标函数如下:
[0014]
[0015] 其中,
;b (1),…,b(M)),即W表示选定的卷积神经网络模型的全部 参数,Ww表示选定的卷积神经网络模型第m层的权重参数,b (m)表示选定的卷积神经网络 模型第m层的偏置参数,#表示样本X1的损失函数。
[0016] 本发明进一步的改进在于,步骤3)中,选定步骤2)中的卷积神经网络模型的高 层,即靠近输出的层,添加基于类内特征的L21范数约束。
[0017] 本发明进一步的改进在于,步骤3)中,定义一个mini-batch中的η个输入样本在 卷积神经网络某高层的隐层特征表示为矩阵A,A的维度为mXn,即该层具有m个神经元, 也即该层的特征表不为m维的特征向量,每一列表不一个输入样本,其中,矩阵A的表达如 下;
[0018]
[0019] 定义该层的L21范数约束,也即神经元的类别选择性约束条件为:
[0020]
[0021] 其中,m表示该层神经元的个数,c表示类别种类数目,aij表示第j个样本在第 i个神经元上的响应值,wk表示第k类样本,
表示第k类样本的二范数;最小化该 约束条件使得同一类样本在同一个神经元上表现出一致的特性,即激活或者不激活该神经 J L 〇
[0022] 本发明进一步的改进在于,步骤3)中,对选定层的特征做基于L21范数的正则约 束,形成一个新的卷积神经网络模型的目标函数为:
[0023]
[0024] 其中,λ是平衡原始损失函数和L21范数正则约束项的参数。
[0025] 本发明进一步的改进在于,对于形成的新的卷积神经网络模型的目标函数,利用 基于mini-batch的随机梯度下降法进行优化,先计算出L21范数正则约束项的梯度灵敏 度,然后根据误差反传原则,将卷积神经网络的各层参数的梯度计算出来,与原始的卷积神 经网络损失函数部分项的梯度相加;
[0026] L21范数正则约束项的梯度灵敏度计算如下:
[0027] 根据步骤3)中,中的定义,首先,将矩阵A,按列分块:
[0028]
[0029] 表示第i行各类样本的二范数组成的c维向量,c , 表示类别的数目,即
表示第j个样本的向量 化标签,即只有对应类别上数字为1,其余为0,共C维;则矩阵A对第j个样本,即A的第j 列的灵敏度计算公式为:
[0030]
[0031] 其中,diag表示对角化矩阵,?表示向量内积操作,ε为无穷小的正数。
[0032] 相对于现有技术,本发明具有如下的优点:
[0033] 本发明借助认知科学和神经科学对人脑视觉细胞特性的研究成果,通过在卷积神 经网络训练过程中添加显式的特征约束条件,使得卷积神经网络能够学习得到对物体的更 加类似于人脑视觉细胞特性的特征表示,从而改进传统卷积神经网络的特征表达能力和泛 化能力。
[0034] 具体来说,本发明改进了传统卷积神经网络没有对中间隐含层进行有目标的针对 性学习的特点。本发明提出类别选择性约束条件,并且将其利用L21范数进行数学描述和 扩展到现有的基于mini-batch的随机梯度法当中。本发明在训练过程中对高层隐含层进 行类别选择性的显式约束,使得卷积神经网络的特征表达更接近于人脑对图像的特征表 示,从而提升卷积神经网络的表达能力和泛化能力。本发明使得卷积神经网络的训练成本 基本没有增加,计算图像特征表示时,与传统的卷积神经网络完全一致,没有增加任何计算 成本。
【附图说明】:
[0035] 图1为本发明的系统流程示意图。
【具体实施方式】:
[0036] 以下结合附图对本发明作进一步的详细说明。
[0037] 近些年认知学和神经科学的研究表明,人脑视觉皮层细胞,尤其是高层细胞,具有 显著的类别选择性,即同一个细胞只会被某几类物体所激活。这说明高层的神经网络的特 征具有明显的语义特性。我们有必要在高层的神经网络添加显式的约束,使得卷积神经网 络在参数学习过程中能够学到这一特性,从而使得传统的卷积神经网络能够学习得到更类 似于人脑对图像的特征表示,提升特征表达能力和泛化能力。本发明将人脑视觉细胞具有 类别选择性的特性加以数学公式化描述,并将其扩展到现在卷积神经网络训练通用的小批 量样本(mini-batch)随机梯度法当中。
[0038] 本发明基于L21范数的提升卷积神经网络泛化能力的方法,包括以下几个步骤:
[0039] (1)将待处理图像集划分为训练集、验证集和测试集;其中,训练集是学习卷积神 经网络参数的输入,验证集用于评估网络参数的好坏,调节学习过程的步长,学习率等一系 列超参数,测试集用于最终卷积神经网络性能的测试评价;
[0040] (2)设计用于待处理图像集分类任务的卷积神经网络,包括层数,卷积