一种大规模数据回归神经网络快速训练方法
【技术领域】
[0001] 本发明属于机器学习技术领域,特别是面向大规模数据信息处理、高维时间序列 分析等方面的语音识别和自然语言处理等应用。
【背景技术】
[0002] 当代数据采集技术生成了大量复杂数据,其中包含着丰富的信息,对生产、科研技 术中各方面应用领域有着巨大的潜在价值。而从大规模数据中提取有用信息,需要有效的 数据处理方法。人工神经网络是应用最为广泛的数据信息提取方法之一,在计算机视觉、语 音识别和自然语言处理中展现了突出的性能。
[0003] 人工神经网络(Artif icial Neural Network, ANN),简称神经网络(Neural Network, NN),是一种模仿生物神经网络结构和功能的计算模型。人工神经网络由大量的人 工神经元联结进行计算。ANN能够通过训练,根据外界信息改变内部结构,是一种非线性统 计性数据建模工具,常用来对输入和输出间复杂的关系进行建模,或用来探索数据的内在 相关性。
[0004] ANN由大量的节点(神经元)和其之间相互联接构成。每个节点代表一种特定的 输出函数,称为激励函数。每两个节点间的连接都通过一个权重进行加权,该权重可看作人 工神经网络的记忆,可通过训练进行调整。ANN的输出由输入、网络连接方式,权重值和激励 函数共同决定。在功能上,ANN是某种算法或者函数的逼近,也可能是对一种逻辑策略的表 达。
[0005] 回归神经网络(Regression Neural Network, RNN)是人工神经网络中的一类,该 方法在时域信号处理中引入来自历史层的回归连接,能够有效利用信号的时序相关性,对 非线性时间序列信号中的有效信息有突出的表示能力。
[0006] RNN引入了多个时间层,其在某时间层的输出向量即为从数据中提取的信息,由 该层之前若干时间层的输入向量和权重矩阵、偏置向量共同决定,可用于表示某种数据的 分类结果,或是对其后时间层的预测等。隐藏层能够存储大量信息,非线性激活函数以及多 时间层信息的结合应用使得RNN能够有效捕获数据的时空相关性,对高维非线性时间序列 具有强大的拟合乃至预测能力。RNN的定义为表达式(1)式:
【主权项】
1. 一种大规模数据回归神经网络快速训练方法其特征在于,该方法采用平均梯度方向 和梯度残差主成分方向同时更新内部系数的大规模数据进行回归神经网络快速训练,通过 误差反传得到各训练样本处目标函数对内部系数的梯度后,对训练样本进行分组,根据各 训练样本处目标函数值分别对整个训练样本集和各组的梯度加权平均,在全局平均梯度和 组平均梯度与全局平均梯度正交的残差主成分方向共同更新内部系数。
2. 如权利要求1所述方法,其特征在于,该方法具体包括W下步骤: 步骤1.训练样本集正演;遍历训练样本集,将每个训练样本的输入向量Xi输入到回归 神经网络脚W中,计算生成每个训练样本的输出向量装,其中,i是时间层数,为正整数; 步骤2.目标函数生成:根据训练样本集正演所得的每个输出向量戈与训练样本相应 观测向量心生成目标函数J(W),目标函数表达式为(2)式: J(W) = 2碧) (2) 其中,
y。,少,分别为第i时间层中第j个 训练样本的观测值、输出值; 步骤3.训练结果判定:如果训练样本集中所有训练样本的目标函数平均值小于预定 阔值,训练成功,或训练次数大于规定上限,训练失败,均终止训练;否则,执行步骤4 ; 步骤4.误差反传:对每个训练样本,按照(3)式进行误差反传;
(3) 其中,0表示对应项相乘,f',g'分别为非线性激励函数f和g的偏导数,T为矩阵转 置运算符号; 步骤5.生成目标函数对内部系数的梯度;对每个训练样本,按照(4)式计算目标函数 对内部系数的梯度;
(4) 其中,i表示时间层,j,k为内部系数的元素编号,i,j,k均为正整数; 步骤6.更新权重矩阵和偏置向量组成的内部系数;对训练样本进行分组,对每组训 练样本生成平均梯度方向和与其正交的组平均梯度残差方向,并计算平均梯度方向和平均 梯度残差方向的更新量;采用一阶近似求解更新后的优化目标函数I IG5W+JI I2使残差余 量-J最小,即求解表达式如化)、(7)式:
佩 (7) 其中,G = (g。…gM) T为梯度矩阵,-J为残差余量,g m为第m号训练样本处的梯度,M为 训练样本个数. 步骤7.训练次数增加1,转步骤1。
3.如权利要求2所述方法,其特征在于,所述步骤6具体包括W下步骤: 步骤6-1 W联系紧密的内容为最小单位,按随机抽样的方式,将训练样本集分为L组, 其中L为正整数; 步骤6-2计算训练样本集全局平均更新量巧尹和每组的平均更新量d巧,表达式为巧) 式:
(8) 其中5Wm= -gmJm/||gm| |2, gm为第m号训练样本处的梯度,Jm为第m号训练样本处的 残差,M为训练样本个数,Ml为组1的训练样本数个数,1 G (1,2,…,U ; 步骤6-3计算每组的平均残差-式与平均梯度客,,表达式为巧)式:
(9) 其中1 G {1,2,…,L},记G =(禹,…哀,y为L个组的平均梯度矩阵,T为矩阵转置运算 符号; 步骤6-4计算每组的平均梯度在该全局平均更新量。'乐方向的投影,表达式为(10) 式:
(10) 其中,賓为每组的平均梯度均值,1 G (1,2,…,L},记(5 =悍,…贾f为L个组的平均梯 度均值矩阵; 步骤6-5计算L个组的平均梯度残差矩阵伊=G -忌; 步骤6-6计算全局残差余量-J ' = -.7 -細砍; 步骤6-7计算正交矩阵H和上^角矩阵^^ 首先,定义5 W'为与全局平均更新量f)'砍正交的补偿更新量,由优化目标函数(7)式可 得:
其次,由于L个组的平均梯度残差矩阵扫I巧能高度不稳定,需加入正则化项,将式 (11)、(12)转变为求解表达式(13)式:
(13) 设(5,的数学期望为0,即由式(蝴可得表达式(14)式:
(14) 其中,A为预定义的正则化常数,满足0 < A < 1 ;1为单位矩阵; 最后,用化usehold变换对G'+^/进行正交上=角分解得表达式为(15)式由此,可求 得补偿更新量5 W'的表达式为(16)式;
其中,每次变换选主元,即当剩余部分向量模小于预定值时截断,截断后,主元为上= 角矩阵V,非零部分共有P行,记V的前P行为?^正交矩阵H用一系列^usehold变换的叠 加表不,表达式为(17)式:
其中,Up为相应化usehold向量; 步骤6-8根据步骤6-5得出的组平均梯度残差矩阵护、步骤6-6计算得出的全局残差 余量-方',W及步骤6-7计算得出的H和^^按照表达式(16)计算组平均梯度残差主成分 方向的补偿更新量5 W' ; 步骤6-9根据步骤6-2得到的全局平均更新量式乐及步骤6-8得到的补偿更新量5 W', 按照表达式(18)式计算训练样本集总的内部系数更新量5W: m^d'fv+dw (18)。
【专利摘要】本发明涉及一种大规模数据回归神经网络快速训练方法,属于机器学习技术领域,该方法采用平均梯度方向和梯度残差主成分方向同时更新内部系数的大规模数据进行回归神经网络快速训练,通过误差反传得到各训练样本处目标函数对内部系数的梯度后,对训练样本进行分组,根据各训练样本处目标函数值分别对整个训练样本集和各组的梯度加权平均,在全局平均梯度和组平均梯度与全局平均梯度正交的残差主成分方向共同更新内部系数。本方法能够以较低的计算代价有效利用各训练样本处梯度信息,减小迭代步数,提升RNN训练过程的计算效率。
【IPC分类】G06N3-02
【公开号】CN104598972
【申请号】CN201510032856
【发明人】杨广文, 李连登, 付昊桓, 袁龙
【申请人】清华大学
【公开日】2015年5月6日
【申请日】2015年1月22日