一种生猪月度存栏量预测方法

文档序号:25589333发布日期:2021-06-22 17:05阅读:264来源:国知局
一种生猪月度存栏量预测方法

本发明涉及生猪月度存栏量预测技术领域,特别涉及一种基于自适应变分模态分解和极限学习机的生猪月度存栏量预测方法。



背景技术:

通过挖掘时间序列数据的内在统计特征对未来时点的数据进行预测,目前已存在于诸多科学领域中。时间序列数据由一系列取自不同时点的观测值构成。挖掘时间序列数据内在统计特征的目的在于找出历史样本点数据之间的变化规律,并构建时间序列模型对未来时点的数据进行样本外预测。一般地,时间序列中不同时点的数据具有口径一致的特点。根据数据的截取方式不同,时序数据既可以是时点数,也可以是时期数。

对我国生猪月度存栏量进行精准预测,将为制定阶段性畜牧业政策提供重要参考。但受经济、环境等多方面因素共同作用的影响,生猪月度存栏量序列一般都是非平稳、非线性的,这两个特征为其精准预测提出了更高的要求。目前被广泛应用到这类时间序列数据预测的方法主要可以分为三种:计量统计模型、基于人工智能方法的预测模型和混合预测模型。计量统计模型主要包括自差分整合移动平均自回归模型(autoregressiveintegratedmovingaverage,arima)、广义自回归条件异方差模型(generalizedautoregressiveconditionalheteroskedasticitymodel,garch)等模型,这类模型在处理时间序列数据的线性特征时取得了很好的效果,但在处理非平稳、非线性的复杂序列数据时的表现往往不佳。近年来,基于人工智能的预测模型逐渐应用到复杂时间序列数据的处理中,具有代表性的有人工神经网络(artificialneuralnetwork,ann)、支持向量机(supportvectorregression,svm)和极限学习机(extremelearningmachine,elm)等,其原理在于将输入集数据与输出集数据之间的内在联系映射到高维度进行训练,并通过预设的有限次迭代达到最优参数。

然而,传统ann采用梯度下降的迭代算法调整权重参数,通常会伴随着训练速度慢,易陷入局部最优和出现过拟合等现象,导致预测结果鲁棒性较差。相较于ann,svr在训练速度方面和预测结果鲁棒性得到了有效提升,但其泛化能力对核函数及其参数的选择具有较高的敏感性,需要不断调整参数才能实现较高精度的预测结果。与ann和svr相比,elm是单层前向反馈神经网络学习算法,兼具运算速度快和泛化能力强的优点,大幅提高了运算效率和收敛速度,使预测结果更具鲁棒性。目前,elm在复杂时间序列数据预测中表现出了良好的性能。

混合预测模型制作有多种实现形式,该类模型同时将至少两个算法结合在一起,以实现更优的预测效果。一方面,混合预测模型可将多个预测模型结合在一起,从不同的角度对复杂时间序列数据进行特征提取并分别作出预测,结合各个地方预测结果得到最终预测结果;另一方面,混合预测模型可将数据预处理算法与预测模型相结合,该类模型基于“分而治之”的思想,先对复杂的原始数据进行降维、分解等预处理,对处理后的数据进行建模预测,再对预测结果进行重构得到最终的预测结果。目前,常见的分解算法包括小波变换、经验模态分解(empiricalmodedecomposition,emd)、集成经验模态分解(ensembleempiricalmodedecomposition,eemd)、自适应噪声完备集成经验模态分解(ceemdan),改进的ceemdan(improvedcompleteensembleempiricalmodeldecompositionwithadaptivenoise,iceemdan)和变分模态分解(variationalmodedecomposition,vmd)等。

emd是一种信号时频分析方法,能实现对非平稳非线性数据的平稳化,对金融时间序列数据的分析起到了很大作用。然而,该方法也存在一些缺陷,主要是模边界效应、模式重叠、对噪声敏感等,这可能会对分解精度产生负面影响,从而导致最终预测结果失真。为了降低以上问题对分解结果的不良影响,eemd将高斯白噪声加入原始信号中再进行分解,取得了不错的效果。但由于人为选择白噪声的不同,分解得到的本征模函数也有差异,这使得eemd方法不稳定,而且eemd方法难以完全消除由加入的高斯白噪声引起的重构误差,这也将导致建立精确预测模型难度的增大。在此基础上,通过将具有自适应特征等性质的白噪声加入emd,学者陆续提出了互补集成经验模式分解(ceemdan)和改进的ceemdan(iceemdan),逐步降低了模态混叠问题对分解结果精度的不利影响。然而eemd等改良的算法仍然存在无法充分分解频率相近分量等问题,导致其在分解高频数据时效果有限。

vmd是一种起源于信号处理的多分辨率技术。与emd不同,vmd是一种完全非递归算法,可以将原始信号或序列数据分解为频谱中具有指定带宽的多个成分(子序列)。研究表明,vmd在抑制噪声和提高分解精度等方面远远优于同类模型。但是,vmd分解得到的模态个数需要预先设定,但对这一数值的预设缺乏统一的指导,因此将对最终分解和预测结果造成明显的影响。分解模态数量过多,将导致计算资源的浪费,而分解模态数量过少,将导致模态中存在较多的噪声数据,导致精准预测的难度大,最终导致预测精度低的后果。



技术实现要素:

本发明的目的在于提供一种生猪月度存栏量预测方法,通过引入模态分解标准改良变分模态分解(vmd),并基于“分解-集成”框架将其与极限学习机(elm)相结合,实现对生猪月度存栏量的精准预测。

为解决上述技术问题,本发明的实施例提供如下方案:

一种生猪月度存栏量预测方法,包括以下步骤:

通过变分模态分解算法,将生猪存栏量的原始时间序列数据x(t)分解为k个模态;

对于每一个由变分模态分解得到的模态,先进行归一化处理,再按照预设比例划分为训练集和测试集;

采用训练集数据对极限学习机算法进行训练,确定算法的最优参数;

以步长为v的滑动窗口选取极限学习机算法的输入集数据;

对于每一个模态,分别将测试集的输入集数据输入到训练好的极限学习机算法中,输出对下一时点的预测值,将其反归一化处理后得到预测值序列uk(t);

对所有模态的预测值进行相加重构,得到最终的预测值结果。

优选地,k根据指标rres自适应确定,公式如下:

其中,x(t)表示原始时间序列,n表示总时点数;当rres开始达到小于0.01时,即确定模态个数k。

优选地,对于每一个由变分模态分解得到的模态,进行归一化处理的公式如下:

优选地,所述预设比例为8:2。

优选地,对所有模态的预测值进行相加重构的公式如下:

优选地,所述变分模态分解算法的过程如下:

初始化模态分量的带宽uk,中心频率ωk以及循环次数n;

当ω大于等于0时,循环更新每个模态分量的带宽uk和中心频率ωk,自适应分解成以中心频率ωk为中心扩散的模态分量:

其中,uk为分解后对模态分量,ωk为模态分量对应的中心频率,λ为拉格朗日乘子,当满足下述条件时,终止该循环:

其中,∈为常数;

在计算每个分量时,将信号分布到变分模型中进行分解,使用希尔伯特变换和高斯平滑,通过寻找约束变分模型的最优解实现复杂信号的分解;求解每一个模态的希尔伯特变换,然后将每一个模态的频谱移到基带上,之后使用解调信号的h高斯平滑,最小化模态带宽的总和:

引入二次惩罚因子α和拉格朗日乘子λ,将约束问题转化为非约束问题,采用交替乘子方向法进行求解:

优选地,所述极限学习机算法的实现过程如下:

给定一个样本(xi,yi),其中xi=[xi1,x2,...,xin]t,表示n维输入集,yi=[yi1,yi2,...,yim]t,表示m维输出集,i=1,2,...,n表示样本标签;极限学习机算法的计算过程如下:

其中,l表示隐含层节点数量,βl表示第l个节点的输出权重矩阵,f为执行运算的激活函数,wl和bl分别表示隐含层第l个节点的输入权重向量和偏置向量;因此,上述运算又可以表述为hβ=y,其中β=[β1,β2,...,βl]t,h表示隐含层输出权重矩阵,表示如下:

因此,将β表示为:βt=h+t=ht(hht)-1t,其中h+=ht(hht)-1表示隐含层输出矩阵h的moore-penrose广义逆矩阵。

优选地,所述方法还包括:

通过比较预测值序列和实际值序列,对预测效果进行验证。

本发明实施例提供的技术方案带来的有益效果至少包括:

本发明通过引入模态分解标准改良变分模态分解(vmd)算法,并基于“分解-集成”框架将其与极限学习机(elm)算法相结合,实现对生猪月度存栏量的精准预测。

当前在变分模态分解中,模态个数k需要预先设定,但对这一数值的预设缺乏统一的指导,因此将对最终分解和预测结果造成明显的影响。分解模态数量过多,将导致计算资源的浪费,而分解模态数量过少,将导致模态中存在较多的噪声数据,导致精准预测的难度大,最终导致预测精度低的后果。本发明提出了一个适用于复杂时间序列数据的分解标准,使变分模态分解能够在该标准下自适应地确定最佳分解模态个数k,在节省计算资源的同时实现对原始序列的显著降噪,为后一阶段的预测工作奠定基础。

考虑到传统ann在采用梯度下降迭代算法调整权重参数时存在的训练速度慢,易陷入局部最优和出现过拟合等问题,以及svr在泛化能力方面对核函数及其参数的选择具有较高的敏感性,本发明采用了兼具较快运算速度和较强泛化能力的elm作为主要预测模型,大幅提高了运算效率和收敛速度,使预测结果更具鲁棒性。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种生猪月度存栏量预测方法的流程图;

图2是对未来1阶的数据进行单步预测的示意图;

图3是elm、emd-elm、iceemdan-elm和vmd-elm之间的预测结果对比示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。

本发明的实施例提供了一种生猪月度存栏量预测方法,如图1所示,所述方法包括以下步骤:

通过变分模态分解(vmd)算法,将生猪存栏量的原始时间序列数据x(t)分解为k个模态,也称本征模函数(imf)。

其中,k根据指标rres自适应确定,公式如下:

式中,x(t)表示原始时间序列,n表示总时点数;当rres开始达到小于0.01的水平且不存在明显的下降趋势时,即可确定模态个数k。

对于每一个由变分模态分解(vmd)得到的模态,先进行归一化处理,再按照预设比例划分为训练集和测试集。

其中,进行归一化处理的公式如下:

作为本发明的一种具体实施方式,归一化处理后按照8:2的比例将其划分为训练集和测试集。

采用训练集数据对极限学习机算法进行训练,确定算法的最优参数,训练过程中,网络中的参数不断迭代更新。

采用步长为v的滑动窗口,即以v阶的历史数据作为极限学习机(elm)算法的输入集数据,对未来一阶的数据进行单步预测,如图2所示。

对于每一个模态,分别将测试集的输入集数据输入到训练好的极限学习机(elm)算法中,输出对下一时点的预测值,将其反归一化处理后得到预测值序列uk(t)。

对所有模态的预测值进行相加重构,得到最终的预测值结果,计算公式如下:

进一步地,所述方法还包括:

通过比较预测值序列和实际值序列,对该模型的预测效果进行验证。

进一步地,在本发明的实施例中,所述变分模态分解(vmd)算法的过程如下:

初始化模态分量的带宽uk,中心频率ωk以及循环次数n;

当ω大于等于0时,循环更新每个模态分量的带宽uk和中心频率ωk,自适应分解成以中心频率ωk为中心扩散的模态分量:

其中,uk为分解后对模态分量,ωk为模态分量对应的中心频率,λ为拉格朗日乘子,当满足下述条件时,终止该循环:

其中,∈为常数;

vmd是一种新型多分量信号分解算法,在计算每个分量时,将信号分布到变分模型中进行分解,使用希尔伯特变换和高斯平滑,通过寻找约束变分模型的最优解实现复杂信号的分解;求解每一个模态的希尔伯特变换,然后将每一个模态的频谱移到基带上,之后使用解调信号的h高斯平滑,最小化模态带宽的总和:

引入二次惩罚因子α和拉格朗日乘子λ,将约束问题转化为非约束问题,采用交替乘子方向法进行求解:

进一步地,在本发明的实施例中,所述极限学习机(elm)算法的实现过程如下:

给定一个样本(xi,yi),其中xi=[xi1,x2,...,xin]t,表示n维输入集,yi=[yi1,yi2,...,yim]t,表示m维输出集,i=1,2,...,n表示样本标签;极限学习机算法的计算过程如下:

其中,l表示隐含层节点数量,βl表示第l个节点的输出权重矩阵,f为执行运算的激活函数,wl和bl分别表示隐含层第l个节点的输入权重向量和偏置向量;因此,上述运算又可以表述为hβ=y,其中β=[β1,β2,...,βl]t,h表示隐含层输出权重矩阵,表示如下:

因此,可以将β表示为:βt=h+t=ht(hht)-1t,其中h+=ht(hht)-1表示隐含层输出矩阵h的moore-penrose广义逆矩阵。

为验证本发明所述混合模型vmd-elm算法的优越性,将其与其他一些方法做对比,包括单一预测模型svr、bpnn和elm,混合预测模型emd-svr、emd-bpnn和emd-elm,iceemdan-svr、iceemdan-bpnn和iceemdan-elm,vmd-svr和vmd-bpnn。所有模型均采用同样的数据集,原始的生猪存栏量数据将直接作为svr、bpnn和elm三个单一模型的输入数据集进行模型训练,其余模型均分别使用emd,iceemdan和vmd方法分解得到的数据来训练。表1给出了本发明提出的混合模型(vmd-elm)与其他模型在中国生猪月度存栏量数据中的预测误差。

表1不同预测方法的预测误差对比

由表1可知,本发明提出的混合模型在生猪月度存栏量数据上的四项预测误差指标mae、rmse、mape和tic均要显著小于其他模型。四种评价标准的计算公式如下:

图3进一步给出了elm、emd-elm、iceemdan-elm和vmd-elm之间的预测结果对比示意图。结果表明,单一预测模型elm的预测结果存在显著的“滞后预测”效应,即对未来一期的预测值容易受到最近一期观测值的影响,从而表现出预测值序列曲线近似于是将当前观测值曲线向后平移一期得到,最终导致了单一预测模型的误差水平相对较大的结果。出现该现象的原因是生猪月度存栏量数据具有典型的非线性、非平稳特征,序列中存在大量噪声,导致模型训练困难,泛化能力相对较差,而在三类混合预测模型中,尤其是本发明所提出的vmd-elm模型中,该问题得到了有效解决,预测精度也得到了有效的提升。该数据的测试集样本为2019年7月至2021年11月的数据,包含29个月的月度数据,数据来源于中国政府网(http://www.gov.cn)和前瞻数据库(d.qianzhan.com)。其中2021年的数据为官方预测数据。实验结果表明,本发明所提出的vmd-elm混合模型预测方法在中国生猪月度存栏量序列数据预测中能够取得更高的预测精度。

综上所述,本发明基于变分模态分解(vmd)和极限学习机(elm)提供了一种自适应预测方法用于对生猪月度存栏量进行精准预测,与现有技术相比,本发明方法能够提高预测效率和预测精度,并在实验中验证了预测的有效性。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1