一种基于双向神经网络自回归模型的量测数据拟合方法与流程

文档序号:32840750发布日期:2023-01-06 20:44阅读:27来源:国知局
一种基于双向神经网络自回归模型的量测数据拟合方法与流程

1.本技术涉及工业大数据处理技术领域,特别地,涉及一种基于双向神经网络自回归模型的量测数据拟合方法。


背景技术:

2.实时量测中心在业务中台汇聚接入量测数据基础上拓展接入范围,加大新能源消纳监测数据、配网侧电能数据、实时碳流数据的接入能力,提升量测数据接入、处理和共享的实时性,在线按需汇聚电网各环节控制系统和信息系统电、非电、碳采集量测7天短周期数据,结合业务中台静态网架数据,统一测点模型描述,建立电网设备-测点-感知装置-量测数据的关联关系,为各专业和企业级典型应用提供实时服务能力支撑,提升业务质效。
3.面对海量数据的汇聚,难免出现数据的缺漏情况。目前,量测中心汇聚用电采集系统、配电自动化、调度等多个系统,在数据采集、传输中都会造成数据缺失。造成数据缺失的可能的原因有:终端损坏、计时器损坏、接线盒长期高负荷使用导致接线不良、设备网卡损坏、信号强度弱导致掉包、流量超限、电力通信网故障等。当前,针对某个时间点的量测数据缺失的补全还缺少准确度高、成本低的解决措施,而数据的精准是实时量测中心的核心之一,因此,如何实现数据补全在实时量测中心建设中至关重要。


技术实现要素:

4.本技术一方面提供了种基于双向神经网络自回归模型的量测数据拟合方法,以解决现有技术中量测数据缺失还缺少准确度高、成本低的解决措施的技术问题。
5.本技术采用的技术方案如下:
6.一种基于双向神经网络自回归模型的量测数据拟合方法,包括步骤:
7.按时间序列提取缺失数据对应时刻之前的若干同类型连续历史数据预处理成第一输入特征向量输入到训练好的前向神经网络自回归模型中得到所述缺失数据的前向预测值;
8.按时间序列提取缺失数据对应时刻之后的若干同类型连续后来数据、缺失数据对应时刻之前的若干同类型历史数据预处理成第二输入特征向量输入到训练好的后向神经网络自回归模型中得到所述缺失数据的后向预测值;
9.对所述前向预测值和后向预测值分别加权后得到所述缺失数据的组合预测值,其中,所述前向预测值和后向预测值的加权参数大小根据所述连续历史数据和连续后来数据的稳定性自适应确定。
10.进一步地,所述按时间序列提取缺失数据对应时刻之前的若干同类型连续历史数据预处理成第一输入特征向量,具体包括步骤:
11.按时间序列提取同一天中缺失数据对应时刻之前的若干同类型第一连续历史数据;
12.按时间序列提取缺失数据对应时刻之前连续若干天中与缺失数据同时刻的同类
型第二连续历史数据;
13.将所述第一连续历史数据和第二连续历史数据组成第一输入特征向量,所述第一输入特征向量的维度等于所述第一连续历史数据的数量与第二连续历史数据的数量之和。
14.进一步地,按时间序列提取缺失数据对应时刻之后的若干同类型连续后来数据、缺失数据对应时刻之前的若干同类型历史数据预处理成第二输入特征向量,具体包括步骤:
15.按时间序列提取同一天中缺失数据对应时刻之后的若干同类型连续后来数据;
16.按时间序列提取缺失数据对应时刻之前连续若干天中与缺失数据同时刻的同类型第二连续历史数据;
17.将所述同类型连续后来数据和同类型第二连续历史数据组成第二输入特征向量,所述第二输入特征向量的维度等于所述同类型连续后来数据的数量与第二连续历史数据的数量之和。
18.进一步地,所述同类型第一连续历史数据的数量为4~6个,所述第二连续历史数据的数量为3~5个,所述同类型连续后来数据的数量为3~5个。
19.进一步地,所述前向神经网络自回归模型和后向神经网络自回归模型均采用全连接神经网络,包括有输入层、两个隐藏层和输出层,具体数学建模为:令表示第l层的第m个神经元,表示该神经元的偏置,表示该神经元与上一层的第i个神经元的权重值,当l=1时,表示是输入层的神经元,基于此,可通过下式得到,式中|o
l
|表示第l层的神经元的个数:
[0020][0021]
进一步地,所述对所述前向预测值和后向预测值分别加权后得到所述缺失数据xh的组合预测值具体为:
[0022][0023]
其中,为缺失数据xh对应的前向预测值,为缺失数据xh对应的后向预测值,λh为缺失数据xh对应的加权参数。
[0024]
进一步地,所述前向预测值和后向预测值的加权参数大小根据所述连续历史数据和连续后来数据的稳定性自适应确定,具体包括:
[0025]
分别计算所述同类型第一连续历史数据、同类型连续后来数据的方差;
[0026]
根据所得的方差计算所述前向预测值和后向预测值的加权参数λh:
[0027][0028]
式中,σ
1,h2
为缺失数据xh对应的第一连续历史数据的方差,σ
2,h2
为缺失数据xh对应的同类型连续后来数据的方差。
[0029]
本技术另一方面还提供了一种基于双向神经网络自回归模型的量测数据拟合装置,包括:
[0030]
前向预测值计算模块,用于按时间序列提取缺失数据对应时刻之前的若干同类型连续历史数据预处理成第一输入特征向量输入到训练好的前向神经网络自回归模型中得到所述缺失数据的前向预测值;
[0031]
后向预测值计算模块,用于按时间序列提取缺失数据对应时刻之后的若干同类型连续后来数据、缺失数据对应时刻之前的若干同类型历史数据预处理成第二输入特征向量输入到训练好的后向神经网络自回归模型中得到所述缺失数据的后向预测值;
[0032]
组合预测值计算模块,用于对所述前向预测值和后向预测值分别加权后得到所述缺失数据的组合预测值,其中,所述前向预测值和后向预测值的加权参数大小根据所述连续历史数据和连续后来数据的稳定性自适应确定。
[0033]
本技术另一方面还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述基于双向神经网络自回归模型的量测数据拟合方法的步骤。
[0034]
本技术另一方面还提供了一种存储介质,所述存储介质包括存储的程序,在所述程序运行时控制所述存储介质所在的设备执行所述的基于双向神经网络自回归模型的量测数据拟合方法的步骤。
[0035]
相比现有技术,本技术具有以下有益效果:
[0036]
本技术提供了一种基于双向神经网络自回归模型的量测数据拟合方法,本技术既适用于实时的数据补全,即只基于前向自回归网络模型进行数据预测去补全缺失数据,也可以进行事后的数据补全,即综合前向预测结果和后向预测结果得到更加准确的组合预测结果。此外,本发明的双向神经网络自回归模型的模型复杂度低,所消耗的存储空间和算力较低,适用于大规模的系统。本技术适用于连续缺失多个数据的场景,只需要将预测的结果作为输入进行迭代就可以依次补全缺失的多个数据。本技术基于历史数据和后来数据进行组合预测,预测的准确度会比现有的基于历史数据进行的预测的准确度高,而且本技术通过自适应加权参数的方法使得预测的结果进一步准确,减少了人为主观经验对组合预测结果的影响。
[0037]
除了上面所描述的目的、特征和优点之外,本技术还有其它的目的、特征和优点。下面将参照附图,对本技术作进一步详细的说明。
附图说明
[0038]
构成本技术的一部分的附图用来提供对本技术的进一步理解,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
[0039]
图1是本技术优选实施例的基于双向神经网络自回归模型的量测数据拟合方法流程示意图。
[0040]
图2是本技术优选实施例的前向神经网络自回归模型组成示意图。
[0041]
图3是本技术优选实施例的后向神经网络自回归模型组成示意图。
[0042]
图4是本技术优选实施例的双向神经网络自回归模型整体框架示意图。
[0043]
图5是本技术优选实施例的基于双向神经网络自回归模型的量测数据拟合装置模块示意图。
[0044]
图6是本技术优选实施例的电子设备实体示意框图。
[0045]
图7是本技术优选实施例的计算机设备的内部结构图。
具体实施方式
[0046]
需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
[0047]
参照图1,本技术的优选实施例提供了一种基于双向神经网络自回归模型的量测数据拟合方法,包括步骤:
[0048]
s1、按时间序列提取缺失数据对应时刻之前的若干同类型连续历史数据预处理成第一输入特征向量输入到训练好的前向神经网络自回归模型中得到所述缺失数据的前向预测值;
[0049]
s2、按时间序列提取缺失数据对应时刻之后的若干同类型连续后来数据、缺失数据对应时刻之前的若干同类型历史数据预处理成第二输入特征向量输入到训练好的后向神经网络自回归模型中得到所述缺失数据的后向预测值;
[0050]
s3、对所述前向预测值和后向预测值分别加权后得到所述缺失数据的组合预测值,其中,所述前向预测值和后向预测值的加权参数大小根据所述连续历史数据和连续后来数据的稳定性自适应确定。
[0051]
本实施例提供了一种基于双向神经网络自回归模型的量测数据拟合方法,本实施例既适用于实时的数据补全,即只基于前向自回归网络模型进行数据预测去补全缺失数据,也可以进行事后的数据补全,即综合前向预测结果和后向预测结果得到更加准确的组合预测结果。此外,本发明的双向神经网络自回归模型的模型复杂度低,所消耗的存储空间和算力较低,适用于大规模的系统。需要重点指出的是,本实施例适用于连续缺失多个数据的场景,实施过程中只需要将先预测出的结果作为输入进行迭代就可以依次补全缺失的多个数据。本实施例基于历史数据和后来数据进行组合预测,预测的准确度会比现有的基于历史数据进行的预测的准确度高,而且本实施例通过自适应加权参数的方法使得预测的结果更准确更客观,减少了人为主观经验对组合预测结果的影响。
[0052]
具体地,在本技术的优选实施例中,所述按时间序列提取缺失数据对应时刻之前的若干同类型连续历史数据预处理成第一输入特征向量,具体包括步骤:
[0053]
s11、按时间序列提取同一天中缺失数据xh对应时刻h之前的4个同类型第一连续历史数据[x
h-4
,x
h-3
,x
h-2
,x
h-1
];
[0054]
s12、按时间序列提取缺失数据对应时刻之前连续3天中与缺失数据同时刻的同类型第二连续历史数据型第二连续历史数据表示往前第一天同时刻h与xh同类的量测数据,表示往前第两天同时刻h与xh同类的量测数据,表示往前第三天同时刻h与xh同类的量测数据;
[0055]
s13、将所述第一连续历史数据和第二连续历史数据组成第一输入特征向量所述第一输入特征向量的维度为7,等于所述第一连续历史数据的数量与第二连续历史数据的数量之和。
[0056]
本实施例在前向神经网络自回归模型预测所述缺失数据的前向预测值时,选取的第一连续历史数据为4个,第二连续历史数据为3个,之所以如此选择,是因为越久远的量测
数据对预测当前结果的帮助是越小的,甚至可以认为是干扰噪声数据,此外用于预测的历史量测数据越多,模型的复杂度越高,消耗的算力越多,特别地,如果设备数量很多,消耗的算力和存储模型的空间是很惊人的。当前,大多数设备是每隔五分钟或者十五分钟上传一次量测数据,而一个小时之间的数据相关度是很大的,同时考虑到模型的复杂度不可太大,因此取4次历史的连续数据和3个连续的过去同时刻的数据去做前向预测就足够了,可同时兼顾预测准确性和计算成本。
[0057]
具体地,在本技术的优选实施例中,按时间序列提取缺失数据对应时刻之后的若干同类型连续后来数据、缺失数据对应时刻之前的若干同类型历史数据预处理成第二输入特征向量,具体包括步骤:
[0058]
s21、按时间序列提取同一天中缺失数据xh对应时刻h之后的3个同类型连续后来数据[x
h+3
,x
h+2
,x
h+1
];
[0059]
s22、按时间序列提取缺失数据对应时刻之前连续3天中与缺失数据同时刻的同类型第二连续历史数据型第二连续历史数据表示往前第一天同时刻h与xh同类的量测数据,表示往前第两天同时刻h与xh同类的量测数据,表示往前第三天同时刻h与xh同类的量测数据;
[0060]
s23、将所述同类型连续后来数据和同类型第二连续历史数据组成第二输入特征向量所述第二输入特征向量的维度为6,等于所述同类型连续后来数据的数量与第二连续历史数据的数量之和。
[0061]
本实施例在后向神经网络自回归模型预测所述缺失数据的后向预测值时,选取的连续后来数据为3个,第二连续历史数据为3个,之所以如此选择,是因为越久远的量测数据对预测当前结果的帮助是越小的,甚至可以认为是干扰噪声数据,此外用于预测的历史或者后来的量测数据越多,模型的复杂度越高,消耗的算力越多,特别地,如果设备数量很多,消耗的算力和存储模型的空间是很惊人的。当前,大多数设备是每隔五分钟或者十五分钟上传一次量测数据,而一个小时之间的数据相关度是很大的,同时考虑到模型的复杂度不可太大,因此取3次后来连续数据和3个连续的过去同时刻的数据去做后向预测就足够了,可同时兼顾预测准确性和计算成本。
[0062]
具体地,和所有的神经网络相类似,本技术的所述前向神经网络自回归模型和后向神经网络自回归模型在进行预测前都需要进行相应的训练使其满足相应的需求,为了训练模型,我们基于历史数据集合
[0063][0064]
以及历史同一时刻的数据构建前向训练集和后向训练集,具体量测数据预处理思路如下:
[0065]
1、构建前向训练集
[0066]
一条训练数据由特征向量和对应的标签所组成。基于上述思想,用于前向训练的输入向量可表示为7维的特征向量:
[0067][0068]
标签可表示为为xz,显然,数据长度为z的集合一共可以生成z-4条训练数据,显
然,作为训练数据,数据长度z需要远远大于4。
[0069]
2、构建后向训练集
[0070]
同样,一条训练数据由特征向量和对应的标签所组成,基于上述思想,用于后向训练的输入向量可表示为6维的特征向量:
[0071][0072]
标签可表示为xz。显然,数据长度为z的集合一共可以生成z-3条训练数据,显然,作为训练数据,数据长度z需要远远大于3。
[0073]
其中,所述前向神经网络自回归模型和后向神经网络自回归模型均采用全连接神经网络,包括有输入层、两个隐藏层和输出层,具体数学建模为:令表示第l层的第m个神经元,表示该神经元的偏置,表示该神经元与上一层的第i个神经元的权重值,当l=1时,表示是输入层的神经元,基于此,可通过下式得到,式中|o
l
|表示第l层的神经元的个数:
[0074][0075]
显然,模型的训练目标是计算合适的权重矩阵和偏置矩阵去拟合出一个自回归模型。
[0076]
本使其所采用的的神经网络模型的结构如下:
[0077]
基于前向训练数据,建立一个包含2层全连接隐含层的前向神经网络自回归模型(见图2),该模型的输入层包含7个神经元,第一个隐含层包括个神经元,第二个隐藏层包含7个神经元,输出层只有一个神经元,输出值表示对缺失数据的前向预测值。
[0078]
基于后向训练数据,建立一个包含2层全连接隐含层的后向神经网络自回归模型(见图3),该模型的输入层包含6个神经元,第一个隐含层包括个神经元,第二个隐藏层包含6个神经元,输出层只有一个神经元,输出值表示对缺失数据的后向预测值。
[0079]
特别的,和的值不宜过大,以防止神经网络的训练成本太大,本实施例中取15,取14。此外,输入层和最后一个隐藏层的神经元个数一致等效于通过两层隐藏层将输入值进行了映射,最后通过输出层将映射的结果加权得到最终的输出结果。
[0080]
令表示前向神经网络自回归模型输出的xz的前向预测值,为后向神经网络自回归模型输出的xz的后向预测值。
[0081]
损失函数的定义和模型训练
[0082]
本使其采用均方差损失作为损失函数,即前向神经网络自回归模型的损失函数和后向神经网络自回归模型的损失函数分别表示为和
[0083]
与一般神经网络一致,我们同样适用小批量训练神经网络以加快收敛的速度。前向神经网络自回归模型和后向神经网络的自回归模型的训练过程都可表示为:首先,将批量的特征矩阵输入神经网络,经过前向传播后得到输出矩阵,然后,计算出损失函数,最后
经过方向传播算法计算出梯度,然后采用小批量梯度下降(mini-batch gradient descent,mbgd)更新神经网络的参数。超参数方面,本使其采用的批大小为128,学习率为0.0015,时期epoch为4。
[0084]
优选地,所述对所述前向预测值和后向预测值分别加权后得到所述缺失数据xh的组合预测值具体为:
[0085][0086]
其中,为缺失数据xh对应的前向预测值,为缺失数据xh对应的后向预测值,λh为缺失数据xh对应的加权参数。
[0087]
其中,所述前向预测值和后向预测值的加权参数大小根据所述连续历史数据和连续后来数据的稳定性自适应确定,具体包括:
[0088]
s31、分别计算所述同类型第一连续历史数据、同类型连续后来数据的方差;
[0089]
s32、根据所得的方差计算所述前向预测值和后向预测值的加权参数λh:
[0090][0091]
式中,σ
1,h2
为缺失数据xh对应的第一连续历史数据的方差,σ
2,h2
为缺失数据xh对应的同类型连续后来数据的方差。
[0092]
本实施例中确定加权参数λh基本思想为数据越稳定则认为基于该数据预测的准确性越高,则权重越大,例如某个缺失数据xh的后来数据(即x
h+1
、x
h+1
和x
h+3
)更稳定,则组合预测结果应更加偏向于后向预测值,从而提高缺失数据xh的组合预测值的准确性。
[0093]
在得到缺失数据xh的组合预测值后,将组合预测值写入到数据库中并标记该值为最终预测值,用来区分真实的量测数据和预测的量测数据(见图4)。
[0094]
如图5所示,本技术另一实施例还提供了一种基于双向神经网络自回归模型的量测数据拟合装置,包括:
[0095]
前向预测值计算模块,用于按时间序列提取缺失数据对应时刻之前的若干同类型连续历史数据预处理成第一输入特征向量输入到训练好的前向神经网络自回归模型中得到所述缺失数据的前向预测值;
[0096]
后向预测值计算模块,用于按时间序列提取缺失数据对应时刻之后的若干同类型连续后来数据、缺失数据对应时刻之前的若干同类型历史数据预处理成第二输入特征向量输入到训练好的后向神经网络自回归模型中得到所述缺失数据的后向预测值;
[0097]
组合预测值计算模块,用于对所述前向预测值和后向预测值分别加权后得到所述缺失数据的组合预测值,其中,所述前向预测值和后向预测值的加权参数大小根据所述连续历史数据和连续后来数据的稳定性自适应确定。
[0098]
如图6所示,本技术的优选实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述实施例中的基于双向神经网络自回归模型的量测数据拟合方法的步骤。
[0099]
如图7所示,本技术的优选实施例还提供了一种计算机设备,该计算机设备可以是终端或活体检测服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连
接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的其他计算机设备通过网络连接通信。该计算机程序被处理器执行时以实现上述基于双向神经网络自回归模型的量测数据拟合方法的步骤。
[0100]
本领域技术人员可以理解,图7中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0101]
本技术的优选实施例还提供了一种存储介质,所述存储介质包括存储的程序,在所述程序运行时控制所述存储介质所在的设备执行上述实施例中的基于双向神经网络自回归模型的量测数据拟合方法的步骤。
[0102]
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0103]
本实施例方法所述功能若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个或者多个计算设备可读取存储介质中。基于这样的理解,本技术实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory),磁碟或者光盘等各种可以存储程序代码的介质。
[0104]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本技术实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言java和直译式脚本语言javascript等。
[0105]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0106]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0107]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0108]
尽管已描述了本技术的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。
[0109]
显然,本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1