基于时间序列的数据预测及补全方法、装置、介质和设备与流程

文档序号:20582498发布日期:2020-04-29 01:34阅读:233来源:国知局
基于时间序列的数据预测及补全方法、装置、介质和设备与流程

本发明的实施方式涉及大数据技术领域,更具体地,本发明的实施方式涉及基于时间序列的数据预测及补全方法、装置、介质和设备。



背景技术:

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在工业生产中,通常会对设备的运行指标进行监测,从而判断设备的运行情况是否良好。例如,对发电设备——大坝的运行指标(如上游水位、下游水位、水平位移、沉陷位移、渗流等)进行监测,进而通过这些指标评估设备的运行是否存在安全风险。

通常设备运行时,有些指标的监测数据容易获取,而有些指标的监测数据不容易获取或仅能通过人工获取(人工获取效率低,误差率高),容易出现部分指标的监测数据缺失的情况,这不仅不利于评估设备的运行是否存在安全风险,而且也无法及时发现设备可能存在的安全隐患。



技术实现要素:

为此,发明实施例提出了一种改进的基于时间序列的数据预测及补全方法、装置、介质和计算设备,可以对监测对象的监测量进行数据预测和数据补全,避免数据缺失。

在本上下文中,本发明的实施方式期望提供一种基于时间序列的数据预测及补全方法、装置、介质和计算设备。

在本发明实施方式的第一方面中,提供了一种基于时间序列的数据预测方法,所述方法包括:

获取至少一个第一监测量的监测数据;

基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测,其中,所述第一监测量的监测数据和所述第二监测量的监测数据在时序上对应,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数。

在本发明的一个实施例中,所述时序数据预测模型基于所述至少一个第一监测量的历史监测数据和所述第二监测量的历史监测数据训练得到。

在本发明的另一实施例中,所述时序数据预测模型采用多种核函数分别拟合所述数据的多个维度的特征信息。

在本发明的另一实施例中,所述多种核函数包括径向基核函数、正弦平方核函数、常数核函数、白噪声核函数之中的至少两项。

在本发明的另一实施例中,所述数据的多个维度的特征信息至少包括以下之二:

数据的趋势信息;

数据的周期信息;

数据的噪声。

在本发明的另一实施例中,所述时序数据预测模型在拟合所述数据的趋势信息时,采用径向基核函数;

在拟合所述数据的周期信息时,采用正弦平方核函数;

在拟合所述数据的噪声时,采用白噪声核函数。

在本发明的另一实施例中,所述时序数据预测模型为高斯过程回归模型。

在本发明的另一实施例中,所述时序数据预测模型被设置为:

y=f(x)+σ,且f(x)~gp[0,k(x,x’)],p(σ)~n(σ|0,σn2);

其中,y为表示第二监测量的预测数据的变量,x为表示第一监测量的监测数据的变量,σ表示噪声,k(x,x’)为核函数或多个核函数的组合,σn2为σ的方差,n为x的维度。

在本发明的另一实施例中,对所述第二监测量的预测至少包括预测值和预测区间。

在本发明的另一实施例中,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测值,具体包括:

将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的第二监测量的预测分布,所述预测分布包含预测均值;

获取所述预测均值或者所述预测分布之内的数值作为所述第二监测量的预测值。

在本发明的另一实施例中,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测区间,具体包括:

将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的第二监测量的预测分布,所述预测分布包含预测均值与预测方差;

获取所述第二监测数据的预设置信度;

根据所述预设置信度、预测均值以及预测方差确定所述第二监测量的预测区间。

在本发明的又一个实施例中,所述第一监测量为监测对象的一个维度的环境量,所述第二监测量为监测对象的一个维度的物理量。

在本发明的再一个实施例中,所述监测对象为大坝,所述环境量包括温度、上游水位、下游水位、降水量之中的一项,所述物理量包括水平位移、垂直位移、渗压、裂缝、应力之中的一项。

在本发明实施例方式的第二方面中,提供了一种基于时间序列的数据补全方法,所述方法包括:

根据基于时间序列的数据预测方法预测第二监测量的缺失值;

将所述第二监测量的缺失值填入第二监测量监测系统中的相应位置。

在本发明的另一个实施例中,所述大坝数据补全方法还包括:

当填入所述缺失值之后,将所述第二监测量检测系统包含的数据以图表显示。

在本发明实施方式的第三方面中,提供了一种介质,所述计算机程序被处理器执行时实现上述基于时间序列的数据预测方法或上述基于时间序列的数据补全方法。

在本发明实施方式的第四方面中,提供了一种基于时间序列的数据预测装置,包括:

数据获取模块,用于获取至少一个第一监测量的监测数据;

预测模块,用于基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测,其中,所述第一监测量的监测数据和所述第二监测量的监测数据在时序上对应,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数。

在本发明实施方式的第五方面中,提供了一种基于时间序列的数据补全装置,包括:

缺失值获取模块,用于根据基于时间序列的数据预测装置预测第二监测量的缺失值;

数据填充模块,用于将所述第二监测量的缺失值填入第二监测量监测系统中的相应位置。

在本发明实施方式的第六方面中,提供了一种计算设备,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现上述基于时间序列的数据预测方法或如上述基于时间序列的数据补全方法。

本发明实施方式获取至少一个第一监测量的监测数据;基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测,其中,所述第一监测量的监测数据和所述第二监测量的监测数据在时序上对应,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数。当无法获取到第二监测量的监测数据时,通过其他监测量的监测数据和特定的时序数据预测模型获取第二监测量的监测数据,从而实现了对监测对象的监测量进行数据预测的目的,避免了不易获取到的监测量的数据缺失问题,进而有利于对监测对象的安全性进行评估,降低监测对象运行时的安全风险。同时,本发明实施例无需人工获取,提高了数据获取效率降低了数据获取的误差率。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

图1是方法实施例一提供的基于时间序列的数据预测方法的流程图;

图2是方法实施例二提供的基于时间序列的数据补全方法的流程图;

图3是第二监测量检测系统缺失数据时以图表显示数据的示例图;

图4是将图3中的缺失数据进行数据补全之后以图表显示数据的示例图;

图5是装置实施例一提供的基于时间序列的数据预测装置的结构图;

图6是装置实施例二提供的基于时间序列的数据补全装置的结构图;

图7示意性地示出了根据本发明实施方式提供的一种计算机可读存储介质的示意图;

图8示意性地示出了根据本发明实施方式提供的一种计算设备的示意图;

在附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。

根据本发明的实施方式,提出了一种大坝数据预测和补全方法、介质、装置和计算设备。

此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。

下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。

示例性方法

方法实施例一

请参考图1,图1是本发明方法实施例一提供的基于时间序列的数据预测方法的流程图。本实施方式中的基于时间序列的数据预测方法包括:

s11,获取至少一个第一监测量的监测数据。

本实施例中,第一监测量可以是监测对象(例如,环境检测系统、水质勘测仪、物联网系统等)的监测指标。

在本实施方式的一个实施例中,所述第一监测量的监测数据可以是第一监测量的监测数值。

在本实施方式的另一个实施例中,所述第一监测量的监测数据可以包括第一监测量的监测时间以及第一监测量的监测数值。

可选地,所述第一监测量为监测对象的一个维度的环境量。

所述环境量是指与监测对象所处环境有关的变量,所述维度可以时间维度或者是地域维度等,不同维度体现了不同方面的环境量。

在本实施方式的一个实施例中,以所述监测对象为大坝为例进行说明,所述环境量包括温度、上游水位、下游水位、降水量之中的一项。

例如,一第一监测量为大坝的a坝段的温度,另一第一监测量为大坝的a坝段的上游水位。

在具体实施时,对不同监测对象进行预测时,可以选取不同的第一监测量的监测数据。

s12,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测,其中,所述第一监测量的监测数据和所述第二监测量的监测数据在时序上对应,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数。

本实施例中,特定的时序数据预测模型是训练过的用于对第二监测量的监测数据进行预测的模型,在该时序数据预测模型中通过特定的核函数拟合第一监测量和第二监测量在对应的不同时间点的监测数据,从而使得该模型可以基于输入数据(即第一监测量的监测数据)预测输出数据(即第二监测量的数据),其预测结果可以是一个预测数据,也可以是多个预测数据,还可以是预测范围。

本实施例中,第二监测量可以是监测对象(例如,环境检测系统、水质勘测仪、物联网系统等)的监测指标。

可选地,当所述第一监测量为监测对象的一个维度的环境量时,所述第二监测量为监测对象的一个维度的物理量。

所述物理量是指反应监测对象物理状态的变量。

在本实施方式的一个实施例中,所述物理量包括水平位移、垂直位移、渗压、裂缝、应力之中的一项。

例如,一第一监测量为大坝的a坝段的温度,另一第一监测量为大坝的a坝段的上游水位,所述第二监测量为大坝的a坝段的水平位移。

本实施例中,第一监测量和第二监测量的监测数据在时序上对应是指,当任意时间存在第一监测量的监测数据时,在该时间同时存在与第一监测量的监测数据对应的第二监测量的监测数据。

在具体实施时,获取哪些第一监测量的监测数据以及将哪些第一监测量的监测进行输入,根据基于特定的时序数据预测模型而异。

所述时序数据预测模型可以包括但不限于:线性回归预测模型、神经网络预测模型、卡尔曼滤波预测模型等。

所述时序数据预测模型基于所述至少一个第一监测量的历史监测数据和所述第二监测量的历史监测数据训练得到。

本实施例中,第一监测量的历史监测数据和第二监测量的历史监测数据是在监测对象运行时得到的数据,通过至少一个第一监测量的历史监测数据和第二监测量的历史监测数据训练得到的特定的时序数据预测模型可以基于第一监测量的监测数据预测第二监测量。

具体的,获取至少一个第一监测量的历史监测数据,即获取至少一个第一监测量在过去不同时间点进行监测得到的历史监测数据,相应地,获取一个第二监测量的历史监测数据,即获取一个第二监测量在相应的过去不同时间点进行监测得到的历史监测数据,从而得到用于训练时序数据预测模型的训练样本。

例如,在对时序数据预测模型进行训练时,至少一个第一监测量的历史监测数据包括过去3个月大坝温度的数据与大坝水位的数据的组合,第二监测量的历史监测数据包括过去3个月大坝位移(大坝水平位移或大坝垂直位移)的数据。

一种可选实施例中,可以由相同的多个环境量组合得到的历史监测数据(如温度、水位等环境量的组合)和不同的物理量的历史监测数据分别进行训练,得到对不同物理量进行预测的多个时序数据预测模型。

例如,将温度和水位的历史监测数据,以及位移的历史监测数据输入至时序数据预测模型进行训练,得到特定的时序数据预测模型,该特定的时序数据预测模型用于预测位移。

又例如,将温度和水位的历史监测数据,以及渗压的历史监测数据输入至时序数据预测模型进行训练,得到特定的时序数据预测模型,该特定的时序数据预测模型用于预测渗压。

优选地,为了使得预测的结果更加准确,所述时序数据预测模型采用多种核函数分别拟合所述数据的多个维度的特征信息。

在本实施方式的一个实施例中,所述多种核函数包括径向基核函数、正弦平方核函数、常数核函数、白噪声核函数之中的至少两项。

相应地,所述数据的多个维度的特征信息至少包括以下之二:

数据的趋势信息;

数据的周期信息;

数据的噪声。

在本实施例中,所述时序数据预测模型在拟合所述数据的趋势信息时,采用径向基核函数;

在拟合所述数据的周期信息时,采用正弦平方核函数;

在拟合所述数据的噪声时,采用白噪声核函数。

例如,多种核函数为:

66.0**2*rbf+2.4**2*rbf*expsinesquared+whitekernel;

其中,rbf是径向基核函数,expsinesquared是正弦平方核函数,whitekernel是白噪声核函数。

在本实施方式的一个实施例中,所述时序数据预测模型为高斯过程回归模型。

高斯过程回归模型是通过高斯过程回归方法所建立的模型,建立高斯过程回归模型所得到的第二监测量的预测结果可以是一个数据分布范围。

由于高斯过程回归模型具有强大的数学依据,模型的可解释性好,因此本实施例通过建立高斯过程回归模型所得到的第二监测量的预测结果准确性高。

具体的,所述时序数据预测模型被设置为:

y=f(x)+σ,且f(x)~gp[0,k(x,x’)],p(σ)~n(σ|0,σn2);

其中,y为表示第二监测量的预测数据的变量,x为表示第一监测量的监测数据的变量,σ表示噪声,k(x,x’)为核函数或多个核函数的组合,σn2为σ的方差,n为x的维度。

本实施例中,x具体可以表示为在不同时间的第一监测量的监测数值的变量,进一步的,x可以以时间戳和在该时间戳的第一监测量的监测数值表示。

例如,在对时序数据预测模型进行训练时,输入数据为x={x1,x2,...,xn},y={y1,y2,...,yn},其中,x1代表1号温度的数值与水位的数值的组合,x2代表2号温度的数值与水位的数值的组合,xn代表n号温度的数值与水位的数值的组合;y1代表1号位移(水平位移或垂直位移)的数值,y2代表2号位移的数值,yn代表n号位移的数值。

本实施例中,f(x)~gp[0,k(x,x’)]表示不同训练样本之间满足一个联合高斯分布,同时,由于p(σ)~n(σ|0,σn2),因此得到y的分布为:

y~n(0,k+σn2),其中,k为核函数矩阵;

通常,核函数也可以称为协方差函数,它用来描述两个样本分布之间的协方差,核函数矩阵可以由核函数得到,核函数矩阵就是用来描述所有训练样本的分布的协方差。

具体的,若k为核函数或多核函数的组合,则核函数矩阵k为:

在得到y的分布之后,可以通过训练样本中的数据拟合上述时序数据预测模型,进而通过最大似然估计的方法求解分布中的超参数(如核函数中的参数和方差σn2),得到用于对第二监测量进行预测的时序数据预测模型。

具体来讲,对所述第二监测量的预测至少包括预测值和预测区间。

在本实施方式的一个实施例中,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测值,具体包括:

将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的第二监测量的预测分布,所述预测分布包含预测均值;

获取所述预测均值或者所述预测分布之内的数值作为所述第二监测量的预测值。

由于均值和方差可以确定一个分布,因此,在得到第二监测量的预测分布时,即得到了预测均值。

在本实施方式的一个实施例中,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测区间,具体包括:

将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的第二监测量的预测分布,所述预测分布包含预测均值与预测方差;

获取所述第二监测数据的预设置信度;

根据所述预设置信度、预测均值以及预测方差确定所述第二监测量的预测区间。

本实施例中,置信度表示的是被测量参数的真实值落在预测区间的概率。

本实施例中,根据置信度得到的预测区间为置信区间。

具体的,预测区间可以表示在某一置信度下,以被测量参数的测量值为中心,被测量参数的真实值出现的范围。

因此,基于特定的时序数据预测模型和至少一个第一监测量的监测数据得到对第二监测量的预测区间即表示第二监测量的真实预测值所在的区间,因此,通过本实施例得到的第二监测量的预测结果更加准确。

本实施例中,置信度与置信区间存在一定的对应关系,因此可以根据置信度和数据分布得到置信区间。

例如,若置信度为99.8%,获取了数据分布中的均值和方差(方差是标准差的平方),则置信区间为均值加减三倍标准差,进而确定该均值加减三倍标准差内的数值为第一监测量的预测区间。

例如,将大坝环境量的监测数据x*输入至高斯过程回归模型之后,可以计算出大坝环境量的监测数据x*所对应的大坝物理量的实际数据y*的数据分布。

由于在该高斯过程回归模型中,y*仍服从高斯分布,而由均值和方差可以确定一个数据分布,因此得到y*的均值和方差即得到了y*的分布。

具体的,可以根据以下方式得到y*的均值和方差:

根据y*和已知的y(第一监测量的历史实际数据)呈现联合高斯分布,联合高斯分布的形式为:

其中f*=f(x*),i为单元矩阵,

通过以上联合高斯分布可以得到均值和方差cov(y*)的值为:

cov(y*)=k(x*,x*)-k(x*,x)(k+σn2i)-1k(x,x*)

从而通过将第一监测量的监测数据输入至高斯过程回归模型,得到了与第二监测量的预测区间。

本实施例获取至少一个第一监测量的监测数据;基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测,其中,所述第一监测量的监测数据和所述第二监测量的监测数据在时序上对应,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数。当无法获取到第二监测量的监测数据时,通过其他监测量的监测数据和特定的时序数据预测模型获取第二监测量的监测数据,从而实现了对监测对象的监测量进行数据预测的目的,避免了不易获取到的监测量的数据缺失问题,进而有利于对监测对象的安全性进行评估,降低监测对象运行时的安全风险。同时,本发明实施例无需人工获取,提高了数据获取效率降低了数据获取的误差率。

方法实施例二

请参考图2,图2是本发明方法实施例二提供的基于时间序列的数据补全方法的流程图。本实施方式中的基于时间序列的数据补全方法包括:

s21,根据基于时间序列的数据预测方法预测第二监测量的缺失值;

s22,将所述第二监测量的缺失值填入第二监测量监测系统中的相应位置。

本实施例中,所述基于时间序列的数据预测方法为方法实施例一中的基于时间序列的数据预测方法。

当通过基于时间序列的数据预测方法得到对第二监测量的预测值时,获取第二监测量的预测值为第二监测量的缺失值。

当通过基于时间序列的数据预测方法得到对第二监测量的预测区间时,可以获取第二监测量的预测区间内的任意值为第二监测量的缺失值。

本实施例中,第二监测量检测系统可以是对第二监测量进行监测或数据记录的系统。

例如,第二监测量检测系统是实时监测大坝的环境量的系统,该系统可以实时或间隔预设时间获取大坝的环境量的数据。

本实施例中,将第二监测量的缺失值填入第二监测量监测系统中的相应位置具体包括:获取所述第二监测量的缺失值对应的监测时间,将第二监测量的缺失值填入第二监测量监测系统中所述监测时间的对应位置。

具体的,第二监测量的缺失值对应的监测时间是指用于预测第二监测量的缺失值的第一监测量的监测时间。

进一步地,所述基于时间序列的数据补全方法还包括:

当填入所述缺失值之后,将所述第二监测量检测系统包含的数据以图表显示。

具体的,将第二监测量检测系统包含的数据以图表显示包括;将第二监测量检测系统包含的第二监测量的数值按时间顺序以图表显示。

请参见图3和图4。图3是第二监测量检测系统缺失数据时以图表显示数据的示例图,图4是将图3中的缺失数据进行数据补全之后以图表显示数据的示例图。

图3中由于数据缺失,导致图3中存在若干离散的点,数据并不连续,在通过本实施例所述的基于时间序列的数据补全方法进行数据补全后,可以得到如图4所示的示例图,在图4中,缺失的数据被补全,避免了数据缺失的问题。

本实施例根据基于时间序列的数据预测方法预测第二监测量的缺失值;将所述第二监测量的缺失值填入第二监测量监测系统中的相应位置。从而能够获取第二监测量监测系统中缺失的第二监测量的数据,实现对监测对象的监测量进行补全,避免数据缺失的目的。

示例性装置

装置实施例一

请参考图5,图5是装置实施例一提供的基于时间序列的数据预测装置的结构图。本实施方式中的基于时间序列的数据预测装置包括:

数据获取模块510,用于获取至少一个第一监测量的监测数据。

本实施例中,第一监测量可以是监测对象(例如,环境检测系统、水质勘测仪、物联网系统等)的监测指标。

在本实施方式的一个实施例中,所述第一监测量的监测数据可以是第一监测量的监测数值。

在本实施方式的另一个实施例中,所述第一监测量的监测数据可以包括第一监测量的监测时间以及第一监测量的监测数值。

可选地,所述第一监测量为监测对象的一个维度的环境量。

所述环境量是指与监测对象所处环境有关的变量,所述维度可以时间维度或者是地域维度等,不同维度体现了不同方面的环境量。

在本实施方式的一个实施例中,以所述监测对象为大坝为例进行说明,所述环境量包括温度、上游水位、下游水位、降水量之中的一项。

例如,一第一监测量为大坝的a坝段的温度,另一第一监测量为大坝的a坝段的上游水位。

在具体实施时,对不同监测对象进行预测时,可以选取不同的第一监测量的监测数据。

预测模块520,用于基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测,其中,所述第一监测量的监测数据和所述第二监测量的监测数据在时序上对应,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数。

本实施例中,特定的时序数据预测模型是训练过的用于对第二监测量的监测数据进行预测的模型,在该时序数据预测模型中通过特定的核函数拟合第一监测量和第二监测量在对应的不同时间点的监测数据,从而使得该模型可以基于输入数据(即第一监测量的监测数据)预测输出数据(即第二监测量的数据),其预测结果可以是一个预测数据,也可以是多个预测数据,还可以是预测范围。

本实施例中,第二监测量可以是监测对象(例如,环境检测系统、水质勘测仪、物联网系统等)的监测指标。

可选地,当所述第一监测量为监测对象的一个维度的环境量时,所述第二监测量为监测对象的一个维度的物理量。

所述物理量是指反应监测对象物理状态的变量。

在本实施方式的一个实施例中,所述物理量包括水平位移、垂直位移、渗压、裂缝、应力之中的一项。

例如,一第一监测量为大坝的a坝段的温度,另一第一监测量为大坝的a坝段的上游水位,所述第二监测量为大坝的a坝段的水平位移。

本实施例中,第一监测量和第二监测量的监测数据在时序上对应是指,当任意时间存在第一监测量的监测数据时,在该时间同时存在与第一监测量的监测数据对应的第二监测量的监测数据。

在具体实施时,获取哪些第一监测量的监测数据以及将哪些第一监测量的监测进行输入,根据基于特定的时序数据预测模型而异。

所述时序数据预测模型可以包括但不限于:线性回归预测模型、神经网络预测模型、卡尔曼滤波预测模型等。

所述时序数据预测模型基于所述至少一个第一监测量的历史监测数据和所述第二监测量的历史监测数据训练得到。

本实施例中,第一监测量的历史监测数据和第二监测量的历史监测数据是在监测对象运行时得到的数据,通过至少一个第一监测量的历史监测数据和第二监测量的历史监测数据训练得到的特定的时序数据预测模型可以基于第一监测量的监测数据预测第二监测量。

具体的,获取至少一个第一监测量的历史监测数据,即获取至少一个第一监测量在过去不同时间点进行监测得到的历史监测数据,相应地,获取一个第二监测量的历史监测数据,即获取一个第二监测量在相应的过去不同时间点进行监测得到的历史监测数据,从而得到用于训练时序数据预测模型的训练样本。

例如,在对时序数据预测模型进行训练时,至少一个第一监测量的历史监测数据包括过去3个月大坝温度的数据与大坝水位的数据的组合,第二监测量的历史监测数据包括过去3个月大坝位移(大坝水平位移或大坝垂直位移)的数据。

一种可选实施例中,可以由相同的多个环境量组合得到的历史监测数据(如温度、水位等环境量的组合)和不同的物理量的历史监测数据分别进行训练,得到对不同物理量进行预测的多个时序数据预测模型。

例如,将温度和水位的历史监测数据,以及位移的历史监测数据输入至时序数据预测模型进行训练,得到特定的时序数据预测模型,该特定的时序数据预测模型用于预测位移。

又例如,将温度和水位的历史监测数据,以及渗压的历史监测数据输入至时序数据预测模型进行训练,得到特定的时序数据预测模型,该特定的时序数据预测模型用于预测渗压。

优选地,为了使得预测的结果更加准确,所述时序数据预测模型采用多种核函数分别拟合所述数据的多个维度的特征信息。

在本实施方式的一个实施例中,所述多种核函数包括径向基核函数、正弦平方核函数、常数核函数、白噪声核函数之中的至少两项。

相应地,所述数据的多个维度的特征信息至少包括以下之二:

数据的趋势信息;

数据的周期信息;

数据的噪声。

在本实施例中,所述时序数据预测模型在拟合所述数据的趋势信息时,采用径向基核函数;

在拟合所述数据的周期信息时,采用正弦平方核函数;

在拟合所述数据的噪声时,采用白噪声核函数。

例如,多种核函数为:

66.0**2*rbf+2.4**2*rbf*expsinesquared+whitekernel;

其中,rbf是径向基核函数,expsinesquared是正弦平方核函数,whitekernel是白噪声核函数。

在本实施方式的一个实施例中,所述时序数据预测模型为高斯过程回归模型。

高斯过程回归模型是通过高斯过程回归方法所建立的模型,建立高斯过程回归模型所得到的第二监测量的预测结果可以是一个数据分布范围。

由于高斯过程回归模型具有强大的数学依据,模型的可解释性好,因此本实施例通过建立高斯过程回归模型所得到的第二监测量的预测结果准确性高。

具体的,所述时序数据预测模型被设置为:

y=f(x)+σ,且f(x)~gp[0,k(x,x’)],p(σ)~n(σ|0,σn2);

其中,y为表示第二监测量的预测数据的变量,x为表示第一监测量的监测数据的变量,σ表示噪声,k(x,x’)为核函数或多个核函数的组合,σn2为σ的方差,n为x的维度。

本实施例中,x具体可以表示为在不同时间的第一监测量的监测数值的变量,进一步的,x可以以时间戳和在该时间戳的第一监测量的监测数值表示。

例如,在对时序数据预测模型进行训练时,输入数据为x={x1,x2,...,xn},y={y1,y2,...,yn},其中,x1代表1号温度的数值与水位的数值的组合,x2代表2号温度的数值与水位的数值的组合,xn代表n号温度的数值与水位的数值的组合;y1代表1号位移(水平位移或垂直位移)的数值,y2代表2号位移的数值,yn代表n号位移的数值。

本实施例中,f(x)~gp[0,k(x,x’)]表示不同训练样本之间满足一个联合高斯分布,同时,由于p(σ)~n(σ|0,σn2),因此得到y的分布为:

y~n(0,k+σn2),其中,k为核函数矩阵;

通常,核函数也可以称为协方差函数,它用来描述两个样本分布之间的协方差,核函数矩阵可以由核函数得到,核函数矩阵就是用来描述所有训练样本的分布的协方差。

具体的,若k为核函数或多核函数的组合,则核函数矩阵k为:

在得到y的分布之后,可以通过训练样本中的数据拟合上述时序数据预测模型,进而通过最大似然估计的方法求解分布中的超参数(如核函数中的参数和方差σn2),得到用于对第二监测量进行预测的时序数据预测模型。

具体来讲,对所述第二监测量的预测至少包括预测值和预测区间。

在本实施方式的一个实施例中,所述预测模块520包括:

第一输入单元,用于将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的第二监测量的预测分布,所述预测分布包含预测均值;

第一获取单元,用于获取所述预测均值或者所述预测分布之内的数值作为所述第二监测量的预测值。

由于均值和方差可以确定一个分布,因此,在得到第二监测量的预测分布时,即得到了预测均值。

在本实施方式的一个实施例中,所述预测模块520包括:

第二输入单元,用于将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的第二监测量的预测分布,所述预测分布包含预测均值与预测方差;

第二获取单元,用于获取所述第二监测数据的预设置信度;

确定单元,用于根据所述预设置信度、预测均值以及预测方差确定所述第二监测量的预测区间。

本实施例中,置信度表示的是被测量参数的真实值落在预测区间的概率。

本实施例中,根据置信度得到的预测区间为置信区间。

具体的,预测区间可以表示在某一置信度下,以被测量参数的测量值为中心,被测量参数的真实值出现的范围。

因此,基于特定的时序数据预测模型和至少一个第一监测量的监测数据得到对第二监测量的预测区间即表示第二监测量的真实预测值所在的区间,因此,通过本实施例得到的第二监测量的预测结果更加准确。

本实施例中,置信度与置信区间存在一定的对应关系,因此可以根据置信度和数据分布得到置信区间。

例如,若置信度为99.8%,获取了数据分布中的均值和方差(方差是标准差的平方),则置信区间为均值加减三倍标准差,进而确定该均值加减三倍标准差内的数值为第一监测量的预测区间。

例如,将大坝环境量的监测数据x*输入至高斯过程回归模型之后,可以计算出大坝环境量的监测数据x*所对应的大坝物理量的实际数据y*的数据分布。

由于在该高斯过程回归模型中,y*仍服从高斯分布,而由均值和方差可以确定一个数据分布,因此得到y*的均值和方差即得到了y*的分布。

具体的,可以根据以下方式得到y*的均值和方差:

根据y*和已知的y(第一监测量的历史实际数据)呈现联合高斯分布,联合高斯分布的形式为:

其中f*=f(x*),i为单元矩阵,

通过以上联合高斯分布可以得到均值和方差cov(y*)的值为:

从而通过将第一监测量的监测数据输入至高斯过程回归模型,得到了与第二监测量的预测区间。

本申请所提供的装置中提供的模块能够在使用时基于与上述的示例性基于时间序列的数据预测方法(相同的技术手段)得到对监测对象的监测量的预测,其在具体运行时可以取得上述的示例性方法一样的技术效果,即对监测对象的监测量进行数据预测,避免了不易获取到的监测量的数据缺失问题,进而有利于对监测对象的安全性进行评估,降低监测对象运行时的安全风险。

装置实施例二

请参考图6,图6是本发明装置实施例二提供的基于时间序列的数据补全装置的结构图。本实施方式中的基于时间序列的数据补全装置包括:

缺失值获取模块610,用于根据基于时间序列的数据预测装置预测第二监测量的缺失值;

数据填充模块620,用于将所述第二监测量的缺失值填入第二监测量监测系统中的相应位置。

本实施例中,所述基于时间序列的数据预测装置为装置实施例一中的基于时间序列的数据预测装置。

当通过基于时间序列的数据预测装置得到对第二监测量的预测值时,获取第二监测量的预测值为第二监测量的缺失值。

当通过基于时间序列的数据预测装置得到对第二监测量的预测区间时,可以获取第二监测量的预测区间内的任意值为第二监测量的缺失值。

本实施例中,第二监测量检测系统可以是对第二监测量进行监测或数据记录的系统。

例如,第二监测量检测系统是实时监测大坝的环境量的系统,该系统可以实时或间隔预设时间获取大坝的环境量的数据。

本实施例中,将第二监测量的缺失值填入第二监测量监测系统中的相应位置具体包括:获取所述第二监测量的缺失值对应的监测时间,将第二监测量的缺失值填入第二监测量监测系统中所述监测时间的对应位置。

具体的,第二监测量的缺失值对应的监测时间是指用于预测第二监测量的缺失值的第一监测量的监测时间。

进一步地,所述基于时间序列的数据补全装置还包括:

显示模块,用于当填入所述缺失值之后,将所述第二监测量检测系统包含的数据以图表显示。

具体的,将第二监测量检测系统包含的数据以图表显示包括;将第二监测量检测系统包含的第二监测量的数值按时间顺序以图表显示。

请参见图3和图4。图3是第二监测量检测系统缺失数据时以图表显示数据的示例图,图4是将图3中的缺失数据进行数据补全之后以图表显示数据的示例图。

图3中由于数据缺失,导致图3中存在若干离散的点,数据并不连续,在通过本实施例所述的基于时间序列的数据补全方法进行数据补全后,可以得到如图4所示的示例图,在图4中,缺失的数据被补全,避免了数据缺失的问题。

本申请所提供的装置中提供的模块能够在使用时基于与上述的示例性基于时间序列的数据补全方法(相同的技术手段)获取监测对象的监测量的缺失数据,其在具体运行时可以取得上述的示例性方法一样的技术效果,即实现对监测对象的监测量进行补全,避免数据缺失的目的。

示例性介质

在介绍了本发明示例性实施方式的方法、装置之后,接下来,参考图7对本发明示例性实施方式的计算机可读存储介质进行说明。

请参考图7,其示出的计算机可读存储介质为光盘70,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如:

获取至少一个第一监测量的监测数据;

基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测,其中,所述第一监测量的监测数据和所述第二监测量的监测数据在时序上对应,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数。

或者,所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如:

根据基于时间序列的数据预测方法预测第二监测量的缺失值;

将所述第二监测量的缺失值填入第二监测量监测系统中的相应位置。

各步骤的具体实现方式在此不再重复说明。

需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。

示例性计算设备

在介绍了本发明示例性实施方式的方法、装置和介质之后,接下来,参考图8对本发明示例性实施方式的计算设备进行说明,图8示出了适于用来实现本发明实施方式的示例性计算设备80的框图,该计算设备80可以是计算机系统或服务器。图8显示的计算设备80仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示,计算设备80的组件可以包括但不限于:一个或者多个处理器或者处理单元801,系统存储器802,连接不同系统组件(包括系统存储器802和处理单元801)的总线803。

计算设备80典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备80访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

系统存储器802可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)8021和/或高速缓存存储器8022。计算设备80可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,rom9023可以用于读写不可移动的、非易失性磁介质(图8中未显示,通常称为“硬盘驱动器”)。尽管未在图8中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线803相连。系统存储器802中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块8024的程序/实用工具8025,可以存储在例如系统存储器802中,且这样的程序模块8024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块8024通常执行本发明所描述的实施例中的功能和/或方法。

计算设备80也可以与一个或多个外部设备804(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(i/o)接口805进行。并且,计算设备80还可以通过网络适配器806与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图8所示,网络适配器806通过总线803与计算设备80的其它模块(如处理单元801等)通信。应当明白,尽管图8中未示出,可以结合计算设备80使用其它硬件和/或软件模块。

处理单元801通过运行存储在系统存储器802中的程序,从而执行各种功能应用以及数据处理,例如,获取至少一个第一监测量的监测数据;基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测,其中,所述第一监测量的监测数据和所述第二监测量的监测数据在时序上对应,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数。

或者,处理单元801通过运行存储在系统存储器802中的程序,从而执行各种功能应用以及数据处理,例如,根据基于时间序列的数据预测方法预测第二监测量的缺失值;将所述第二监测量的缺失值填入第二监测量监测系统中的相应位置。

应当注意,尽管在上文详细描述中提及了基于时间序列的数据预测和补全装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

通过上述的描述,本发明的实施例提供了以下的技术方案,但不限于此:

1.一种基于时间序列的数据预测方法,其特征在于,所述方法包括:

获取至少一个第一监测量的监测数据;

基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测,其中,所述第一监测量的监测数据和所述第二监测量的监测数据在时序上对应,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数。

2.如方案1所述的方法,其中,所述时序数据预测模型基于所述至少一个第一监测量的历史监测数据和所述第二监测量的历史监测数据训练得到。

3.如方案1或2所述的方法,其中,所述时序数据预测模型采用多种核函数分别拟合所述数据的多个维度的特征信息。

4.如方案3所述的方法,其中,所述多种核函数包括径向基核函数、正弦平方核函数、常数核函数、白噪声核函数之中的至少两项。

5.如方案4所述的方法,其中,所述数据的多个维度的特征信息至少包括以下之二:

数据的趋势信息;

数据的周期信息;

数据的噪声。

6.如方案5所述的方法,其中,所述时序数据预测模型在拟合所述数据的趋势信息时,采用径向基核函数;

在拟合所述数据的周期信息时,采用正弦平方核函数;

在拟合所述数据的噪声时,采用白噪声核函数。

7.如方案4-6任一项所述的方法,其中,所述时序数据预测模型为高斯过程回归模型。

8.如方案7所述的方法,其中,所述时序数据预测模型被设置为:

y=f(x)+σ,且f(x)~gp[0,k(x,x’)],p(σ)~n(σ|0,σn2);

其中,y为表示第二监测量的预测数据的变量,x为表示第一监测量的监测数据的变量,σ表示噪声,k(x,x’)为核函数或多个核函数的组合,σn2为σ的方差,n为x的维度。

9.如方案8所述的方法,其中,对所述第二监测量的预测至少包括预测值和预测区间。

10.如方案9所述的方法,其中,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测值,具体包括:

将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的第二监测量的预测分布,所述预测分布包含预测均值;

获取所述预测均值或者所述预测分布之内的数值作为所述第二监测量的预测值。

11.如方案9所述的方法,其中,基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测区间,具体包括:

将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的第二监测量的预测分布,所述预测分布包含预测均值与预测方差;

获取所述第二监测数据的预设置信度;

根据所述预设置信度、预测均值以及预测方差确定所述第二监测量的预测区间。

12.如方案10或11所述的方法,其中,所述第一监测量为监测对象的一个维度的环境量,所述第二监测量为监测对象的一个维度的物理量。

13.如方案12所述的方法,其中,所述监测对象为大坝,所述环境量包括温度、上游水位、下游水位、降水量之中的一项,所述物理量包括水平位移、垂直位移、渗压、裂缝、应力之中的一项。

14.一种基于时间序列的数据补全方法,其特征在于,所述方法包括:

根据方案1至13任一项所述的基于时间序列的数据预测方法预测第二监测量的缺失值;

将所述第二监测量的缺失值填入第二监测量监测系统中的相应位置。

15.如方案14所述的方法,其中,所述方法还包括:

当填入所述缺失值之后,将所述第二监测量检测系统包含的数据以图表显示。

16.一种介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如方案1-13中任一项所述基于时间序列的数据预测方法或如方案14-15中任一项所述基于时间序列的数据补全方法。

17.一种基于时间序列的数据预测装置,其特征在于,所述装置包括:

数据获取模块,用于获取至少一个第一监测量的监测数据;

预测模块,用于基于特定的时序数据预测模型和至少一个所述第一监测量的监测数据得到对第二监测量的预测,其中,所述第一监测量的监测数据和所述第二监测量的监测数据在时序上对应,所述时序数据预测模型包括至少一个拟合所述第一监测量和所述第二监测量的数据的特征信息的核函数。

18.如方案17所述的装置,其中,所述时序数据预测模型基于所述至少一个第一监测量的历史监测数据和所述第二监测量的历史监测数据训练得到。

19.如方案17或18所述的装置,其中,所述时序数据预测模型采用多种核函数分别拟合所述数据的多个维度的特征信息。

20.如方案19所述的装置,其中,所述多种核函数包括径向基核函数、正弦平方核函数、常数核函数、白噪声核函数之中的至少两项。

21.如方案20所述的装置,其中,所述数据的多个维度的特征信息至少包括以下之二:

数据的趋势信息;

数据的周期信息;

数据的噪声。

22.如方案21所述的装置,其中,所述时序数据预测模型在拟合所述数据的趋势信息时,采用径向基核函数;

在拟合所述数据的周期信息时,采用正弦平方核函数;

在拟合所述数据的噪声时,采用白噪声核函数。

23.如方案20-22任一项所述的装置,其中,所述时序数据预测模型为高斯过程回归模型。

24.如方案23所述的装置,其中,所述时序数据预测模型被设置为:

y=f(x)+σ,且f(x)~gp[0,k(x,x’)],p(σ)~n(σ|0,σn2);

其中,y为表示第二监测量的预测数据的变量,x为表示第一监测量的监测数据的变量,σ表示噪声,k(x,x’)为核函数或多个核函数的组合,σn2为σ的方差,n为x的维度。

25.如方案24所述的装置,其中,对所述第二监测量的预测至少包括预测值和预测区间。

26.如方案25所述的装置,其中,所述预测模块包括:

第一输入单元,用于将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的第二监测量的预测分布,所述预测分布包含预测均值;

第一获取单元,用于获取所述预测均值或者所述预测分布之内的数值作为所述第二监测量的预测值。

27.如方案25所述的装置,其中,所述预测模块包括:

第二输入单元,用于将所述第一监测量的监测数据输入至所述时序数据预测模型,得到所述时序数据预测模型输出的第二监测量的预测分布,所述预测分布包含预测均值与预测方差;

第二获取单元,用于获取所述第二监测数据的预设置信度;

确定单元,用于根据所述预设置信度、预测均值以及预测方差确定所述第二监测量的预测区间。

28.如方案26或27所述的装置,其中,所述第一监测量为监测对象的一个维度的环境量,所述第二监测量为监测对象的一个维度的物理量。

29.如权利要求28所述的装置,其中,所述监测对象为大坝,所述环境量包括温度、上游水位、下游水位、降水量之中的一项,所述物理量包括水平位移、垂直位移、渗压、裂缝、应力之中的一项。

30.一种基于时间序列的数据补全装置,其特征在于,所述装置包括:

缺失值获取模块,用于根据基于时间序列的数据预测装置预测第二监测量的缺失值;

数据填充模块,用于将所述第二监测量的缺失值填入第二监测量监测系统中的相应位置。

31.如方案30所述的装置,其中,所述装置还包括:

显示模块,用于当填入所述缺失值之后,将所述第二监测量检测系统包含的数据以图表显示。

32.一种计算设备,其特征在于:所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如方案1-13中任一项所述基于时间序列的数据预测方法或如方案14-15中任一项所述基于时间序列的数据补全方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1