一种基于LSTM和分位数回归的径流概率预测算法的制作方法

文档序号：35465364发布日期：2023-09-16 04:23阅读：75来源：国知局

本发明属于水文预报领域，特别涉及一种基于lstm和分位数回归的径流概率预测算法。

背景技术：

1、径流预测是水文预报研究中的重要内容，它的预测结果可以为防洪抗旱、水库调度和水力发电提供依据。流域的水资源优化配置和区域发展规划等工作都需要水资源量的空间分布和动态变化规律。但是如何精确地对径流进行预测仍旧面临许多困难。

2、目前，径流预测模型主要包括两类分别是过程驱动模型和数据驱动模型。前者的理论基础是水流的物理形成过程，具有实际的物理意义。但是，降雨径流过程受到地形、降雨分布、土壤性质、土地利用、气候变化等多种因素的影响，过程驱动模型需要大量数据建模，有时数据不足会给模型的成功建立带来影响，过程驱动模型的应用仍有一定的困难。另一种为数据驱动的径流预测模型，对资料信息的需求小且开发时间较快，已经有了广泛应用。

3、由于径流具有非线性和不确定性的特点，若不充分考虑径流的不确定性，在预测时会导致预测值与实际径流存在较大偏差。可能会因此导致洪涝灾害等重大灾情。因此，提出一种可以精确预测径流不确定性的模型是十分有必要的。

4、中国专利“cn111598353a一种小型水库当日径流预测系统”提供了一种小型书库当日径流预测系统，系统通过采集昨日降雨量、前日降雨量以及前n天的实际来流，通过灰色系统以及产汇流简单计算方法，可以较为精准的预测水库的当日来流。

5、中国专利“cn111598353a一种小型水库当日径流预测系统”所述的技术方案在预测径流时并没有充分的利用历史径流数据，也没有考虑到季节性以及突发情况所带来的影响。并且，给出的预测仅仅是点预测，并没有考虑到径流的不确定性。这样会导致预测结果与实际情况有极大地偏差。

技术实现思路

1、为了解决径流预测中存在的不确定性的问题，本发明提出了一种基于lstm和分位数回归的径流概率预测算法，该模型由长短时记忆网络、分位数回归模块和实时误差校正模块组成。其中长短时记忆网络可以挖掘径流数据潜在的时序特征，分位数回归可以实现在没有先验假设的前提下获取概率预测结果，实时误差校正模块可以进一步提高预测精度，缩小预测区间。

2、为了实现上述的技术特征，本发明的目的是这样实现的：一种基于lstm和分位数回归的径流概率预测算法，包括以下步骤：

3、步骤1，数据预处理：

4、筛选空值与异常值并填充相应数据，然后通过mic方法计算相关特征；

5、步骤2，特征提取：

6、处理好的数据进入lstm网络提取时序特征；

7、步骤3，基于多任务学习的概率预测：

8、从多任务学习的角度出发，将条件期望和条件分位数的估计结合起来进行训练，同时得到期望和多个分位数的预测结果，多任务学习的参数共享机制也使得条件期望和条件分位数互相促进彼此的学习，增强模型的泛化能力；

9、步骤4，基于误差序列的预测值校正：

10、在已有神经网络的基础上，融合实时误差校正方法对预测值校准，进一步提升模型的预测精度。

11、步骤1中数据预处理具体包括如下步骤：

12、步骤1.1，空值与异常值筛选与填充，采用均值法对异常数据和缺失数据进行补全；

13、步骤1.2，采用mic方法计算相关特征，确定lstm模型输入特征个数；

14、其中，mic方法即为最大信息系数方法，所述mic是针对两个变量之间的关系，将其离散在二维空间中，并且使用散点图来表示，将当前二维空间在x,y方向分别划分为一定的区间数，查看当前的散点在各个方格中落入的情况，即联合概率的计算，这样就解决了在互信息中的联合概率难求的问题，mic的计算公式如下：

15、

16、式中：mic是最大信息系数；a,b是在x,y方向上的划分格子的个数，本质上就是网格分布；b是变量，b的大小设置是数据量的0.6次方；i联合分布与边缘分布的相对熵。

17、步骤2中时序特征提取是将步骤1中处理好的数据输入lstm网络，通过堆叠两层lstm网络，并在其中加入batch normalization层和dropout层实现；具体通过将神经网络的值归一化到0-1的标准区间内，以减少梯度消失，并加快训练速度，提升模型效率。

18、步骤3中径流的点预测与概率预测包括以下步骤：

19、步骤3.1，构建分位数回归模型：

20、分位数回归模型可以表示为：

21、qτ(x)＝argmine{lτ(y,f(x))|x＝x}

22、式中：是第τ个条件分位数，其中0<τ<1；xt是第t个自变量；y是第t个因变量；τ(t)是分位数τ的回归系数；

23、对于条件均值，考虑所有位置的损失函数为：

24、

25、式中：yj是第j点的径流真实值；是预测值；l0为损失函数，是所有位置的误差平方和；

26、

27、式中：j为模型包含的分位数的总数，本文中为10；αi是第i个分位数，表示j点的αi分位数预测值；

28、因此，将神经网络体系结构的不同输出的多个单独目标函数组合起来，即联合条件均值和条件分位数后的总体损失函数为：

29、

30、式中：l为总体损失函数；

31、本模型中选择0.05，0.1，0.2，0.3，0.4，0.6，0.7，0.8，0.9，0.95十个分位点来构造条件分位数回归模型，然后使用0.05分位点作为区间下限，0.95分位数作为区间上限构造90％置信区间；

32、步骤3.2，构建基于多任务学习机制的概率预测模型：

33、原始数据经过神经网络提取时空特征后，最后一个隐藏层状态将进入输入层，在输出层中，联合条件均值和条件分位数，将隐藏层状态完全共享，得到最终的均值预测和概率预测结果，该方法将条件均值和条件分位数作为相关任务，因此损失函数应该同时考虑到这两个任务，并在输出层中完全参数共享。

34、步骤4具体包括以下步骤：

35、步骤4.1，真实值序列和神经网络模型得到的预测值序列相减，得到误差项序列e；

36、步骤4.2，利用ar自回归模型对误差序列构造线性回归，根据历史误差序列数据预测未来的误差值，得到下一时刻的误差序列值；

37、步骤4.3，将下一时刻误差序列值与下一时刻的预测值相加，得到校正过后的下一时刻预测值。

38、步骤4.2中的ar自回归模型是线性时间序列的一种，其主要是用变量自身之前历史数据的表现来预测其在现在或未来的表现情况，ar自回归预测只与变量自身的历史数据有关，所以称作自回归，其公式表示为：

39、

40、式中：et是预报误差序列；θ是自回归模型的参数；p是自回归模型的阶数；k是预测点前误差量；ζ是方差为σ2的纯白噪声序列；

41、如果误差是真实误差，那么得到的就是真实的下一时刻真实值，所以预测的误差值精度越高，则校正后的结果越接近真实值，预测精度就会更高。

42、本发明有如下有益效果：

43、本发明可以克服现有技术存在的不足，创造性地提出本文提出了一种基于长短时记忆网络的径流概率预测模型，该模型由长短时记忆网络、分位数回归模块和实时误差校正模块组成；其中长短时记忆网络可以挖掘径流数据潜在的时序特征，分位数回归可以实现在没有先验假设的前提下获取概率预测结果，实时误差校正模块可以进一步提高预测精度，缩小预测区间。三者结合提升了模型的准确度并使概率预测更加接近真实分布。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张海荣鲍正风汤正阳郭乐刘亚新张东杰朱韶楠朱双
技术所有人：中国地质大学（武汉）
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。