一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法与流程

文档序号:32006536发布日期:2022-11-02 13:28阅读:101来源:国知局
一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法与流程

1.本发明涉及水文预报领域,特别涉及一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法。


背景技术:

2.洪水中的洪峰、洪量、降雨径流系数等要素预报是洪水预报中的重要项目,可用于防汛抗旱、水资源开发利用等,尤其洪峰为防汛抢险提供了依据,大大保护了人民的生命财产安全。
3.大量关于洪水预报模型的研究已经开展,尽管如此,目前洪水预报大多依赖于传统预报模型,而传统预报模型参数较多,需要耗费大量的时间进行建模和参数率定,并且对历史洪水资料要求较高,不能充分利用每一场洪水过程资料。为此,需要从数据挖掘、机器学习等角度出发提出简洁高效的新方法,深入、系统地挖掘已有的洪水数据,用较少的参数构建模型,实现洪水主要要素的预测。


技术实现要素:

4.本发明所要解决的技术问题是提供一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法,使得原线性回归模型具有非线性性能,能描述洪水各项指标之间复杂的非线性关系,能快速且准确预测出多项洪水主要要素,即一个模型可输出多项内容,不用重复建模。
5.为解决上述技术问题,本发明所采用的技术方案是:一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法,包括以下步骤:s1、收集已知洪水信息,建立因变量、自变量数据集;s2、采用多项式特征构造工程方法,开展特征多项式变换,增加原始输入特征维度;s3、对所有数据进行归一化处理,然后将处理后的数据集划分为训练集和测试集两部分;s4、采用偏最小二乘回归方法建立模型;s5、在训练集上采用网格搜索优化模型参数,在测试集上测试模型的可靠性,直至预测精度满足要求;s6、利用预测模型对未知洪水要素预测。
6.优选的方案中,所述步骤s1包括以下步骤:s11、选取多场已知洪水场次过程,包含大、中、小场次过程;s12、提取每一场洪水过程的多个洪水要素,即因变量,因变量包括洪峰、洪量、降雨径流系数;s13、提取每一场洪水过程的多个洪水指标,即自变量,称为原始输入特征,原始输
入特征包括降雨量、降雨历时、降雨强度、前期影响雨量、起涨流量、最大24小时降雨。
7.优选的方案中,所述步骤s2包括以下步骤:s21、构造多项式特征,多项式特征变换使用sklearn中的polynomialfeatures工具,原始输入特征为6个,x={x1,x2,x3,x4,x5,x6},xi为第i项特征向量,x为m行6列矩阵,m为样本集数量,开展d阶多项式变换,公式如下:式中,d≥0且取整数,为多项式的阶数参数,需要进行率定验证;函数f为原始输入特征组成的多项式函数,最终特征为多项式函数f的项;s22、将变换之后高维度的特征作为模型输入,所需预测的洪水要素即因变量作为模型输出,整理成相应的数据集。
8.优选的方案中,所述步骤s3中,数据集归一化处理的公式如下:x
′i=x
i-min(xi)/max(xi)-min(xi)式中,x
′i为归一化后的xi特征,min(xi)为该项特征向量中的最小值,max(xi)为该项特征向量中的最大值。
9.优选的方案中,所述步骤s3中,所述训练集与测试集的比例为0.75~0.8:0.2~0.25。
10.优选的方案中,所述步骤s4中偏最小二乘回归方法包括以下步骤:s41、将原始输入特征x={x1,x2,x3,x4,x5,x6}进行多项式变化,将多项式的项作为新的输入数据集x={x1,...,x
p
},其中n表示原始输入特征个数,d表示多项式阶数;s42、将新的输入数据集作为偏最小二乘回归模型输入,模型直接调用sklearn中的 plsregression工具。
11.优选的方案中,所述步骤s5中包括以下步骤:s51、模型的参数通过交叉验证的方法在训练集上进行优化得到最优的学习算法,即,将各个参数可能的取值进行排列组合,列出所有可能的组合结果生成“网格”,然后将各组合用于模型训练,并使用交叉验证对表现进行评估,在模型尝试了所有的参数组合后,返回一个合适的分类器,自动调整至最佳参数组合;s52、在测试集上测试模型的可靠性,预测精度满足要求则停止,否则返回至s51步骤,可靠性的评价指标包括可决系数r2或nash-sutcliffe效率系数(nse),两者值越靠近1越优,其中,可决系数r2计算公式如下:nash-sutcliffe效率系数(nse)计算公式如下:
式中,yi是观测值、是观测值的均值、为模型预测值、为模型预测值。
12.优选的方案中,所述步骤s6中包括以下步骤:s61,提取已知的洪水过程的多个洪水指标,即原始输入特征信息;s62,输入原始特征信息,使用模型,预测未知洪水要素。
13.本发明提供的一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法,利用多项式与偏最小二乘耦合的非线性回归方法预测洪水要素,使得原线性回归模型具有非线性性能,能描述洪水各项指标之间复杂的非线性关系,能快速且准确预测出多项洪水主要要素,即一个模型可输出多项内容,不用重复建模。与传统洪水预报模型相比,节省了大量的参数率定工作,可在汛期复杂降雨情况下,通过较简单操作获取洪水信息,具有预见期不受限制、工作量小、参数少、精度高、可靠性高等优点,大大提高了水文预报的效率。
附图说明
14.下面结合附图和实施例对本发明作进一步说明:图1为本发明的方法流程图;图2为本发明具体实施方式的所选流域示意图;图3为本发明实施例中在训练集和测试集上的洪峰预测情况;图4为本发明实施例中在训练集和测试集上的洪量预测情况;图5为本发明实施例中在训练集和测试集上的降雨径流系数预测情况。
具体实施方式
15.一种多项式与偏最小二乘耦合的非线性回归洪水要素预测方法,如图1所示,包括以下步骤:s1、收集已知洪水信息,建立因变量、自变量数据集。
16.所述步骤s1包括以下步骤:s11、选取多场已知洪水场次过程,包含大、中、小场次过程;s12、提取每一场洪水过程的多个洪水要素,即因变量,因变量包括洪峰、洪量、降雨径流系数;s13、提取每一场洪水过程的多个洪水指标,即自变量,称为原始输入特征,原始输入特征包括降雨量、降雨历时、降雨强度、前期影响雨量、起涨流量、最大24小时降雨。
17.s2、采用多项式特征构造工程方法,开展特征多项式变换,增加原始输入特征维度。
18.所述步骤s2包括以下步骤:s21、构造多项式特征,多项式特征变换使用sklearn中的polynomialfeatures工具,原始输入特征为6个,x={x1,x2,x3,x4,x5,x6},xi为第i项特征向量,x为m行6列矩阵,m为样本集数量,开展d阶多项式变换,公式如下:
式中,d≥0且取整数,为多项式的阶数参数,需要进行率定验证;函数f为原始输入特征组成的多项式函数,最终特征为多项式函数f的项;s22、将变换之后高维度的特征作为模型输入,所需预测的洪水要素即因变量作为模型输出,整理成相应的数据集。
19.s3、对所有数据进行归一化处理,然后将处理后的数据集划分为训练集和测试集两部分。
20.数据集归一化处理的公式如下:x
′i=x
i-min(xi)/max(xi)-min(xi)式中,x
′i为归一化后的xi特征,min(xi)为该项特征向量中的最小值,max(xi)为该项特征向量中的最大值。
21.所述训练集与测试集的比例为0.75~0.8:0.2~0.25。
22.s4、采用偏最小二乘回归方法建立模型。所述步骤s4中,偏最小二乘回归方法包括以下步骤:s41、将原始输入特征x={x1,x2,x3,x4,x5,x6}进行多项式变化,将多项式的项作为新的输入数据集x={x1,...,x
p
},其中n表示原始输入特征个数,d表示多项式阶数;s42、将新的输入数据集作为偏最小二乘回归模型输入,模型直接调用sklearn中的 plsregression工具。
23.s5、在训练集上采用网格搜索优化模型参数,在测试集上测试模型的可靠性,直至预测精度满足要求。
24.所述步骤s5中包括以下步骤:s51、模型的参数通过交叉验证的方法在训练集上进行优化得到最优的学习算法,即,将各个参数可能的取值进行排列组合,列出所有可能的组合结果生成“网格”,然后将各组合用于模型训练,并使用交叉验证对表现进行评估,在模型尝试了所有的参数组合后,返回一个合适的分类器,自动调整至最佳参数组合。
25.s52、在测试集上测试模型的可靠性,预测精度满足要求则停止,否则返回至s51步骤,可靠性的评价指标包括可决系数r2或nash-sutcliffe效率系数(nse),两者值越靠近 1越优,其中,可决系数r2计算公式如下:nash-sutcliffe效率系数(nse)计算公式如下:式中,yi是观测值、是观测值的均值、为模型预测值、为模型预测值。
26.s6、利用预测模型对未知洪水要素预测。
27.所述步骤s6中包括以下步骤:
s61,提取已知的洪水过程的多个洪水指标,即原始输入特征信息;s62,输入原始特征信息,使用模型,预测未知洪水要素。
28.本次实施以长江三峡区间为例进行说明,如图2所示,三峡区间指长江干流寸滩水文站和支流武隆水文站到三峡大坝之间的流域,集水面积约6万km2。本实施例中,一种多项式与偏最小二乘耦合的非线性回归洪水要素预测可以按以下步骤进行实施:步骤一:建立数据集。
29.收集研究范围三峡区间2014年至2020年,雨量站日降雨量,寸滩、武隆水文站小时流量,三峡水库小时入库流量数据。根据收集的日降雨量计算三峡区间面降雨量,三个站点流量计算三峡区间时段流量。分割每一场次洪水过程,计算每一场过程的降雨量、降雨历时、降雨强度、前期影响雨量、起涨流量、最大24小时降雨,以及对应的洪峰、洪量、降雨径流系数,形成本实施方式的数据集。在实际应用中,降雨量和流量的时间尺度可以根据具体收集资料进行改变,但至少是日尺度及更短的时间尺度。
30.步骤二:数据集预处理。
31.将原始输入特征开展d阶多项式变换,原始输入特征包括降雨量、降雨历时、降雨强度、前期影响雨量、起涨流量、最大24小时降雨,并将数据根据其最大值与最小值进行归一化处理,使得所有数据处于(0,1)范围中。本实例中,训练集占总数据集的80%,测试集占总数据集的20%。
32.步骤三:建立洪水预测模型。
33.本实例采用可决系数r2作为判断预测精度的标准,其计算公式如下:其中,yi是观测值、是观测值的均值、为模型预测值。
34.利用网格搜索确定模型的超参数,d值确定为3,其结果如图3至图5所示。经计算,在训练集上使用该模型预测的洪峰、洪量、降雨径流系数与观测值之间的可决系数分别高达 0.92、0.85、0.80,说明该模型在训练集上可行。在实际应用中,交叉验证的折数、超参数优化的方法以及判别标准可以根据数据集的改变进行调整。
35.步骤四:径流要素预测。
36.使用训练后的模型对测试集中的洪峰、洪量、降雨径流系数预测进行预测。经计算,在测试集上使用该方法预测的洪峰、洪量、降雨径流系数预测与观测值之间的可决系数分别高达0.90、0.81、0.78,其预测结果如图3至图5所示。可见,预测值与观测值十分接近,说明本方法在测试集上也是可行的,可用于未知降雨径流预测。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1