基于传播时间聚类分析的多模型集成洪水预报方法

文档序号:6524378阅读:336来源:国知局
基于传播时间聚类分析的多模型集成洪水预报方法
【专利摘要】本发明公开了一种基于传播时间聚类分析的多模型集成洪水预报方法,属于水文预报【技术领域】。首先采用派生的动态时间弯曲匹配方法进行洪水过程相似性分析,估计上下游各站点的流量传播时间,并通过对流量传播时间进行聚类分析将样本分解为若干簇,然后分别对子流量序列建立SVM回归模型模拟洪水形成过程,最后再将这些子模型合并成一个综合模型。将该方法的综合预测结果与常规条件下的单一模型和基于流量聚类的模型预测结果相比较,结果显示该模型综合表现更佳。
【专利说明】基于传播时间聚类分析的多模型集成洪水预报方法
【技术领域】
[0001]本发明涉及一种洪水预报方法,尤其涉及一种基于传播时间聚类分析的多模型集成洪水预报方法,属于水文预报【技术领域】。
【背景技术】
[0002]在水文时间序列预测分析中,径流预报是一类经典的水文问题,对水资源调配管理和防洪减灾调度决策有着重要的意义。然而由于上游站点流量以及气候与下垫面等因素的综合影响,流量往往表现出复杂的非线性和非平稳性特征。
[0003]目前已经有很多进行水文时间序列预测的方法,其中最为简单的是线性模型预测方法,如AR、ARMA等。但应用线性模型预测非线性时间序列很难取得良好的效果。非线性模型由于其本身非线性特性适用于非线性时间序列建模,如人工神经网络、二次回归模型、混沌模型、支持向量机回归模型等。由于单个水文预报模型往往强化了水文预报的某些方面而忽视了另一些方面,文献[张驰,周惠成,李伟.基于数据分析技术的水文组合预报应用研究,大连理工大学学报,2007,47 (2):246-251]、文献[Kunhui Lin, Qiang Lin, ChangleZhou, et al.Time Series Prediction Based on LinearRegression and SVR.ThirdInternational Conference on Natural Computation, ICNC2OO7:688_691]米用多模型结合预报的方法,从多角度模拟流域状况,得到更符合实际情况、更加理想的预测效果。在实际应用中,不同的洪水预报模型有不同的适用范围,甚至在同一流域,不同时间情况下,最适合采用的模型也应是不同的。目前,已有一些研究采用不同的方法对流量或水位过程进行分解聚类,提高神经网络预报精度。尹雄锐等(尹雄锐,张翔,夏军.基于聚类分析的人工神经网络洪水预报模型研究,四川大学学报(工程科学版),2007,39 (3):34-40)应用模糊C均值和自组织映射网络对洪水流量聚类成不同的类别,然后采用相同的输入分别建模、预测。胡铁松等(胡铁松,丁晶.径流长期分级预报的Kohonen网络方法.水电站设计,1997
(6):13 (2))提出了径流长期分级预报的一种新的模式识别方法,通过Kohonen自组织神经网络对历史样本的学习,识别出了蕴含在样本中径流级别与其因子之间的规律性,并证明了该方法的有效性。王玲和黄国如(王玲,黄国如.基于径流分类的日径流量预测神经网络模型[J].灌溉排水,2002,21 (4):45-48)通过对将时间分为枯水期、2个湿润期和一个丰水期,进而达到对流量分类的目的,建立的综合神经网络模型较单一的神经网络模型有更好的精度。
[0004]不同的流量,水流速度不一样,导致洪水传播时间有所变化,且不同的时间段雨量大小变化较大,最后导致降雨径流预报输入输出关系的侧重点有所不同,如果只用单一的模型,很难将各部分的数据同时拟合得很好。

【发明内容】

[0005]本发明所要解决的技术问题在于克服现有技术不足,提供一种基于传播时间聚类分析的多模型集成洪水预报方法,能有效的提高整体预测能力,特别是对洪水期流量较大的情况下的预测精度有显著的提高。
[0006]本发明的基于传播时间聚类分析的多模型集成洪水预报方法,首先根据历史流量/水位数据建立包含多个子模型的洪水预报综合模型,然后利用所建立的洪水预报综合模型进行洪水预报;具体包括以下步骤:
[0007]步骤1、对于目标站点的历史流量/水位数据中的每个流量/水位数据,利用各上游站点与目标站点之间的流量传播时间构造对应于该流量/水位数据的传播时间向量,目标站点的历史流量/水位数据中的所有流量/水位数据所对应的传播时间向量构成传播时间向量集合;
[0008]步骤2、对所述传播时间向量集合进行聚类,得到k个簇,并对聚类得到的每个簇分别进行以下处理:
[0009]对于每一个上游站点,统计该簇中所包含的该上游站点与目标站点之间的流量传播时间的分布情况,并将出现频次最低的部分流量传播时间剔除,剩余的流量传播时间作为该簇中该上游站点的可用流量传播时间,最终得到该簇中各上游站点的可用流量传播时间;
[0010]步骤3、构建k个训练样本集,k个训练样本集与步骤2得到的k个簇一一对应,k为聚类得到的类别数;其中任意一个训练样本集中的训练样本按照以下方法得到:
[0011]选取一组目标站点的历史流量/水位数据分别作为该训练样本集中各训练样本的输出;
[0012]对每一个训练样本的输出,根据其所属训练样本集所对应的簇中各上游站点的可用流量传播时间,从各上游站点的历史流量/水位数据中确定相应的流量/水位数据,并结合相应的雨量输入信息及目标站点的其它输入历史流量/水位数据,构成该训练样本的输入;步骤4、利用所构建的k个训练样本集各自对预测模型进行训练,得到k个预测子模型,这k个预测子模型共同构成洪水预报综合模型;
[0013]步骤5、根据测试样本按照以下方法从洪水预报综合模型中选择相应的预测子模型:对测试样本中目标站点的流量/水位数据,利用各上游站点与目标站点之间的流量传播时间构造对应于该流量/水位数据的传播时间向量,并从步骤2中聚类得到的各个簇中选出簇中心与该传播时间向量的距离最小的簇,距离最小的簇所对应的预测子模型即为所选择的预测子模型;
[0014]步骤6、以所述测试样本作为输入,利用所选择的预测子模型进行目标站点的洪水预报。
[0015]优选地,所述各上游站点与目标站点之间的流量传播时间利用派生动态时间弯曲算法获取。进一步地,在利用用派生动态时间弯曲算法获取各上游站点与目标站点之间的流量传播时间时,针对上游站点流量/水位的特征点,若该特征点是极小点,则将该特征点所匹配的目标站点若干流量/水位数据点中出现极小值的那一个作为上游站点流量/水位的特征点的唯一匹配;若是极大点,则将该特征点所匹配的目标站点若干流量/水位数据点中出现极大值的那一个作为上游站点流量/水位的特征点的唯一匹配;对于非极值点出现多个匹配情况,则采用与该点之前最近的极值点传播时间最相近的传播时间。
[0016]优选地,所述聚类使用基于DBI指标的K-means聚类方法。
[0017]优选地,步骤2中所述将出现频次最低的部分流量传播时间剔除,具体是指将每个上游站点所对应的流量传播时间中出现频次最低的总出现频次10%的流量传播时间剔除。
[0018]本发明采用基于传播时间来划分模型,通过聚类将整个序列分解为若干个小组,对于不同传播时间分布的流量建立不同的子模型,并根据样本传播时间分布选择相应的子模型进行洪水预报。相比现有技术,本发明方法简单有效,不仅可以准确估算出各模型的洪峰传播时间,还有利于帮助准确确定各模型输入,最终的预测精度比较理想。
【专利附图】

【附图说明】
[0019]图1为本发明方法的流程示意图,其中左侧为训练过程流程,右侧为测试过程流程;
[0020]图2为淮河潢川站与王家坝站2006年一段洪水过程的DDTW匹配结果;
[0021]图3为DBI指标随聚类类别数目变化的波动情况;
[0022]图4 Ca)?图4 (c)依次为息县、潢川、班台三个站点的传播时间直方图。
【具体实施方式】
[0023]下面结合附图对本发明的技术方案进行详细说明:
[0024]本发明针对现有的单一时间序列预测模型的不足,以及洪水预报时经常出现的高流量峰值预测不准以及预测“延时”的现象,提出一种基于传播时间聚类分析的多模型集成洪水预报方法,和常规的流量分类预测思想不同,本发明采用基于传播时间来划分模型,通过聚类将整个序列分解为若干个小组,对于不同传播时间分布的流量建立不同的子模型。
[0025]本发明基于传播时间聚类分析的多模型集成洪水预报方法与现有技术相同,都包括训练阶段和测试阶段,其流程如图1所示,具体包括以下步骤:
[0026]步骤1、对于目标站点的历史流量/水位数据中的每个流量/水位数据,利用各上游站点与目标站点之间的流量传播时间构造对应于该流量/水位数据的传播时间向量,目标站点的历史流量/水位数据中的所有流量/水位数据所对应的传播时间向量构成传播时间向量集合。
[0027]洪水预报,不仅需要准确预报洪峰的值,更要能准确掌握洪水到达的时间。所谓流量传播时间是指上游站点的某时刻流量传到下游站点所需的时间。流量传播时间的确定是进行流量预报、洪水演进过程分析、水量调度等的基础,也是流量预报的一项重要内容。以往的研究大多是根据经验由水文业务人员提供的平均传播时间直接确定输入信息来预测洪峰流量的值,但是实际上随着自然和社会条件的变化,洪水传播时间也会逐渐发生变化,特别是不同量级洪水的传播时间差异更大。
[0028]近年来,有一些学者对流量传播时间的算法进行研究,已有的算法包括:相关水位法、灰色关联分析法、分段积分法、相关分析法等。而在实际洪水传播过程中,影响因素较多,如流速、河床粗糙率等。用水文学上的传统理论方法去计算洪水传播时间非常复杂,而且效果也不好。对洪水传播时间的研究其实可以归纳为时间序列研究中的相似性搜索问题。时间序列相似性搜索常用的一个经典算法是动态时间弯曲匹配(Dynamic TimeWarping, DTW),它是基于动态规划的一种模式匹配方法,解决了欧式距离在进行相似性度量时时间序列长度必须一致的问题,同时具备时间轴和幅度上的伸缩能力。[0029]如果两个序列只在时间轴上局部不一致,DTW可以取得理想的匹配效果。当两个序列同时在Y轴上不一致时,如果是序列全局的不一致,比如不同的均值,不同的幅度等,可以通过偏移量转化,幅度标准化等一些预处理解决。但当两个序列在Y轴上出现局部的不一致时,DTW的匹配就出现了问题。为了使序列的特征点(如峰、谷等)很好的匹配,文献(李士进,张晓花,万定生等.基于DTW的测站水位影响关系估计,江南大学学报(自然科学版),2007,6 (6):678-682)引入派生动态时间弯曲(Derivative Dynamic Time Warping, DDTff)0本发明优选采用派生动态时间弯曲算法(DDTW)来确定各上游站点与目标站点之间的流量传播时间。在介绍DDTW之前,我们先给出DTW的匹配原理。
[0030]设有两个时间序列Q和C,长度分别为η和m。
[0031]Q=(q1;..., qi;..., qn)
[0032]C= (C1,..., Cj,..., cm) (I)
[0033]为利用DTW将两个时间序列对准,首先构造一个η行m列矩阵M,矩阵中的元素(i, j)为两时间序列数据中对准点Qi和h之间的距离d(qi,Cp,计算公式如下:
[0034](Kqi, C」)Kq1-Cj)2 (2)
[0035]弯曲路径W是矩阵中邻近元素的集合。
[0036]W= ω ” ω2,...,ωk,...ωK max (m, n)≤K ≤ m+n-1 (3)
[0037]它是序列Q与C之间的一个映射。DTW距离取弯曲路径总长度的最小值,即
[0038]
【权利要求】
1.基于传播时间聚类分析的多模型集成洪水预报方法,首先根据历史流量/水位数据建立包含多个子模型的洪水预报综合模型,然后利用所建立的洪水预报综合模型进行洪水预报;其特征在于,具体包括以下步骤: 步骤1、对于目标站点的历史流量/水位数据中的每个流量/水位数据,利用各上游站点与目标站点之间的流量传播时间构造对应于该流量/水位数据的传播时间向量,目标站点的历史流量/水位数据中的所有流量/水位数据所对应的传播时间向量构成传播时间向量集合; 步骤2、对所述传播时间向量集合进行聚类,得到A个簇,并对聚类得到的每个簇分别进行以下处理: 对于每一个上游站点,统计该簇中所包含的该上游站点与目标站点之间的流量传播时间的分布情况,并将出现频次最低的部分流量传播时间剔除,剩余的流量传播时间作为该簇中该上游站点的可用流量传播时间,最终得到该簇中各上游站点的可用流量传播时间; 步骤3、构建A个训练样本集j个训练样本集与步骤2得到的A个簇一一对应j为聚类得到的类别数;其中任意一个训练样本集中的训练样本按照以下方法得到: 选取一组目标站点的历史流量/水位数据分别作为该训练样本集中各训练样本的输出;对每一个训练样本的输出,根据其所属训练样本集所对应的簇中各上游站点的可用流量传播时间,从各上游站点的历史流量/水位数据中确定相应的流量/水位数据,并结合相应的雨量输入信息及目标站点的预见期前的历史流量/水位数据,构成该训练样本的输A ; 步骤4、利用所构建的A个训练样本集各自对预测模型进行训练,得到A个预测子模型,这左个预测子模型共同构成洪水预报综合模型; 步骤5、根据测试样本按照以`下方法从洪水预报综合模型中选择相应的预测子模型:对测试样本中目标站点的流量/水位数据,利用各上游站点与目标站点之间的流量传播时间构造对应于该流量/水位数据的传播时间向量,并从步骤2中聚类得到的各个簇中选出簇中心与该传播时间向量的距离最小的簇,距离最小的簇所对应的预测子模型即为所选择的预测子模型; 步骤6、以所述测试样本作为输入,利用所选择的预测子模型进行目标站点的洪水预报。
2.如权利要求1所述基于传播时间聚类分析的多模型集成洪水预报方法,其特征在于,所述各上游站点与目标站点之间的流量传播时间利用派生动态时间弯曲算法获取。
3.如权利要求2所述基于传播时间聚类分析的多模型集成洪水预报方法,其特征在于,在利用用派生动态时间弯曲算法获取各上游站点与目标站点之间的流量传播时间时,针对上游站点流量/水位的特征点,若该特征点是极小点,则将该特征点所匹配的目标站点若干流量/水位数据点中出现极小值的那一个作为上游站点流量/水位的特征点的唯一匹配;若是极大点,则将该特征点所匹配的目标站点若干流量/水位数据点中出现极大值的那一个作为上游站点流量/水位的特征点的唯一匹配;对于非极值点出现多个匹配情况,则采用与该点之前最近的极值点传播时间最相近的传播时间。
4.如权利要求1所述基于传播时间聚类分析的多模型集成洪水预报方法,其特征在于,所述聚类使用基于DBI指标的K-means聚类方法。
5.如权利要求1所述基于传播时间聚类分析的多模型集成洪水预报方法,其特征在于,所述预测模型为支持向量机回归模型。
6.如权利要求1所述基于传播时间聚类分析的多模型集成洪水预报方法,其特征在于,步骤2中所述将出现频次最低的部分流量传播时间剔除,具体是指将每个上游站点所对应的流量传播时间中出现频次最低的总出现频次10%的流量传播时间剔除。
7.如权利要求1所述基于传播时间聚类分析的多模型集成洪水预报方法,其特征在于,所述簇中心与传播时间向量的距离为欧氏距离。
8.如权利要求1所述基于传播时间聚类分析的多模型集成洪水预报方法,其特征在于,所述训练样本中的雨量输入信息利用相关系数分析方法确定。
【文档编号】G06F19/00GK103729550SQ201310699773
【公开日】2014年4月16日 申请日期:2013年12月18日 优先权日:2013年12月18日
【发明者】李士进, 朱跃龙, 姜玲玲, 王亚明, 王继民, 万定生, 冯钧 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1