一种基于集成学习的微观路段降雨量插值方法

文档序号:37041748发布日期:2024-02-20 20:36阅读:13来源:国知局
一种基于集成学习的微观路段降雨量插值方法

本发明涉及降雨量估计,具体涉及一种基于集成学习的微观路段降雨量插值方法。


背景技术:

1、降雨天气下,道路通行能力会受到损失,路段具体降雨量的估计对于制定应急交通管控措施,防止交通拥堵、交通事故等一系列问题的发生具有重要的指导意义。但是区域内,不同位置处的道路实际降雨量不同,由于气象观测站部署的限制,气象观测站降雨数据往往不足以直接用于分析道路的降雨情况。

2、气象观测站点覆盖多边形内路段总长度长,且距离中心观测站距离远。经统计,各站点覆盖多边形内的路段总长集中于30-80千米,多边形内路段总长度甚至可达200千米,各路段与站点相距较远,间距集中于1千米,距离观测站最远距离甚至达到了5千米以上。因此,当分析降雨对城市道路交通的影响时,如简单使用均值来表示整个区域内所有道路的情况,分析的精度以及分析的效果将受到影响。

3、传统的降雨量插值方法包括基于空间距离的方法、基于不规则三角网的方法和各种基于克里金的方法,但是单个模型都各有局限,同时,由于气象的地方性特点,不同时间、空间尺度下的最优估计模型往往不同,这一问题也就导致了各模型的适用性受到限制,应用与推广的能力降低。例如普通克里金插值算法忽略了与被预测属性相关的环境要素,预测精度有待进一步提高,反距离加权插值算法作为一种空间插值方法,它以插值点与样本点间的距离为权重进行加权平均,但过于依赖于反距离的幂值,难以反映特殊值,如申请号为cn201510224068.2,名称为基于权重优化和反距离加权的降雨量插值分析方法的发明专利。

4、集成学习是一种将多个模型组合起来的方法,能够提高预测的准确性和鲁棒性,在实际应用中,有研究表明将多个克里金插值模型组合,能够得到更加准确的降雨量估计结果。


技术实现思路

1、有鉴于此,本发明实施例提供一种建立和训练微观路段降雨量集成插值模型的方法,通过组合多个“弱学习器”构建和训练具有强稳健性的集成插值模型,解决了现有技术中仅采用单一插值方法导致插值结果不准确、不全面的问题,实现时空插值计算,进而提高微观路段降雨量估算的准确性以及稳定性。

2、本发明的目的至少通过如下技术方案之一实现。

3、一种基于集成学习的微观路段降雨量插值方法,包括以下步骤:

4、s1、获取地理信息系统gis、气象观测站和路段的多源数据,并根据降雨量等级和分析时长构建降雨事件;

5、s2、选取各种插值算法构建多种插值模型,进而构建集成插值模型的基学习器;

6、s3、利用与构成基学习器的算法不同的算法构建集成插值模型的元学习器;

7、s4、将降雨数据集对基学习器进行训练,输出基插值结果;

8、s5、将得到的基插值结果数据划分训练集和验证集,利用训练集对元学习器进行训练,利用验证集对元学习器进行验证,得到训练后的元学习器;

9、s6、将步骤s3中得到训练后的基学习器,步骤s4中得到训练后的元学习器作为集成插值模型,并由训练完成的集成插值模型输出得到微观路段降雨量插值;

10、s7、对各插值模型进行交叉检验来分析集成插值模型的稳定性;

11、s8、对各插值模型进行误差计算来分析集成插值模型的准确性。

12、进一步地,步骤s1中,获取区域内dem数据、所有路段及气象观测站的数据,除考虑文献常用的日、月时间统计单元外,发挥研究数据集细粒度特点,以分析时段内最大降雨小时为中心,增加考虑最大降雨1小时、最大降雨3小时两类统计时间窗口,选择不同降雨时段统计长度构建降雨事件库。

13、进一步地,步骤s2中,基于区域均值模型、基于空间距离选取最近邻算法和反距离加权算法、基于不规则三角网选取线性插值和三次样条插值模型、基于克里金选取简单克里金和普通克里金插值模型共七种插值模型构建基学习器。

14、进一步地,步骤s3中,选取一种融合模型作为元学习器,包括线性回归模型、岭回归模型、lasso回归模型或logistic回归模型。

15、进一步地,步骤s3中,选取一种集成方法,作为集成插值模型的集成方法,元学习器通过选取的集成方法对基学习器的输出结果进行有效特征的自动抽取,实现集成学习。

16、进一步地,所述集成方法包括stacking堆栈泛化。

17、进一步地,步骤s4中,首先对获取的降雨数据集进行数据清洗操作,并将数据带入基插值模型得到基插值结果。

18、进一步地,步骤s5中,利用基插值结果训练元学习器,并进行验证;

19、当验证误差低于设定的阈值时,得到训练后的元学习器,否则重新对元学习器进行训练。

20、进一步地,步骤s6中,将gis、气象观测站和路段的多源数据输入到训练完成的集成插值模型得到微观路段降雨量插值结果;

21、进一步地,步骤s7中,分别对集成插值模型和所有构成基学习器的单一模型采用“留1”法进行交叉检验。

22、进一步地,步骤s8中,分别对集成插值模型和所有构成基学习器的单一模型计算mae、mase和r2进行效果评估。

23、相比于现有技术,本发明的优点在于:

24、与现有技术的单一插值模型不同,本申请提出的集成方法通过stacking堆栈泛化方法将多个单一插值模型融合为一个具有强稳健性的集成插值模型。集成插值模型与单一插值模型相比拥有更好的插值精度、稳健性和泛化能力。利用堆栈泛化的集成插值模型,充分利用了例如一个城市所有观测站对于一场降雨观测数据,同时可以有效避免数据缺失等导致的预测结果准确性差,稳定性不高、模型泛化性能差的问题。因此,在降雨观测站分布不均匀、观测数据存在缺失的插值数据环境下,可应用集成插值模型以提高插值稳定性和准确性。



技术特征:

1.一种基于集成学习的微观路段降雨量插值方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于集成学习的微观路段降雨量插值方法,其特征在于,步骤s1中,除考虑文献常用的日、月时间统计单元外,发挥研究数据集细粒度特点,以分析时段内最大降雨小时为中心,增加考虑最大降雨1小时、最大降雨3小时两类统计时间窗口,选择不同降雨时段统计长度构建降雨事件库。

3.根据权利要求1所述的一种基于集成学习的微观路段降雨量插值方法,其特征在于,步骤s2中,基于区域均值模型、基于空间距离选取最近邻算法和反距离加权算法、基于不规则三角网选取线性插值和三次样条插值模型、基于克里金选取简单克里金和普通克里金插值模型共七种插值模型构建基学习器,其中通过区域均值模型对比其他各模型的效果。

4.根据权利要求1所述的一种基于集成学习的微观路段降雨量插值方法,其特征在于,步骤s3中,选取一种融合模型作为元学习器,包括线性回归模型、岭回归模型、lasso回归模型或logistic回归模型。

5.根据权利要求1所述的一种基于集成学习的微观路段降雨量插值方法,其特征在于,步骤s3中,选取一种集成方法,作为集成插值模型的集成方法,元学习器通过选取的集成方法对基学习器的输出结果进行有效特征的自动抽取,实现集成学习;

6.根据权利要求1所述的一种基于集成学习的微观路段降雨量插值方法,其特征在于,步骤s4中,首先对获取的降雨数据集进行数据清洗操作,并将数据带入基插值模型得到基插值结果。

7.根据权利要求1所述的一种基于集成学习的微观路段降雨量插值方法,其特征在于,步骤s5中,利用基插值结果训练元学习器,并进行验证;

8.根据权利要求1所述的一种基于集成学习的微观路段降雨量插值方法,其特征在于,步骤s6中,将gis和气象观测站和路段数据输入到训练完成的集成插值模型得到微观路段降雨量插值结果。

9.根据权利要求1所述的一种基于集成学习的微观路段降雨量插值方法,其特征在于,步骤s7中,分别对集成插值模型和所有构成基学习器的单一模型采用“留1”法进行交叉检验。

10.根据权利要求1所述的一种基于集成学习的微观路段降雨量插值方法,其特征在于,步骤s8中,分别对集成插值模型和所有构成基学习器的单一模型计算mae、mase和r2进行效果评估。


技术总结
本发明公开了一种基于集成学习的微观路段降雨量插值方法。所述方法通过组合多个弱学习器构建和训练具有强稳健性的集成插值模型,解决了现有技术中仅采用单一插值方法导致插值结果不准确、不全面的问题,实现时空插值计算,进而提高微观路段降雨量估算的精度。本发明保证了弱学习器的多样性,综合了不同模型的优点,减小了插值偏差,提高了插值精度,有效避免了单一模型导致的插值结果准确性差、稳定性不高的问题。

技术研发人员:林永杰,吕端雅,杨生娇,卢凯,赖成光
受保护的技术使用者:华南理工大学
技术研发日:
技术公布日:2024/2/19
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1