一种基于堆叠机器学习算法的短期气温预报集合订正方法与流程

文档序号:33463938发布日期:2023-03-15 05:54阅读:49来源:国知局
一种基于堆叠机器学习算法的短期气温预报集合订正方法与流程

1.本发明涉及气象预报技术领域,尤其涉及一种基于堆叠机器学习算法的短期气温预报集合订正方法。


背景技术:

2.准确的气温预报在工农业生产、江河防凌防汛和工程管理等方面起着举足轻重的作用。常用的气温预报方法通常基于数值天气预报模型来开展未来一段时间气温模拟。然而,不同模式的预报结果和同一模式不同参数化方案的预报结果相互组合可形成几十甚至上百个预报成员,每个预报成员又不可避免存在一定误差,如何开展多个预报成员的集合订正,从而形成一个最准确的气温预报结果,是气温预报领域亟需解决的问题。目前,主要的气温预报集合订正方法包括等权重平均法、加权平均法、多元线性回归法等传统方法和人工神经网络模型、支持向量回归模型等机器学习方法。然而,一方面,气温预报的集合订正是一个复杂的非线性问题,传统的线性集合订正方法难以取得非常理想的效果;另一方面,虽然机器学习模型相比于传统的订正方法在处理非线性问题时具有更好的拟合能力,单一机器学习模型的学习和泛化能力仍然有限,往往导致不同气候背景下出现订正效果时好时坏的问题。
3.在业务预报中,采用上述任何单一方法进行气温预报的集合订正可能导致订正效果不稳定,即部分时段的气温预报集合订正效果较好,另一部分订正效果不佳。因此,实际工作中多需要依据前期订正情况动态选择和训练模型,极大地增加了预报集合订正的不确定性和工作量,限制了其在业务预报中的应用。


技术实现要素:

4.本发明的目的在于提供一种基于堆叠机器学习算法的短期气温预报集合订正方法,从而解决现有技术中存在的前述问题。
5.为了实现上述目的,本发明采用的技术方案如下:
6.一种基于堆叠机器学习算法的短期气温预报集合订正方法,包括如下步骤,
7.s1、气温平均态特征提取:
8.根据预报站点的历史实测气温数据,计算获取多年平均日气温,即气温平均态特征;
9.s2、面向窗口期长度的试验方案拟定:
10.分别设置多组窗口期长度,并以此为基础开展二层堆叠结构的机器学习模型的训练与验证;
11.s3、基于堆叠法的机器学习建模:
12.构建二层堆叠结构的机器学习模型,并以各窗口期长度为时间序列长度对模型进行训练与验证;
13.利用训练集划分的n份子训练集依次对模型第一层做空间n折交叉检验,并利用测
试集进行测试;将子训练集输出的预测值叠加后作为训练集的预测值,并将测试集输出的预测值取平均值后作为测试集的预测值;将获取的训练集的预测值和测试集的预测值分别作为训练集和测试集对模型的第二层进行训练与验证;
14.s4、模型及窗口期长度确定:
15.选择气温预报集合订正精度最高的训练好的二层堆叠结构的机器学习模型作为最优二层堆叠结构的机器学习模型;
16.s5、短期气温预报结果集合订正:
17.利用最优二层堆叠结构的机器学习模型和与其对应的窗口期长度开展短期气温预报。
18.优选的,步骤s1具体为,将预报站点的历史实测气温数据按照每年第1、2、3、

、365日统计,计算获取多年平均日气温,即为气温平均态特征;并对平均日气温进行标准化处理,即得到该站点365个标准化数据。
19.优选的,步骤s3具体包括如下内容,
20.s31、构建二层堆叠结构的机器学习模型:第一层包括两个基回归器,第二层包括一个元回归器;所述基回归器和元回归器均为基于机器学习的回归模型;
21.s32、基回归器的训练与验证:将窗口期的逐日预报、实测气温和气温平均态特征作为数据集,并将数据集划分为训练集和测试集,并进一步将训练集划分为n份子训练集;
22.针对第一层中的第一个基回归器,依次用n份子训练集做空间n折交叉检验,并在每一次交叉检验的同时用测试集进行测试,进而在整个训练集上由该基回归器输出n份预测值,并将这n份预测值纵向叠加后作为整个训练集的预测值,记为a1;相应的,针对测试集输出的n份预测值取平均值后记为b1;
23.针对第一层中的第二个基回归器,依次用n份子训练集做空间n折交叉检验,并在每一次交叉检验的同时用测试集进行测试,进而在整个训练集上由该基回归器输出n份预测值,并将这n份预测值纵向叠加后作为整个训练集的预测值,记为a2;相应的,针对测试集输出的n份预测值取平均值后记为b2;
24.训练过程中利用平均偏差作为评价指标,对训练好的基回归器的订正精度进行验证;
25.s33、元回归器的训练与验证:将a1和a2作为元回归器的训练集,将b1和b2作为元回归器的测试集,对元回归器进行训练;训练过程中利用平均偏差、相对误差、均方根误差、归一化标准差作为评价指标,对训练好的元回归器的订正精度进行验证。
26.优选的,步骤s32中基回归器进行空间k折交叉检验的具体过程为,
27.s321、将数据集等分为k等分,每一等份即为一折;
28.s322、利用第一折作为测试集,剩余折作为训练集,训练得到一个测试模型;以平均偏差作为评价指标,计算该测试模型的预测精度值;
29.s323、以此类推,将剩余折依次作为测试集,其余折作为训练集,训练得到多个测试模型;并以平均偏差作为评价指标,计算各个测试模型的预测精度值,即a1或a2;
30.s324、将所有预测精度值的平均值作为模型的最终精度,即b1或b2。
31.优选的,步骤s4具体为,选取训练和验证过程中气温预报集合订正精度最高的基回归器和元回归器构成最优二层堆叠结构的机器学习模型,并利用最优二层堆叠结构的机
器学习模型及其对应的窗口期开展业务预报的气温预报集合订正。
32.优选的,步骤s5具体为,将未来三日各产品气温预报数据和相应时段气温平均态输入最优二层堆叠结构的机器学习模型中,获取经集合订正后的逐日气温预报值。
33.优选的,s1之前还包括气温数据的收集与处理;具体为,
34.多源气温预报产品和实测气温数据收集:通过文献调研手段,选取预报站点气温预报效果好的气温预报产品集合,并收集该预报站点建站以来的实测气温数据;
35.预报和实测气温数据处理:提取预报站点处每类产品的气温预报数据和该站点对应时间序列的实测气温数据,并统计成逐日平均气温;并对预报和实测气温数据进行标准化处理。
36.本发明的有益效果是:1、克服现有气温预报订正方法难以在不同气候背景下实现气温预报稳定订正的问题,充分挖掘不同预报成员的优势,实现各个预报结果的最优集成,从而提升短期气温预报的准确性,降低预报不确定性,为相关的业务预报应用提供支撑。2、提升传统单一机器学习模型在气温预报集合订正领域的泛化能力,从而提升气温预报集合订正精度,为实现准确的气象预报提供关键信息。
附图说明
37.图1是本发明实施例中订正方法的原理流程图;
38.图2是本发明实施例中琼中站气温预报集合订正模型示意图;
39.图3是本发明实施例中琼中站基于线性回归模型、支持向量机模型、随机森林模型和堆叠机器学习模型的气温订正结果(℃)。
具体实施方式
40.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
41.实施例一
42.如图1所示,本实施例中,提供了一种基于堆叠机器学习算法的短期气温预报集合订正方法,包括如下步骤,
43.s1、气温平均态特征提取:根据预报站点的历史实测气温数据,计算获取多年平均日气温,即气温平均态特征;
44.s2、面向窗口期长度的试验方案拟定:分别设置多组窗口期长度,并以此为基础开展二层堆叠结构的机器学习模型的训练与验证;
45.s3、基于堆叠法的机器学习建模:构建二层堆叠结构的机器学习模型,并以各窗口期长度为时间序列长度对模型进行训练与验证;
46.s4、模型及窗口期长度确定:选择气温预报集合订正精度最高的训练好的二层堆叠结构的机器学习模型作为最优二层堆叠结构的机器学习模型;
47.s5、短期气温预报结果集合订正:利用最优二层堆叠结构的机器学习模型和与其对应的窗口期长度开展短期气温预报。
48.可以看出本发明主要包括五个步骤,在执行这五个步骤之前,需要进行气温数据
的收集与处理,下面分别这些内容进行说明:
49.一、气温数据的收集与处理
50.1、多源气温预报产品和实测气温数据收集
51.通过文献调研等手段,选取预报站点气温预报效果较好的气温预报产品集合;收集该预报站点建站以来的实测气温数据。
52.2、预报和实测气温数据处理
53.提取预报站点处每类产品的气温预报数据和该站点对应时间序列的实测气温数据,并统计成逐日平均气温,以便于两者之间进行对比。在此基础上,为避免因数据集波动范围过大而导致后续建模不稳定和模型收敛速度过慢的情况,对预报和实测数据进行标准化处理:
[0054][0055]
其中,x是任一系列的气温值,x
min
和x
max
分别是该系列中的最小值和最大值。
[0056]
二、气温平均态特征提取
[0057]
该部分对应步骤s1,具体的:气温数据具有时序依赖性,尤其是在具有明显气候特征的地区。为获得气温的平均态特征,将预报站点的历史实测气温数据按每年第1、2、3、

、365日统计,计算多年平均气温,即为气温平均态特征;同样根据第一部分的标准化处理方式对日平均气温进行标准化处理,即对该站点可以得到365个标准化数据。
[0058]
三、面向窗口期长度的试验方案拟定
[0059]
该部分对应步骤s2,具体的:为实现气温预报的最优集合订正,需要设定合适的窗口期。根据文献调研,分别设置若干组合适的窗口期长度,并以此为基础开展模型的训练与验证。
[0060]
四、基于堆叠法的机器学习建模
[0061]
该部分对应步骤s3,该部分具体包括如下内容:
[0062]
1、二层堆叠结构的机器学习模型
[0063]
本发明构建了二层堆叠结构的机器学习模型,如图2所示,第一层包括支持向量回归机模型和随机森林模型两个基回归器,第二层为基于人工神经网络模型的元回归器。基回归器和元回归器均为基于机器学习的回归模型。
[0064]
2、基回归器训练及验证
[0065]
二层堆叠结构的机器学习模型中,第一层包含支持向量回归机模型和随机森林模型两个基回归器,其训练所需数据为窗口期的逐日预报、实测气温和气温平均态特征。在此基础上,将全部数据划分为训练集和测试集,并进一步将训练集划分为n份。针对第一层里的单个基回归器支持向量回归机模型,依次用这n份子训练集做空间n折交叉检验,并在每一次交叉检验的同时对测试集进行测试,这样在整个训练集上最终由该基回归器输出n份预测值,纵向叠加后即为整个训练集的预测值,将其记为a1,相应的,针对测试集输出的n份预测值取平均后记为b1。同理,对于第一层的另一个基回归器随机森林模型模型进行与上相同的操作步骤,得到a2和b2。第一层里两个基回归器在训练集上得到的预测值a1、a2即为第二层元回归器的训练集。
[0066]
训练过程中利用平均偏差作为评价指标,对训练好的基回归器的订正精度进行验
证。
[0067]
各个基回归器进行空间k折交叉检验的具体过程为,
[0068]
(1)、将数据集等分为k等分,每一等份即为一折;
[0069]
(2)、利用第一折作为测试集,剩余折作为训练集,训练得到一个测试模型;以平均偏差作为评价指标,计算该测试模型的预测精度值;
[0070]
(3)、以此类推,将剩余折依次作为测试集,其余折作为训练集,训练得到多个测试模型;并以平均偏差作为评价指标,计算各个测试模型的预测精度值,即a1或a2;
[0071]
(4)、将所有预测精度值的平均值作为模型的最终精度,即b1或b2。
[0072]
3、元回归器训练及验证
[0073]
二层堆叠结构的机器学习模型中,第二层为基于人工神经网络的元回归器,其训练集和测试集分别为基回归器的特征a1、a2和b1、b2,以平均偏差、相对误差、均方根误差、归一化标准差等作为评价指标,训练元回归器并进行验证,得到订正后的气温预报结果。
[0074]
五、模型及窗口期长度确定
[0075]
该部分对应步骤s4,具体的:选取训练和验证过程中气温预报集合订正精度最高的基回归器和元回归器构成最优二层堆叠结构的机器学习模型,并利用最优二层堆叠结构的机器学习模型及其对应的窗口期开展业务预报的气温预报集合订正。
[0076]
六、短期气温预报结果集合订正
[0077]
该部分对应步骤s5,具体的:将未来三日各产品气温预报数据和相应时段气温平均态输入最优二层堆叠结构的机器学习模型中,获取经集合订正后的逐日气温预报值。
[0078]
实施例二
[0079]
本实施例中,以海南省琼中气象站处的气温预报逐日集合订正为例,对本发明所述方法进行说明:
[0080]
一、气温数据的收集与处理
[0081]
1、多源气温预报产品和实测气温数据收集
[0082]
通过文献调研等手段,获取预报琼中站气温预报效果较好的气温预报产品,包括ecmwf、ncep、cma、jma等4个中心的预报数据,从90日前至当日共计90组预报数据,这些数据每天08:00发布,时间步长6h,预见期为3天,分辨率为0.25
°
。利用wgrib.exe工具对下载的grib2格式的文件进行解析,获取琼中站所在网格的2m气温数据;收集琼中站自1980年至2019年的逐日实测气温数据。
[0083]
2、预报和实测气温数据处理
[0084]
提取预报站点处每类产品的气温预报数据和该站点对应时间序列的实测气温数据。其中,预报产品记录了每个栅格的逐6h平均气温,均按utc时间00时至次日00时统计成逐日平均气温,如下式所示:
[0085][0086]
其中:ti是琼中站每日第i个时段的时段平均气温预报值,t为琼中站逐日平均气温预报值。
[0087]
在此基础上,对预报和实测数据进行标准化处理:
[0088][0089]
其中:x是琼中站气温预报值和实测值,x
min
和x
max
分别是该系列中的最小值和最大值。
[0090]
二、气温平均态特征提取
[0091]
为获得气温的平均态特征,将琼中站的逐日实测气温数据按1980-2019年第1、2、3、

、365日统计,计算40年的平均日气温,即为气温平均态特征;同样根据第二步对日平均气温进行标准化处理,即对琼中站可以得到365个标准化数据。
[0092]
三、面向窗口期长度的试验方案拟定
[0093]
为实现气温预报的最优集合订正,需要设定合适的窗口期。根据文献调研,分别设置3、7、10、20、30、60、90等7组窗口期长度,并以此为基础开展堆叠机器学习模型的训练与验证。
[0094]
四、基于堆叠法的机器学习模型建模
[0095]
1、二层堆叠结构的机器学习模型
[0096]
编写python代码,导入rf、svr、neuralnetwork程序包,构建二层堆叠结构的机器学习模型,第一层基回归器选择支持向量回归机和随机森林模型两个回归模型,第二层元回归器选择人工神经网络模型(如图2所示)。其中,支持向量回归是一个典型的统计学习方法,其通过对历史预报气温的误差样本进行学习,进而实现对未来气温预报误差的预测,其基本思路是通过一个非线性的核函数,将气温预报集合订正这一非线性问题转化为高维空间中的线性问题;随机森林模型采用集成学习对单个弱预测器进行优化从而提高预测的精度,其主要思路为通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能,且不易产生过拟合问题,最终获得更好的气温预报集合订正能力;人工神经网络能通过对各神经元节点的数学运算进行叠加而获得复杂的非线性映射能力,通常包含输入层、输出层以及中间的隐藏层,每一层都有数目一定的神经元。其中输入层主要用于接受上一层模型的输出特征,不参与计算;隐藏层接收来自输入层的信息并提取特征;最后输出层根据隐藏层神经单元不同的权重和自身的偏置输出最终的气温预报集合订正结果。
[0097]
2、基回归器训练及验证
[0098]
第一层包含支持向量回归机和随机森林模型两个基回归器,其训练所需数据为窗口期的逐日预报、实测气温和气温平均态特征。在此基础上,将全部数据划分为训练集和测试集,并进一步将训练集划分为n份,开展基回归器的训练和验证。其中,支持向量回归机的训练参数包括核函数类型、惩罚因子、容许误差等;随机森林模型的训练参数包括提升参数、叶子数目等;人工神经网络的训练参数包括隐含层数目、神经元数目、激励函数等。
[0099]
针对支持向量回归机,依次用这n份子训练集做空间四折交叉检验,并在每一次交叉检验的同时对测试集进行测试。这样在整个训练集上最终由该基回归器会输出4份预测值,纵向叠加后即为整个训练集的预测值,将其记为a1。相应地,针对测试集输出的4份预测值取平均后记为b1。同理,对于另一个基回归器随机森林模型进行以上相同操作步骤,得到a2和b2。第一层里两个基回归器在训练集上得到的预测值a1、a2即为第二层元回归器的训练集。
[0100]
其中,采用4折交叉验证对模型进行训练与验证的具体步骤如下:
[0101]
(1)将数据集等分成4等份,每一等份即为一折;
[0102]
(2)利用第1折作为测试集,剩余的2到4折作为训练集,训练得到一个测试模型,本实施例以平均偏差b为评价指标,计算该模型的预测精度值,其公式为:
[0103][0104]
其中,si为经集合订正后的气温预报值,oi为气温实测值,n为测试集长度。
[0105]
(3)以此类推,第i(i=2,3,4,)折作为测试集,其余部分作为训练集,训练出多个测试模型,并得出各个模型的预测精度,即a1或a2;
[0106]
(4)取所有预测精度的平均值为模型最终精度,即b1或b2。
[0107]
3、元回归器训练及验证
[0108]
第二层为基于人工神经网络的元回归器,其训练集和测试集分别为基回归器的特征a1、a2和b1、b2,以平均偏差、相对误差、均方根误差、归一化标准差等为评价指标,训练得到元回归器并进行验证,得到订正后的气温预报结果。
[0109]
五、模型及窗口期长度确定
[0110]
以第三部分中各窗口期长度为时间序列长度,重复第四部分内容开展堆叠机器学习模型的训练与验证,选择气温预报集合订正精度最高的模型和窗口期开展业务预报的气温预报集合订正。
[0111]
六、短期气温预报结果集合订正
[0112]
将未来3日各产品气温预报数据和相应时段气温平均态输入气温预报集合订正模型,利用训练得到的模型得到琼中站集合订正后的逐日气温预报值,并与采用相同训练集训练得到的线性回归模型、支持向量机模型和随机森林模型的订正结果进行对比,如图3所示。结果表明,通过构建二层堆叠结构的机器学习模型,集合平均结果、单独使用支持向量机和单独使用随机森林模型的气温预报分别为误差21%、9%、7%,利用二层堆叠结构的机器学习模型订正后的误差降低为5%,表明基于堆叠机器学习模型的短期气温预报集合订正方法相比传统线性方法和机器学习方法有效地降低了气温预报误差,提高了短期气温预报精度。
[0113]
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
[0114]
本发明提供了一种基于堆叠机器学习算法的短期气温预报集合订正方法,本方法克服现有气温预报订正方法难以在不同气候背景下实现气温预报稳定订正的问题,充分挖掘不同预报成员的优势,实现各个预报结果的最优集成,从而提升短期气温预报的准确性,降低预报不确定性,为相关的业务预报应用提供支撑。本方法提升传统单一机器学习模型在气温预报集合订正领域的泛化能力,从而提升气温预报集合订正精度,为实现准确的气象预报提供关键信息。
[0115]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1