热带气旋强度预报信息的生成方法及系统与流程

文档序号:21644922发布日期:2020-07-29 02:58阅读:270来源:国知局
热带气旋强度预报信息的生成方法及系统与流程
本发明涉及气象信息处理
技术领域
,特别是涉及一种热带气旋强度预报信息的生成方法及系统。
背景技术
:热带气旋是重要的灾害性天气系统之一,其可以造成严重的经济损失。为此为了能够解决热带气旋强度预报问题,研究人员建立了各种预报方法、其中最常见的是天气持续预报、动力预报、统计动力预报、集合预报等方法。统计动力预报的预报误差小于数值模拟预报的误差,然而,统计动力预报并不能解决所有的问题,通常会出现较大的偏差。虽然现在也有采用基于机器学习的热带气旋统计动力强度预测的方法,但是,其也存在较多难点问题,如因为机器学习模型自身的缺陷。可见,现有的针对热带气旋强度的预测方案都存在预报准确率低的问题。技术实现要素:针对于上述问题,本发明提供一种热带气旋强度预报信息的生成方法及系统,实现了提高预报准确率的目的。为了实现上述目的,本发明提供了如下技术方案:一种热带气旋强度预报信息生成方法,所述方法包括:按照不同数据维度获取待处理数据;对所述待处理数据进行预处理,得到初始数据,所述初始数据包括气候持续特征因子、环境特征因子、头脑风暴特征因子;+利用预设预报模型对所述初始数据进行预测,得到热带气旋强度预报信息,所述预报模型表征通过训练样本训练得到的模型,所述训练样本与所述初始数据相匹配。可选地,所述初始数据包括气候持续特征因子,所述对所述待处理数据进行预处理,得到初始数据,包括:获取待处理数据中的热带气旋数据;根据当前时刻与预设时间差确定的时间信息,对所述热带气旋数据进行预报因子的数据构造,得到气候持续特征因子。可选地,所述初始数据包括环境特征因子,所述对所述待处理数据进行预处理,得到初始数据,包括:获取所述待处理数据中的环境信息;采用预设构建模式对所述环境信息进行构造,得到环境特征因子,所述预设构建模式表征能够使确定环境信息中各个属性信息的关系的处理模型。可选地,所述方法还包括创建预报模型,包括:获取样本数据,所述样本数据包括气候持续特征因子、环境特征因子和头脑风暴特征因子;对所述样本数据进行验证,获得目标样本数据,所述目标样本数据的每条样本包括满足特定条件的参数;对所述目标样本数据进行训练,得到预报模型。可选地,所述预测模型包括xgboost模型,所述利用预设预报模型对所述初始数据进行预测,得到热带气旋强度预报信息,包括:根据所述目标样本数据生成分类回归树;利用所述xgboost模型和所述分类回归树,对所述初始数据进行训练,得到热带气旋强度预报信息。一种热带气旋强度预报信息生成系统,所述系统包括:获取单元,用于按照不同数据维度获取待处理数据;预处理单元,用于对所述待处理数据进行预处理,得到初始数据,所述初始数据包括气候持续特征因子、环境特征因子、头脑风暴特征因子;预测单元,用于利用预设预报模型对所述初始数据进行预测,得到热带气旋强度预报信息,所述预报模型表征通过训练样本训练得到的模型,所述训练样本与所述初始数据相匹配。可选地,所述预处理单元包括:第一获取子单元,用于获取待处理数据中的热带气旋数据;第一构造子单元,用于根据当前时刻与预设时间差确定的时间信息,对所述热带气旋数据进行预报因子的数据构造,得到气候持续特征因子。可选地,所述预处理单元包括:第二获取子单元,用于获取所述待处理数据中的环境信息;第二构造子单元,用于采用预设构建模式对所述环境信息进行构造,得到环境特征因子,所述预设构建模式表征能够使确定环境信息中各个属性信息的关系的处理模型。可选地,所述系统还包括创建单元,用于创建预报模型,所述创建单元包括:样本获取子单元,用于获取样本数据,所述样本数据包括气候持续特征因子、环境特征因子和头脑风暴特征因子;验证子单元,用于对所述样本数据进行验证,获得目标样本数据,所述目标样本数据的每条样本包括满足特定条件的参数;训练子单元,用于对所述目标样本数据进行训练,得到预报模型。可选地,所述预测模型包括xgboost模型,所述预测单元具体用于:根据所述目标样本数据生成分类回归树;利用所述xgboost模型和所述分类回归树,对所述初始数据进行训练,得到热带气旋强度预报信息。相较于现有技术,本发明提供了一种热带气旋强度预报信息生成方法及系统,按照不同数据维度获取待处理数据,对所述待处理数据进行预处理,得到初始数据,利用预设预报模型对初始数据进行预测,得到热带气旋强度预报信息。由于初始数据包括气候持续特征因子、环境特征因子、头脑风暴特征因子,可以充分利用对热带气旋的影响因素,并结合预设的预报模型对热带气旋强度预报信息进行预测,使得预测处理更加智能化和客观化,完善了热带气旋预报系统,提高预报准确率。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本发明实施例提供的一种热带气旋强度预报信息生成方法的流程示意图;图2为本发明实施例提供的一种数据处理流程的示意图;图3为本发明实施例提供的一种热带气旋强度预报信息生成系统的结构示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。在本发明实施例中提供了一种热带气旋强度预报信息生成方法,参见图1,该方法可以包括以下步骤:s101、按照不同数据维度获取待处理数据。其中,待处理数据表征了当前获得的气象数据,即可以根据该气象数据进行热带气旋强度的预报。为了能够便于对数据的处理和分析,可以根据不同数据维度进行数据获取。例如,可以根据气象数据维度、环境数据维度、经验数据维度等。s102、对待处理数据进行预处理,得到初始数据。由于获取到的待处理数据可能存在格式不统一,或者时间维度不准确等问题,需要对数据进行预处理。并且由于初始数据需要输入到预报模型进行预测,也需要对待处理数据进行预处理,使得构造成该模型可以处理的数据。经过处理后得到的初始数据包括:气候持续特征因子、环境特征因子、头脑风暴特征因子。其中,气候持续特征因子表征根据气候信息构造的特征因子,环境特征因子表征根据环境信息构造的特征因子,头脑风暴特征因子表征根据专家共识得到的特征因子。s103、利用预设预报模型对初始数据进行预测,得到热带气旋强度预报信息。其中,预报模型是根据训练样本训练得到的模型,可以用来对热带气旋强度预报信息进行预测。并且该模型的训练样本与初始数据相匹配的,使得可以将初始数据输入到预报模型,得到预报信息。本发明提供了一种热带气旋强度预报信息生成方法,按照不同数据维度获取待处理数据,对所述待处理数据进行预处理,得到初始数据,利用预设预报模型对初始数据进行预测,得到热带气旋强度预报信息。由于初始数据包括气候持续特征因子、环境特征因子、头脑风暴特征因子,可以充分利用对热带气旋的影响因素,并结合预设的预报模型对热带气旋强度预报信息进行预测,使得预测处理更加智能化和客观化,完善了热带气旋预报系统,提高预报准确率。下面对本发明实施例中的数据处理和预测过程进行详细说明。在本发明中的基础数据即对模型训练的样本数据可以来源于现有已公开数据。例如,可以从中国气象局下载1979-2017年太平洋地区的cma-sti最佳路径数据集。数据集包括纬度、经度、2分钟平均最大持续风(靠近热带气旋中心)、强度类别和最小压力(靠近热带气旋中心)。此外,在本发明中的西北太平洋的热带气旋定义为已经通过或在西北太平洋区域生成的热带气旋。热带气旋必须至少有48小时的生命史。研究的区域范围赤道以北,东经180°以西。欧洲中期天气预报中心era再分析资料,下载1979-2017年西北太平洋地区的再分析资料,包括:在200,250,300,350,400,450,500,700,750,775,800,825与850hpa的相对湿度、纬向风、经向风、相对涡度、发散度与温度属性。基于xgboost模型预报热带气旋统计动力强度的预报方案。数据主要有气候持续因子与环境因子,气候持续因子(来自中国气象局得到的最佳路径数据集)与环境因子(来自欧洲中期天气预报中心era再分析资料得到的大气与海洋的数据集)。参见图2,其示出了发明实施例提供的一种数据处理流程的示意图。在图2中数据的处理流程,包括了数据处理,得到预报因子,模型参数调整,运行模型得到预测结果。具体的:当初始数据包括气候持续特征因子时,对待处理数据进行预处理,得到初始数据,包括:获取待处理数据中的热带气旋数据;根据当前时刻与预设时间差确定的时间信息,对所述热带气旋数据进行预报因子的数据构造,得到气候持续特征因子。根据气候持续性预报方法,根据上述热带气旋路径样本数据中的热带气旋当前时刻及距当前时刻的时间差为6h、12h、18h和24h的热带气旋数据进行预报因子的构造,具体构造出72个可能影响热带气旋的气候持续特征因子,并生成一个单独的样本文件进行存储。需要说明的是,气候持续特征因子携带有时效性,即可以根据希望达到的预测时效,来构造相应的气候持续特征因子。预测时效,也即上述的设定时长,可以根据需求而灵活设定。在本发明实施例中,具体构造72个可能影响热带气旋的气候持续特征因子,具体如表1所示:表1气候特征预报因子因子代号所代表的实际意义v1、v2、v3、v4当前时刻的纬度,经度,中心气压,中心最大风速v5、v6、v7、v8前6h时刻的纬度,经度,中心气压,中心最大风速v9、v10、v11、v12前12h时刻的纬度,经度,中心气压,中心最大风速v13、v14、v15、v16前18h时刻的纬度,经度,中心气压,中心最大风速v17、v18、v19、v20前24h时刻的纬度,经度,中心气压,中心最大风速v21、v22、v23、v24当前时刻与前6h,12h,18h,24h时刻纬度差v25、v26、v27、v28当前时刻与前6h,12h,18h,24h时刻经度差v29、v30、v31、v32当前时刻与前6h,12h,18h,24h时刻气压差v33、v34、v35、v36当前时刻与前6h,12h,18h,24h时刻中心风速差v37、v38、v39、v40当前时刻与前6h,12h,18h,24h时刻纬向移速v41、v42、v43、v44当前时刻与前6h,12h,18h,24h时刻经向移速v45、v46、v47、v48当前时刻与前6h,12h,18h,24h时刻合成移速v49、v50、v51、v52当前时刻与前6h,12h,18h,24h时刻纬向加速度v53、v54、v55、v56当前时刻与前6h,12h,18h,24h时刻经向加速度v57、v58、v59、v60当前时刻与前6h,12h,18h,24h时刻合成加速度v61、v62、v63、v64当前时刻与前6h,12h,18h,24h时刻纬向位移v65、v66、v67、v68当前时刻与前6h,12h,18h,24h时刻经向位移v69、v70、v71、v72当前时刻与前6h,12h,18h,24h时刻合成位移当所述初始数据包括环境特征因子,所述对所述待处理数据进行预处理,得到初始数据,包括:获取所述待处理数据中的环境信息;采用预设构建模式对所述环境信息进行构造,得到环境特征因子,所述预设构建模式表征能够使确定环境信息中各个属性信息的关系的处理模型。在环境预报因子的选择上,根据国际上传统的统计动力模型的预报因子,从数值预报模式的输出结果中选择相对湿度、纬向风、经向风、相对涡度、发散度与温度属性,利用“完全预报”(perfectprog)方法,构造24个可能影响热带气旋的环境因子,作为选入模型的预报因子。环境因子都来自欧洲中期天气预报中心的再分析资料。资料是1°*1°,时刻是6-h间隔。环境因子选取相对湿度、纬向风、经向风、相对涡度、发散度、与温度属性在200,250,300,350,400,450,500,700,750,800,850hpa。发散度,相对湿度在每个网格都被计算,利用风场信息与中心的不同方法。所有环境预报因子都是平均每个不同半径的平均数据。从era再分析数据集中选择的海表温度按照1979-2017年的最佳路径插入到热带气旋中心,以确定海表温度和强度之间的关系。计算得到的关系公式为(mpi=a+bec(t-t_0)),a=18.42m/s,b=51.47m/s,c=0.09687℃-1,t0=30.0℃。最大的mpi是80m/s。表2环境预报因子在建立预报模型时,需要对每一个特征进行分析,这个分析过程即为特征工程。特征工程是包含特征提取和特征选择的一组活动的超集。每一步都是重要的一步,不应忽视。可以概括其重要性;根据经验,步骤的相对重要性将遵循以下顺序:特征构造>特征提取>特征选择。为了从原始数据中提取特征而不考虑它们的重要性,头脑风暴因子与特征构造相对应。头脑风暴是指自发的小组讨论,目的是解决问题或提出好的想法。为了准确预测热带气旋强度,本发明从大量文献研究中提取了几个关键特征。传统的统计台风强度预测方案中的潜在预测因子包括几个二次项和余弦函数。因此,该方案中包括当前时间纬度的余弦、当前时间热带气旋中心附近2分钟平均最大持续风的平方、当前时间热带气旋中心附近2分钟平均最大持续风的立方等。参照表3列出了59个头脑风暴因子。表3头脑风暴预报因子对应的,在本发明实施例中还提供了一种创建预报模型的方法,该方法可以包括:获取样本数据,所述样本数据包括气候持续特征因子、环境特征因子和头脑风暴特征因子;对所述样本数据进行验证,获得目标样本数据,所述目标样本数据的每条样本包括满足特定条件的参数;对所述目标样本数据进行训练,得到预报模型。其中,对样本数据进行验证可以通过特定的函数选择最佳的参数组合,使得模型的训练更加准确。对应的,所述预测模型包括xgboost模型,所述利用预设预报模型对所述初始数据进行预测,得到热带气旋强度预报信息,包括:根据所述目标样本数据生成分类回归树;利用所述xgboost模型和所述分类回归树,对所述初始数据进行训练,得到热带气旋强度预报信息。下面具体对预报模型进行说明。本发明中以xgboost模型为例进行说明。xgboost模型可以用于预测能量消耗、十字路口的交通量、图像分类等场景。xgboost模型结合m个分类回归树表示为{t1(xi,yi)…tm(xi,yi)}训练的与xi是热带气旋相关的预报因子预报未来的强度(y’i):fm是一个树,f代表cart的空间,为了避免模型的过拟合,所以可以使用正则化,公式如下表示:其中,l代表损失函数,损失函数是实际结果yi与预报结果y’i的差异,τ代表一个正则化参数。n表示叶子节点数据,α是叶子节点得分,和θ是用来描述正则化的水平。除了使用正则项,子采样也可以阻止过拟合。在xgboost模型中,预报过程中,加入每个树的结果可以获取最后的树,即最终的xgboost模型。需要决定每个树的参数(ft),包括树的结构与每个叶子节点的分数。训练方法在给定时间将树的结果添加到模型中。预报值(yi(t))在t步获取算法的过程:选择最优树,实现每一步的优化效果:二阶泰勒展开出现在上式中:表示损失函数的第一次导数,表示损失函数的第二次导数。通过删除常数,得到步骤t的方程如下:添加正则项添加正则项到损失函数。代入目标函数,按如下顺序排列:最大的参数θ和是最好的树,ij={|iq(xi)=j}是叶子节点j的距离,q(x)是优化的叶子节点权重,为最佳目标函数。与在实际应用中达到这个效果比较困难。因此,选层一层树进行优化,计算节点拆分前后的增益,并选择增益最大的点作为拆分点。在xgboost算法中,如果一个节点被划分为两个叶节点,则分数增益如下:il与ir拆分后显示左右节点的实例数据集,i=iluir。在影响热带气旋强度的诸多因素中,很难选择最佳的预测因子。但是,xgboost模型能够完成这项任务。它有多种可调参数。将此实验的范围限制为使用rstudio执行xgboost。eta参数减少了特征的权重,使计算过程更为保守,防止过度拟合,并在更新过程中使用收缩步骤。gamma参数是对树的叶节点进行进一步分区所需的最小损失减少。max_depth参数表示子树的最大深度。min_child_weight参数显示子级中所需实例权重的最小和。子样本表示观察到的子样本的比率。colsample字节树参数表示用于构造每棵树的变量的比率。由于提取的热带气旋样本数据库为二维矩阵,选取xgboost模型能够准确的预测二维矩阵数据,但采用梯度下降法优化目标函数时难以一次性训练所有树结果,因此利用粒子群算法寻找的最优结果。选取最佳路径数据集作为初始样本,并填充缺省值,生成可以使用的数据集;建立k棵回归树与目标函数,利用粒子群算法确定最优节点及最小的损失函数以此依据进行树分裂;直到达到树的最大深度停止迭代,即可得到最基本的模型,之后进一步优化,预报数据输出结果。xgboost为boosting型树类算法,能进行多线程并行计算,通过一次次迭代生成一代代新的树,实际上是把很多分类性能较低的弱学习器组合成一个准确率高的强学习器,每个决策树可能没有良好的分类效果,但是多个分类的结果肯定会得到更准确的预测。xgboost最根本就是建立k棵回归树,使得准确率高、泛化性好、预测误差尽量小,叶子节点尽量少的目标函数才能训练出更好的模型,利用粒子群优化及二次最优化确定最优节点及最小的损失函数,以此为依据进行树分裂,得到小树苗,接下来按照上述方式继续分裂,并继续形成新树,根据之前的预测每次都会建立最优的树,当达到做大深度时停止迭代;此时得到了最基本的模型,之后使用栅格搜索等方法对集中参数进行优化。选择相关系数(cc)、平均绝对误差(mae)和归一化均方根误差(nrmes;以百分比表示)作为评估xgboost模型在训练和测试阶段能力的参数。θobs,i是第i个样本的观测值,θfore,i是第i个样本的预报值。n是所有预报样本的个数,是观测值的平均值,是预测值的平均值。在模型中,输入参数是气候持续因子、环境因子与头脑风暴因子。输出因子为预报时效为6,12,18,24小时的热带气旋强度。因为参数设置对于运行xgboost非常重要,所以我们使用expand.grid()函数来选择参数的最佳组合。当eta、gamma、max-depth、min-child-weight、subsample和colsample-bytree分别为(0.01、0.1、1)、(0.1、0.5、0.8)、(2、4、6、8)、(2、4、8)、0.8和0.95时,获得了xgboost的最佳执行率。此设置导致108个参数组合。对于1979-2005年的训练样本,采用交叉验证方法获得最佳参数组合。表4输入的因子预报因子描述pf持续因子(20)cf气候因子(52)bf头脑风暴因子(59)mon热带气旋月份ic强度标记ef环境因子(24)例如,使用一个bpnn来预测相同样本输入参数下的热带气旋强度。bpnn方法24小时结果为4.57m/s。本发明的模型的24小时提前期mae为3.70m/s。xgboost模型的预测结果优于具有相同样本要求的bpnn模型。与人工神经网络相比,xgboost模型具有训练过程简单、计算机处理成本低、收敛速度快等优点。因此,使用xgboost模型预测热带气旋强度是非常有利的。因此,这一发现支持在24小时内使用xgboost模型作为一种新的热带气旋强度预测方法进行预测。表5对比结果方法输入参数mae(m/s)xgboostmodel气候持续因子、环境因子与头脑风暴因子3.70bpnnmodel气候持续因子、环境因子与头脑风暴因子4.57对应的,参见图3,在本发明实施例中还提供了一种热带气旋强度预报信息生成系统,该系统包括:获取单元10,用于按照不同数据维度获取待处理数据;预处理单元20,用于对所述待处理数据进行预处理,得到初始数据,所述初始数据包括气候持续特征因子、环境特征因子、头脑风暴特征因子;预测单元30,用于利用预设预报模型对所述初始数据进行预测,得到热带气旋强度预报信息,所述预报模型表征通过训练样本训练得到的模型,所述训练样本与所述初始数据相匹配。在上述实施例的基础上,所述预处理单元包括:第一获取子单元,用于获取待处理数据中的热带气旋数据;第一构造子单元,用于根据当前时刻与预设时间差确定的时间信息,对所述热带气旋数据进行预报因子的数据构造,得到气候持续特征因子。在上述实施例的基础上,所述预处理单元包括:第二获取子单元,用于获取所述待处理数据中的环境信息;第二构造子单元,用于采用预设构建模式对所述环境信息进行构造,得到环境特征因子,所述预设构建模式表征能够使确定环境信息中各个属性信息的关系的处理模型。在上述实施例的基础上,所述系统还包括创建单元,用于创建预报模型,所述创建单元包括:样本获取子单元,用于获取样本数据,所述样本数据包括气候持续特征因子、环境特征因子和头脑风暴特征因子;验证子单元,用于对所述样本数据进行验证,获得目标样本数据,所述目标样本数据的每条样本包括满足特定条件的参数;训练子单元,用于对所述目标样本数据进行训练,得到预报模型。在上述实施例的基础上,所述预测模型包括xgboost模型,所述预测单元具体用于:根据所述目标样本数据生成分类回归树;利用所述xgboost模型和所述分类回归树,对所述初始数据进行训练,得到热带气旋强度预报信息。本发明提供了一种热带气旋强度预报信息生成系统,获取单元按照不同数据维度获取待处理数据,预处理单元对所述待处理数据进行预处理,得到初始数据,预测单元利用预设预报模型对初始数据进行预测,得到热带气旋强度预报信息。由于初始数据包括气候持续特征因子、环境特征因子、头脑风暴特征因子,可以充分利用对热带气旋的影响因素,并结合预设的预报模型对热带气旋强度预报信息进行预测,使得预测处理更加智能化和客观化,完善了热带气旋预报系统,提高预报准确率。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1