基于集成学习的强对流天气持续时间预报方法与流程

文档序号:19941313发布日期:2020-02-14 23:11阅读:276来源:国知局

本发明涉及天气预报技术领域,尤其涉及基于集成学习的强对流天气持续时间预报方法。



背景技术:

天气预报(测)或气象预报(测)是使用现代科学技术对未来某一地点地球大气层的状态进行预测。从史前人类就已经开始对天气进行预测来相应地安排其工作与生活(比如农业生产、军事行动等等)。今天的天气预报主要是使用收集大量的数据(气温、湿度、风向和风速、气压等等),然后使用目前对大气过程的认识(气象学)来确定未来空气变化。由于大气过程的混乱以及今天科学并没有最终透彻地了解大气过程,因此天气预报总是有一定误差的。

常规预报方法,预报员利用天气学方法制作出来的,但准确度不高。另外还有一些算法虽然从不同角度来提高强对流天气预测准确率,但往往采用单一预测算法。在实际应用中,由于地域的不同,不同时空和不同季节对数据处理的要求也是不同的。这种单一的算法预报模型不能反映出数据的动态变化特征,导致预报的稳定性一般较差。



技术实现要素:

基于背景技术存在的技术问题,本发明提出了基于集成学习的强对流天气持续时间预报方法。

本发明提出的基于集成学习的强对流天气持续时间预报方法,包括以下步骤:

s1,数据源选取:选择预报地区的地面气象站资料以及离预报地区最近的两个探空站资料;

s2,数据预处理:剔除错误及缺测资料,根据计算出的相关强对流预报参数作为输入,选择每次强队流天气持续的时间作为输出,当天没有出现强对流天气则认为时间为0,对预报参数即输入作归一化处理;

s3,机器学习算法选择:选用k最近邻算法、多项式回归算法、决策树算法、神经网络算法;

s4,集成学习执行流程:将归一化后的气象特征数据作为输入,采用交叉验证的方式来训练数据,将数据分为10份,对于每一个算法,将前9份用来训练和验证,最后一份用来测试和对模型评分,将前9份数据用来训练的过程中,每次取8份用来训练模型,取1份用来验证模型准确率,根据此规则,每个算法开始都将得到9个模型和9个模型评分,选评分最高的,用来测试最后一份数据,并把测试得分作为此算法的最终得分;根据上述的模型训练方法和评分标准,对于每一个算法会训练出9个模型,根据每个模型得分,选出一个最优模型;四个算法各有一个最优模型,根据最开始划分的最后一份测试数据,对四个算法的最优模型进行测试,根据测试得分,选最优两个的两个算法作为最终算法,并结合这两个算法,将它们预测结果求和再平均,得到集成学习的预报结果。

优选地,所述相关强对流预报参数包括整层比湿积分、a指数、k指数、修正k指数、总指数、修正总指数、对流有效位能、对流凝结温度、自由抬升对流温度、0—3km垂直风矢量差、强天气威胁指数、700hpa比湿、700hpa相对湿度、850hpa比湿、850hpa相对湿度、地面露点温度。

优选地,所述归一化处理采用均值方差归一化,将所有用作输入的数据归一到均值为0方差为1的分布中。

优选地,所述k最近邻算法在气象要素的变动是在一个稳定的范围内,即呈现出连续形态的情况下使用。

优选地,所述多项式回归算法在气象预报涉及要素多,所有的要素和结果很难呈线性关系的情况下使用。

优选地,所述决策树算法在强对流天气过程的产生中,每一种气象要素都起着或多或少的作用的情况下使用。

优选地,所述神经网络算法在对于强对流天气持续时间和当天的气象要素的复杂关系的情况下使用。

优选地,所述模型评分采用s=0,β≥2α公式计算,s代表模型的一个样本得分,α代表一个预测样本的真值,β代表一个预测样本的预测值,β是一个大于等于0的数,若计算出来β小于0,则认为它为0;对于一份包含若干个样本的数据,采用s求和再取平均的方式来得到某个模型的得分。

本发明主要用强对流天气发生当天的各种气象要素来推测强对流天气可能会持续的时间,将k最近邻算法、多项式回归算法、决策树算法、神经网络算法这四种算法进行适当综合,且采用交叉验证方式来训练模型,在模型的训练过程中对所有训练数据即各种气象要素比起传统预报方法都会有更好的考量,同时结合四个算法训练出来的最优模型,能够得出比单个算法模型更精确的计算结果。

具体实施方式

下面结合具体实施例对本发明作进一步解说。

本发明提出的基于集成学习的强对流天气持续时间预报方法,包括以下步骤:

s1,数据源选取:选择预报地区的地面气象站资料以及离预报地区最近的两个探空站资料;

s2,数据预处理:剔除错误及缺测资料,根据计算出的相关强对流预报参数作为输入,选择每次强队流天气持续的时间作为输出(单位为分),当天没有出现强对流天气则认为时间为0,对预报参数即输入作归一化处理;

s3,机器学习算法选择:选用k最近邻算法、多项式回归算法、决策树算法、神经网络算法;

s4,集成学习执行流程:将归一化后的气象特征数据作为输入,这样可避免不同量纲数据对模型的影响,将强对流天气持续时间作为输出。采用交叉验证的方式来训练数据,能够得到更好的训练模型,将数据分为10份,对于每一个算法,将前9份用来训练和验证,最后一份用来测试和对模型评分,将前9份数据用来训练的过程中,每次取8份用来训练模型,取1份用来验证模型准确率,根据此规则,每个算法开始都将得到9个模型和9个模型评分,选评分最高的,用来测试最后一份数据,并把测试得分作为此算法的最终得分;根据上的模型训练方法和评分标准,对于每一个算法会训练出9个模型,根据每个模型得分,选出一个最优模型;四个算法各有一个最优模型,根据最开始划分的最后一份测试数据,对四个算法的最优模型进行测试,根据测试得分,选最优两个的两个算法作为最终算法,并结合这两个算法,将它们预测结果求和再平均,得到集成学习的预报结果。

因为是四个算法模型采用交叉验证方式来训练模型,充分考虑每种算法的长处和每份样本数据的特征值和其输出值,所以排除了可能因为算法单一和随机不均匀造成的各种过拟合情况,提高了模型整体的泛化能力,在对新的未经训练过的数据集进行训练时,也能表现出更好的预测能力。在模型的训练过程中对有训练数据即各种气象要素比起传统预报方法都会有更好的考量。同时,按照上方法结合四个算法训练出来的最优模型得出最终结果能比传统单个算法模型更准确。

具体地,相关强对流预报参数包括整层比湿积分、a指数、k指数、修正k指数、总指数、修正总指数、对流有效位能、对流凝结温度、自由抬升对流温度、0—3km垂直风矢量差、强天气威胁指数、700hpa比湿、700hpa相对湿度、850hpa比湿、850hpa相对湿度、地面露点温度。

具体地,归一化处理采用均值方差归一化,将有用作输入的数据归一到均值为0方差为1的分布中,这样可提高机器学习算法的运行效率和准确率。

具体地,k最近邻算法在气象要素的变动是在一个稳定的范围内,即呈现出连续形态的情况下使用。分配给预测点的标签数值是根据其最近邻居标签数值的平均值计算的;

多项式回归算法在气象预报涉及要素多,有的要素和结果很难呈线性关系的情况下使用。在机器学习中,一个常见的模式是针对数据进行线性函数的训练,但这种方法是假设数据呈线性关系的。而现实生活中,数据间的关系大多是非线性形式的,只有添加多项式特征才能将数据很好的拟合出来,多项式回归正好可以解决这类问题;

决策树算法在强对流天气过程的产生中,每一种气象要素都起着或多或少的作用的情况下使用。决策树是一种用于分类和回归的非参数监督学习方法。目标是创建一个模型,通过学习从数据特征推断出的决策规则来预测目标变量的值;

神经网络算法在对于强对流天气持续时间和当天的气象要素的复杂关系的情况下使用。要处理的是相对少量数值预报,以这里采用多层感知器这种轻量的神经网络进行预测。多层感知器能处理更加复杂的非线性问题,它对非线性数据的拟合能力更强。

具体地,模型评分采用s=0,β≥2α公式计算,s代表模型的一个样本得分,α代表一个预测样本的真值,β代表一个预测样本的预测值,β是一个大于等于0的数,若计算出来β小于0,则认为它为0。对于一份包含若干个样本的数据,采用s求和再取平均的方式来得到某个模型的得分。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1