本发明属于台风预报,尤其涉及一种南海台风生成的关键因子的筛选方法及系统。
背景技术:
1、南海台风是影响华南地区的主要天气系统之一,台风影响或登陆期间,常常会给华南地区带来强降水、雷电和大风等灾害性天气。南海扰动/低压能否加强为台风,对气象要素预报有一定的指示作用。
2、台风的生成和发展受海温、水平风切变、涡度、低层湿度、高层散度、水汽混合比等气象海洋物理量的限制和影响。基于机器学习的强大学习能力,目前对于台风生成的预测通常是采用机器模型,通过对已有数据的训练得到预测能力强的预测模型。然而,为了追求预测的准确性,目前预测模型都是采用全因子变量,即所有因子都作为预测模型的输入参数,这就使得在训练预测模型时因子数量大,导致训练效率低。
技术实现思路
1、本发明的目的在于提供一种南海台风生成的关键因子的筛选方法及系统,以筛选出生成台风的关键因子,为天气预报更准确提供技术支持,同时提高模型训练效率。
2、一方面,本发明提供了一种台风生成的关键因子的筛选方法,包括以下步骤:
3、确定出影响台风发展的m个因子;
4、以中国气象局最佳台风路径集和era5再分析数据为基础,从中分别提取出m个因子的数据,构造样本集;
5、基于所述样本集,分别针对每个因子划分出发展组和不发展组,将发展组数据和不发展组数据均转换为向量,并计算余弦相似度,根据余弦相似度值筛选出n个关键因子;m和n均为大于1的整数,且n小于m。
6、上述方法适用于各个海域台风生成的关键因子筛选,当海域不同时,所采用的样本数据集不同,样本数据集由当地台风数据构造。以南海台风为例,所述以中国气象局最佳台风路径集和era5再分析数据为基础,从中分别提取出m个因子的数据,构造样本集的步骤,包括:从中国气象局最佳台风路径集数据中筛选出南海个例,将所有个例中每一个未达到热带风暴级的时间片的参数作为一个样本,分别从era5再分析资料提取每个样本设定范围内的m个因子的数据,形成样本集。
7、所述m个因子分别为:200hpa散度、500hpa位势涡度、925hpa位势涡度、500hpa涡度、1000hpa相对湿度、1000hpa温度,500hpa径向风、500hpa纬向风、500hpa垂直速度、925hpa径向风、925hpa纬向风、925hpa垂直速度。经过实验验证,这12个因子为影响台风生成的代表性要素,关键因子从这12个因子中筛选,会使得筛选出的关键因子更准确。
8、优选的,n=5。即筛选出的关键因子为5个。经过后期验证,选取5个关键因子对于台风预测的准确度和预测模型训练效率的提升具有相对的平衡,即此种情况下台风预测的准确度高,预测模型训练的效率也高。
9、另一方面,本发明提供了一种台风生成的关键因子的筛选系统,包括:
10、因子初定模块,用于确定出影响台风发展的m个因子;
11、样本集构造模块,用于以中国气象局最佳台风路径集和era5再分析数据为基础,从中分别提取出m个因子的数据,构造样本集;
12、关键因子筛选模块,用于基于所述样本集,分别针对每个因子划分出发展组和不发展组,将发展组数据和不发展组数据均转换为向量,并计算余弦相似度,根据余弦相似度值筛选出n个关键因子;m和n均为大于1的整数,且n小于m。
13、与现有技术相比,本发明先初步确定出影响台风的代表性因子,然后再基于历史数据构造样本集,再基于样本集筛选出少量的关键因子。由于筛选的是关键因子,经过验证,基于关键因子的预测模型进行台风预测的准确度没有降低,但是却大大提高了预测模型的训练效率。本发明首次提出台风生成的关键因子筛选,对于台风预测技术的发展具有重要意义。
14、本发明还具有的其他优势请见实施例部分的相关描述。
1.一种台风生成的关键因子的筛选方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的台风生成的关键因子的筛选方法,其特征在于,所述m个因子分别为:200hpa散度、500hpa位势涡度、925hpa位势涡度、500hpa涡度、1000hpa相对湿度、1000hpa温度,500hpa径向风、500hpa纬向风、500hpa垂直速度、925hpa径向风、925hpa纬向风、925hpa垂直速度。
3.根据权利要求1所述的台风生成的关键因子的筛选方法,其特征在于,以中国气象局最佳台风路径集和era5再分析数据为基础,从中分别提取出m个因子的数据,构造样本集的步骤,包括:从中国气象局最佳台风路径集数据中筛选出南海个例,将所有个例中每一个未达到热带风暴级的时间片的参数作为一个样本,分别从era5再分析资料提取每个样本设定范围内的m个因子的数据,形成样本集。
4.根据权利要求3所述的台风生成的关键因子的筛选方法,其特征在于,所述设定范围为1000km*1000km。
5.根据权利要求3所述的台风生成的关键因子的筛选方法,其特征在于,所述将发展组数据和不发展组数据均转换为向量的处理,包括:分别求取发展组数据和不发展组数据的均值,发展组和不发展组的均值为一个二维矩阵,再对每个二维矩阵按行首尾相接,分别转换为一维向量。
6.根据权利要求1所述的台风生成的关键因子的筛选方法,其特征在于,n=5。
7.根据权利要求3所述的台风生成的关键因子的筛选方法,其特征在于,n个关键因子分别为:200hpa散度、500hpa纬向风、925hpa垂直速度、925hpa纬向风和500hpa经向风。
8.一种台风生成的关键因子的筛选系统,其特征在于,包括:
9.根据权利要求8所述的台风生成的关键因子的筛选系统,其特征在于,所述样本集构造模块从中国气象局最佳台风路径集数据中筛选出南海个例,将所有个例中每一个未达到热带风暴级的时间片的参数作为一个样本,分别从era5再分析资料提取每个样本设定范围内的m个因子的数据,形成样本集。
10.根据权利要求8所述的台风生成的关键因子的筛选系统,其特征在于,所述关键因子筛选模块在将发展组数据和不发展组数据均转换为向量时,先分别求取发展组数据和不发展组数据的均值,发展组和不发展组的均值为一个二维矩阵,再对每个二维矩阵按行首尾相接,分别转换为一维向量。