本发明涉及大气科学,具体是涉及到大气热力状态研究中的重要参数温度廓线的反演方法。
背景技术:
1、温度廓线(temperature profile),是描述大气中的温度随高度分布的曲线。在大气监测和天气预报中具有重要作用。欧洲中期天气预报中心(european centre formedium-range weather forecasts,简称ecmwf)官方网站提供的era5数据中包括了温度廓线数据。有关温度廓线及时的信息对于预测天气至关重要。大气温度廓线资料不仅在大气监测和天气预报(如,高影响天气中的台风、强对流等天气现象)中较为重要,还被应用于生态环境、全球变暖和边界层等研究项目中。因此高精度和高频次的温度廓线应用较为广泛,需求也较大。
2、温度廓线可以通过卫星红外高光谱资料反演获得,卫星红外高光谱资料反演温度廓线包括:极轨卫星携带的高光谱探测器和静止卫星携带的高光谱探测器。极轨卫星高光谱资料的主要缺陷是资料的时间分辨率较低,即每天只能两次探测到同一个视场点(也称为观测点或像素点)。与极轨卫星相比,静止卫星具有高时间分辨率的优点,能实现大范围、快速和长期连续大气观测。静止气象卫星是能够从天气尺度和中小尺度上同步观测各种云系演变的空间平台,可以弥补无雷达地区资料的不足,为气象观测提供丰富的信息。
3、高精度和高频次的温度廓线很难直接获取,但可以通过静止卫星携带的高光谱探测器间接反演。由于静止卫星具有高时间分辨率的优点,能实现大范围、快速和长期连续大气观测,使得静止卫星高光谱资料具有较高的时间和垂直(或光谱)分辨率等优势,对高影响天气监测和预警至关重要,故静止卫星高光谱红外通道亮温资料反演温度廓线成为目前研究的热点。
4、如,中国新一代静止气象风云(feng-yun,简称fy)四号a星(fy-4a)携带的干涉式大气垂直探测仪(geostationary interferometric infrared sounder,简称giirs)共有1650个通道。fy-4a/giirs是地球静止气象卫星携带的第一个高光谱红外大气垂直探测仪。giirs在轨空间分辨率为16km。giirs每个探测器有32×4个传感器元件,构成32×4的像素阵列。giirs的1650个通道覆盖700~2250cm-1光谱区域,长波和中波通道各689个和961个。与其他类似的仪器相比,fy-4a/giirs具有较高的时间分辨率。在短时间内,giirs可以提供同一区域的大量观测数据,非常适合训练机器学习模型。通过giirs反演得到的大气温度廓线可以为天气预报提供大范围、连续、快速的遥感信息。此外,风云四号a星多通道扫描成像辐射计(advanced geosynchronous radiation imager,简称agri)提供了4km分辨率的全圆盘云检测产品(cloud mask,简称clm)。
5、基于国内外研究进展可知,国内外学者开展了极轨或静止卫星高光谱红外探测器资料反演温度廓线的研究工作。如,eos/airs(earth observing system(eos)/atmospheric infrared sounder,airs)、fy-3d/hiras(hyperspectral infraredatmospheric sounder,hiras)、fy-4a/giirs等,其方法主要有:统计回归反演、物理反演、一维变分法、机器学习方法和相关方法的变体。
6、虽然上述方法在极轨或静止卫星红外高光谱资料反演温度廓线领域取得了一些成功,但仍存在一些不足。统计回归反演方法很难描述卫星通道观测亮温和大气变量之间的非线性关系。物理反演方法或一维变分需要较为复杂的物理模型或辐射传输模式计算,在反演时效性方面比统计回归法耗时。近年来,机器学习算法在卫星资料反演大气廓线中得到了越来越多的应用。基于机器学习方法(如,随机森林等)可以很好地描述卫星通道观测亮温和大气变量之间的非线性关系,也无需考虑物理模型的复杂关系。但大多数研究工作只采用了较为单一的机器学习模型反演大气温度廓线。由于受到待解决问题的特征空间、模型大小和超参数选择等各种因素的影响,可能会导致采用单一模型得到精度不高的反演结果。另外,有证据表明,单个模型可以通过模型集成(即,模型组合以减少偏差、方差或两者)而使得性能表现更好。通过集成多个基础机器学习模型,可以获取更多关于数据底层结构的信息,以挖掘不同基础机器学习模型在估测或预测中表现出的“多样性”结果。
7、另外,大多数研究工作在应用机器学习模型时仅作为黑匣子处理,使用者只提供输入量和输出量,其关注的主要工作量为特征工程(即特征变量)的构建,而不过多考虑各个变量的重要性。即使研究变量的重要性基本采用其(如,随机森林)自带的重要性方法进行特征变量重要性的度量。但在模型的自变量具有不同测量尺度或不同类别时,随机森林等模型默认的变量重要性度量可能不可靠。
技术实现思路
1、发明目的:本发明目的在于针对现有技术的不足,基于不同基础机器学习模型在估测或预测中表现出的“多样性”结果,结合基础机器学习模型自身的特点和优势,提出了广义集成学习的卫星资料反演温度廓线方法,以获取更多关于数据底层结构的信息,从而提高反演精度。
2、技术方案:本发明所述基于广义集成学习的卫星资料反演温度廓线方法,包括如下步骤:
3、s1、资料预处理:收集静止卫星giirs的中波通道亮温数据,以及静止卫星的agri的clm;对收集的数据进行预处理,清洗数据,再通过插值方法将clm匹配至giirs的视场点;
4、s2、构建机器学习样本:以处理后的giirs中波通道亮温数据作为基础机器学习模型和集成模型的输入数据,建立温度廓线反演模型训练样本,总样本的80%数据集用于模型的训练和超参数优化,其余的20%用于独立测试和验证;
5、s3、构建广义集成学习的卫星资料反演温度廓线模型:
6、以giirs中波通道亮温数据作为模型自变量,以era5温度廓线作为模型因变量;
7、广义集成学习极小化目标函数定义如下:
8、
9、其中,wj是与基础机器学习模型j相对应的集成权重;n是实例总数;xi是待反
10、演值i的实际值;是基础机器学习模型j对待反演值i的估测;
11、以构建的集成学习的卫星资料反演温度廓线模型形成温度廓线反演产品。
12、本发明进一步优选地技术方案为,步骤s1中,对静止卫星giirs的中波通道亮温数据预处理的方式为采用切趾函数对giirs中波通道亮温数据处理。
13、作为优选地,步骤s1中,在收集资料时,同时收集era5的温度廓线数据,作为模型的输出量,并且era5的温度廓线数据也用作验证反演温度廓线的准确性。
14、作为优选地,步骤s2在构建机器学习样本时,采用“最邻近”法将giirs各通道亮温等信息插到era5视场点,将giirs通道亮温和era5温度数据在时间和空间上同步,步骤s3中giirs的中波通道亮温作为基础机器学习模型和集成模型的模型自变量,era5温度廓线数据作为基础机器学习模型和集成模型的模型因变量。
15、作为优选地,步骤s2中还包括对giirs中波通道亮温数据进行变量特征重要性分析,对于不同的基础机器学习模型筛选不同的giirs中波通道亮温数据作为模型的变量特征,对广义集成学习则采用不同的基础机器学习模型筛选的变量特征交集。
16、作为优选地,步骤s2采用二步法进行特征变量的选择,第一步,建立giirs通道黑名单;第二步,在剔除黑名单的剩余通道中,采用置换重要性方法选择特征变量,置换重要性方法计算输入的自变量对基础机器学习模型的特征重要程度。
17、作为优选地,步骤s2和s3中,基础机器学习模型为random forest、xgboost和lightgbm。
18、作为优选地,步骤s3构建的广义集成学习的卫星资料反演温度廓线模型中基础机器学习模型首先需要进行超参数调优。
19、作为优选地,random forest需要调优的超参数:树的数量n_estimators和树的最大深度max_depth;
20、xgboost需要调优的超参数:树的数量n_estimators、树的最大深度max_depth、树的叶节点上进一步分区所需的最小损失减少量gamma和构造每棵树时列的子采样率learning_rate;
21、lightgbm需要调优的超参数:学习率learning_rate、每棵树的最多叶子数num_leaves和树的数量n_estimators。
22、作为优选地,基础机器学习模型基于均方误差对需要调优的超参数进行调优,其他参数使用默认值。
23、有益效果:(1)本发明结合静止卫星高光谱红外亮温资料的高时间和高垂直(或高光谱)分辨率特点,提出了广义集成学习方法,集成基础机器学习模型,也可以根据不同问题选择别的模型或者规定模型的总个数。本发明采用广义集成学习优化每个基础机器学习模型的最佳权重,以获取更多关于数据底层结构的信息,从而提高反演温度廓线方法的反演精度。
24、(2)本发明对数据进行预处理,以提高数据的质量,采用切趾函数处理giirs观测资料,通过插值方法将agri的clm匹配至giirs视场点,以判断giirs视场点云量信息;通过插值将giirs和era5温度廓线数据在时间和空间上同步。为不引入其它误差信息,在构建机器学习模型的样本方面,以era5温度廓线的37层为基准。为了保持资料的统一性,本发明也将探空温度廓线插值至era5温度廓线相对应的垂直气压层。
25、(3)本发明在构建温度廓线反演模型样本输入和输出资料基础上,为了验证本发明方法的可行性和评估该方法的反演精度,采用最直接的方法将需要反演时次的卫星红外资料温度廓线反演值与目标或标准参考值或“真值”(era5温度廓线或探空温度廓线)进行比较。本发明总样本数据集(giirs通道亮温作为输入量,era5温度廓线作为输出量)的80%的数据集用于模型的训练和超参数优化等,其余20%用于独立测试和验证。且探空温度廓线资料不作为机器学习模型的输出量,仅用于评估反演的精度。
26、(4)在特征变量选择中,很多机器学习模型在应用时仅作为黑匣子处理,使用者只提供输入量和输出量,其关注的主要工作量为特征工程(即特征变量)的构建,而不过多考虑各个变量的重要性。即使研究变量的重要性基本采用其自带的重要性方法进行特征变量重要性的度量。但在模型的自变量具有不同测量尺度或不同类别时,随机森林等模型默认的变量重要性度量可能不可靠。为了克服此问题,找到较为重要的输入变量特征,本发明使用置换特征重要性方法计算基础机器学习模型的特征变量重要程度。因为giirs中波有961个通道,通道较多,故采用基于二步法的特征选择法进行通道最优选择,分别为:第一步,建立giirs通道黑名单。第二步,在剔除黑名单的剩余通道中,采用置换重要性方法选择特征变量,将得到的通道组合或特征变量组合用于温度廓线反演。
27、(5)本发明在超参数优化基础上,充分利用基础机器学习模型(random forest、xgboost和lightgbm)在估测或预测中表现出的“多样性”结果,广义集成学习动态最优加权集成多个基础机器学习模型。通过集成多个基础机器学习模型,可以获取更多关于数据底层结构的信息。广义集成学习法整体上提高了大气廓线反演的精度。3种基础机器学习模型中,xgboost显示出最低的性能。lightgbm显示出最佳的性能,在不同气压层下集成权重最大。random forest显示出的性能在2者之间。
28、(6)本发明的卫星红外通道亮温反演温度廓线新方法,可以帮助我们更好地监测高影响天气发生前的大气热力状态。此外本发明具有较强的推广性,可推广至其他国家地区和其他同类型的卫星资料,也可以推广至卫星或雷达资料估测或反演降水。或反演其它变量(如co2)等。本发明也为风云后续系列静止卫星(如fy-4b)定量化应用奠定方法基础。