基于多源数据和机器学习的气象数据异常事件识别方法与流程

文档序号:34827434发布日期:2023-07-20 11:14阅读:84来源:国知局
基于多源数据和机器学习的气象数据异常事件识别方法与流程

本发明属于应用气象,更具体地,涉及一种基于多源数据和机器学习的气象数据异常事件识别方法。


背景技术:

1、气象资料的质量管理在业务逻辑上可分为质量控制、质量评估和质量监视3个环节。质量控制的重点是检测观测数据的粗大误差,满足用户的高时效需求,可检测单个孤立错误数据,但对系统性偏差问题的检测能力有限;质量评估是对一批资料的质量进行评价,反映的是观测要素的整体质量,可对由传感器性能下降和观测环境不佳导致的隐藏较深数据质量问题进行检测;质量监视是将质量控制与质量评估的结果反馈到观测端,促成数据质量的闭环管理。

2、2015年,气象资料业务系统(mdos)在全国各省业务应用,实现了地面气象观测数据实时质量控制,有效的识别出了观测数据中粗大误差数据,提升了地面观测资料的应用质量。但从2018年起“地面观测自动化的工作”及“实况业务建设工作”等业务工作的推进对地面观测资料的质量和管理提出了新要求。一方面,对数据质量的要求更加严格精细;另一方面,台站无人值守、数据处理业务布局发生变化,如何及时发现并排出不良观测仪器及环境对观测数据质量的影响,是数据质量管理必须要面临和解决的问题。针对上述地面观测数据质量及质量管理呈现出的新特点和新问题,急需研制一套气象数据质量评估方法投入业务应用。


技术实现思路

1、为了克服现有技术中存在的问题,本发明提供了一种基于多源数据和机器学习的气象数据异常事件识别方法,包括如下步骤:

2、s1、首先对气象要素的地面气象观测数据、累年气候标准值及地理信息数据这些多源数据进行获取,所述气象要素包括气温、气压、相对湿度、风速、降水量;

3、s2、利用所述多源数据建立初始特征向量{lat,lon,alt,slope,aspect,sea,relatedeles};其中,lat表示纬度、lon表示经度,alt度海拔高度、slope表示坡度、aspect表示坡向,sea表示海洋效应因子,relatedeles表示气象要素;

4、s3、利用特征重要性分析工具对初始特征向量进行分析和筛选,分别保留对气温、气压、相对湿度、风速这些气象要素影响较大的一些特征因子;

5、s4、基于保留下来的特征因子所对应的多源数据,以周围邻近气象站的特征因子作为模型输入、当前站对应的气象要素观测值作为目标值分别采用随机森林算法和极端梯度提升算法进行模型训练,得到训练好的随机森林模型和极端梯度提升模型;

6、s5、以周边邻近气象站的特征因子作为模型输入,分别输入到随机森林模型和极端梯度提升模型,分别得到气象要素的估计值est_rf和est_xgb,然后得到气象要素逐小时的偏差值bias,从而构建出建气象要素偏差估计模型,具体计算公式如下

7、est=ω1*est_rf+ω2*est_xgb,

8、bias=obs-est;

9、其中,ω1和ω2为对应估计值的权重,ω1和ω2均大于0,且ω1+ω2=1,obs表示当前站对应的气象要素观测值,est表示当前站对应的气象要素最终估计值;

10、s6、基于气象要素的逐小时偏差值bias,先构建日评估因子,基于日评估因子实现日时间尺度质量异常事件的确认,再结合日时间尺度事件构建平均偏差、偏差标准差、异常事件持续时间这些事件统计特征,实现气象数据任意时段质量异常事件的识别。进一步地,在本发明的基于多源数据和机器学习的气象数据异常事件识别方法中,地面气象观测数据包括气象要素的逐小时数据以及基于逐小时数据得到的更长时间范围对应的气象要素的均值与变率。

11、进一步地,在本发明的基于多源数据和机器学习的气象数据异常事件识别方法中,累年气候标准值包括近30年的日、月及年气象要素的平均值、极值和各类事件发生频数这些气候标准值。

12、进一步地,在本发明的基于多源数据和机器学习的气象数据异常事件识别方法中,所述地理信息数据包括dem高程、坡度、坡向及海洋效应因子,并以srtm3地形数据集和globeland30全球地理信息公共产品为基础制作。

13、进一步地,在本发明的基于多源数据和机器学习的气象数据异常事件识别方法中,所述周边邻近站具体在邻近站点的时间匹配上使用的是邻域原则,空间匹配上使用的是圆形边界扩展,邻域原则时间范围定义为当前小时自动站观测时段,圆形边界扩展的空间范围定义为以站点所在位置为中心,向四周各扩展特定半径范围的圆形区域,所述特定半径范围选取半径50-70km的圆形邻域范围。

14、进一步地,在本发明的基于多源数据和机器学习的气象数据异常事件识别方法中,所述特征重要性分析工具为随机森林算法提供的特征重要性分析工具。

15、进一步地,在本发明的基于多源数据和机器学习的气象数据异常事件识别方法中,所述先以日为时间窗构建评估因子具体是选取日平均偏差daybias_avg、日偏差标准差daybias_stdev、日平均dayobs_avg、日标准差dayobs_stdev及日标准差偏差daybias_obs_stdev、阵风系数daygust_factor作为日评估因子,计算公式如下:

16、

17、

18、

19、

20、

21、

22、其中,其中obsi为第i时次观测值,biasi为第i时次偏差值,n为日内有效观测时数,m为待评估站点的邻近站数,dayfmost为日极大风速,dayfmax为日最大风速。

23、进一步地,在本发明的基于多源数据和机器学习的气象数据异常事件识别方法中,所述日评估因子为判断基准完成日时间尺度质量异常事件的确认具体包括气温、气压以及相对湿度的数据偏高、数据偏低、变幅偏大、变幅偏小,相对湿度的欠饱和,风速的数据偏高、数据偏低、启动风速增大。

24、本发明提供了一种基于多源数据和机器学习的气象数据异常事件识别方法。在进行地面气象数据异常事件的识别时,引入了地理信息数据、相关地面气象数据及累年气候标准值这些多源数据;利用当前站点及其周边邻近站的多源数据集和特征因子,使用两种机器学习的方法建模来计算站点各气象要素值之间的偏差情况,并通过统计的方法得到异常数据的平均偏差、偏差标准差等统计特征;根据要素值偏差的分布和持续情况,构建异常事件指标,进而划分异常事件的类型,达到识别数据异常事件的目的,对于提升地面气象数据质量和支撑站点仪器维护具有较好效果。



技术特征:

1.一种基于多源数据和机器学习的气象数据异常事件识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于多源数据和机器学习的气象数据异常事件识别方法,其特征在于,地面气象观测数据包括气象要素的逐小时数据以及基于逐小时数据得到的更长时间范围对应的气象要素的均值与变率。

3.根据权利要求1所述的基于多源数据和机器学习的气象数据异常事件识别方法,其特征在于,累年气候标准值包括近30年的日、月及年气象要素的平均值、极值和各类事件发生频数这些气候标准值。

4.根据权利要求1所述的基于多源数据和机器学习的气象数据异常事件识别方法,其特征在于,所述地理信息数据包括dem高程、坡度、坡向及海洋效应因子,并以srtm3地形数据集和globeland30全球地理信息公共产品为基础制作。

5.根据权利要求1所述的基于多源数据和机器学习的气象数据异常事件识别方法,其特征在于,所述周边邻近气象站具体在邻近站点的时间匹配上使用的是邻域原则,空间匹配上使用的是圆形边界扩展,邻域原则时间范围定义为当前小时自动站观测时段,圆形边界扩展的空间范围定义为以站点所在位置为中心,向四周各扩展特定半径范围的圆形区域,所述特定半径范围选取半径50-70km的圆形邻域范围。

6.根据权利要求1所述的基于多源数据和机器学习的气象数据异常事件识别方法,其特征在于,所述特征重要性分析工具为随机森林算法提供的特征重要性分析工具。

7.根据权利要求1所述的基于多源数据和机器学习的气象数据异常事件识别方法,其特征在于,所述先以日为时间窗构建评估因子具体是选取日平均偏差daybias_avg、日偏差标准差daybias_、日平均dayobs_、日标准差dayobs_

8.根据权利要求7所述的基于多源数据和机器学习的气象数据异常事件识别方法,其特征在于,所述日评估因子为判断基准完成日时间尺度质量异常事件的确认具体包括气温、气压以及相对湿度的数据偏高、数据偏低、变幅偏大、变幅偏小,相对湿度的欠饱和,风速的数据偏高、数据偏低、启动风速增大。


技术总结
本发明提供了一种基于多源数据和机器学习的气象数据异常事件识别方法。在进行地面气象数据质量异常事件的识别时,引入了地理信息数据、地面相关气象数据及累年气候标准值这些多源数据;利用当前站点及其周边邻近站的多源数据建立特征向量,使用两种机器学习算法构建气象要素偏差估计模型,计算站点各气象要素值的偏差序列,并通过统计方法得到站点各气象要素的平均偏差、偏差标准差、日评估因子、持续时间等事件统计特征;通过对事件统计特征的分析,构建质量异常事件划分指标,进而确定异常事件类型,达到识别气象数据质量异常事件的目的,可对地面气象数据长期质量问题进行实时监测,对提升地面气象数据质量和促进气象站点仪器维护具有较好的支撑作用。

技术研发人员:刘莹,闫荞荞,刘园园,王星宇,王海军,李波,刘梦雨,匡晓为,严婧,孙越,杨宏谦
受保护的技术使用者:湖北省气象信息与技术保障中心
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1