本发明属于气象,尤其涉及基于机器学习的自动气象站风向异常识别方法、系统、设备及存储介质。
背景技术:
1、测风资料在气象监测预警、气象服务、气候统计分析、城市通风廊道规划、环境污染气象条件分析、港口大风航行管制等行业场景中发挥着至关重要的作用。由于自动气象站建设在城市绿地、高楼楼顶、山区、港口码头、海岛、高速公路等多样化的地理环境中,其分布点多面广,均为无人值守站,给仪器的维护带来了不小的挑战,使得自动气象站观察数据的质量受到影响,部分站点可能存在异常或错误风向的情况,如不及时检测并处理这些异常值,将会对气象预警监测和气候统计等造成误判和误导,进而对气象服务决策和气候统计产生不良影响。
2、风向异常检测方法主要分为两大类:观测仪器硬件检测法和基于观测资料的间接异常表征分析法。对于观测仪器硬件检测法,该方法的显著缺陷是需要进行设备现场核查,不仅耗时耗力,而且在偏远或难以到达的站点无法进行现场核查;间接异常表征分析方法是通过分析风向数据的异常表现特征来识别异常,其缺点在于无法有效检测出隐蔽性较高的错误风向数据。
技术实现思路
1、本发明的目的在于:提供一种基于机器学习的自动气象站风向异常识别方法、系统、设备及存储介质,以解决现有技术在偏远或难以到达的站点无法进行现场核查以及无法有效检测出隐蔽性较高的错误风向数据的问题。
2、本技术实施例是这样实现的,基于机器学习的自动气象站风向异常识别方法,包括:
3、s1、典型天气过程时段选取;
4、s2、构建适用于风向异常分类的参数模型;
5、s3、进行风向异常检测,使用构建的适用于风向异常分类的参数模型识别自动气象站的风向异常数据;
6、s4、风向异常数据的统计分析,按风向异常数据的百分比范围划分异常提醒等级,形成风向异常识别结果。
7、可选地,在本技术的一些实施例中,典型天气过程包括台风天气过程和/或冷空气天气过程。
8、可选地,在本技术的一些实施例中,典型天气过程时段选取包括:
9、s11、按5°距离区间划分72个分布区局统计自动气象站十分钟平均风向分布,区间划分具体为:
10、0°≤w1<5°,5°≤w2<10°,…,350°≤w71<355°,355°≤w72<360°;
11、s12、以主导风向为中心,统计自动气象站十分钟平均风向分布的数据样本,获得样本比例大于等于80%聚集的扇区大小sti;
12、s13、若连续12个时次出现80%以上自动气象站十分钟平均风向数据样本聚集圆弧扇区小于等于120°,选取从过去第12个时次开始作为典型天气过程风向异常检测开始时间,启动风向异常检测条件为:
13、sti≤120°,i=1,2,…,11,12;
14、式中,sti表示自动气象站十分钟平均风向数据样本聚集的扇区大小,i表示时次;
15、若连续12个时次出现80%以上自动气象站十分钟平均风向数据样本聚集圆弧扇区大于120°,选取从过去第12个时次作为典型天气过程风向异常检测结束时间,异常检测结束条件为:
16、sti>120°,i=1,2,…,11,12;
17、式中,sti表示自动气象站十分钟平均风向数据样本聚集的扇区大小,i表示时次。
18、可选地,在本技术的一些实施例中,构建适用于风向异常分类的参数模型的方法包括:
19、s21、使用典型天气过程的自动气象站十分钟平均风向数据调整dbscan算法的半径ε和邻域内最小点数minpts两个参数;
20、s22、根据先验经验设定dbscan算法的ε和minpts参数初始值,按ε和minpts参数初始值逐级递增的方法调整ε参数和minpts参数,得出不同参数条件下的十分钟平均风向数据的聚类分簇结果,将十分钟平均风向数据的聚类分簇结果可视化,人为判断并获得十分钟平均风向数据的聚类分簇结果与地面主导风向一致性最高时的参数ε0和参数minpts0,即为最优参数ε0和最优参数minpts0,并保存;
21、s23、根据最优参数ε0和最优参数minpts0,获得dbscan聚类风向异常分类模型,即适用于风向异常分类的参数模型。
22、可选地,在本技术的一些实施例中,对自动气象站的历史风向数据和/或自动气象站的实况风向数据进行风向异常检测。
23、可选地,在本技术的一些实施例中,自动气象站的历史风向数据进行风向异常检测的方法包括:
24、s31、统计典型天气过程个例,对典型天气过程个例编号;
25、s32、选取典型天气过程个例影响时段逐时次t0~ti的自动气象站的历史十分钟平均风向数据;
26、s33、从t0时次至ti时次,使用适用于风向异常分类的参数模型对典型天气过程个例影响时段自动气象站所有时次的历史十分钟平均风向数据集进行异常检测,某个时次自动气象站的历史十分钟平均风向数据集为:
27、whis_t_i=(xh0,xh1,…,xhn-1,xhn)
28、式中,xhn表示某时次的第n个自动气象站的历史十分钟平均风向数据;
29、s34、随机选取未处理的风向数据xhn,找出与xhn距离小于等于ε0的所有自动气象站的历史十分钟平均风向数据集c;
30、s35、如果数据集c的样本数量大于等于minpts0,则当前风向数据xhn与数据集c形成一个簇cj,并且xhn被标记为已处理;
31、s36、递归遍历簇cj中未被标记为已处理的风向数据,扩展簇cj的数据样本,直至簇cj所有数据样本均标记为已处理;
32、s37、如果数据集c的样本数量小于minpts0,则当前风向数据xhn被标记为噪声数据;
33、s38、重复步骤s34至s37,直至whis_t_i的所有风向数据都归入簇cj或标记为噪声数据,存储分类结果至第一数据库。
34、自动气象站的实况风向数据进行风向异常检测的方法包括:
35、s301、判断风向异常检测启动条件,执行启动条件检测,对风向异常检测个例编号,标志开始时次为t0;
36、s302、风向异常检测开始后,使用适用于风向异常分类的参数模型对ti时次自动气象站的实时十分钟平均风向数据进行异常检测,某个时次自动气象站的实时十分钟平均风向数据集表示为:
37、wliving_t=(xl0,xl1,…,xln-1,xln);
38、式中,xln表示某时次的第n个自动气象站的实时十分钟平均风向数据;
39、s303、随机选取未处理风向数据xln,找出与xln距离小于等于ε0的所有自动气象站的实时十分钟平均风向数据集c;
40、s304、如果数据集c的样本数量大于等于minpts0,则当前风向数据xln与数据集c形成一个簇cj,并且xln被标记为已处理;
41、s305、递归遍历簇cj中未被标记为已处理的风向数据,扩展簇cj的数据样本cj,直至簇cj所有样本均标记为已处理;
42、s306、如果数据集c的样本数量小于minpts0,则当前风向数据xln被标记为噪声数据;
43、s307、重复步骤s303至s306,直至wliving_t的所有风向数据都归入簇cj或标记为噪声数据,存储分类结果至第二数据库;
44、s308、判断ti+1时次的数据是否符合异常检测结束条件,如未达到检测结束条件,继续执行步骤s302至s307;如达到检测结束条件,则停止自动气象站的实时十分钟平均风向数据的异常检测。
45、可选地,在本技术的一些实施例中,风向异常数据的统计分析,按风向异常数据的百分比范围划分异常提醒等级的方法包括:
46、s41、统计典型天气过程的数据总时次nid;
47、s42、统计典型天气过程的异常数据时次nid_noise;
48、s43、典型天气过程按不同自动气象站统计风向异常数据百分比pid_noise,即表示为:
49、
50、s44、pid_noise≥95%,一级异常,风向数据错误或风向传感器运行状态故障可能性很大,需现场设备运行状态核查;
51、80%≤pid_noise<95%,二级异常,风向数据错误或风向传感器运行状态故障可能性大,加强监控力度,必要条件下可现场设备运行状态核查;
52、pid_noise<80%,三级异常,适当关注;
53、s45、对一级异常和二级异常,形成风向异常识别产品,储存于第三数据库。
54、相应的,本技术实施例还提供基于机器学习的自动气象站风向异常识别系统,包括:典型天气过程时段选取模块,用于典型天气过程时段选取;
55、构建适用于风向异常分类的参数模型模块,用于构建适用于风向异常分类的参数模型;
56、风向异常检测模块,用于进行风向异常检测,使用构建的适用于风向异常分类的参数模型识别自动气象站的风向异常数据;
57、风向异常数据的统计分析模块,用于风向异常数据的统计分析,按风向异常数据的百分比范围划分异常提醒等级,形成风向异常识别结果。
58、相应的,本技术实施例还提供计算机设备,包括储存器和处理器,所述储存器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述方法的步骤。
59、相应的,本技术实施例还提供计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述方法的步骤。
60、本技术中:
61、dbscan为基于密度的噪声应用空间聚类算法。
62、综上所述,由于采用了上述技术方案,本发明的有益效果是:
63、本发明可在不对自动气象站观测仪器硬件进行检测的情况下进行间接异常表征监测,能有效检测出隐蔽性较高的错误风向数据,提高自动气象站风向数据质量,提升自动气象站风向仪器运行状态监控能力,为实时天气监测、预测未来的天气变化、了解气候变化的趋势和规律提供准确风向数据集支撑。