本发明涉及气象数据分析,具体为一种多源同型气象要素融合检验方法。
背景技术:
1、多源数据融合,又称为多传感器信息融合,是一门涉及计算机科学、网络通讯技术、微电子技术和控制技术等多学科的综合科学,旨在将来自不同数据源的多种数据类型进行融合和整合,从而生成更加全面、准确、可靠的信息。在大数据时代,海量数据中存在多个数据来源,多源异构是大数据的特点之一。多源异构数据的分散将数据割裂开来,形成了数据孤岛,从而导致数据的研究与分析变得异常困难,改善这个问题的关键就是多源数据融合。
2、根据传感器处理数据层次中抽象程度的不同,将多源数据融合分为三个层次:信号级融合、特征级融合以及决策级融合。在气象数据领域,由于数据受多种因素影响且数据量大、格式各异,因此特征级别和决策级别的融合是较为适合的方法。
3、就气象数据真实性检验而言,气象要素相关数据的来源相对广泛,包括气温、降雨、辐射、湿度、风速、地形地貌特征、水文地质条件等。虽然这些因素表面上独立,但实际上它们之间随着大气运动,存在着物质和能量交换的过程,因此是一个相互渗透、相互制约和相互联系的整体。比如,在气象自然灾害发生时,这些因素的某些特征可能表现出相似的异常性。通过利用这种关联性,我们可以选取有效的特征信息进行融合,从而更好地真实性检验。
4、另外,融合模型是多源数据融合的一种手段。使用单一模型的缺点在于其性能受限于数据质量和模型本身的复杂度,如果数据质量不足或者模型过于简单,可能会导致模型的预测能力不足。而融合模型可以综合利用多个模型的优点,从而达到更好的预测或分类效果,提高整体性能和泛化能力。因此,通过分析、选择和融合有效的算法模型,可以提高气象数据真实性检验的准确性和科学性。这也是多源数据融合技术中特征级融合和决策级融合方法的优势所在。
5、多源指的是以多站多要素数据为基础,多站多要素的气象数据与一般的单站气象数据不同,受到大气的扩散流动性影响,某个气象站点的气象数据会受到其他站点的影响,表现出时空变化的复杂性,因此多站气象数据的空间相关性体现更明显,比如不同站点同一要素的数据往往相关。
6、对于多站多要素,需要考虑气象数据的时空变化特性,即在模型设计时需要更关注多站点之间的相关性和影响,因此现有的处理单站气象数据预测模型并不适用于多站多要素情况。
技术实现思路
1、针对上述问题,本发明的目的在于提供一种基于多特征融合的改进lstnet网络和编解码器混合的双阶段融合预测模型mfc-il-edct,即多源同型气象要素融合检验方法,对实际气象数据序列的变化趋势拟合准确性更高,数据动态跟踪能力更强,因此可以更好地进行气象数据真实性检验。技术方案如下:
2、一种多源同型气象要素融合检验方法,包括以下步骤:
3、步骤1:利用空间相关性分析找到气象观测站点的同型站,引入同型站的目标要素特征;利用要素相关性分析,对影响目标要素的气象因子进行筛选,得到强相关气象要素特征;将强相关气象要素特征与目标观测站的历史风目标要素数据融合,得到多特征融合数据集,作为模型的输入;
4、步骤2:引入lstnet网络提取数据时序特征和要素关联性,并针对应用场景,并对lstnet网络进行改进得到ilstnet网络,使其进行正反向气象数据特征的提取的同时,也关注重要特征和重要时间步的信息,将ilstnet网络作为第一预测网络;
5、以编码解码框架为主体构建第二预测网络,第二预测网络的编码器选用convlstm网络,解码器部分选用时间卷积网络;
6、步骤3:将第一预测网络和第二预测网络进行动态加权融合,得到基于多特征融合的改进lstnet网络和编解码器混合的双阶段融合预测模型mfc-il-edct。
7、进一步的,所述步骤1具体包括:
8、步骤1.1:选取日最低气温进行分析,再结合站点间经纬度、海拔信息,及历史数据相关系数,从而建立下垫面相似度和可比性满足要求的同型站点;
9、步骤1.2:引入常规气象要素作为输入特征,并引入灰色关联分析对输入特征要素进行筛选,选出关联度高于设定阈值的气象因子作为最终的输入特征;
10、步骤1.3:从要素相关性和空间相关性角度,引入强相关气象要素特征和同型站目标要素特征,并结合目标观测站目标要素历史数据特征,得到多特征融合后的新数据集。
11、更进一步的,所述步骤1.1具体包括:
12、步骤1.1.1:利用各站点的经纬度信息计算其空间距离:
13、s=r*arcos(cos(y1)*cos(y2)*cos(x1-x2)+sin(y1)*sin(y2))
14、其中,(x1,y1)和(x2,y2)分别为两气象观测站的经纬度,r为地球半径;
15、步骤1.1.2:取各站点特定时间段的历史目标要素数据进行灰色关联分析;
16、步骤1.1.3:选取规则为大监站与大监站的距离s小于80km,大监站与区域自动站的s小于50km,区域自动站之间的距离小于30km;海拔高度差低于20m,日最低温差距小于2℃,历史目标要素数据相关系数大于0.8的站点作为同型站点。
17、更进一步的,所述步骤2中对lstnet网络进行改进具体包括:
18、1)在循环模块和循环跳接模块中,用双向循环神经网络bilstm代替原始lstnet中的gru,以便同时提取双向的数据信息;循环模块和循环跳接模块在t时刻单元状态的更新统一用数学表达如下:
19、ft=σ(wfxxt+wfhht-q+bf)
20、it=σ(wixxt+wihht-q+bi)
21、st=ft·st-q+it·gt
22、gt=tanh(wgxxt+wghht-q+bg)
23、ot=σ(woxxt+wohht-q+bo)
24、ht=ottanh(st)
25、其中,q为跳过隐藏层的数量,ft、it、gt、st、ot和ht分别为遗忘门、输入门、输入节点、记忆单元、输出门和隐藏层的输出;wfx为遗忘门与输入相乘的权重,wix为输入门与输入相乘的权重,wgx为输入节点与输入相乘的权重,wox为输出门与输入相乘的权重;wfh为遗忘门与隐藏层相乘的权重,wih为输入门与隐藏层相乘的权重,wgh为输入节点与隐藏层相乘的权重,woh为输出门与隐藏层相乘的权重;bf、bi、bg和bo分别为遗忘门、输入门、输入节点和输出门的偏置向量;“·”表示向量的元素按照相应的位置相乘;σ表示sigmoid函数;xt为输入向量;ht-q为循环跳接模块中隐藏层输出;st-q为循环跳接模块中记忆单元;
26、然后利用全连接层把循环和循环跳接模块的输出进行整合,至此非线性部分结束;
27、2)在卷积模块引入通道注意力机制,将不同通道赋予各自的权值,形成通道注意力机制ca,并将所有通道信息加权求和获得卷积层的结果;
28、3)在双向循环神经网络bilstm侧嵌入时序注意力机制ta。
29、更进一步的,所述第二预测网络首先使用编码器到输入的特征序列中挖掘数据的时空特性,编码成固定维度表示的向量;然后通过解码器读取编码后的向量,并对其进行解码,以产生未来时刻目标要素的预测值;
30、所述编码器由三层convlstm组成,三层convlstm堆叠结构中,前一层convlstm的输出将作为后一层convlstm的输入;将convlstm单元递归地应用到输入序列后,得到最新的隐藏状态和单元状态二者将用于解码器;
31、解码器包括三个tcn层和一个卷积层,还包括用于适应目标预测值输出维度的展平层和全连接层;
32、编码器的最终输出作为解码器的初始输入,将解码器中三个tcn层的最终隐藏状态进行拼接,拼接结果作为单层卷积层的输入,卷积层后面以展平层进行展平、降维,然后以全链接层dense进行输出,输出的结果为下一时刻目标要素的预测结果。
33、更进一步的,所述步骤3中,假设第一预测网络在t+1时刻的预测值为u(t+1),第二预测网络t+1时刻的预测值为v(t+1),则双阶段融合预测模型mfc-il-edct的最终预测结果z(t+1)表示如下:
34、z(t+1)=w1u(t+1)+w2v(t+1)
35、式中,w1和w2是最佳组合时的权值;在满足w1+w2=1件下,定义使得mfc-ilstnet-tcn模型均方误差mse最小的w1和w2为最优权值组合。
36、本发明的有益效果是:本发明采用的多特征融合可以提高模型的预测准确率,且具有一定的模型适应能力;所提出的双阶段融合预测模型mfc-il-edct有利于气象数据时空特征和要素关联性的挖掘,对实际气象数据序列的变化趋势拟合准确性更高,数据动态跟踪能力更强,可以实现常规气象要素的精确预测,从而填补气象数据缺测值,同时还能够检测出观测数据中的异常值,实现了对目标要素更精准的预测和更全面检测。