一种基于空间分组建模的BP神经网络空气质量预报方法与流程

文档序号:33047975发布日期:2023-01-24 22:49阅读:22来源:国知局
一种基于空间分组建模的BP神经网络空气质量预报方法与流程
一种基于空间分组建模的bp神经网络空气质量预报方法
技术领域
1.本发明涉及空气质量预报技术领域,具体涉及一种基于空间分组建模的bp神经网络空气质量预报方法。


背景技术:

2.空气质量与人类健康之间的关系已经引起了广泛关注,已有不少学者对此做了大量研究。空气质量预报在污染事件发生前对公众的预警及制定减灾计划方面尤为重要,国内外学者也利用数值机理模型及统计模型来对空气质量进行预报,试图精准预测污染事件的发生,为减灾计划提供支持。
3.目前国内外常用的一种基于空间分组建模的bp神经网络空气质量预报方法有:潜势预报法、数值机理预报法及统计预报法。统计预报法是收集过去较长时间的气象数据与监测的污染物浓度数据,通过统计的方法如:多元线性回归、神经网络或机器学习等方法来建立气象条件与污染物浓度数据之间的相关关系,并在后续预报过程中,根据预报的气象条件来计算或预测污染物浓度数据。
4.潜势预报法即为预报员根据天气形势来进行主观研判,具有较大的不确定性,很少独立使用;数值机理预报法是基于污染源排放清单及气象预报数据,模拟预测排放源所排放的污染物在环境空气中发生一系列物理化学反应后在空气中的浓度,而对于pm2.5及o3这类二次污染物,数值机理模拟预测是一项十分复杂的系统过程,目前的数值机理预报法并不能完全描述其生成的机理过程;且数值机理预报法的预报准确率大大依赖于污染源排放清单的准确度,就目前而言,收集准确的污染源排放清单还具有一定的难度,虽然目前多数城市都开展了使用数值机理预报法来做空气质量预报的工作,但结果并不理想,仍需要人工研判来提高预报准确率;由于数值机理预报法的缺陷,目前越来越多的环保单位开始采用统计预报方法来进行空气质量预报工作。bp神经网络算法是常用的统计预报方法之一,其预报准确率要普遍高于数值机理预报法,在一些城市取得了较好的应用效果。但是由于其对污染极值不够敏感,使其在重污染发生时段的预报准确率较低。
5.以上三种预报方法都存在一定的局限性,预报效果不甚理想。基于bp神经网络算法的统计预报法虽然对一般污染天气有较高的预报准确率,但对重污染事件的预报准确率仍然较低。因而需要不断优化现有算法,才能提高预报准确率,这也是环保业务部门所急需的。
6.基于此,我们提出一种基于空间分组建模的bp神经网络空气质量预报方法。


技术实现要素:

7.本发明的目的在于克服现有技术中存在的上述问题,提供一种基于空间分组建模的bp神经网络空气质量预报方法,便于提升预报数据的准确率,同时采用该方法输出的预报数据还能够精确到区县监测站点。
8.为实现上述技术目的,达到上述技术效果,本发明是通过以下技术方案实现:
9.一种基于空间分组建模的bp神经网络空气质量预报方法,包含模型训练阶段和自动预报阶段,具体包括以下步骤:
10.s1:模型训练阶段
11.s101:数据采集:收集目标预报区域的国控监测站点及区县监测站点近三年的小时分辨率的污染物浓度数据;
12.s102:数据清洗:对采集到的数据进行多种方式的自动清洗,清洗后的数据还要进行是否符合正态分布的检验;
13.s103:对重污染天气样本进行重采样,重采样后的数据备用;
14.s104:气象数据预处理:将下载的气象预报数据转换为需要的格式,并将各气象因子数据进行标准化处理;
15.s105:分析目标预报区域各站点之间与区县站点之间的空间依赖关系,即分析分析各国控监测站点污染物浓度与周边区县站点污染物浓度之间的相关关系;
16.s106:根据目标预报区域各站点与周边区县站点之间的空间依赖关系,进行空间分组建模;
17.s107:分析污染物浓度数据与气象因子数据之间的相关性,分析目标预报区域各国控监测站点污染物浓度数据与各气象因子数据之间的相关性,筛选气象参数集;
18.s108:配置和构建多个空气质量预报模型,所配置的模型包含:输入层、4个隐含层以及输出层;
19.s109:训练模型:对构建的多个空气质量预报模型进行训练,训练分两种模式,一种是常规模式;另一种是污染超标模式;训练模型的数据占总样本数量的70%,剩余30%的样本数量用于模型验证;
20.s110:模型验证:包含两种一般统计指标:均方根误差和判定系数;和三种分类统计指标:超标天数预测正确比例、成功指数和错误预警比例;
21.s111:通过步骤s110叙述的一般统计指标和分类统计指标来针对不同的污染物在不同的站点以及不同的预报时段,自动选择最优的模型作为自动预报阶段使用的模型;
22.s2:自动预报阶段
23.s201:监测数据采集:编写针对目标预报区域的国控监测站点及区县监测站点的数据采集程序,连续实时采集小时分辨率的污染物浓度数据,作为自动预报阶段的输入数据;
24.s202:气象数据采集:编写了自动下载gfs气象预报数据的程序,可以将气象数据格式转换为自动预报阶段所需要的格式并进行气象因子数据的标准化处理;
25.s203:判断风向:利用风向判断程序自动判断预报天的风向;
26.s204:根据风向动态筛选每个站点预报所选用的空间模型组;
27.s205:自动判断最终预报结果,当常规模式预报值达到一定数值后,就会使用污染超标模式下的预报结果为最终预报结果,反之则会使用常规模式下的预报结果为最终预报结果。
28.优选地,重采样的方法如下:
29.x'=x
min
+randο
×
(x
max-x
min
)
30.x
max
—为样本中的最大值;
31.x
min
—为样本中的最小值;
32.randο—为0-1之间的均匀分布随机实数;
33.x'—为重采样后的数据。
34.优选地,标准化处理的方法为:y=log
(1+y)

35.y—为实际气象因子数据;
36.y—为标准化处理后的气象因子数据。
37.优选地,输入层中包含空间因子、气象因子以及时间因子;隐含层选择4层;输出层为污染物预报浓度。
38.优选地,常规模式为直接采用步骤s102中数据清洗之后的常规污染物浓度数据以及气象因子数据等对模型进行训练。
39.优选地,污染超标模式为采用步骤s103中对重污染天气样本进行重采样后的样本数据以及气象因子数据对模型进行训练。
40.优选地,均方根误差的计算公式为:判定系数的计算公式为:
[0041][0042]
上述式中,x
obs,i
—代表第i天的监测值;x
model,i
—代表第i天的预报值;n—代表模型验证的样本数量。
[0043]
优选地,超标天数预测正确比例计算公式为:
[0044]
成功指数计算公式为:
[0045]
错误预警比例计算公式为:
[0046]
上述式中,n1—代表监测值达标,且预报值也达标的天数;n2—代表监测值达标,而预报值超标的天数;n3—代表监测值超标,且预报值也超标的天数;n4—代表监测值超标,而预报值达标的天数。
[0047]
综上所述,本发明包括以下至少一种有益效果:
[0048]
本发明采用高时频高精度实测数据作为模型训练的样本数据,并对重污染天气样本进行重采样;同时结合相关性矩阵进行空间分组建模的方法,根据风向动态筛选每个站点预报所选用的空间模型组;然后再利用统计指标及本发明特有的分类统计指标筛选出该空间模型组中最优的模型来模拟生成预报结果。从而提升预报数据的准确率,同时采用该方法输出的预报数据还能够精确到区县监测站点。
附图说明
[0049]
图1为本发明训练阶段流程图;
[0050]
图2为本发明自动运行阶段流程图;
[0051]
图3为本发明的分类统计指标示意图;
[0052]
图4为本发明的某区域空间分组建模示意图。
具体实施方式
[0053]
以下结合附图1-4对本发明作进一步详细说明。
[0054]
实施例1
[0055]
本发明提供的一种实施例:如图1-4所示,一种基于空间分组建模的bp神经网络空气质量预报方法,包含两个阶段,一是模型训练阶段,二是自动预报阶段。以下将对两个阶段进行详细描述:
[0056]
s1:模型训练阶段
[0057]
s101:数据采集:收集目标预报区域的国控监测站点及区县监测站点近三年的小时分辨率的污染物浓度数据。
[0058]
s102:数据清洗:对采集到的数据进行多种方式的自动清洗,比如清洗掉不合理的极大值和极小值、利用hampel滤波清洗掉异常值;针对清洗掉异常值或者有缺失的数据,可以用多种方法来补齐,如邻近插值法、历史同期数据补齐法等;清洗后的数据还要进行是否符合正态分布的检验,从而确保数据清洗过程的合理性。
[0059]
s103:对重污染天气样本进行重采样:针对重污染天气的样本数量在整体样本中所占的数量的比例较低,因此采用对重污染天气样本进行重采样;重采样的方法如下:
[0060]
x'=x
min
+randο
×
(x
max-x
min
)
[0061]
x
max
—为样本中的最大值;
[0062]
x
min
—为样本中的最小值;
[0063]
randο—为0-1之间的均匀分布随机实数;
[0064]
x'—为重采样后的数据;
[0065]
重采样后的数据备用。
[0066]
s104:气象数据预处理:将下载的气象预报数据转换为需要的格式,并将各气象因子数据进行标准化处理,标准化处理的方法为:y=log
(1+y)

[0067]
y—为实际气象因子数据;
[0068]
y—为标准化处理后的气象因子数据。
[0069]
s105:分析目标预报区域各站点之间与区县站点之间的空间依赖关系,即分析分析各国控监测站点污染物浓度与周边区县站点污染物浓度之间的相关关系。
[0070]
s106:根据目标预报区域各站点与周边区县站点之间的空间依赖关系,进行空间分组建模。
[0071]
s107:分析污染物浓度数据与气象因子数据之间的相关性,分析目标预报区域各国控监测站点污染物浓度数据与各气象因子数据之间的相关性,筛选气象参数集。
[0072]
s108:配置和构建多个空气质量预报模型,所配置的模型包含:输入层、4个隐含层以及输出层;
[0073]
输入层中包含:空间因子(空间分组建模)、气象因子(即与目标预报站点污染物浓度相关性较高的气象因子,如行星边界层高度、温度、相对湿度、风向、风速、逆温强度等因子)以及时间因子(即目标预报日是否为工作日还是公休日等);
[0074]
隐含层选择4层,传统的神经网络算法一般为1-3层,在本发明中选用4层隐含层以及无监督训练对权重进行初始化和有监督训练反向微调权重的算法,既能达到深度学习多层感知的学习效果,又能避免训练时间过长的问题。激活函数选择tanh函数,tanh函数在特征相差明显时的效果会很好,在循环过程中会不断扩大特征效果。在具体应用中,tanh函数相比于sigmoid函数往往更具有优越性,这主要是因为sigmoid函数在输入处于[-1,1]之间时,函数值变化敏感,一旦接近或者超出区间就失去敏感性,处于饱和状态,而tanh函数是以0的中心的,收敛速度更快,因此在实际应用中tanh会比sigmod更好。
[0075]
输出层即为污染物预报浓度。
[0076]
s109:训练模型:对构建的多个空气质量预报模型进行训练,训练分两种模式,一种是常规模式,即直接采用步骤s102中数据清洗之后的常规污染物浓度数据以及气象因子数据等对模型进行训练;另一种是污染超标模式,即采用步骤s103中对重污染天气样本进行重采样后的样本数据以及气象因子数据对模型进行训练。训练模型的数据占总样本数量的70%,剩余30%的样本数量用于模型验证。
[0077]
s110:模型验证:模型最终要取得较好的效果,不同的污染物在不同的站点都要选择最适合自己的模型,而模型选择的依据是其关键。本发明设计了一套对预报结果的评价指标,为评价模型及选择最优模型提供了依据,其中包含了两种一般统计指标:均方根误差(rmse)和判定系数(r2),和三种分类统计指标:超标天数预测正确比例(fcf)、成功指数(si)和错误预警比例(ffa),这些指标综合起来应用,可全面衡量模型质量。
[0078]
上述均方根误差rmse的计算公式为:
[0079][0080]
式中,x
obs,i
—代表第i天的监测值;
[0081]
x
model,i
—代表第i天的预报值;
[0082]
n—代表模型验证的样本数量。
[0083]
判定系数r2的计算公式为:
[0084][0085]
式中,x
obs,i
—代表第i天的监测值;
[0086]
x
model,i
—代表第i天的预报值;
[0087]
n—代表模型验证的样本数量。
[0088]
超标天数预测正确比例(fcf)计算公式为:
[0089]
成功指数(si)计算公式为:
[0090]
错误预警比例(ffa)计算公式为:
[0091]
上述式中n1、n2、n3及n4如图3所示,
[0092]
n1—代表监测值达标,且预报值也达标的天数;
[0093]
n2—代表监测值达标,而预报值超标的天数;
[0094]
n3—代表监测值超标,且预报值也超标的天数;
[0095]
n4—代表监测值超标,而预报值达标的天数。
[0096]
s111:通过步骤s110叙述的一般统计指标和分类统计指标来针对不同的污染物在不同的站点以及不同的预报时段,自动选择最优的模型作为自动预报阶段使用的模型。
[0097]
s2:自动预报阶段
[0098]
s201:监测数据采集:编写针对目标预报区域的国控监测站点及区县监测站点的数据采集程序(目前国控监测站点及区县监测站点分属不同的监测网络),连续实时采集小时分辨率的污染物浓度数据,作为自动预报阶段的输入数据。
[0099]
s202:气象数据采集:编写了自动下载gfs气象预报数据的程序,可以将气象数据格式转换为自动预报阶段所需要的格式并进行气象因子数据的标准化处理,标准化处理的方法为:
[0100]
y=log
(1+y)

[0101]
y—为实际气象因子数据;
[0102]
y—为标准化处理后的气象因子数据。
[0103]
s203:判断风向:利用风向判断程序自动判断预报天的风向。
[0104]
s204:根据风向动态筛选每个站点预报所选用的空间模型组,例如对于其中一个站点而言,首先判断该站点所在区域的风向,然后为该站点选择该风向的空间模型组,然后再根据训练过程中模型验证阶段筛选出来的该空间模型组中最优的模型来模拟生成预报结果。同样预报结果也包含常规模式下的预报结果,以及污染超标模式下的预报结果。
[0105]
s205:自动判断最终预报结果,经过模型验证常规模式下的预报结果的预报趋势与实际监测值之间的相关性较高,只在个别极值的情况下预报偏低。因此本发明设计了一套机制,当常规模式预报值达到一定数值后,就会使用污染超标模式下的预报结果为最终预报结果,反之则会使用常规模式下的预报结果为最终预报结果。
[0106]
实施例2
[0107]
一种基于空间分组建模的bp神经网络空气质量预报方法包含两个阶段:
[0108]
一、模型训练阶段,步骤如下:
[0109]
(1)数据采集:收集某区域的国控监测站点及区县监测站点近三年的小时分辨率的污染物浓度数据。
[0110]
(2)数据清洗:对采集到的数据进行多种方式的自动清洗,比如清洗掉不合理的极大值和极小值、利用hampel滤波清洗掉异常值、针对清洗掉异常值或者有缺失的数据,可以用多种方法来补齐,如邻近插值法、历史同期数据补齐法等,清洗后的数据还要进行是否符
合正态分布的检验,从而确保数据清洗过程的合理性。
[0111]
(3)对重污染天气样本进行重采样:针对重污染天气的样本数量在整体样本中所占的数量的比例较低,因此采用对重污染天气样本进行重采样,方法见实施例1中的模型训练阶段中的步骤s103。
[0112]
(4)气象数据预处理:将下载的气象预报数据转换为需要的格式,并将各气象因子数据进行标准化处理。
[0113]
(5)分析目标预报区域各站点之间与区县站点之间的空间依赖关系,即分析分析各国控监测站点污染物浓度与周边区县站点污染物浓度之间的相关关系。
[0114]
(6)分析污染物浓度数据与气象因子数据之间的相关性,分析目标预报区域各国控监测站点污染物浓度数据与各气象因子数据之间的相关性,筛选气象参数集。
[0115]
(7)配置和构建多个空气质量预报模型,所配置的模型包含:输入层、4个隐含层以及输出层。输入层中包含:空间因子(空间分组建模)、气象因子(即与目标预报站点污染物浓度相关性较高的气象因子,如行星边界层高度、温度、相对湿度、风向、风速、逆温强度等因子)以及时间因子(即目标预报日是否为工作日还是公休日等);隐含层选择4层,传统的神经网络算法一般为1-3层,在本发明中选用4层隐含层以及无监督训练对权重进行初始化和有监督训练反向微调权重的算法,既能达到深度学习多层感知的学习效果,又能避免训练时间过长的问题;输出层即为污染物预报浓度。
[0116]
(7.1)空间分组建模法:即以要预报的站点为中心,20km为半径画圆,将该圆形区域按照8风向划分为8个扇形区域,每个扇形区域中包含的站点(国控站点和区县站点)的污染物浓度数据分组建模,也就是会建8组模型,而每组模型又将结合不同的气象因子再构建7个模型,也就是说针对每个预报站点都会构建8组,共计56个模型;如图4所示。
[0117]
(8)训练模型:对构建的多个空气质量预报模型进行训练,训练分两种模式。一种是常规模式,即直接采用步骤(2)中数据清洗之后的常规污染物浓度数据以及气象因子数据等对模型进行训练;另一种是污染超标模式,即采用步骤(3)中对重污染天气样本进行重采样后的样本数据以及气象因子数据对模型进行训练。训练模型的数据占总样本数量的70%,剩余30%的样本数量用于模型验证。
[0118]
(9)模型验证:模型最终要取得较好的效果,不同的污染物在不同的站点都要选择最适合自己的模型,而模型选择的依据是其关键。本发明设计了一套对预报结果的评价指标,为评价模型及选择最优模型提供了依据,其中包含了两种一般统计指标:均方根误差(rmse)和判定系数(r2),和三种分类统计指标:超标天数预测正确比例(fcf)、成功指数(si)和错误预警比例(ffa),这些指标综合起来应用,全面衡量模型质量。
[0119]
(10)通过步骤(9)中叙述的一般统计指标和分类统计指标来针对不同的污染物在不同的站点以及不同的预报时段,自动选择每组空间模型组中最优的模型作为自动预报阶段使用的模型。每组空间模型组中包含常规模式的最优模型,以及污染超标模式的最优模型。
[0120]
二、自动预报阶段,步骤如下:
[0121]
(11)监测数据采集:编写针对某区域的国控监测站点及区县监测站点的数据采集程序(目前国控监测站点及区县监测站点分属不同的监测网络),连续实时采集小时分辨率的污染物浓度数据,作为自动预报阶段的输入数据。
[0122]
(12)气象数据采集:编写了自动下载gfs气象预报数据的程序,可以将气象数据格式转换为自动预报阶段所需要的格式并进行气象因子数据的标准化处理。
[0123]
(13)判断风向:利用风向判断程序自动判断预报天的风向。
[0124]
(14)根据风向动态筛选每个站点预报所选用的空间模型组,例如对于其中一个站点而言,首先判断该站点所在区域的风向,然后为该站点选择该风向的空间模型组,然后再根据训练过程中模型验证阶段筛选出来的该空间模型组中最优的模型来模拟生成预报结果。同样预报结果也包含常规模式下的预报结果,以及污染超标模式下的预报结果。
[0125]
(15)自动判断最终预报结果,经过模型验证常规模式下的预报结果的预报趋势与实际监测值之间的相关性较高,只在个别极值的情况下预报偏低。因此本发明设计了一套机制,当常规模式预报值达到一定数值后,就会使用污染超标模式下的预报结果为最终预报结果,反之则会使用常规模式下的预报结果为最终预报结果。
[0126]
实施例3
[0127]
评估采用本发明的创新方法为某区域配置的预报模型的预报准确率,评估时间段为2021年11月1日-2022年6月23日,评估的指标为aqi级别预报准确率、pm2.5级别预报准确率和o3-8h级别预报准确率,评估方法参见中华人民共和国国家环境保护标准:环境空气质量数值预报技术规范(hj1130-2020)经过评估明显优于以往方法,评估结果如下表所示,表1为未来24小时aqi、pm2.5及o
3-8h
级别预报准确率;表2为未来72小时aqi、pm2.5及o
3-8h
级别预报准确率。在上述环境空气质量数值预报技术规范(hj1130-2020)中指出:aqi级别预报准确率评估结果应不低于60%。而基于本发明的创新方法为某区域配置的未来24小时级别预报准确率平均值已达到85%以上,未来72小时级别预报准确率平均值也已达到75%以上,远高于该标准。
[0128]
表1基于本发明为某区域配置的预报模型的未来24小时级别预报准确率
[0129][0130]
表2基于本发明为某区域配置的预报模型的未来72小时级别预报准确率
[0131][0132]
以上均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1