基于多元统计分析和LSTM融合的PM2.5浓度预测方法与流程

文档序号:17938862发布日期:2019-06-18 22:52阅读:494来源:国知局
基于多元统计分析和LSTM融合的PM2.5浓度预测方法与流程
本发明涉及人工智能与大数据领域,特别是涉及基于多元统计分析和lstm融合的pm2.5浓度预测方法。
背景技术
:随着人民生活水平的提高,城镇化、工业化、人口城市化比率即三化比率不断提升。但是,资源的过度开发、能源的过度消耗打破了原有的生态平衡系统,环境问题越来越受到各国政府的重视。特别是最近几年雾霾天气频繁出现,pm2.5污染问题异常严重。为了合理的预测pm2.5的浓度,各国的专家提出了多种方法。预测的方法按照大类可划分为两大类,一:以空气动力学为基础的传统方法;二:以数据与统计学为基础的人工智能方法。前者具有丰富的实践经验,坚实的理论基础。但是,入门的门槛较高,研究者需要有扎实的物理化学与空气动力学相关知识。后者相对的实践经验较少,入门门槛较低,只需要相关数据与计算机相关知识就可进行预测活动。目前基于人工智能技术的预测方法有许多,包括集成算法、多元回归方法、支持向量机、bp神经网络、模糊聚类方法等。技术实现要素:本发明的目的解决传统方法中收敛时间过长以及过拟合问题,提出一种基于多元统计分析和lstm融合的pm2.5浓度预测方法。基于多元统计分析和lstm融合的pm2.5浓度预测方法,包括如下步骤:步骤一、获取源数据:从各省控点、国控点获取气象数据与污染物数据;步骤二、数据预处理:采样至少半年内的数据,计算各因子与pm2.5浓度的相关系数,将获取的数据进行排序,剔除相关系数小于0.5的因子;步骤三、数据分类训练:将所有数据分为训练数据、测试数据、预测数据三个部分,其中使用训练数据去训练lstm模型,并设置lstm模型参数;步骤四、评价预测模型:设定数据阈值,将测试数据输入模型中,并通过rmse、map、mse三种方法评价模型的预测结果;如果预测结果符合阈值要求进入步骤五,如果不符合就进入步骤一;步骤五、将待分析数据输入预测模型获取预测结果。对前述基于多元统计分析和lstm融合的pm2.5浓度预测方法的进一步优化还包括,所述步骤三中的lstm模型包括3个控制门,分别是输入门it、输出门ot、遗忘门ft;遗忘门ft表达式为:ft=σ(wf*[ht-1,xt]+bf),其中wf为权重矩阵,bf为偏置值,σ为sigmoid函数;输入门的sigmoid层it计算公式是:it=σ(wi*[ht-1,xt]+bi),其中wi为权重矩阵,bf为偏置值,tanh层的候选向量cst表达式为:cst=tanh(wc*[ht-1,xt]+bc),其中wc为权重矩阵,bc为偏置值;tanh层的更新值表达式为:ct=ft*ct-1+it*cst;输出门ot包括sigmoid层与tanh层,所述输出门ot运行sigmoid层决定细胞状态被输出部分,然后将tanh函数与sigmoid门的输出相乘,其计算公式为:ot=σ(wo*[ht-1,xt]+bo),ht=ot*tanh(ct)。对前述基于多元统计分析和lstm融合的pm2.5浓度预测方法的进一步优化还包括,所述步骤二中,所述相关系数具体公式如下:其中rp为相关系数,xi为输入值,xav为均值,yi为输出值,yav为输出均值,相关性阈值设定为0.3。对前述基于多元统计分析和lstm融合的pm2.5浓度预测方法的进一步优化还包括,所述步骤三具体包括:3.3.将经过处理的数据分为训练集、测试集、预测值,其中训练集用于训练模型;3.4.将模型所需的参数赋值,将隐藏层数量设为72个神经元,输出层仅使用1个神经元,输入变量是pm10、co、no2、nox、no、湿度、so2的时间步特征,损失函数使用mae,优化算法使用adam,模型的迭代次数epochs设为72,每次迭代选取的batch大小为72。对前述基于多元统计分析和lstm融合的pm2.5浓度预测方法的进一步优化还包括,所述步骤四中进行测试数据时使用的三种评价回归模型指标分别为:mse:mae:rmse:其中m为总数量,yi为输出值,yav为输出均值。对前述基于多元统计分析和lstm融合的pm2.5浓度预测方法的进一步优化还包括,所述步骤三中还包括:将80%的源数据用于模型训练,20%数据用于测试数据,最后24小时内的数据用于预测;在建立模型前,对数据进行标准化,将二维数据转换为三维数据。对前述基于多元统计分析和lstm融合的pm2.5浓度预测方法的进一步优化还包括,所述步骤一中,还包括进行数据填充的步骤,具体是指,当数据中存在少量缺失时,使用前值填充使数据具备更好的分布趋势;当数据中存在连续的数据缺失时,使用均值填充。与现有技术相比,本发明具有以下有益效果:1:并未将现有的所有因子都作为lstm模型的输入端,而是通过分析pm2.5的时间和空间特性,将数据进行降维。2:通过深度学习技术,挖掘pm2.5的深层数据特征,包含:非线性特性、历史趋势特性等。3:利用gpu,大大提升了数据运算的速度,结合精度的提升,使预测工作可以实时进行,消除数据滞后性问题。附图说明图1所示为本发明主要步骤示意图;图2所示为本发明的流程图;图3为某市省控监测点1同一天pm2.5小时浓度的变化数据;图4为某市省控监测点2同一天pm2.5小时浓度的变化数据;图5为不同区域的省控点数据绘制不同区域的pm2.5浓度图;图6本发明中遗忘门ft具体结构;图7为区域a模型获得的pm2.5浓度数据;图8为区域b模型获得的pm2.5浓度数据;图9为区域c模型获得的pm2.5浓度数据;图10为区域e模型获得的pm2.5浓度数据。具体实施方式以下结合具体实施例对本发明创造作详细说明。为了进一步阐述本发明,结合上述附图对本发明的具体方法、实施过程、算法分析、结果分析等进行详细说明。如图1、图2所示,本发明的理论基础包括环境科学、计算机科学、大气科学、统计学等。传统的基于空气动力学方法的预测方法相比,本发明涉及的学科范围更广,学科间的融合更紧密。因而具有一定的学科交叉性,对新学科的发展、预测方法的扩展具有一定的理论支持。常用的分析与预测方法包括人工神经网络、遗传算法、支持向量机、多元回归分析、集成算法、深度学习等。但是,单一算法在做预测时存在许多问题,包括收敛时间过长、鲁棒性较低、过拟合问题、泛化能力较低等。针对目前存在的这些问题,本文提出利用多元统计分析方法分析影响pm2.5的因素,分析污染物的时间特性,将与pm2.5相关性较小的因子剔除。并将提取到的因子作为网络的输入端,pm2.5浓度值作为网络输出端,进行深度学习。基于上述理论基础,在预测的第一步构建本发明的理论模型,包括预处理部分、特征选择部分、lstm模型部分。发明的第二步是要进行数据的获取以及数据的预处理过程,本发明的数据来源于某市内5个不同的省控监测点,包括2016年1月1日-2019年2月9号共计4年零两个月的时频测控数据,监测的指标包括气象数据与污染物数据。其中,数据中的80%用于训练模型,20%用于测试模型,最后24小时的数据用于预测。由于各种历史原因,采集上来的数据存在缺失、数据不准确、数据分布不合理等各种问题。因此,需要将数据进行预处理,使数据的质量达到预测的要求。本发明采用的数据处理方式主要包括均值填充以及前值填充:当数据中存在少量缺失时,使用前值填充可以使数据具备更好的分布趋势;当数据中存在连续的数据缺失时,前值填充无法更好的代表本列数据的特征时,使用均值填充使数据分布的趋势更准确。本发明的第三步是本发明中最重要的步骤之一。由于站点非常多如果把所有的站点数据都去计算明显会使计算的速度下降,并且也存在明显的数据共线性问题。因此,如何选择因子与站点对于模型的构建以及pm2.5浓度预测起到了关键的作用。本发明使用三个维度去选择合适的模型输入数据:时间分布、空间分布、因子相关性分析。首先是时间分布:同一个城市相同监测点每小时获取到的污染物浓度也会有一定程度的差异。图3、图4为某市2个省控监测点同一天pm2.5小时浓度的变化数据,各时刻的浓度详见图3。由图3可知,两个监测站点的pm2.5浓度在24小时内呈现的趋势相近,最大浓度都接近120,最小浓度都在50左右。c监测点的最大浓度值出现在晚上7点,最低浓度值出现在下午1点。而监测点d的最大浓度出现在晚上9点,最低浓度出现在早上10点。另外,从图片中我们可以看出pm2.5浓度在早上10点到晚上9点之间的数值偏高,特别是下午3点到晚上9点之间浓度值达到一天的最高值。而早上6点至下午2点之间浓度较为平稳且浓度较低,分析其中原因,早上10点至晚上9点处于人员活动的主要时段,暖气的使用、早晚高峰的交通出行、中餐、晚餐等都会使pm2.5的浓度升高。相反,从晚上12点至早上9点人员活动较少污染物排放的渠道相对减少,pm2.5的浓度也相对较低;其次是空间分布:pm2.5的浓度除了小时差异外,同一个时段不同区域的pm2.5浓度也存在着差异,结合5个不同区域的省控点数据绘制不同区域的pm2.5浓度图,见图5。由图5可知,在相同时间段内,区域a与区域b的数据趋势相近,区域c与区域d数据趋势相近,区域e与其他监测点数据存在较大差异。从该市地图可以看出,区域a与区域b物理距离相对较近,而区域c与区域d都属于同一个行政区,区域e物理距离与其他区域较远。因此,不同的地理位置pm2.5的浓度存在较大的差异;因子相关性分析:过往研究表明影响pm2.5浓度的因素有许多,大致分为气象因素和其他污染物因素。气象因素包括温度、湿度、大气压、风速、风向等,其他污染物因素包括pm10、so2、co、no2、nox、o3等。我们可以通过进行相关性分析选取相关性较大的因子,以达到降维的目的,并将选取的因子作为模型的输入端。根据历史经验表明:相关系数|r|≤0.3,表示弱相关;0.3<|r|≤0.7为显著相关;|r|>0.7位高度相关,使用python分析监测点的相关性,结果见表1。表1监测点的相关性结果pm10cono2noxno湿度so2风向风速温度气压o3a0.9560.8770.7650.6850.5850.5260.3540.171-0.08-0.09-0.129-0.327b0.940.8580.7230.6390.5440.5590.3370.206-0.374-0.141-0.121-0.442c0.9180.7560.740.6890.5730.5670.348-0.19-0.4130.5670.03-0.513d0.8780.880.710.6550.5880.480.5050.01-0.279-0.1970.04-0.44e0.9650.9020.720.6370.5160.5630.2540.1-0.244-0.127-0.165-0.335由表1可知,5个监测点中与pm2.5浓度相关性最高的是pm10,相关系数全部大于0.85,说明两者具有极强的相关性。其次是co和no2,两者与pm2.5的相关系数都大于0.7。而nox、no、湿度、so2四个因子与pm2.5的浓度相关系数基本处于0.3至0.7之间,属于显著相关因子。与之相反,风速、温度、大气压、o3四个因子与pm2.5浓度存在负相关性,特别是o3浓度与pm2.5浓度呈显著负相关。总体来说,pm2.5浓度与气态污染物浓度的相关性较高,或许与他们具有共同污染源的因素相关。第四步是利用训练数据去训练模型,并将模型的各个参数赋初始值。通过上述步骤分析的结果我们使用区域b、c、d、e四个监测点的2016年之后的数据,用24小时的数据进行预测评估。在lstm模型中,将隐藏层数量设为72个神经元,输出层仅使用1个神经元,输入变量是pm10、co、no2、nox、no、湿度、so2的时间步特征,损失函数使用mae,优化算法使用adam,模型的迭代次数epochs设为72,每次迭代选取的batch大小为72。本文所采用的lstm记忆单元包括3个控制门,分别是输入门it、输出门ot、遗忘门ft,具体结构如图6所示:遗忘门ft计算,作为lstm模型的第一步,遗忘门的作用是确定从记忆单元状态中确定舍弃那些信息即删除掉不太重要的信息。该门会读取t时刻的输入值xt与t-1时刻的隐藏层输出ht-1,用数学表达式即为:ft=σ(wf*[ht-1,xt]+bf)(5),式(5)中:是wf的权重矩阵,bf为偏置值,σ为sigmoid函数。输入门it与候选状态的计算lstm模型的第二步是确定细胞状态中存储那些信息,而要完成该步骤需要分两步走。第一步被称为输入门的sigmoid层it,该步骤决定我们将要更新哪些值,其计算公式是:it=σ(wi*[ht-1,xt]+bi)(6)式(6)中:wi的权重矩阵,bf为偏置值。接下来是一个tanh层来创建候选向量cst,并将该向量添加到细胞状态中,其数学表达式为:cst=tanh(wc*[ht-1,xt]+bc)(7)式(7)中:wc的权重矩阵,bc为偏置值。第二步是通过上一步所获取到的两个向量来创建更新值,其数学表达式是:ct=ft*ct-1+it*cst(8)输出门ot计算lstm的最后一步是我们需要确定我们要输出什么,输出门包括两个结构即sigmoid层与tanh层。首先,我们运行sigmoid层,该层的作用是决定细胞状态哪些部分被输出。然后,我们通过将tanh函数与sigmoid门的输出相乘,使输出结果静静包含我们所决定的那一部分。其计算公式是:ot=σ(wo*[ht-1,xt]+bo)(9)ht=ot*tanh(ct)(10)第五步是使用测试数据去验证模型的准确度和性能,本发明使用三种评价回归模型效果的指标:mae、mse、rmse。mse:mae:rmse:如果模型计算出的预测值与真实值之间的误差少于预先设置的阈值,则说明模型达到了预测的要求,且模型的泛化能力与鲁棒性达到了合理的范围。除此之外,本专利产生的预测值与实际值的曲线也比较拟合,说明预测的精度亦较高。第六步是将预测集数据应用在已经建好的模型中,算出未来24小时的pm2.5浓度。具体的结果与相关的评估值见表2。表224小时的pm2.5浓度结果与相关的评估值表rmsemsemaea11.082112.8038.667b27.359748.50516.304c14.244202.87811.534e14.890221.7269.839结合表2与图6、图7、图8、图9,模型获得较为精确的pm2.5浓度,整体误差较小。但是,针对不同的监测站点,精确度存在一定的差别。究其原因,可能与每个监测站点获取的数据质量有一定的关系,数据质量较高的监测点预测的精准度较高,反之,精确度相对降低。本发明利用四个不同的国测点数据对pm2.5浓度进行预测与分析。通过对现有因子进行多元分析,提取相关系数较大的因子。通过将提取的因子作为模型的输入端,对pm2.5浓度做出合理的预测。通过在四个国测点进行实践证明:基于多与分析的lstm模型进行预测具有精确度较高、预测的时间范围较长等特点。除此之外,改模型具有较高的鲁棒性与泛化能力、较强的非线性能力,可在实际项目中使用。最后应当说明的是,以上实施例仅用以说明本发明创造的技术方案,而非对本发明创造保护范围的限制,尽管参照较佳实施例对本发明创造作了详细地说明,本领域的普通技术人员应当理解,可以对本发明创造的技术方案进行修改或者等同替换,而不脱离本发明创造技术方案的实质和范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1