本发明涉及煤炭资源管理的,特别是涉及一种基于机器学习的煤炭消耗预测装置及方法。
背景技术:
1、煤炭在我国的一次性能源中占有重要地位,且煤炭消耗数据与经济能源环境指标密切相关。煤炭消耗的预测可以为政府制定能源政策以及应对雾霾,温室气体排放等环境问题提供参考,有助于解决煤炭利用率低、优化煤炭消耗结构,应对环境污染问题。
2、对煤炭消耗历史数据进行建模和挖掘,以寻找数据中的模式和规律来对未来进行预测是常用的方法。由于受季节,政策等多因素影响,煤炭消耗数据通常含有复杂的季节性和非线性特征。如果用经典线性统计学模型例进行预测,则无法提取序列中的非线性模式。深度学习模型虽有强大的非线性特征捕捉能力,但对煤炭消耗数据中的季节性变化不敏感。以上问题导致现方法对于煤炭消耗预测效果不佳。
技术实现思路
1、为解决上述技术问题,本发明提供一种能够全面的提取煤炭消耗序列中的模式和季节性,从而实现更准确的预测效果的基于机器学习的煤炭消耗预测装置及方法。
2、本发明的一种基于机器学习的煤炭消耗预测装置,包括:
3、数据预处理单元,用于清洗数据;
4、数据分析单元,用于对数据进行统计学分析;
5、线性预测单元,用于提取数据的线性特征并进行预测;
6、神经网络预测单元,用于提取数据的分非线性特征并进行预测;
7、数据整合单元,用于结合两种模型的预测结果。
8、一种基于机器学习的煤炭消耗预测方法,包括以下步骤:
9、对煤炭消耗数据进行预处理;
10、对煤炭消耗数据进行基本统计学分析;
11、根据统计学分析结果选择适当模型针对煤炭数据的线性特征建模和预测;
12、计算线性预测部分和原始煤炭消耗数据的残差;
13、使用残差训练机器学习模型对煤炭消耗数据的非线性部分进行提取和建模并对残差数据进行预测;
14、将两部分预测结果进行集成。
15、优选的,所述对煤炭消耗数据进行预处理的方法包括使用线性插值法进行缺失值填充,使用移动平均滤波法平滑数据点。
16、优选的,所述对煤炭消耗数据进行基本统计学分析包括平稳性检验、白噪声检验、季节性和趋势分解,自相关图和偏自相关图的绘制。
17、优选的,所述平稳性检验的具体方法为:使用单位根检验法进行平稳性检验,若煤炭消耗数据存在单位根,则认为序列为非平稳序列,此时需要进行差分操作使其平稳;若差分后的序列仍不平稳则进行二阶差分直至为一平稳序列。
18、优选的,所述白噪声检验的具体方法为:使用ljung-box方法进行白噪声检验,若为非白噪声序列,则证明煤炭消耗数据有一定的自相关性,则可以使用自回归的模型进行建模和预测;若检验为白噪声序列,则证明数据为纯随机序列,其中无任何模式可供提取和分析,应当重新进行数据收集。
19、优选的,所述使用季节性和趋势分解法用于分离出数据的趋势,季节性和残差,若煤炭消耗数据存在季节性变化则可以使用针对季节性的模型进行建模和预测。
20、优选的,所述自相关图和偏自相关图的绘制用于观察数据的相关性和自相关性。
21、优选的,所述根据统计学分析结果选择适当模型针对煤炭数据的线性特征建模和预测的具体步骤包括:
22、根据季节性和趋势分解观察到煤炭消耗序列的季节性变化,使用季节性自回归差分移动平均模型进行建模,该模型针对煤炭消耗序列中的线性部分和季节性部分;
23、根据季节性和趋势分解结果确定模型的季节性参数;
24、根据所做差分操作的次数确定模型的差分阶数;
25、根据数据的自相关图和偏自相关图确定模型自回归和移动平均的阶数;
26、根据信息准则确定上述各部分参数最优组合。
27、优选的,所述根据信息准则确定各部分参数最优组合中的信息准则具体为赤池信息准则和贝叶斯信息准则。
28、优选的,所述使用残差训练机器学习模型对煤炭消耗数据的非线性部分进行提取和建模并对残差数据进行预测的具体方法为:使用长短时记忆神经网络接受残差进行训练并预测。
29、优选的,所述使用长短时记忆神经网络接受残差进行训练并预测的具体步骤包括:
30、确定神经网络模型的各个参数;
31、将数据划分为训练集和测试集;
32、使用训练集数据进行训练;
33、在测试集上验证模型性能并对残差数据进行预测。
34、优选的,所述使用长短时记忆神经网络接受残差进行训练并预测的具体步骤中确定神经网络模型的各个参数的方法为在合理范围内测试所有参数组合,根据性能表现确定最优参数。
35、优选的,将两部分预测结果进行集成的具体方法为使用基于平均方程的方法算出每步预测中两种模型的权值,后将两种模型的预测结果根据权值进行相加得出最终结果。
36、与现有技术相比本发明的有益效果为:通过获取煤炭消耗历史时序数据、对煤炭消耗历史时序数据进行统计学分析、根据统计学分析结果完成预测算法的定参、根据预测算法进行预测的方式,对煤炭消耗数据进行线性特征和季节性的提取,即预测结果中包含数据的线性模式和季节性。
37、通过将原始煤炭消耗数据与线性预测数据相减得到残差序列,残差序列中包含线性模型未能提取的非线性模式,使用残差序列训练神经网络模型并使有神经网络对残差序列进行拟合和预测,通过这种方式提取煤炭消耗序列中的非线性模式。
38、煤炭消耗数据,由于其受气温,天然气消耗等多种因素影响,在以年为周期内,往往表现出有较大的波动,呈现出随季节周期性变化,本发明所述的预测方法,是对数据序列的季节性性进行预测,从时序数据的季节性,线性,非线性等多个特征维度实施预测,既有效的避免了短期波动的干扰,又充分兼顾到中长周期的各种特征。
39、基于以上论证,本发明所述的数据预测方法,立足于充分挖掘数据序列的不同特征,对不同特征的时序数据进行分别提取和预测,具有应用范围广、自适应强、预测可信度高等优点。由于曲线特征的集合是开放的、可扩展的,在方案的应用实践中,可不断的积累和新增特征项,优化判决和分类模型,使预测方案的有效性能在具体应用场景中不断演化、改善。
1.一种基于机器学习的煤炭消耗预测装置,其特征在于,所述装置包括:
2.如权利要求1所述的一种基于机器学习的煤炭消耗预测装置的预测方法,其特征在于,包括下列步骤:
3.如权利要求2所述的一种基于机器学习的煤炭消耗预测装置的预测方法,其特征在于,所述对煤炭消耗数据进行预处理的方法包括使用线性插值法进行缺失值填充,使用移动平均滤波法平滑数据点。
4.如权利要求2所述的一种基于机器学习的煤炭消耗预测装置的预测方法,其特征在于,所述对煤炭消耗数据进行基本统计学分析包括平稳性检验、白噪声检验、季节性和趋势分解,自相关图和偏自相关图的绘制;所述自相关图和偏自相关图的绘制用于观察数据的相关性和自相关性。
5.如权利要求4所述的一种基于机器学习的煤炭消耗预测装置的预测方法,其特征在于,所述平稳性检验的具体方法为:使用单位根检验法进行平稳性检验,若煤炭消耗数据存在单位根,则认为序列为非平稳序列,此时需要进行差分操作使其平稳;若差分后的序列仍不平稳则进行二阶差分直至为一平稳序列。
6.如权利要求4所述的一种基于机器学习的煤炭消耗预测装置的预测方法,其特征在于,所述白噪声检验的具体方法为:使用ljung-box方法进行白噪声检验,若为非白噪声序列,则证明煤炭消耗数据有一定的自相关性,则使用自回归的模型进行建模和预测;若检验为白噪声序列,则证明数据为纯随机序列,其中无任何模式可供提取和分析,应当重新进行数据收集。
7.如权利要求4所述的一种基于机器学习的煤炭消耗预测装置的预测方法,其特征在于,所述使用季节性和趋势分解法用于分离出数据的趋势,季节性和残差,若煤炭消耗数据存在季节性变化则使用针对季节性的模型进行建模和预测;建模和预测的具体步骤包括:
8.如权利要求2所述的一种基于机器学习的煤炭消耗预测装置的预测方法,其特征在于,所述使用残差训练机器学习模型对煤炭消耗数据的非线性部分进行提取和建模并对残差数据进行预测的具体方法为:使用长短时记忆神经网络接受残差进行训练并预测。
9.如权利要求8所述的一种基于机器学习的煤炭消耗预测装置的预测方法,其特征在于,所述使用长短时记忆神经网络接受残差进行训练并预测的具体步骤包括:
10.如权利要求2所述的一种基于机器学习的煤炭消耗预测装置的预测方法,其特征在于,将两部分预测结果进行集成的具体方法为:使用基于平均方程的方法算出每步预测中两种模型的权值,后将两种模型的预测结果根据权值进行相加得出最终结果。