本发明涉及电力系统中期负荷预测研究领域,具体是一种月度用电量的预测方法。
背景技术:
月度用电量预测是电力计划部门、用电、营销部门的重要工作,其目的是为了合理地安排电力系统的中期运行计划,降低运行成本,提高供电可靠性。月度用电量预测方法包括常规方法和智能方法两大类。常规方法主要有时间序列法、趋势外推法、回归分析法等;智能方法主要有人工神经网络、灰色系统模型、支持向量机、小波分析等。
常规预测方法中,时间序列法将用电量仅与时间序列相关联,算法简单且运算速度快,但对数据平稳性要求高;趋势外推法中,当数据序列存在明显的波动时,预测结果不甚理想;回归分析法对数据质量依赖性较大,当数据呈现非线性特征或规律性不强时,拟合出的回归模型预测误差往往很大,且由于回归模型较为简单,算法较为低级,依据历史数据拟合出的回归模型有可能出现伪回归现象,即拟合的回归关系不能够真实反映变量和自变量之间存在的均衡关系,仅仅是一种数字上的巧合。
近年来,具有较强的自学习和复杂的非线性函数拟合能力的智能决策方法被广泛应用到负荷预测领域,且在国际上得到认可。该类方法对大量非结构性、非精确性规律具有自适用能力,具有记忆信息、自主学习、知识推理和优化计算等优点。但某些智能方法也存在一定缺陷;人工神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值,且学习时间过长,甚至可能达不到学习的目的;灰色系统模型对历史数据依赖性较强,且未考虑各个因素之间的联系;小波分析中,小波基的选取对预测结果具有较大的影响。
随机森林算法在众多的智能决策类算法中能够有效规避以上缺陷,实现较为精准的负荷预测,但是人们还没有把随机森林算法应用在电量预测领域。
技术实现要素:
本发明的目的在于提供一种月度用电量的预测方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种月度用电量的预测方法,具体步骤如下:
步骤一,依据皮尔逊相关系数筛选行业指标;
步骤二,随机森林训练与预测:是用随机的方式建立一个森林,森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的;在得到森林之后,当有一个新的输入样本进入的时候,就让森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类,然后看看哪一类被选择最多,就预测这个样本为那一类;随机森林又可以利用多棵树对样本进行训练并实现预测。
作为本发明进一步的方案:随机森林训练与预测包括随机样本选择、决策树构建和随机森林预测结果投票,随机样本选择的具体步骤为对于给定的一个训练样本集,进行Bootstrap有放回采样,得到n个样本子集;决策树构建的具体步骤为从只有一个节点开始进行观察,从总量为M的特征向量中,随机选择m个特征,在所有节点中根据这m个特征的增益,选择最优特征,不断产生后代节点,直至树最大;随机森林预测结果投票的具体步骤为使用n棵子决策树对测试样本进行逐一预测,得到n个预测结果,然后采用投票机制,票数最高的即为最终预测结果。
作为本发明进一步的方案:皮尔逊相关系数的具体计算公式为x与y为相关程度的定量指标并且x与y的取值在[-1,1]。
与现有技术相比,本发明的有益效果是:本发明可以采用各大重点行业为着眼点,根据各行业上下游产业链情况,结合皮尔逊相关系数,筛选出与用电量关联关系较强的行业指标;而后对筛选的行业指标与行业用电量进行随机森林训练与建模,实现重点行业各行业的逐月用电量预测;该预测方法将预测对象细化到各个重点行业,预测时间细化到月,有助于预测人员充分掌握各行业的逐月用电量情况;同时,在日新月异的经济形势下,将经济和行业因素有效融入到用电量预测中,充分考虑经济结构变化对用电量的影响,及时准确把握用电量发展趋势。
附图说明
图1为月度用电量的预测方法中随机森林训练与预测的流程示意图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
实施例
皮尔逊相关系数是描述两个变量x与y之间相关程度的定量指标,取值在[-1,1]范围内。当rxy=0时,x与y不存在相关关系,称x与y不相关;当rxy>0,y随x增加而增加,称x与y正相关;当rxy<0,y随x增加而减小,称x与y负相关;当|rxy|=1时,y可以确切地用变量x的线性函数来表示。具体计算公式如下:表1为皮尔逊相关系数取值范围所对应的相关关系强度。
表1皮尔逊相关系数取值及相关程度对应表
1.行业指标筛选
将行业指标看作变量x,用电量看做变量y,可计算出各行业指标用行业用电量之间的相关系数,根据相关系数的大小,挑选出具有极强正相关性的行业指标,构成行业指标群。
表2为江苏省七大重点行业指标与各行业用电量皮尔逊相关系数计算结果。
表2皮尔逊相关系数计算结果
根据皮尔逊系数计算结果,选择与用电量具有极强正相关性的行业指标,作为七大重点行业用电量预测的关联指标,如表3所示。
表3七大行业强关联指标
2.基于随机森林的用电量预测
训练样本集选取江苏省2005年1月至2016年4月七大重点行业用电量的月度数据,以及根据皮尔逊相关系数确定的各行业关联指标;预测样本选取2016年5月至2016年10月江苏省七大重点行业用电量的月度数据,进行随机森林算法训练与预测。
表4和表5分别为江苏省2016年5月-10月七大重点行业的月度用电量预测结果及偏差率,其中,偏差率基本控制在正负10%以内,体现了良好的预测准确性,可有效地用于指导江苏省各重点行业的月度用电量预测。
表4 2016年5月-10月江苏七大重点行业月度用电量预测结果(单位:万千瓦时)
表5 2016年5月-12月江苏七大重点行业月度用电量预测结果偏差率
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。