本公开属于风电功率预测领域,具体涉及一种基于深度学习的风电集群功率区间预测的方法及系统。
背景技术:
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
化石燃料大量燃烧导致的环境问题以及能源枯竭等问题越来越受到全球的广泛关注,大力发展可再生清洁能源成为各国的共识。然而,不用于传统能源可控性强的特点,风电具有间歇性和随机性,因此,高比例的风电接入电网对电力系统的经济安全稳定运行带来了严峻的挑战。准确可靠的风电预测结果是解决这一问题的重要手段之一。
风电集群主要是指区域内多个风电场站的集合。近年来,绝大部分研究主要集中于对单一风电场站出力的预测,对风电集群功率的预测相对较少。实际上,对风电功率预测的研究已经持续多年,根据结果的表达形式,其主要可分为单值预测和概率预测。一些单值预测方法被应用于风电预测领域。尽管其中的一些方法可以得到较为精确的预测结果,但是单值预测却存在一个不可忽视的问题,即:由于数据缺失和风电本身波动特点,单值预测必然引入预测误差,确定的预测结果无法提供关于风电功率的不确定性信息。使得利用风电预测结果在基于随机优化或风险评估的决策过程中的使用具有一定的局限性。
为了描述风电的随机性和可变性,在过去时间中,风电概率预测技术得到了快速发展,各国学者提出了许多概率预测方法,例如分位点回归、条件核密度估计、区间预测以及稀疏贝叶斯学习方法等。与确定性方法相比,概率预测能够提供更多关于风电不确定性信息用于满足不同决策目标的需要。到目前为止,风电概率预测技术已经应用于制定发电计划、备用配置、最优机组组合和电力市场等方面并且取得了较好的效果。然而,据发明人了解,目前大多数概率预测研究仅仅关注于单一风电场站,并且仅利用数值天气预报(nwp)和当地风电场的历史数据来预测风电功率,事实上,一个区域多个风电场站之间必然存在一定的关联性,有效地利用关联性可以显著地提高风电集群功率概率预测结果。
技术实现要素:
本公开为了解决上述问题,提出了一种基于深度学习的风电集群功率区间预测的方法及系统,本公开直接利用各场站原始数据进行风电集群功率的预测,在初始数据的基础上通过计算区域内解释变量与目标变量之间的互信息来提取关联信息,选择高度相关的解释变量,然后用主成分分析方法进行数据重构和降维,提高概率预测效率。最后构建区间约束条件,使用深度学习构建预测模型,并用粒子群优化方法进行模型优化,具有一定的先进性、准确性和有效性。
根据一些实施例,本公开采用如下技术方案:
一种基于深度学习的风电集群功率区间预测的方法,包括以下步骤:
获取各个风电场站的数值天气预报和历史风电功率作为原始输入数据,通过计算解释变量的互信息来提取区域内解释变量与目标变量之间的互信息来提取关联信息,选择符合相关度的解释变量,利用主成分分析方法进行数据重构和降维,构建区间约束条件,使用深度学习构建预测模型,将重构和降维的数据输入模型进行训练,结合粒子群优化方法进行模型优化,确定最终的预测模型,利用最终的预测模型进行功率区间预测。
基于得到的区间预测结果,可以进行风电集群内备用机组的配置,具体包括容量配置和位置配置。
也可以进行最优机组组合的确定,用于设计风电集群,或风电集群的建设,保证用电的有序性和安全性以及高效性。
作为可选择的实施方式,将风电集群总功率作为目标变量,将集群内各个风电场站的nwp数据和历史量测数据作为解释变量,计算解释变量与目标变量之间的互信息,用大数定律从样本中计算互信息,通过计算解释变量与目标变量之间的互信息,选择一组与目标变量最相关的解释变量。
作为可选择的实施方式,对数据进行统一归一化处理,使得数据介于[0,1]之间,解释变量的选取计算互信息,通过互信息的大小选择历史风功率、辐照度、温度和湿度变量作为解释变量。
作为可选择的实施方式,风电集群中涵盖多个场站,利用主成分分析对解释变量进行降维,同时提取解释变量的关键特征,使得深度学习的输入数据相互独立。
作为可选择的实施方式,利用深度学习构建预测模型,将区间预测转换成多目标优化问题,利用深度学习进行优化,寻求最优权重。
作为可选择的实施方式,多目标优化的目标为在给定的预测区间覆盖率下,预测区间的宽度值最小。
作为可选择的实施方式,根据适应度函数计算各粒子的适应度值,对每个粒子,将它的适应度值与它的历史记录最优的适应度值比较,若更好,则将其作为历史最优,将它的适应度值和群体所经历的最好位置的适应度值比较,如果更好,则将其作为群最优。
一种基于深度学习的风电集群功率区间预测的系统,包括:
数据处理模块,获取各个风电场站的数值天气预报和历史风电功率作为原始输入数据,通过计算解释变量的互信息来提取区域内解释变量与目标变量之间的互信息来提取关联信息;
降维模块,被配置为选择符合相关度的解释变量,利用主成分分析方法进行数据重构和降维;
模型构建模块,被配置为构建区间约束条件,使用深度学习构建预测模型,将重构和降维的数据输入模型进行训练,结合粒子群优化方法进行模型优化,确定最终的预测模型,利用最终的预测模型进行功率区间预测。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的一种基于深度学习的风电集群功率区间预测的方法。
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的一种基于深度学习的风电集群功率区间预测的方法。
与现有技术相比,本公开的有益效果为:
相比于对单一风电场站出力的预测,风电集群功率预测能直接为电力系统决策者提供信息,进而制定合理的发电计划,制定备用计划。同时减少对场站预测的依赖,从而避免弃风的产生。根据风电集群功率预测,解释变量多,数据量大而复杂的特点,利用互信息和主成分分析对初始数据进行降维,将概率性区间预测转化成带有约束的优化问题,利用深度学习挖掘非线性关系,可以得到准确的预测结果。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是深度学习基本结构示意图;
图2是区间预测流程图;
图3是集群内风电场站互信息排列示意图;
图4是关键解释变量选取方式示意图;
图5是预测区间宽度对比变化图;
图6是基于深度学习的区间预测结果示意图;
图7是原始数据输入的区间预测结果示意图。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本实施例使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
一种基于深度学习的短期风电集群功率区间预测方法,直接利用各场站原始数据进行风电集群功率的预测。首先在初始数据的基础上通过计算解释变量的互信息来提取区域内解释变量与目标变量之间的互信息来提取关联信息,选择高度相关的解释变量,然后用主成分分析方法进行数据重构和降维,提高概率预测效率。最后构建区间约束条件,使用深度学习构建预测模型,并用粒子群优化方法进行模型优化。
风电集群功率预测不同于单一场站的预测技术,其包含多个风电场站的初始数据,故而数据量大,解释变量多而复杂,并且场站之间在上必然存在关联关系。因此为提高风电集群功率预测精度必须考虑以下两个因素:
首先,获取数据质量。详尽的风电集群场站的地理信息、气象条件以及历史量测数据可以提高预测精度。事实上,大多数的风电场站数据完整性不全,而多个风电场站在数据采集时刻点上必须一一对应,所以风电集群数据的获取质量更加难以保证。因此,在相关性分析和预测建模过程中不应过度依赖数据类型。考虑到数值天气预报和历史风电功率是必须存储的数据,并且通过这两类数据可以分析场站间的相关性。因此本实施例选取集群内各个风电场站的数值天气预报和历史风电功率作为原始输入数据最为合理。
其次,是输入数据维度。理论上来说足够多的输入数据有利于提高预测精度,但是同时也会带来增大计算压力和模型估计困难的问题。随着数据维度的提高,大多数的算法的计算效率下降,计算时长增加。为了解决这个问题,首先对所有的输入数据使用互信息进行相关性分析,挑选高度相关的解释变量。然后使用主成分分析方法再次对数据进行重构和降维。最终提取出相关性数据输入模型。
香农提出的信息理论中涵盖了信息熵和互信息的概念。任意一个随机变量的信息熵是这个变量中包含的信息数量。随机变量变量x的信息熵可以由式(1)来表示:
h(x)=∫-fx·log(fx)(1)
其中fx是变量x的概率密度函数。
信息熵常被用于衡量一个物理或者人工系统的信息含量。互信息以信息熵为基础,是关于有用信息的一种度量,可以理解为一个随机变量中包含的关于另一个随机变量的信息量,即:一个随机变量由于已知另一个随机变量而减少的不确定性。所以我们可以用互信息来衡量两个随机变量之间的关联程度。对于随机变量x和y其平均互信息可以用式(2)来表示:
其中,fy是随机变量y的概率密度函数,fx,y是随机变量x和y的联合概率密度函数。
由公式(2)可以看出,当fx,y=fx·fy,这意味着随机变量x和y是相互独立的,
计算相关性还可以用相关系数法,然而相关系数仅能反应变量之间的线性关系,而风电场站是一个复杂的人造系统,其数据之间的非线性关系尤为突出,而互信息不仅能反应线性关系,也能反应其非线性关系,因此互信息在反应变量之间的相关性比相关系数更加全面。
将风电集群总功率作为目标变量,将集群内各个风电场站的nwp数据和历史量测数据作为解释变量,然后计算解释变量与目标变量之间的互信息,为简化计算,可以用大数定律从样本中计算互信息:
通过计算解释变量与目标变量之间的互信息,选择一组与目标变量高度相关的解释变量。
风电集群功率预测的选取的解释变量相对较多,数据维度较高。同时通过互信息提取的解释变量中必然存在一些变量包含的信息是冗余的,主成分分析法可以有效提取关键解释变量和主要特征,降低数据维度,使得关键解释变量相互独立且尽可能多的反应更多信息。
主成分分析首先要对解释变量标准化,假设m个解释变量x1,x2,x3,…,xm来表示目标变量的各个特征,样本数量是n,可以用n×m矩阵表示,即
则其中心标准化为:
其中,
通过求得的中心标准化矩阵,计算解释变量的自相关矩阵:
这里
计算每个特征向量的方差贡献率和累计方差贡献率:
这里i=1,2,…,m。
如果前p个特征向量的累积方差贡献率大于85%-95%,则将主成分的数量确定为p。此时所选的主成分中已经包含原始变量所能提供的绝大多数信息。
一般而言,对区间预测结果的评价主要用预测区间覆盖率(picp)和区间宽度(pinrw)作为评价指标。本实施例利用评价指标作为优化条件,利用深度学习进行目标训练。
区间预测的评价指标
(1)预测区间覆盖率(picp)
一般而言,预测区间覆盖率是用于评价模型的可靠性的,是区间预测的重要评价指标之一。预测区间覆盖率可以表示为:
其中n为样本数量,εt为布尔变量,用于表示预测区间和目标值之间的关系。
其关系具体表示为:
其中,lt和ut分别预测区间下限和预测区间上限。
因此,理想状态下,目标值应被预测区间全部覆盖也就是picp=100%。
(2)预测区间的宽度(pinrw)
除了picp可以评价预测区间的质量之外,还必须考虑预测区间的宽度。假设我们取目标变量的最小值和最大值作为预测区间的上下限,目标变量虽然可以很好的被包裹其中,但是其预测区间宽度过大,对决策者的参考意义不大。因此预测区间宽度是衡量区间预测敏锐度的重要指标。其表达形式如下:
其中,r表示目标变量的最大值和最小值之差。pinaw越小,预测模型的敏锐性越高。
深度学习方法有分布并行处理、自适应学习、非线性映射和泛化能力的特征,对于风电集群预测具有强适应能力。深度学习是一种监督学习模型。其结构一般如图1所示。
在区间预测中,我们总是追求最大的picp和最小的pinaw,即追求更高的可靠性和更好的敏锐度。因此,本实施例将区间预测转换成多目标优化问题,利用深度学习进行优化,寻求最优权重。
如果预先给定picp,那么式(12)可以被转换成单目标优化问题:
利用粒子群算法(pso)进行目标寻优。区间预测的流程图如图2所示。
根据图2流程图,本实施例预测模型流程可总结如下:
1)数据预处理。首先对数据进行统一归一化处理,使得数据介于[0,1]之间。解释变量的选取主要计算互信息,通过互信息的大小选择历史风功率、辐照度、温度、湿度等变量作为解释变量。同时利用了互信息计算了关联信息。
2)数据降维。风电集群中涵盖多个场站,故而输入数据维度过大,同时利用深度学习进行建模的前提条件是输入数据是相互独立的。因此,利用主成分分析不仅可以对解释变量进行降维,同时可以提取解释变量的关键特征,使得深度学习的输入数据是相互独立的。
3)构建深度学习模型。优化神经网络的结构,确定隐含层和节点数量。构建优化目标,给定picp,使得pinaw值最小。
4)神经网络权重和粒子群算法参数进行初始化。pso算法参数初始化包括粒子位置和速度。粒子位置用神经网络的权重表示,速度随机初始化。
5)根据适应度函数计算各粒子的适应度值。对每个粒子,将它的适应度值与它的历史记录最优的适应度值比较,若更好,则将其作为历史最优(pbest);将它的适应度值和群体所经历的最好位置的适应度值比较,如果更好,则将其作为群最优(gbest)。
6)训练结束:训练结束标准可以设置为最大迭代次数,否则,培训过程将继续,并返回到步骤5。
7)测试评价。
作为验证,主要用中国某地区10个风电场站的数据进行预测未来72小时,时间分辨率为15min的风电集群总功率,预测区间为80%和90%。数据集被分成训练集和验证集。训练集用于建立深度学习的区间预测模型,验证集用于测试模型的性能。
将风电场站各自功率处理成集群功率,从样本数据及中计算目标变量和初始解释变量之间的互信息,其互信息如图3所示。选取互信息大于0.45的解释变量作为关键解释变量。按大小顺序排列如图4所示。
通过互信息选取关键解释变量后,利用主成分分析对关键解释变量进行降维,提取关键特征,使得相互独立。计算各个特征的贡献率和累计贡献率,提取主成分,如表1所示。
表1主成分分析结果
一般而言,当方差累计贡献率达到80%到95%时,我们认为其为主要成分。故而本实施例选取前12个特征变量作为关键特征。
本实施例将经过互信息和主成分分析得到的关键特征作为神经网络的输入数据。进行样本训练。对比算例采用未经数据预处理的原始数据进行样本训练,分别得到80%和90%预测区间。其预测时间点80%和90%区间宽度如图5所示。
从图5中可以看出,无论是80%预测区间还是90%预测区间,本实施例所提出的方法相对比与原始数据输入所得的结果具有更窄的预测区间。这说明,本实施例所提方法得到的预测结果具有更好的敏锐度,可以为决策者提供更加可靠全面的信息。此外,随着预测时间的增加,预测区间宽度明显增大,这是由于随着时间尺度的延长,所获得的气象等数据变得越来越不可靠,不确定性信息增多,使得预测效果变差。
图6和图7分别表示了原始数据输入和特征提取所得的某三天的风电集群总功率的90%和80%置信区间的预测结果。比较图6和图7,可以看出通过特征提取后的预测结果的敏锐度更好,包含的不确定信息更为全面。随着预测时间尺度的增加,置信区间带越来越宽,恰好证明了图5中pinaw变化的结果。同时,我们也可以看出图6的预测效果明显好于图7,这说明了本实施例所提方法具有良好的适用性。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。