基于机组动态特性的风电功率预测不确定性量化方法

文档序号:26435092发布日期:2021-08-27 13:32阅读:155来源:国知局
基于机组动态特性的风电功率预测不确定性量化方法

本发明属于风电功率预测技术领域,具体涉及一种基于机组动态特性的超短期风电功率预测不确定性量化方法。



背景技术:

风资源的随机性和波动性是造成风电机组出力不确定性的主要因素,进而限制大规模风电并网。风电功率预测方法按时间尺度可分为超短期(0-4h)、短期(4-72h)、中期和长期预测(>72h)。风电功率预测时间尺度越短,对预测精度要求越高。精确的超短期风电功率预测对风电机组参与优化调频、旋转备用容量的优化配置和实时电力市场确定清算价格提供重要依据。

近年来,神经网络和回归模型的人工智能方法,及非参数的概率预测方法,在风电功率预测研究中被广泛关注,主要包括输入数据的预处理、预测模型的构建和预测不确定性的量化分析三个方面研究。特征选取作为数据预处理的方法之一,在保证预测精度前提下,降低输入变量的维度,以提高模型计算效率。风电功率预测的输入特征依据建模对象(风电场或风电机组)的不同有所侧重。利用模糊神经网络处理采集数据的不确定性,湿度、温度、压力和风速作为输入特征,提出粒子群优化的模糊神经网络模型对整个风电场功率进行预测。选取风向,偏航角和风速作为预测机组出力曲线的输入,以提高预测的精度,但忽略发电机运行的动态控制因素影响。

目前,风电功率不确定性量化分析的研究主要有概率密度和分位数回归。其中采用分位数回归进行风电功率的概率预测,分位数回归不能描述联系连续的概率分布,难以描述风速等气象变量与风电功率间的非线性映射,实际预测效果受限。

相比于传统的神经网络和回归模型训练高维大数据时计算成本较高和模型不稳定的问题,新兴的基于决策树的集成学习方法,通过构建和组合多个基础学习器来完成学习任务,能够提供比单个学习器更健壮的性能。然而上述研究针对超短期风电功率预测和区间估计虽有一定的指导意义,但在数据特征信息挖掘和模型性能方面仍有待提高。



技术实现要素:

针对目前不确定性量化分析存在的忽略了发电机运行动态因素的影响、计算时间较长的缺陷和问题,本发明提供一种机组动态特性超短期风电功率预测不确定性量化方法。

本发明解决其技术问题所采用的方案是:一种基于机组动态特性的风电功率预测不确定性量化方法,包括以下步骤:

(1)选取风电机组一定时间范围内的历史实测运行数据,基于皮尔逊相关性和模型特征重要度排序分析影响机组出力的特征,剔除相关性较弱和分数较低的特征,选出影响机组出力的重要特征,以重要特征作为输入特征,以机组风电功率作为输出,构建lgbm风电功率预测模型;同时采用贝叶斯优化算法对lgbm风电功率预测模型的超参数进行优化,以均方根误差作为评估函数获取最优超参数,将最优超参数代入lgbm风电功率预测模型得到贝叶斯优化的lgbm风电功率预测模型;

(2)以历史实测运行数据的一部分作为训练集对贝叶斯优化的lgbm预测模型进行训练,以历史实测运行数据的另一部分作为测试集进行测试,获取机组风电功率历史预测值;将历史预测值与历史实测值进行对比得到预测误差;

(3)利用非参数估计建立预测风电功率和预测误差的条件相依性,采用模糊c均值聚类对预测风电功率的样本特征进行聚类,将预测风电功率值离散划分为多个功率区段,并获得不同功率区段的样本子集;

(4)根据不同功率区段内的样本子集,非参数估计拟合误差直方图获取概率分布函数和预测误差累计分布函数,计算预测误差在不同置信度水平下的预测功率上限和下限;同时计算不同预测误差置信水平下各预测点的区间估计指标,遍历所有预测点完成功率预测不确定性的量化。

上述的基于机组动态特性的风电功率预测不确定性量化方法,所述实测运行数据包括环境温度、1s平均风速、1s最大风速、1s最小风速、风向、机舱位置、扭矩、叶片角度、叶片最大角度、叶片最小角度、发电机平均转速、发电机最大转速、发电机最小转速、风电功率。

上述的基于机组动态特性的风电功率预测不确定性量化方法,lgbm风电功率预测模型构建方法为:给定一组风电机组历史数据d={(xi,yi):i=1…n},xi为输入特征时间序列,yi为风电机组出力功率序列,n为样本个数;损失函数定义为l(y,f(x))=(y-f(x))2,优化的目标函数为实现方法为:

(1)输入训练数据(xi,yi);

(2)构建提升树模型

(3)初始化

form=1tom

①对于第m弱学习器,首先计算梯度

②拟合gm(xi)为一个回归树t(x;θm),寻求该回归树最优参数θm;

③对每棵回归树的叶子节点,通过linesearch求取最佳步长:

④更新模型:fm(x)=fm-1(x)+βmt(x;θm),结束,输出fm(x)。

上述的基于机组动态特性的风电功率预测不确定性量化方法,还包括采用均方根误差和平均绝对误差对模型的预测效果进行评价,均方根误差和平均绝对误差越小,模型预测效果越好,

式中:pi和分别为第i预测点的风电功率实际值和预测值,n为测试样本点的个数。

上述的基于机组动态特性的风电功率预测不确定性量化方法,采用叶斯优化算法对lgbm模型的超参数进行优化,包括以下步骤:

(1)定义需要优化的超参数空间x,包括叶子节点数、学习深度,构建超参数x∈x的函数

(2)使用最大化采集函数x*∈argminx∈xf(x),选取下一个样本点;

(3)依据误差的观察函数y(x)=f(x)+ε,ε∈n(0,δ2noise),获得目标函数f(x);

(4)基于当前模型的分布采集函数对目标函数f(x)进行评估,对数据进行更新,判断是否满足停止规则;

若满足,将其作为最优lgbm预测模型,对预测模型进行训练,然后测试测试集,得到预测风电功率;

若不满足,更新超参数函数,重复(2)(3)(4)步骤。

上述的基于机组动态特性的风电功率预测不确定性量化方法,为评价模糊c均值聚类结果的好坏和确定最佳聚类数目,引入轮廓系数kpc和分类熵kce两个评价指标,其中kpc用于评价不同样本类分群间的分离程度,取值越大越好;kce用于评价样本聚类分群间的模糊程度,取值越小越好;

式中:uij表示第j样本关于i聚类中心的隶属度;c为第i类样本的个数,n为每类的样本个数。

上述的基于机组动态特性的风电功率预测不确定性量化方法,预测误差在不同置信度水平下的预测功率上限和下限计算方法为:以预测误差的概率分布函数f(e),求概率分布函数的逆函数g(ε)反映预测区间的边界值,当p{e≤g(ε)}=1-α成立,e为随机预测误差值,则预测误差(1-α)置信度水平下的预测功率的上限pf.max和下限pf.min,

式中:α2-α1=1-α;pf为预测功率值。

上述的基于机组动态特性的风电功率预测不确定性量化方法,所述区间估计指标包括采用表征预测区间覆盖率的可靠性、预测区间平均宽度和区间覆盖率;

(1)可靠性:可靠性绝对值越小,预测区间可信程度,预测效果越好;

式中:r(1-α)为置信度(1-α)下的可靠性指标值;n为预测测试样本点的个数;ω(1-α)是置信度(1-α)下实际功率值落入预测置信区间的个数;

(2)区间平均宽度:保证可靠性的前提下,区间宽度越小越好;

式中:i(1-α)是置信度(1-α)下的风电功率预测区间平均宽度;n为样本的个数;λi(1-α)是第i样本在置信度(1-α)下功率预测区间上界和下界之差;

(3)区间覆盖率:覆盖率大于指定置信度时,预测达到预期效果,且覆盖率越大,预测效果越好;

式中:n为样本的个数;ci为覆盖因子,若第i实际功率落在预测区间内,则ci取1,否则取0。

上述的基于机组动态特性的风电功率预测不确定性量化方法,所选风电机组为所选时间范围内没有出现故障停机和被限电停机的风电机组。

本发明的有益效果:本发明考虑机组动态特性的lgbm预测模型,针对风电功率预测高维异质性复杂的输入特征,同时采用贝叶斯优化算法对lgbm模型的超参数进行优化,为模型提供最优超参数,给定训练数据和损失函数形式后,具有优越的计算效率和稳定性,能够显著提升训练的精度和计算效率。选取发电机转子转速、风机叶片角度和风速作为预测模型的输入,深度挖掘了影响风电机组出力的因素。算例表明所选输入特征的有效性,其预测精度均高于单一风速的输入模型。

本发明考虑预测误差与预测功率的条件相依性进行区间估计,能够提高分布函数的显著性,采用模糊c均值聚类对历史预测风电功率进行聚类,优化聚类结果,确定最佳聚类数据,构建了非参数估计的误差概率分布模型,相较于工况未划分的区间估计,明显提升了预测的可靠性和预测的覆盖率。采用基于区间估计的不确定性量化方法解耦拟合过程与预测方法,可靠性高,灵活性强。

附图说明

图1为本发明超短期风电功率预测及不确定性量化分析流程图。

图2为本发明贝叶斯优化的lgbm预测模型流程图。

图3为本发明输入特征相关性热力图。

图4为本发明输入特征相关性重要度排序。

图5为本发明预测功率-误差联合概率密度分布图。

图6为本发明历史预测功率与误差分布图。

图7为本发明历史预测误差分布图。

图8为本发明超短期风电功率预测区间估计结果对比图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

实施例1:本实施例提供一种机组动态超短期风电功率预测不确定性量化方法,该方法整体思路如图1所示。采集机组运行的实时动态数据,基于皮尔逊相关性和模型特征重要度排序分析影响机组出力的重要特征。选取叶片角度、发电机平均转速和风速作输入,机组出力为输出,采用贝叶斯优化的轻量梯度上升学习机模型训练历史数据获取机组出力特性曲线,并在测试数据集上测试模型的预测精度和计算性能。其次,利用非参数估计建立预测出力和预测误差联合概率密度分布,分析预测出力和预测误差的条件相依性,采用模糊c均值聚类对预测出力进行功率区段划分,比较非参数估计和参数估计方法拟合的误差概率分布,选取不同出力特性下的最优的误差分布模型。判定未来时刻预测值归属的出力特性,通过相应的误差分布即可求取一定置信水平下的预测区间。具体如下。

一、选取风电机组一定时间范围内的历史实测运行数据,基于皮尔逊相关性和模型特征重要度排序分析影响机组出力的特征,剔除相关性较弱和分数较低的特征,选出影响机组出力的重要特征,以重要特征作为输入特征,以机组风电功率作为输出,构建lgbm风电功率预测模型;同时采用贝叶斯优化算法对lgbm风电功率预测模型的超参数进行优化,以均方根误差作为评估函数获取最优超参数,将最优超参数代入lgbm风电功率预测模型得到贝叶斯优化的lgbm风电功率预测模型,如下。

(一)、给定一组风电机组历史数据d={(xi,yi):i=1…n},xi为输入特征时间序列,yi为风电机组出力功率序列,n为样本个数。损失函数定义为l(y,f(x))=(y-f(x))2,优化的目标函数为

算法实现步骤如下:

1、输入训练数据(xi,yi)

2、构建提升树模型

3、初始化

form=1tom

(1)对于第m弱学习器,首先计算梯度

(2)拟合gm(xi)为一个回归树t(x;θm),寻求该回归树最优参数θm,

(3)对每棵回归树的叶子节点,通过linesearch求取最佳步长βm:

(4)更新模型:fm(x)=fm-1(x)+βmt(x;θm),结束,输出fm(x)。

(二)、采用计算效率较高且易实现的贝叶斯优化算法对lgbm模型的超参数进行优化。

首先定义需要优化的超参数空间x,如叶子节点数、学习深度等。构建代理函数超参数x∈x的函数指的是实数空间;超参数优化问题转化为寻求x*∈argminx∈xf(x)的过程。目标函数f(x)未知,可以从考虑误差的观察函数y(x)=f(x)+ε,ε∈n(0,δ2noise)中获得。已知观测点数据d={(x0,y0),…(xi-1,yi-1)},p(d|f)表示y的似然发布,p(f)表示f的先验概率分布即对未知目标函数状态的假设,优化过程中通过采集函数评估和更新概率代理函数对先验分布将进行修正。由贝叶斯定理构造后验概率分布p(f|d),通过已观测数据集对先验进行修正后未知目标函数的置信度。然后基于当前模型的分布采用采集函数进一步对模型进行挖掘和评估。基于贝叶斯优化方法优化lgbm超参数的流程如图2所示,包括以下步骤:

(1)定义需要优化的超参数空间x,如叶子节点数、学习深度等。构建代理函数超参数x∈x的函数

(2)最大化采集函数x*∈argminx∈xf(x)选取下一个样本点。

(3)考虑误差的观察函数y(x)=f(x)+ε,ε∈n(0,δ2noise),获得目标函数f(x)。

(4)基于当前模型的分布采集函数对目标函数f(x)进行评估,对数据进行更新,判断是否满足停止规则,其中停止规则为五折交叉验证迭代100轮,获取最小的目标函数值,停止。

若满足,将其作为最优lgbm预测模型,对预测模型进行训练,测试训练集,得到预测风电功率;

若不满足,更新代理函数,重复(2)(3)(4)步骤。

(三)、评价指标

本文确定性预测采用具有普遍性的均方根误差(rmse)和平均绝对误差(mae)作为评价指标。评价指标值越小,模型的预测效果越好。

式中:pi和分别为第i预测点的风电功率实际值和预测值,n为测试样本点的个数。

二、基于区间估计的不确定性量化分析

(一)、模糊c均值聚类:

以历史实测运行数据的一部分作为训练集对贝叶斯优化的lgbm预测模型进行训练,以历史实测运行数据的另一部分作为测试集进行测试,获取机组风电功率历史预测值;将历史预测值与历史实测值进行对比得到预测误差。将历史预测风电功率值作为样本集,以模糊c均值聚类对历史预测风电功率进行聚类,将预测风电功率值离散划分为多个功率区段,形成不同的样本子集;获取各样本子集误差分布函数。

考虑预测误差与功率预测条件相依性的区间估计,需要将历史预测功率值作为样本集,并将预测功率值离散划分为多个功率区段,获取各样本子集误差分布函数,提高误差分布函数统计学的显著性。本文采用模糊c均值聚类对历史预测风电功率进行聚类,形成不同的样本子集。模糊c均值聚类考虑被划分对象属于每个类别的隶属度问题,没有规定严格的划分界限,相对于k-means聚类的硬性划分规定,其应用更为灵活。

为评模糊c均值聚类结果的好坏和确定最佳聚类数目,引入轮廓系数kpc和分类熵kce两个评价指标。kpc用于评价不同样本类分群间的分离程度,取值越大越好;kce用于评价样本聚类分群间的模糊程度,取值越小越好。

式中:uij表示第j样本关于i聚类中心的隶属度;c为第i类样本的个数,n为每类的样本个数。

(二)、预测区间估计:已知不同功率区段内的样本子集,非参数估计拟合误差直方图获取其概率密度函数(pdf)和预测误差的累积分布函数(cdf)。假设预测误差的概率密度函数为f(e),e为随机预测误差值,其逆函数为g(ε)反映预测区间的边界值;即当p{e≤g(ε)}=1-α成立,则预测误差(1-α)置信度水平下的预测功率的上限pf.max和下限pf.min

式中:α2-α1=1-α;pf为预测功率值。

(三)、评价指标

区间估计效果采用表征预测区间覆盖率的可靠性、预测区间平均宽度、区间覆盖率三个指标。

(1)可靠性是评判置信区间的可信程度的评价指标。绝对值越小,预测区间可信程度越高,说明预测效果越好。

式中:i(1-α)是置信度(1-α)下的风电功率预测区间平均宽度;n为样本的个数;λi(1-α)是第i样本在置信度(1-α)下功率预测区间上界和下界之差。

(2)区间平均宽度是衡量预测有效性的评价指标,反映预测结果中涵盖不确定信息的能力。保证可靠性的前提下,区间宽度越小越好。

式中:i(1-α)是置信度(1-α)下的风电功率预测区间平均宽度;n为样本的个数;λi(1-α)是第i样本在置信度(1-α)下功率预测区间上界和下界之差。

(3)区间覆盖率是描述区间预测覆盖实际值的情况。覆盖率大于指定置信度时,预测达到预期效果,且覆盖率越大,预测效果越好。

式中:n为样本的个数;ci为覆盖因子,若第i实际功率落在预测区间内,则ci取1,否则取0。

实施例2:本实施例以中国山东某一风电场为例对本发明方法进行进一步说明。

采用该风电场风电机组2017年至2018年实测运行数据,包括在线实测的机组风速、叶片角度,发电机转子转速和风电功率等历史数据。数据采样时间间隔为10分钟,单台机组额定功率为2mw。考虑机组运行过程中的损耗,时间跨度过长的观测数据,并不能真实反映机组的运行工况。最终选取某一台运行状态完好的风机运行一个月的完整数据。样本数据包含4464个数据点,选取样本数据集的80%作为训练集,剩余20%作为测试集,预测的时间跨度为4h。

一、机组出力特征分析

所选时间范围内,机组没有出现故障停机和被限电停机的情况,所以,为保证算法仿真的真实有效性,机组出力小于0的数据置0,但不剔除。数据按照最大最小化归至[0,1]。依据风力发电原理,风电功率主要有风速决定,而又受发电机转速制约。风速是不可控的,为了保证风力发电机的正常和安全运行,发电机转速需要控制在一定范围之内,发电机的转速变化间接反映了机组出力的动态运行特性。

选取scada系统采集历史数据包括:环境温度(f0)、1s平均风速(f1)、1s最大风速(f2)、1秒最小风速(f3)、风向(f4)、机舱位置(f5)、扭矩(f6)、叶片角度(f7)、叶片最大角度(f8)、叶片最小角度(f9)、发电机平均转速(f10)、发电机最大转速(f11)、发电机最小转速(f12)、风电功率(f13)共14个特征量,分别采用皮尔逊相关系数和基于模型的特征重要度排序分析影响机组出力特性的特征。图3皮尔逊相关系数热力图中蓝色部分表示强相关,风速、发电机转速和叶片角度与机组出力呈现强相关性。基于模型的特征排序图4中发电机平均转速f10的f-score最高,意味着该特征对预测功率模型相关性最强,其次为叶片角度f7和风速f1特征。

为提高模型的计算效率,剔除相关性较弱和f-score分数较低的特征,选取发电机平均转速、叶片角度和风速作为风电机组预测模型的输入特征。

二、历史数据确定性预测结果

超参数优化有利于提高预测模型的准确度和控制过拟合。原始数据输入贝叶斯优化模型,定义lgbm模型的超参数如表1。选取rmse为评估函数,采用5折交叉验证训练模型,共迭代30次,选取负rmse最大对应的参数,即为最优。超参数优化详细结果如表1。

表1lgbm模型的最优参数

贝叶斯优化的超参数代入lgbm模型,在训练数据集上进行模型训练,测试集进行测试,并与随机森林(rf)、支持向量机回归(svr)、三层感知机神经网络(mlp)预测结果进行比较。rf和svr的参数采用贝叶斯优化获取,mlp隐藏层神经元个数经多次测试后选取为6。选取控制用叶片角度、发电机平均转速和风速为i类输入特征,风速输入为ii类特征。针对所选取的lgbm、rf、svr和mlp四种预测模型,测试集上两类输入特征对应的预测误差对比结果如表2。

表2历史预测误差结果对比

可见模型输入i类特征时,lgbm的rmse和mae值最小。rf方法仅次于lgbm方法,其次为mlp和svr方法。lgbm的训练时间最小为0.045s,svr的训练时间0.057s比rf时间0.088s短,但其误差值比rf大。mlp的预测误差比svr方法大,但其计算时间要比svr方法增加3倍。相同输入特征,lgbm预测误差和计算成本都要优于rf、svr和mlp预测模型。相对于ii类特征输入的lgbm预测模型,其rmse值减小了53.7%,mae值减少了58.9%,计算时间增加了0.006s。因此随着输入数据的增加,lgbm的预测性能和计算效率依然表现优越。

(三)、预测误差分布模型

采用核密度估计建立预测出力和误差的联合概率密度分布如图4所示,图5中历史预测出力-误差联合概率呈现多峰分布,单一的概率密度分布获取未来时刻预测的区间不够准确。图6为历史预测出力数据的分布和预测误差的分布,预测出力在两端较为集中,中间较为分散,机组出力较大时误差较小。机组出力较小时,出现大误差概率较大。个别误差较大值可能是由于原始数据中存在异常点未剔除产生。根据风电机组的预测出力和预测误差条件相依性,采用模糊c均值聚类对预测出力样本进行聚类。由聚类的评判准则,聚类数目取3类时,kpc和kce值分别为0.611和0.48。聚类为4类时kpc和kce值分别为0.79和0.37。因此,风电机组预测出力功率划分为4个特性区段,其范围分别为[0,203]、[203,698]、[698,1450]和[1450,2023]。

预测误差的精确分布拟合是提高风电功率预测区间的可靠性的前提,有利于反映历史预测误差的变化。4类预测误差数据中,误差统计分布去除原始功率和预测功率为0的点。分别采用逻辑分布(logistic)、非参数分布(non-parametric)、正态分布(normal)和t(t-location)分布对4类误差分布直方图进行拟合,误差概率密度分布如图7。

第i、ii类功率区段内的误差波动范围集中在±60kw和±50kw,第iii类功率区段内误差波动范围较±150kw,第iv功率区段内分布明显呈现不对称。四个区段内的误差分布有个别误差较大点,因原始采集的数据中一些数据会出现误差,为保证基于数据驱动的模型的真实性,原始数据的异常点被未被剔除。四类直方图拟合误差分布图可以反映出非参数估计的优越性,尤其是iv类误差呈现非正态分布时,采用非参数核密度估计方法更能精确表示真实误差分布。选取最优非参数估计拟合的误差分布图进行区间预测。

依据公式(4)计算4类预测功率区段在指定置信水平下的误差波动范围,并与未进行功率区间划分的误差波动结果对比如表3。同一置信水平下,不同功率段内预测误差的波动范围不同。第iii类功率段对应的误差波动范围最大,与第iii类出力特性范围跨度最大对应。进行预测出力特性划分的误差波动范围更能反映实际情况。

表3不同置信水平下误差区间

由lgbm、rf、svr和mlp四类模型测试集的结果对比得知,lgbm的预测精度和计算效率相对突出,因此未来4小时多步预测采用贝叶斯超参数优化的lgbm方法,其模型超参数与测试集所用一致,并与mlp、rf和svr三种模型对比,提前4小时lgbm多步预测的rmse和mae值为23.1kw和18.5kw,rf、svr和mlp的rmse分别为26.5kw、43.5kw和28.2kw,mae值分别为21.2kw、37.9kw和24.1kw。贝叶斯优化超参数优化lgbm预测精度依然优于其他三种比较模型。判定待预测点的出力特性,确定其误差波动范围,遍历所有预测点值,获取预测区间。提前4个小时的机组出力功率预测区间估计结果如图8。机组出力较小时,误差分类获取的区间宽度如图8(a)要小于未分类时的区间宽度图8(b)。机组出力较大时,误差分类的区间预测宽度较大,且区间包络实际值较多。区间预测评价指标如表4。

表4风电功率预测区间估计评价指标

由表4可知,指定95%置信水平下,误差分类的预测覆盖率0.968大于误差未分类的预测覆盖率0.951。同样,其他指定置信度下,误差分类的预测覆盖率要大于误差未分类的预测覆盖率,且前者的可靠性指标较低,说明误差分类的区间估计的可靠性程度较高。相同置信水平下,误差分类的预测平均区间宽度要高于未分类的预测区间平均宽度,说明可靠性和区间平均宽度之间的矛盾性。为了保证可靠性,需要适当增加区间平均宽度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1