1.本发明涉及能源综合利用技术领域,具体而言,涉及一种梯级水光蓄互补系统调度决策方法。
背景技术:2.光伏出力极强随机性、水电来水不确定性、梯级水电出力强耦合性给梯级水光蓄系统的运行提出了严峻的挑战。目前国内外对多能互补协同发电技术的研究已取得了一些成果,针对可再生能源出力随机性特征,利用具有灵活调节能力的常规电源,例如水电、火电等或储能设备,通过先进的调控手段对可再生能源互补,提高可再生能源的利用率,实现多能互补联合发电,为梯级水光蓄系统的运行提供参考。但现有研究大多侧重于单个大容量的水电站与光伏的互补,随着多年流域的梯级开发,已逐步规划建成多个梯级小水电站,由于小水电站库容调节能力有限,还有径流式水电站无调节能力,因此不能将现有传统的水光互补系统发电技术应用在此梯级水光蓄系统,同时,现有水光互补调度研究大多关注水电发电量及运行的经济性,兼顾光伏消纳率,但不是从新能源全额消纳的角度看待问题,并未充分考虑到光伏实时的随机波动变化。另外,传统的优化调度主要集中在长期或日前调度,对实时调度决策无太大指导意义,且这些所涉及的调度决策方法很难准确适应光伏和来水的随机动态变化,因此,考虑水光极强随机性开展梯级水光蓄系统的实时调度决策是亟待解决的问题。
技术实现要素:3.本发明在于提供一种梯级水光蓄互补系统调度决策方法,其能够缓解上述问题。
4.为了缓解上述的问题,本发明采取的技术方案如下:
5.本发明提供了一种梯级水光蓄互补系统调度决策方法,包括以下步骤:
6.s1、将光伏发电源侧波动、并网点波动及经济性作为梯级水光蓄调度优化目标,结合并网点交换功率约束、水电站和抽蓄水库水量约束、节点电压和馈线电流约束搭建梯级水光蓄调度模型;
7.s2、将梯级水光蓄调度模型转换为马尔可夫决策过程,搭建基于强化学习的梯级水光蓄动态调度框架;
8.s3、在基于强化学习的梯级水光蓄动态调度框架下,以当前梯级水光蓄互补系统数据作为输入,利用深度确定性策略梯度(deep deterministic policy gradient,ddpg)算法求解转换为马尔可夫决策过程的梯级水光蓄调度模型,输出得到应对强随机性光伏出力的梯级水光蓄系统实时调度策略。
9.在本发明的一较佳实施方式中,步骤s1中,梯级水光蓄调度优化方法包括将计算周期划分为m个阶段,根据经济效益最大化、光伏发电源侧波动最小化、并网点波动最小化构建梯级水光蓄调度优化目标函数
[0010][0011]
其中,f为计算周期t内的总目标,er
t
为t时刻梯级水光蓄系统经济收益,δp
source,t
为t时刻源侧波动度量,δp
t
为δt时段内并网点波动度量值,β1、β2、β3分别是经济性目标、光伏发电源侧波动平抑目标、并网点波动平抑目标的权重因子。
[0012]
在本发明的一较佳实施方式中,采用信息熵理论计算经济性目标、光伏发电源侧波动平抑目标、并网点波动平抑目标的权重因子。
[0013]
在本发明的一较佳实施方式中,光伏发电源侧波动的优化目标是使计算周期内每个阶段光伏出力波动最小化,计算t时刻波动度量δp
source,t
的计算公式为:
[0014][0015]
其中,p
pv,t
为t时刻光伏发电出力,p
hydro,i,t
为第i个水电站t时刻的发电出力,n为水电站的个数,为计算周期第r阶段所设定的水光出力平均值。
[0016]
在本发明的一较佳实施方式中,并网点波动的优化目标是使并网点功率波动最小,形成可调度的外送曲线,δt时段内并网点波动度量值δp
t
的计算公式为:
[0017]
δp
t
=(p
grid,t-p
′
grid,t-(p
grid,t-1-p
′
grid,t-1
))2,
[0018][0019][0020]
其中,p
grid,t
为t时刻内梯级水光蓄系统与外网交互功率,p
hydro,i,t
为第i个水电站t时刻的发电出力,n为水电站的个数,p
phs,t
为t时刻内抽蓄出力,p
grid,t
为t时刻内梯级水光蓄系统与外网交互功率,p
grid,t-1
为t-1时刻内梯级水光蓄系统与外网交互功率,p
load,t
为t时刻负荷需求,p
′
grid,t
为t时刻抽蓄参与调节前并网点的交互功率,p
′
grid,t-1
为t-1时刻抽蓄参与调节前并网点的交互功率,δp
t
为δt时段并网点的波动度量值。
[0021]
在本发明的一较佳实施方式中,经济性的优化目标是使梯级水光蓄系统与外网交易获得最大的经济收益,在实时电价模式下,t时刻梯级水光蓄系统经济收益er
t
的计算公式为:
[0022][0023]
其中,λ
t
为t时刻电价,p
pv,t
为t时刻光伏发电出力,p
hydro,i,t
为第i个水电站t时刻的发电出力,n为水电站的个数,p
phs,t
为t时刻内抽蓄出力,p
load,t
为t时刻负荷需求。
[0024]
在本发明的一较佳实施方式中,步骤s1中,并网点交换功率约束为
[0025]
p
grid,min
≤p
grid,t
≤p
grid,max
,
[0026]
其中,p
grid,min
,p
grid,max
分别表示并网点传输功率极小值和极大值。
[0027]
在本发明的一较佳实施方式中,水电站和抽蓄水库水量约束为
[0028]
soc
hydro,i,t
=v
i,t
/v
i,max
,
[0029]
soc
phs,t
=v
phs,t
/v
phs,max
,
[0030]
soc
hydro,i,min
≤soc
hydro,i,t
≤soc
hydro,i,max
,
[0031]
soc
phs,min
≤soc
phs,t
≤soc
phs,max
,
[0032]
其中,v
i,t
、v
phs,t
为t时刻i梯级水电站、抽蓄的库容,v
i,max
,v
phs,max
为i梯级水电站水库、抽蓄蓄水量的最大值,soc
hydro,i,t
、soc
phs,t
分别为第i个梯级水电站和抽蓄电站水库水量的荷电状态,soc
hydro,i,max
、soc
hydro,i,min
是第i个梯级水电站库容水量荷电状态的最大值和最小值,soc
phs,max
和soc
phs,min
分别是抽蓄电站水库水量荷电状态的最大值和最小值。
[0033]
在本发明的一较佳实施方式中,节点电压和馈线电流约束为
[0034]ui,min
≤u
i,t
≤u
i,max
,
[0035]ij,min
≤i
j,t
≤i
j,max
,
[0036]
式中,u
i,t
为i节点在t时刻的电压,i
j,t
为第j条馈线在t时刻的电流,v
i,min
、v
i,max
分别为i节点电压容许的最小值和最大值,i
j,min
、i
j,max
分别为第j条馈线电流容许的最小值和最大值。
[0037]
在本发明的一较佳实施方式中,步骤s3中,当前梯级水光蓄互补系统数据包括光伏出力数据、负荷需求数据、电价数据和梯级水电来水数据;需将当前梯级水光蓄互补系统数据分成训练数据集和测试数据集,利用训练数据集训练转换为马尔可夫决策过程的梯级水光蓄调度模型,保存收敛的模型网络参数,利用收敛的模型网络得到测试数据的调度决策结果,即应对强随机性光伏出力的梯级水光蓄系统实时调度策略。
[0038]
与现有技术相比,本发明的有益效果是:
[0039]
提出了电源侧分阶段波动控制策略,继而避免了因光伏富光区和匮光区出力差异而导致最终的调度策略不准确;考虑到梯级水光蓄系统外送可调度性,构建了可全额消纳光伏的梯级水光蓄系统调度模型;设计了深度强化学习与梯级水光蓄系统调度模型的实时交互环境,利用深度确定性策略梯度(deep deterministic policy gradient,ddpg)算法求解得到能够应对源荷随机波动变化的动态调度策略;从应用的角度出发,此方法极大缓解电源侧波动率,提高系统外送调度能力,满足并网点功率波动率指标要求,实现光伏全额消纳,同时具有很高的计算效率,可根据水光随机环境实现实时决策。
[0040]
为使本发明的上述目的、特征和优点能更明显易懂,下文特举本发明实施例,并配合所附附图,作详细说明如下。
附图说明
[0041]
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0042]
图1是梯级水光蓄互补系统调度决策方法的流程图;
[0043]
图2是基于ddpg的梯级水光蓄系统动态调度求解流程图;
[0044]
图3是电源侧平均波动情况对比图;
[0045]
图4是抽蓄参于调控前后并网点波动对比图。
具体实施方式
[0046]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0047]
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0048]
请参照图1,本发明提供了一种梯级水光蓄互补系统调度决策方法,具体如下:
[0049]
s1、搭建梯级水光蓄调度模型,包括梯级水光蓄调度优化目标函数和约束条件。
[0050]
其中,在构建梯级水光蓄调度模型,针对光伏发电的随机波动性,采用水电作为互补电源,平抑光伏波动提高光伏接入电网的友好性。由于小水电调节能力有限,再通过抽蓄和梯级水电协调控制来平抑联络线波动,提高外送可调度性,同时考虑整个梯级水光蓄系统的经济效益。
[0051]
1、梯级水光蓄调度优化目标函数
[0052]
(1)电源侧波动平抑
[0053]
充分考虑光伏存在富光区和匮光区,源侧的波动就涵盖了对随机性和间歇性所导致的波动,未来平抑波动,一般将水光互补目标设定为一条直线,可以将水光周期的平均出力作为基准作为波动的度量,则波动如下式所示:
[0054][0055]
其中,p
pv,t
为t时刻光伏发电出力,p
av
为计算周期内水光发电出力平均值。
[0056]
然而,平抑波动的目的是为了电源具有可调度性能够被电网所接受,设定为一条直线固然能够稳定源侧输出,但是存在以下问题:(1)光伏出力极强随机性,白天和晚上出力变化大,直线目标肯定增加水电容量需求;(2)本文中梯级小水电调节能力有限,直线目标必将导致在光伏输出功率最大的正午时刻发生弃水,而光伏输出功率小的时刻却无法满足光伏波动平抑需求。
[0057]
鉴于上述问题,本发明充分考虑光伏存在富光区和匮光区,提出分阶段波动控制策略,将计算周期划分为m个阶段,每个阶段使光伏出力波动最小化,其波动度量如式提出电源侧分阶段波动控制策略,将计算周期划分为m个阶段,每个阶段使光伏出力波动最小化,计算周期内t时刻波动度量δp
source,t
的计算公式为:
[0058][0059]
其中,p
pv,t
为t时刻光伏发电出力,p
hydro,i,t
为第i个水电站t时刻的发电出力,n代表水电站的总个数,为计算周期第r阶段所设定的水光出力平均值。
[0060]
(2)并网点波动平抑
[0061]
为提高外送曲线可调度性,实现源荷匹配,考虑并网点功率波动最小为目标,形成
可调度的外送曲线,δt时段内并网点波动度量值δp
t
的计算公式为:
[0062]
δp
t
=(p
grid,t-p
′
grid,t-(p
grid,t-1-p
′
grid,t-1
))2,
[0063][0064][0065]
其中,p
grid,t
为t时刻内梯级水光蓄系统与外网交互功率,p
hydro,i,t
为第i个水电站t时刻的发电出力,n为水电站的个数,p
phs,t
为t时刻内抽蓄出力,p
grid,t
为t时刻内梯级水光蓄系统与外网交互功率,p
grid,t-1
为t-1时刻内梯级水光蓄系统与外网交互功率,p
load,t
为t时刻负荷需求,p
′
grid,t
为t时刻抽蓄参与调节前并网点的交互功率,p
′
grid,t-1
为t-1时刻抽蓄参与调节前并网点的交互功率,δp
t
为δt时段并网点的波动度量值。
[0066]
(3)经济性
[0067]
经济性的优化目标是使梯级水光蓄系统与外网交易获得最大的经济收益,在实时电价模式下,t时刻梯级水光蓄系统经济收益er
t
的计算公式为:
[0068][0069]
其中,p
pv,t
为t时刻光伏发电出力,p
hydro,i,t
为第i个水电站t时刻的发电出力,n为水电站的个数,p
phs,t
为t时刻内抽蓄出力,p
load,t
为t时刻负荷需求。
[0070]
在构建梯级水光蓄调度优化目标函数时,应充分考虑梯级水光蓄互补系统输出稳定功率以保证友好接入电网,在此基础上考虑不同径流条件下如何获得最大收益,因此,根据经济效益最大化、光伏发电源侧波动最小化、并网点波动最小化构建梯级水光蓄调度优化目标函数
[0071][0072]
其中,f为计算周期t内的总目标,er
t
为t时刻梯级水光蓄系统经济收益,δp
source,t
为t时刻波动度量值,δp
t
为δt时段内并网点波动度量值,β1、β2、β3分别是经济性目标、光伏发电源侧波动平抑目标、并网点波动平抑目标的权重因子。
[0073]
在本发明中,采用信息熵理论计算经济性目标、光伏发电源侧波动平抑目标、并网点波动平抑目标的权重因子。
[0074]
2、约束条件
[0075]
梯级水光蓄调度模型需满足并网点交换功率约束,水电站和抽蓄水库水量约束,节点电压和馈线电流约束。
[0076]
(1)并网点交换功率约束:
[0077]
p
grid,min
≤p
grid,t
≤p
grid,max
,
[0078]
其中,p
grid,min
,p
grid,max
分别表示并网点传输功率极小值和极大值。并网点交换功率p
grid,t
受联络线传输能力的限制,不容许超过其限值。
[0079]
(2)水电站和抽蓄水库水量约束:
[0080]
soc
hydro,i,t
=v
i,t
/v
i,max
,
[0081]
soc
phs,t
=v
phs,t
/v
phs,max
,
[0082]
soc
hydro,i,min
≤soc
hydro,i,t
≤soc
hydro,i,max
,
[0083]
soc
phs,min
≤soc
phs,t
≤soc
phs,max
,
[0084]
其中,v
i,t
、v
phs,t
为t时刻i梯级水电站、抽蓄的库容,v
i,max
,v
phs,max
为i梯级水电站水库、抽蓄蓄水量的最大值,soc
hydro,i,t
、soc
phs,t
分别为第i个梯级水电站和抽蓄电站水库水量的荷电状态,soc
hydro,i,max
、soc
hydro,i,min
是第i个梯级水电站库容水量荷电状态的最大值和最小值,soc
phs,max
和soc
phs,min
分别是抽蓄电站水库水量荷电状态的最大值和最小值。
[0085]
(3)节点电压和馈线电流约束:
[0086]ui,min
≤u
i,t
≤u
i,max
,
[0087]ij,min
≤i
j,t
≤i
j,max
,
[0088]
式中,u
i,t
为i节点在t时刻的电压,i
j,t
为第j条馈线在t时刻的电流,v
i,min
、v
i,max
分别为i节点电压容许的最小值和最大值,i
j,min
、i
j,max
分别为第j条馈线电流容许的最小值和最大值。
[0089]
s2、将梯级水光蓄调度模型转换为马尔可夫决策过程,搭建基于强化学习的梯级水光蓄动态调度框架。其中,包括梯级水光蓄实时调度系统强化学习任务转换过程中动作、状态、奖励的构建。
[0090]
1、动作
[0091]
梯级水光蓄互补动态调度系统控制中心等效为mdp智能体,智能体根据所观测的系统环境实时状态信息,例如:电价,光伏输出功率、负荷需求、梯级水电及抽蓄库容存储水量,考虑到经济性、源侧及并网点功率波动平抑等需求指导梯级水光蓄系统调度运行,将梯级水电发出功率p
hydro,i,t
及抽蓄发/用电功率p
phs,t
作为智能体动作a
t
。
[0092]at
={p
hydro,i,t
,p
phs,t
},
[0093]
p
hydro,i,t
∈[p
hydro,i,min
,p
hydro,i,max
],
[0094]
p
phs,t
∈[p
phs,min
,p
phs,miax
],
[0095]
式中,p
hydro,i,min
、p
hydro,i,max
分别为第i级水电出力的极小值和极大值,p
phs,min
、p
phs,miax
分别为抽蓄出力的极小值和极大值。强化学习过程中,在动作空间限制了水电出力和抽蓄输出功率的边界,不用再用约束条件描述。
[0096]
2、状态
[0097]
通过与环境交互机制使智能体得到相应奖励,s
t
为与环境不断交互得到的实时状态观测信息,强化学习主体通过观测的状态信息决策水电、抽蓄输出功率。梯级水光蓄互补动态调度系统的状态包括时段、电价、当前时段的光伏出力、负荷需求、梯级水电站和抽水库容水量荷电状态(state of charge,soc)可由下式描述:
[0098]st
=(t,λ
t
,p
pv,t
,p
load,t
,soc
hydro,i,t
,soc
phs,t
)。
[0099]
3、奖励
[0100]
梯级水光蓄动态调度模型综合考虑收益的最大化和源侧、并网点波动的最小化,通过控制中心试错学习得到最大的累积回报。然而,最优策略必须满足调度模型中的约束条件,所以需要将约束条件合理转化为部分奖励,相当于将含约束条件的优化问题转换为无约束条件的优化问题,其奖励函数表示如下:
[0101][0102]rtotal,t
=β1er
t-β2δp
source,t-β3δp
t
,
[0103][0104]
其中,δ1为节点电压超过限值相应的惩罚系数,δ2为支路电流超过容许范围的惩罚系数,在本发明中,将δ1、δ2设置为常数。梯级水电站、抽蓄电站水库水量类比于电池的荷电状态soc,δ
k,t
为第k个soc超过上下限范围时相应惩罚项,包括水电站和抽蓄的库容水量soc,ω为惩罚系数。
[0105]
s3、在基于强化学习的梯级水光蓄动态调度框架下,以当前梯级水光蓄互补系统数据(光伏出力数据、负荷需求数据、电价数据和梯级水电来水数据)作为输入,将当前梯级水光蓄互补系统数据分成训练数据集和测试数据集,利用ddpg算法求解转换为马尔可夫决策过程的梯级水光蓄调度模型(即利用ddpg算法通过多进程不断试错,搜索趋优的调度策略),输出得到应对强随机性光伏出力的梯级水光蓄系统实时调度策略,如图2所示,具体流程如下:
[0106]
1)初始化梯级水光蓄调度模型参数和ddpg网络超参数、权重与偏置。
[0107]
2)随机读入训练数据集中一天的光伏出力数据、负荷需求数据、电价数据和梯级水电来水数据,更新环境模型,得到初始状态。
[0108]
3)基于当前策略得到动作即梯级水电、抽蓄输出功率,根据构建的梯级水光蓄动态调度环境模型,计算即时奖励,输出下一时刻状态。
[0109]
4)产生一个元组(包括:状态、动作、奖励、下一时刻状态)存储在经验池里,经验池计数器加一。
[0110]
5)判断经验池是否存满,如果存满选择l个元组更新策略、价值网络参数,然后继续执行步骤6),如果没有存满则跳转至步骤2);
[0111]
6)判断当前训练是否完成,即若ep>n,则判断所有进程已经训练完成,跳转至步骤7),否则跳转至步骤2);
[0112]
7)输出多轮训练的累积奖励,观察是否收敛,如果收敛,保存网络参数,否则跳转至步骤1);
[0113]
8)利用保存的模型网络得到测试数据的调度结果,并输出此调度结果。
[0114]
在本发明中,是利用训练过程中收敛的模型参数,对测试数据进行调度决策,可将决策后的结果与其它传统方法进行比较,比如粒子群和随机规划方法。
[0115]
本发明所述梯级水光蓄互补系统调度决策方法在现实中得到了应用,任选6天的测试结果分析,其优化前后的源侧波动率和并网点波动率结果如图3、4所示,虽然不同时段波动率不同,但是动态调整梯级水电出力后,源侧的功率波动情况得到了极大缓解,每天的平均波动率从32.71%下降到5.97%,降低约27%左右。智能体动态调整抽蓄运行工况后,并网点功率波动得到了改善,ddpg智能体可以根据当前电价、负荷、并网点波动情况实时动态调度抽蓄出力,平均波动率从9.03%降低至6.57%,下降了约2.46%,满足小于8%波动
率指标要求,实现光伏全额消纳。ddpg离线训练比较耗时,但在线测试时可根据训练好的模型在线决策,响应可达秒级。算例测试求解时间如表1所示,可以看出随机规划和粒子群算法的求解时间分别为16.23s和90.88s,而ddpg仅需要0.62s,本发明中的调度方法可达秒级决策。
[0116]
表1不同方法求解时间
[0117][0118]
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。