本发明涉及综合能源系统稳定及控制技术领域,特别是涉及一种提升综合能源系统韧性的方法。
背景技术:
传统的电力系统规划方案以可靠性为中心,多考虑高概率低影响事件。台风、泥石流、地震等自然灾害和极端天气事件会对电力系统造成严重破坏,这类事件通常被划分为高影响低概率事件。电力系统承受高冲击低概率事件,使电力供应中断可能性最小的同时快速恢复到正常运行状态的能力被称为电力系统的韧性。由于气候变化,预计未来自然灾害和极端天气事件的频率、强度和持续时间将会持续增加,因此,提高电力系统韧性显得尤为重要。
随着人们对极端自然灾害等高冲击低概率事件对能源系统威胁的认识日益加深,对韧性的研究越来越受到重视。综合能源系统主要由电力系统、热力系统和天然气系统构成。相较于电网的架空线路,天然气输气管道多采用地埋式管道,对于台风、暴风雪等地表自然灾害具备一定的抵御能力。因此,相比于电力系统,综合能源系统具有更好韧性。
根据响应过程时间的不同,韧性问题可以分为三个阶段:极端事件发生前的预防阶段、极端事件发生期间的生存阶段和极端事件结束之后的恢复阶段。其中,在预防或恢复阶段提高系统韧性需要加固基础设施或者改变系统结构,而生存阶段可以在现有框架下通过改进现有的保护控制机制或调度策略有效提高系统韧性。在生存阶段提升综合能源系统韧性具有代价小可行性高的优势,因此在高冲击低概率事件发生后,通过优化本地微源供能及需求响应从而提升综合能源系统孤岛运行模式下的生存能力具有重要意义。然而,现有技术中的方法无法有效应对不确定性对综合能源系统安全运行带来的风险,提升高冲击低概率事件发生后综合能源系统的生存能力。
技术实现要素:
发明目的:本发明的目的是提供一种提升综合能源系统韧性的方法,能够有效应对不确定性对综合能源系统安全运行带来的风险,提升高冲击低概率事件发生后综合能源系统的生存能力。
技术方案:为达到此目的,本发明采用以下技术方案:
本发明所述的提升综合能源系统韧性的方法,所述综合能源系统包含电力系统、热力系统和天然气系统,电力系统包含电储能系统,热力系统包含热储能系统;所述方法包括以下步骤:
s1:对于综合能源系统建立有限时段的马尔可夫决策过程模型;
s2:初始化知识矩阵q(s,a),s为状态空间s中的一个状态值,a为动作空间a中的一个动作值;在第k个决策时刻的状态sk下,从第k个决策时刻的可行动作集合ak中选择并执行动作ak的概率为ε,从第k个决策时刻的可行动作集合ak中选择并执行最优动作ak*的概率为1-ε;所述最优动作ak*是使第k个决策时刻知识矩阵取到最大值对应的动作;
s3:计算经过步骤s2后所获得的奖励值r(sk,ak),观测第k+1个决策时刻的状态sk+1;
s4:根据贝尔曼方程更新知识矩阵;
s5:判断知识矩阵是否收敛,学习次数是否达到上限:如果知识矩阵不收敛,学习次数也没达到上限,则返回步骤s3;如果知识矩阵收敛或者学习次数达到上限,则结束。
进一步,所述步骤s1具体包括以下步骤:
s11:将实时调度周期t、净电负荷功率pnel、热负荷功率hl、电储能系统存储能量值wes、热储能系统存储能量值wts作为综合能源系统状态空间的状态量;其中,净电负荷功率pnel为电负荷功率pel和电力系统中分布式发电设备出力pdg的差值;将一天等分成k个决策周期,其中第k个决策周期对应时段为[tk,tk+1),tk为第k个决策周期的起始时刻,tk也称为第k个决策时刻,tk+1为第k+1个决策周期的起始时刻,tk+1也称为第k+1个决策时刻,1≤k≤k;将热负荷离散为0~nhl等级,将净电负荷离散为0~nnel等级;将电储能离散为0~nes等级,将热储能离散为0~nts等级;综合能源系统在第k个决策时刻的状态sk通过式(1)得到;
sk=(tk,pnel,k,hl,k,wes,k,wts,k)∈s(1)
式(1)中,pnel,k为第k个决策时刻的净电负荷功率,hl,k为第k个决策时刻的热负荷功率,wes,k为第k个决策时刻的电储能系统存储能量值,wts,k为第k个决策时刻的热储能系统存储能量值,s为状态空间;
s12:将电储能系统充放电功率pes、热储能系统充放电功率ht分别离散为离散值;
s13:设置奖励函数,当综合能源系统处于第k个决策时刻的状态sk时,选择第k个决策时刻的动作ak的奖励值r(sk,ak)由式(2)得到;
r(sk,ak)=αk·cinc·(wes,k-sreq,k)-ccpen,k·pcels,k-cnpen,k·pnels,k-λk·|tin(k)-tset(k)|(2)
式(2)中,αk是一个二进制变量,如果第k个决策时刻的电储能系统满足动态储能目标,则αk的取值为1,否则αk的取值为0,αk通过式(3)得到;cinc表示电储能系统激励因子,sreq,k为第k个决策时刻的动态电储能目标,通过式(4)得到;ccpen,k为第k个决策时刻的关键负荷的动态惩罚因子,通过式(5)得到;cnpen,k为第k个决策时刻的非关键负荷的动态惩罚因子,通过式(6)得到;pcels,k为第k个决策时刻切除的关键电负荷,pnels,k为第k个决策时刻切除的非关键电负荷;λk为第k个决策时刻用户对于温度的不满意度惩罚系数;tin(k)为第k个决策时刻的室内温度;tset(k)为第k个决策时刻的设定舒适温度;
sreq,k=sr-ω·k(4)
式(4)中,sr为固定电储能目标,ω为动态电储能目标系数;
ccpen,k=ccp-βc·k(5)
式(5)中,ccp为关键负荷的固定惩罚因子,βc为关键负荷的动态惩罚系数;
cnpen,k=cnp-βn·k(6)
式(6)中,cnp为非关键负荷的固定惩罚因子,βn为非关键负荷的动态惩罚系数;ccp>cnp,βc≤βn;
通过式(7)得到第k个决策时刻的总折扣奖励rk:
式(7)中,γ为折现因子,sk+i为第k+i个决策时刻的状态,ak+i为第k+i个决策时刻的动作。
进一步,所述步骤s2具体包括以下步骤:
s21:根据式(2)计算γ=0、k=0时的总折扣奖励值r0也即r(s0,a0)的值;
s22:使用r(s0,a0)作为知识矩阵q(s,a)的初始化值。
进一步,所述步骤s4中,利用贝尔曼方程更新后的知识矩阵为:
式(8)中,q'(sk,ak)为更新后的知识矩阵,q(sk,ak)为第k个决策时刻的状态sk和第k个决策时刻的动作ak对应的知识矩阵,a'为状态sk+1下的可行动作,α为学习速率,sk+1为第k+1个决策时刻的状态,q(sk+1,a')为第k+1个决策时刻的状态sk+1和动作a'对应的知识矩阵。
进一步,所述α为1。
有益效果:本发明公开了一种提升综合能源系统韧性的方法,在预测信息未知且没有先验知识的情况下可通过不断学习积累经验来识别最优的动作决策行为,能够有效应对不确定性对综合能源系统安全运行带来的风险,提升高冲击低概率事件发生后综合能源系统的生存能力。
附图说明
图1为本发明具体实施方式中方法的流程图;
图2为现有技术中基于ε-greedy算法的提升综合能源系统韧性的方法和基于ucb算法的提升综合能源系统韧性的方法的收敛性比较图;
图3为本发明具体实施方式中方法与现有技术中方法的关键负荷切除量的比较图;
图4为采用本发明具体实施方式中方法与采用现有技术中方法的电储能系统的soc的比较图;
图5为采用本发明具体实施方式中方法与采用现有技术中方法的室温比较图;
图6为采用本发明具体实施方式中方法与采用现有技术中方法的热储能系统的soc的比较图。
具体实施方式
下面结合具体实施方式和附图对本发明的技术方案作进一步的介绍。
本具体实施方式公开了一种提升综合能源系统韧性的方法,所述综合能源系统包含电力系统、热力系统和天然气系统,电力系统包含电储能系统,热力系统包含热储能系统。如图1所示,本方法包括以下步骤:
s1:对于综合能源系统建立有限时段的马尔可夫决策过程模型;
s2:初始化知识矩阵q(s,a),s为状态空间s中的一个状态值,a为动作空间a中的一个动作值;在第k个决策时刻的状态sk下,从第k个决策时刻的可行动作集合ak中选择并执行动作ak的概率为ε,从第k个决策时刻的可行动作集合ak中选择并执行最优动作ak*的概率为1-ε;所述最优动作ak*是使第k个决策时刻知识矩阵取到最大值对应的动作;
s3:计算经过步骤s2后所获得的奖励值r(sk,ak),观测第k+1个决策时刻的状态sk+1;
s4:根据贝尔曼方程更新知识矩阵;
s5:判断知识矩阵是否收敛,学习次数是否达到上限:如果知识矩阵不收敛,学习次数也没达到上限,则返回步骤s3;如果知识矩阵收敛或者学习次数达到上限,则结束。
步骤s1具体包括以下步骤:
s11:将实时调度周期t、净电负荷功率pnel、热负荷功率hl、电储能系统存储能量值wes、热储能系统存储能量值wts作为综合能源系统状态空间的状态量;其中,净电负荷功率pnel为电负荷功率pel和电力系统中分布式发电设备出力pdg的差值;将一天等分成k个决策周期,其中第k个决策周期对应时段为[tk,tk+1),tk为第k个决策周期的起始时刻,第k+1个决策周期的起始时刻也即第k个决策周期的终止时刻,tk也称为第k个决策时刻,tk+1为第k+1个决策周期的起始时刻,tk+1也称为第k+1个决策时刻,1≤k≤k;将热负荷离散为0~nhl等级,将净电负荷离散为0~nnel等级;将电储能离散为0~nes等级,将热储能离散为0~nts等级;综合能源系统在第k个决策时刻的状态sk通过式(1)得到;
sk=(tk,pnel,k,hl,k,wes,k,wts,k)∈s(1)
式(1)中,pnel,k为第k个决策时刻的净电负荷功率,hl,k为第k个决策时刻的热负荷功率,wes,k为第k个决策时刻的电储能系统存储能量值,wts,k为第k个决策时刻的热储能系统存储能量值,s为状态空间;
s12:将电储能系统充放电功率pes、热储能系统充放电功率ht分别离散为离散值;
s13:设置奖励函数,当综合能源系统处于第k个决策时刻的状态sk时,选择第k个决策时刻的动作ak的奖励值r(sk,ak)由式(2)得到;
r(sk,ak)=αk·cinc·(wes,k-sreq,k)-ccpen,k·pcels,k-cnpen,k·pnels,k-λk·|tin(k)-tset(k)|(2)
式(2)中,αk是一个二进制变量,如果第k个决策时刻的电储能系统满足动态储能目标,则αk的取值为1,否则αk的取值为0,αk通过式(3)得到;cinc表示电储能系统激励因子,sreq,k为第k个决策时刻的动态电储能目标,通过式(4)得到;ccpen,k为第k个决策时刻的关键负荷的动态惩罚因子,通过式(5)得到;cnpen,k为第k个决策时刻的非关键负荷的动态惩罚因子,通过式(6)得到;pcels,k为第k个决策时刻切除的关键电负荷,pnels,k为第k个决策时刻切除的非关键电负荷;λk为第k个决策时刻用户对于温度的不满意度惩罚系数;tin(k)为第k个决策时刻的室内温度;tset(k)为第k个决策时刻的设定舒适温度;
sreq,k=sr-ω·k(4)
式(4)中,sr为固定电储能目标,ω为动态电储能目标系数;
ccpen,k=ccp-βc·k(5)
式(5)中,ccp为关键负荷的固定惩罚因子,βc为关键负荷的动态惩罚系数;
cnpen,k=cnp-βn·k(6)
式(6)中,cnp为非关键负荷的固定惩罚因子,βn为非关键负荷的动态惩罚系数;ccp>cnp,βc≤βn;
通过式(7)得到第k个决策时刻的总折扣奖励rk:
式(7)中,γ为折现因子,sk+i为第k+i个决策时刻的状态,ak+i为第k+i个决策时刻的动作。
步骤s2具体包括以下步骤:
s21:根据式(2)计算γ=0、k=0时的总折扣奖励值r0也即r(s0,a0)的值;
s22:使用r(s0,a0)作为知识矩阵q(s,a)的初始化值。
步骤s4中,利用贝尔曼方程更新后的知识矩阵为:
式(8)中,q'(sk,ak)为更新后的知识矩阵,q(sk,ak)为第k个决策时刻的状态sk和第k个决策时刻的动作ak对应的知识矩阵,a'为状态sk+1下的可行动作,α为学习速率,sk+1为第k+1个决策时刻的状态,q(sk+1,a')为第k+1个决策时刻的状态sk+1和动作a'对应的知识矩阵。α决定了新旧经验所占的比重,α越大,保留之前训练的效果就越少,α为1时只保留了最新获得的经验。
现有技术中基于ε-greedy算法的提升综合能源系统韧性的方法和基于ucb算法的提升综合能源系统韧性的方法的收敛性比较图如图2所示,经过1000000次学习之后,基于ucb算法的方法已经基本收敛,而基于ε-greedy算法的方法仍未收敛,并且基于ucb算法的方法比基于ε-greedy算法的方法收敛到更大的q值,说明基于ucb算法的方法选择了更优的动作决策。
为了验证本发明所提方法的优越性,在同样进行1000000次学习的情况下,对比了ε-greedy算法和ucb算法在常规初始化方法和本发明所提初始化方法下的学习速度,结果如表1所示。相比于常规初始化方法,本发明所提初始化方法在ε-greedy算法和ucb算法上分别提高了11.9%和14.7%。在常规初始化方法和本发明所提初始化方法下,ucb算法比ε-greedy算法分别快了8.25%和11.17%。可见,采用本发明方法能够减少学习时间,提高收敛效率。
表1学习速度比较
附图3~6是本发明提出的方法与常规的建模为混合整数规划模型的优化方法(下文简称常规方法)在故障清除时间不确定场景下的对比图。常规方法切除了部分关键负荷,而本发明所提方法没有切除关键负荷,仍然保证了关键负荷的正常供电;常规方法下室温在部分时段低于用户温度舒适度范围,而本发明所提方法在全部时间内都能保证室温处在用户温度舒适度范围内进行调节。因此,本发明所提的方法能够有效应对故障持续时间的不确定性,保证了综合能源系统在故障持续时间不确定场景下的生存能力。