一种基于异步深度强化学习的综合能源系统低碳优化调度方法与流程

文档序号:37337112发布日期:2024-03-18 18:03阅读:20来源:国知局
一种基于异步深度强化学习的综合能源系统低碳优化调度方法与流程

本发明涉及发电调度,特别涉及一种基于异步深度强化学习的综合能源系统低碳优化调度方法。


背景技术:

1、近年来,环境问题日益突出,传统能源行业运行模式单一,难以满足节能减排的发展需求。综合能源系统是含有电、热以及天然气的多能耦合系统,相比于传统能源系统调节方式更加灵活,通过对各能源系统协调控制,可以在提高系统能效的同时降低系统碳排放量。

2、综合能源系统由于其自身的多能耦合特性,相比于其他单一传统能源的调度方式更加复杂。通常需要建立复杂的系统模型,同时在系统求解过程中也很难收敛。由于深度强化学习算法在控制过程中,调度过程引起的负荷波动和风电出力等不确定性因素并不会对深度强化学习算法造成决策性影响,因此深度强化学习算法结合综合能源系统可以有效解决很多实际问题。

3、但是目前在综合能源系统中应用该算法也具有一定问题,由于能源系统的复杂性和子系统的不确定性,导致的算法训练时间过长,同时由于基于dqn等算法需要离散化出力,导致控制效果降低。并且目前基于深度强化学习的综合能源系统优化算法普遍以系统运行的经济成本为优化目标,没有考虑系统的经济性。


技术实现思路

1、鉴于此,本发明提供了一种基于异步深度强化学习的综合能源系统低碳优化调度方法,用于解决现有技术存在的问题。

2、为实现上述目的,本发明提供了一种基于异步深度强化学习的综合能源系统低碳优化调度方法,包括如下步骤:

3、s1:建立综合能源系统的数学模型,其中,所述数学模型包括热电联产机组数学模型、电转气数学模型、燃气轮机数学模型、碳捕集数学模型和储能数学模型;

4、s2:建立综合能源系统的低碳调度模型,其中,所述低碳调度模型包括目标函数和约束条件;

5、s3:将所述低碳调度模型的优化调度问题转换为马尔科夫决策过程,通过微电网的优化目标函数和可靠性评估指标构建奖励函数,并通过基于深度强化学习的a3c优化算法求解,得到优化调度结果。

6、优选,所述热电联产机组数学模型选用抽汽式热电联产机组,所述热电联产机组电热出力特性方程表示如下:

7、{pchp,min-cv1hchp,t,cm(hchp,t-hchp,min)}≤pchp,t≤pchp,max-cv2hchp,t           (1)

8、式中:pchp,min和pchp,max分别为热电联产机组输出电功率最小值和最大值,cm为热电联产机组的电热转换系数,cv1为热电联产机组最小出力电热转换系数,cv2为热电联产机组最大出力电热转换系数,cm为线性斜率,hchp,max为热电联产机组热功率的最小值,hchp,t为热电联产机组在t时刻输出的热功率;

9、所述电转气数学模型表述如下:

10、gp2g,t=αpp2g,t                                   (2)

11、式中:pp2g,t为电转气系统在t时刻消耗的电功率,gp2g,t为电转气系统在t时刻产生的气功率,α为功率转换系数;

12、电转气系统运行过程中的碳消耗量如下所示:

13、zp2g,t=βpp2g,t                                  (3)

14、式中:zp2g,t为电转气系统在时刻t消耗的co2量,β为电转气系统产生单位电能消耗co2量的转换系数;

15、所述碳捕集数学模型中,碳捕集系统在co2的吸收、解析和压缩过程中各设备所需的电能如下所示:

16、pccs,t=ηccszchp,t                                 (4)

17、式中:pccs,t为碳捕集系统在t时刻消耗的电功率,zchp,t为燃煤机组单位碳排放量,ηccs为碳捕集系统的碳捕集率;

18、所述燃气轮机数学模型表示如下:

19、pmt,t=ηmtgmt,t                                  (5)

20、

21、式中:gmt,t为燃气轮机在t时刻消耗的气功率,ηmt为燃气轮机的运行效率,hmt,t为燃气轮机在t时刻产生的热功率,ηr为燃气轮机的热损失系数,ηl为燃气轮机的余热回收率,ηh为燃气轮机的加热系数;

22、所述储能数学模型如下所示:

23、

24、

25、

26、式中:x为能源类别,bs表示蓄电池,gs表示储气罐,sx,t+1和sx,t分别为储能设备x在t和t+1时段的存储能量,px,ch,t和px,disch,t为储能设备x在t时段的充能和放能功率,px,ch,t≥0,px,disch,t≤0,qx为储能设备x容量,ηx,ch和ηx,disch是指储能设备x的充能和放能效率,δt为时间间隔,ax,ch,t和ax,disch,t分别为充能和放能的状态参数,ax,ch,t=1表示在时段t储能设备采取充能操作,ax,disch,t=1表示储能设备x采取放能操作。

27、进一步优选,s2中,所述目标函数为综合能源系统的运行成本。

28、进一步优选,所述综合能源系统的运行成本具体包括如下:

29、1)电转气系统运行成本,其中,电转气系统运行成本主要包括电转气系统的设备使用成本和购碳成本,具体表示如下:

30、

31、式中:cp2g为电转气系统的运行成本,cp2g为电转气系统的设备使用成本系数,dp2g为电转气系统的购碳成本系数,zp2g,t为电转气系统在运行期间消耗的co2量;

32、2)电转气系统投资成本,其中,电转气系统的投资成本为单位容量的电转气系统投资建设成本,具体表示如下:

33、cp2g,tz=λp2gqp2g             (11)

34、式中:cp2g为电转气系统的运行成本,cp2g为电转气系统的设备使用成本系数,dp2g为电转气系统的购碳成本系数,zp2g,t为电转气系统在运行期间消耗的co2量;

35、3)碳捕集系统运行成本,其中,碳捕集系统的运行成本为在碳捕集系统运行过程中设备的使用成本,具体表示如下:

36、cp2g,tz=λp2gqp2g                               (12)

37、式中:cccs为碳捕集系统的运行成本,cccs为碳捕集系统的运行成本系数。

38、4)碳封存成本,其中,碳捕集系统捕集燃煤机组产生的co2后需要封存,系统封存的碳量为碳捕集系统捕获的碳量减去电转气系统设备消耗的碳量,具体表示如下:

39、

40、式中,cfc为碳封存成本系数;

41、5)热电联产机组运行成本,具体表示如下:

42、

43、式中,cchp为热电联产机组运行成本,ai、bi、ci为运行成本系数,i为机组类型,pchp,i,t为热电联产机组i在t时刻的输出功率。

44、6)燃气轮机的运行成本,燃气轮机的运行成本表示如下:

45、

46、式中:cmt为微型燃气轮机的运行成本,amt为微型燃气轮机的成本系数;

47、7)弃风弃光惩罚成本

48、71)弃风惩罚成本表示如下:

49、

50、式中:ccwind为弃风的惩罚成本,acwind为弃风的惩罚成本系数,pcwind,t为在t时刻的弃风功率;

51、72)弃光惩罚成本表示如下:

52、

53、式中:ccpv为弃光的惩罚成本,acpv为弃光惩罚的成本系数,pcpv,t为t时刻的弃光功率;

54、8)购电成本cp,具体表示如下:

55、cp=σp,tpe,t                                   (18)

56、式中:σp,t为t时刻电价,pe,t为t时刻购电功率;

57、9)购气成本cg,具体表示如下:

58、cg=σg,tgs,t                                   (19)

59、式中:σg,t为t时刻的天然气价格,gs,t为t时刻的购气功率;

60、所述低碳调度模型的目标函数,即:综合能源系统的总体运行成本具体表示如下:

61、min(c)=cp2g+cp2g,tz+cfc+cchp+cmt+ccwind+ccpv+cg+cp           (20)

62、式中:c为综合能源系统低碳调度模型的总运行成本。

63、进一步优选,s2中,所述综合能源系统的约束条件如下:

64、1)电功率平衡,综合能源系统在优化调度期间需要满足的电功率平衡约束如下所示:

65、pwind,t+ppv,t+pchp,i,t+pmt,t+pbs,disch,t=pload,t+pbs,ch,t                 (21)

66、式中:pload,t为综合能源系统在t时刻的电负荷,pwind,t为风电在t时刻的输出电功率,ppv,t为光伏在t时刻的输出电功率,pmt,t为燃气轮机在t时刻的输出电功率,pbs,disch,t为储能电池在t时刻的放电功率,pbs,ch,t为储能电池在t时刻的充电功率;

67、2)热功率平衡,综合能源系统在优化调度期间需要满足的热功率平衡约束如下所示:

68、hchp,t+hmt,t=hload,t                              (22)

69、式中:hload,t为综合能源系统在t时刻的热负荷,hchp,t为热电联产机组在t时刻的输出热功率,hmt,t为燃气轮机在t时刻的输出热功率;3)燃气功率平衡,综合能源系统在优化调度期间需要满足的气功率平衡约束如下所示:

70、gp2g,t+gs,t=gload,t+gmt,t                            (23)

71、式中:gs,t为综合能源系统在t时刻的购气功率,gload,t为综合能源系统在t时刻的热负荷,gp2g,t为电转气系统在t时刻产生的气功率,gmt,t为燃气轮机在t时刻消耗的气功率;

72、4)微型燃气轮机约束条件,微型燃气轮机输出功率和爬坡斜率约束表示如下:

73、

74、式中:pmt,min和pmt,max分别为微型燃气轮机输出功率的上限和下限,δpmt,min和δpmt,max分别为微型燃气轮机输出爬坡斜率的下限和上限。

75、进一步优选,s3中,将所述低碳调度模型的优化调度问题转换为马尔科夫决策过程,通过微电网的优化目标函数和可靠性评估指标构建奖励函数,并通过基于深度强化学习的a3c优化算法求解包括如下步骤:

76、s31:马尔科夫决策过程转换,其中,马尔科夫决策过程包括5个要素,分别为状态空间、动作空间、转移函数、奖励函数和折扣率,其中,转移函数为智能体在当前时刻状态st转移到下一时刻系统状态st+1的转移概率:其中,综合能源系统作为智能体,根据系统运行环境,通知各机组出力达到优化目的,具体的优化过程为智能体在当前时刻t,智能体关系综合能源系统状态st并且通过策略函数π计算得到当前时刻的系统出力即为动作at,当智能体执行动作at后系统状态变为st+1,同时智能体获得当前时刻的奖励值rt,智能体不断循环上述步骤直到优化结束;

77、s311:建立状态空间,所述状态空间包括综合能源系统能够获得的状态信息,主要包括可控状态变量c和不可控状态变量uc,其中,可控状态变量主要为综合能源系统优化调度中可以控制的机组状态参数,包括储能在当前时刻的荷电状态sbs,t、储热罐在当前时刻的容量shs,t;不可控状态变量包括风电在当前时刻的出力pwind,t、光伏在当前时刻t的出力ppv,t、当前时刻t的电负荷pload,t、当前时刻t的气负荷gload,t、当前时刻t的热负荷hload,t,因此,状态空间描述为:

78、

79、st=(ses,t,sgs,t,shs,t,pwind,t,pload,t,gload,t,hload,t,t)            (26)

80、s312:建立动作空间,所述动作空间包括可控机组的出力部分,智能体的动作空间包括综合能源系统电出力pccp,t、综合能源系统的气出力gccp,t、燃气轮机出力pmt,t、储能电池输出功率pes,t,储气罐输出功率pgs,t,储热罐输出功率phs,t,具体表示如下:

81、at=(pccp,t,gccp,t,pmt,t,pes,t,pgs,t,phs,t,peb,t)                      (27)

82、s313:建立奖励函数,公式如下:

83、rt=-(cp2g+cp2g,tz+cfc+cchp+cmt+ccwind+ccpv+cg+cp)+r0+δt               (28)

84、式中,r0为人工设定常数,δt为越限惩罚函数;

85、

86、式中:δt为智能体在t时刻的惩罚奖励,εur,i和εdr,i分别为当智能体动作超过爬坡约束时的惩罚奖励系数,ai,ur,max和ai,dr,min为智能体动作变化约束的上限和下限,εua,i和εda,i分别智能体动作幅值的上限和下限惩罚系数;ai,ua,max和ai,da,min为智能体动作幅值的上限和下限值;

87、s32:基于a3c异步深度强化学习算法求解调度策略,其中,actor在当前时刻t时会通过策略函数π(at|st;θ)选取动作at,此时系统状态状态st转移到下一时刻系统状态st+1,此时actor会得到当前时刻的奖励值rt(at,st),此过程的迭代序列表示为s1,a1,r1,s2,a2,r2,…st,at,rt,…,st,at,rt,序列τ所获得的奖励为每个阶段所得到的奖励总和,用r(τ)表示:

88、

89、式中:γ为折扣系数,0≤γ≤1;

90、actor会根据不同的环境状态采取不动的动作,导致序列τ产生变化,因此序列τ发生的概率为:

91、

92、actor在策略为π的情况下,所能获得的期望奖励为:

93、

94、a3c算法最终优化的目的为通过策略梯度方法更新策略函数,通过训练对策略函数中神经网络参数不断更新,最终指导actor选择最优动作,即为各机组的最优出力方案,梯度的求解过程如下:

95、

96、critic网络用价值函数评估策略的价值,用v(st;ω)表示,ω为critic网络参数,表示为:

97、

98、动作价值函数qπ(at,st;ω)通过估算每个状态-动作对来寻找最佳策略:

99、

100、优势函数aπ(at,st;ω)表示当前状态st,actor采取动作at时和平均预期相比的好坏程度,当动作价值函数大于价值函数时,优势函数的值为正数,表示在该状态下采取当前行动是有利于获得较高奖励值的:

101、aπ(at,st;ω)=qπ(at,st;ω)-vπ(st;ω) (36)

102、a3c算法采用n步方法,其优势函数由下式给出:

103、

104、式中:rt是在st状态下获得的奖励值。

105、因此,critic网络参数ω训练为:

106、

107、

108、式中,nω表示批评家网络的学习率。

109、a3c算法中,在actor-critic优化框架的基础上加入了策略交叉熵h(π(at|st;θ)),策略函数的梯度更新如下:

110、

111、

112、式中:β正项的权重因子,nθ为actor网络的学习率。

113、本发明的基于异步深度强化学习的综合能源系统低碳优化调度方法具有以下优点:

114、1.提出了基于a3c的综合能源系统低碳调度框架,通过无模型的训练方式,使综合能源智能体在不断与环境的交互过程中如何安排机组出力,因此可以在不需要对系统建立复杂模型的情况下实现最优控制。。

115、2.利用基于a3c的优化算法,加入了策略交叉熵,能够较好描述概率分布的不确定性,具有更好的探索多样性,因此获得更高的奖励值,该方法在处理综合能源系统经济调度问题时具有更好的表现。。

116、3.通过仿真实验对比分析,证明本发明提出的优化框架具有更快的收敛速度和控制效果。并通过对比多种深度强化学习算法,证明本发明算法可有效应对随机变量的影响,在保证独立微电网安全运行的情况下提升了综合能源系统的经济性与低碳性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1