基于强化学习的氢光风储综合能源系统的能量管理方法与流程

文档序号:36508663发布日期:2023-12-29 02:05阅读:52来源:国知局
基于强化学习的氢光风储综合能源系统的能量管理方法

本发明涉及电力系统运行控制,具体来说,涉及基于强化学习的氢光风储综合能源系统的能量管理方法。


背景技术:

1、风力发电和光伏发电作为目前应用最广泛、最成熟的清洁能源开发利用形式,已在全球范围内实现了规模化推广应用。

2、然而,风力发电和光伏发电受资源条件的影响,具有很强的间歇性、随机性和波动性。风电和光伏的大规模并网将对电网安全运行产生不同程度的影响,并间接导致弃风弃光现象的频繁发生。而氢能以其清洁、绿色、能量密度高、易于储存和运输等优点受到了广泛的关注。与传统的能源利用形式相比,氢能系统存储容量大,运行寿命长。一方面,可以通过风电制氢/光伏制氢使其成为提升电力系统灵活调节能力,促进大规模清洁能源消纳的重要手段;另一方面,氢气本身也是一种重要的工业原料,既可以发电、制热,也广泛应用于石油、化工、电子、冶金等领域。

3、因此,考虑氢能在内的综合能系统能量管理策略,是实现多能互补和协同优化运行的一个关键,故本发明提出了一种基于强化学习的氢光风储综合能源系统的能量管理方法。


技术实现思路

1、针对相关技术中的问题,本发明提出基于强化学习的氢光风储综合能源系统的能量管理方法,以克服现有相关技术所存在的上述技术问题。

2、为此,本发明采用的具体技术方案如下:

3、基于强化学习的氢光风储综合能源系统的能量管理方法,包括以下步骤:

4、s1、基于高比例可再生能源开发和消纳需求构建氢光风储耦合能源系统;

5、s2、获取氢光风储耦合能源系统运行过程中的历史数据,并利用策略推荐算法输出对应的能量管理动作策略集;

6、s3、在满足技术约束条件的前提下,以最小化区域内能源用户的用能成本为优化目标建立能量管理优化决策模型;

7、s4、利用基于深度强化学习的优化求解算法对能量管理优化决策模型进行优化,得到最佳能量管理动作策略;

8、s5、根据最佳能量管理动作策略对氢光风储耦合能源系统中的能源产生、存储和输送进行调度。

9、进一步的,所述氢光风储耦合能源系统以风力发电和光伏发电为主力电源,以外部公共电网为辅助电源,以电解制氢和燃料电池为主的氢能转换与利用载体,并考虑电力供应和热力供应的综合能源系统。

10、进一步的,所述获取氢光风储耦合能源系统运行过程中的历史数据,并利用策略推荐算法输出对应的能量管理动作策略集包括以下步骤:

11、s21、获取氢光风储耦合能源系统运行过程中的历史数据,并进行预处理;

12、s22、根据历史数据中氢光风储耦合能源系统状态与能量管理动作策略的交互记录构建系统状态与动作策略的矩阵;

13、s23、利用k-means聚类算法对系统状态与动作策略的矩阵进行分析,计算出k个不同的类别,并在动作策略维度上对系统状态与动作策略的矩阵进行切割,得到k个系统状态与动作策略的矩阵;

14、s24、根据聚类结果和相似度度量法在每个类别中找出目标系统状态的近邻系统状态,分析得到目标系统状态在每个类别中的初始能量管理动作策略集;

15、s25、综合所有类别的初始能量管理动作策略集,并根据预测评分值由高至低的排序结果将预设数量的初始能量管理动作策略集作为能量管理动作策略集。

16、进一步的,所述历史数据包括历史数据库中的能耗数据、环境数据及设备参数数据;

17、其中,所述能耗数据包括能源消耗量、能源产生量、储能设备使用情况及能源价格;

18、所述环境数据包括气候、温度、季节、风力及日照强度;

19、所述设备参数数据包括风力发电机、太阳能发电设备的额定功率和效率,储能设备的存储容量、充电/放电效率及可用状态,能源转换设备的额定功率、效率。

20、进一步的,所述技术约束条件包括:

21、一、风力发电运行约束:

22、

23、式中,pwt为风机的发电功率,pr为风电机组额定功率,vci为风机切入风速,vr为额定风速,vco为切出风速,v为风电机组轮毂高度处的风速;

24、二、光伏发电运行约束:

25、ppv=pstcgac[1+k(tc-tf)]/gstc;

26、式中,ppv为光伏发电输出功率,pstc为标准测试条件下的最大输出功率,gac为辐照强度,k为功率温度系数,tc为光伏组件工作温度,tf为参考温度,gstc为标准测试条件下的光照强度;

27、三、电解制氢运行约束:

28、

29、

30、0≤ph(t)≤pmax;

31、式中,f为制氢装置效率系数,g为制氢装置效率计算公式二次项系数,b为制氢装置效率计算公式一次项系数,c为制氢装置效率计算公式常数项系数,e(t)为制氢装置在t时段制得氢气的量,ph(t)为制氢装置在第t时段内的有功功率,pmax为制氢装置的额定功率,πmax为制氢装置制氢模块的额定容量;

32、四、氢燃料电池运行约束:

33、

34、qe(t)=pe(t)ηehb;

35、0≤pe(t)≤prate;

36、式中,veh(t)为燃料消耗量,pe(t)为实际发电功率,ηeh为发电效率,δt为单位时段的时间长度,l为单位体积燃料的低热热值,qe(t)为燃料电池实际制热功率,ηehb为燃料电池电热比,prate为氢燃料电池的额定功率;

37、五、电锅炉运行约束:

38、qeb(t)=peb(t)ηeb;

39、qebmin(t)≤qeb(t)≤qebmax(t);

40、式中,qeb(t)为电锅炉的输出热功率,peb(t)为电锅炉的输入电功率,ηeb为电锅炉的电热转换效率,qebmax(t)、qebmin(t)分别为电锅炉输出热功率的上下限;

41、六、氢储能设施运行约束:

42、

43、0≤hsh(t)≤hshmax;

44、式中,hsh(t)为第t个时段结束时氢储能系统的剩余能量,hsh(t-1)为第t-1个时段结束时储能系统的剩余能量,ηhm为氢能存储效率,hshmax为储氢罐氢气的最大储存量;

45、七、多能耦合系统运行约束:

46、电功率平衡约束:

47、pl(t)+ph(t)+peb(t)=ppv(t)+pwt(t)+pe(t)+px(t);

48、热功率平衡约束:

49、qh(t)=qeb(t)+qe(t);

50、联络线功率约束:

51、0≤|px(t)|≤pxmax;

52、式中,pl(t)为在第t时段的一般电力负荷需求,ppv(t)为光伏在第t时段的发电功率,pwt(t)为风力在第t时段的发电功率,px(t)为整个系统在第t时段与公共电网的交换功率,qh(t)为在第t时段的热力负荷需求,pxmax为联络线交换功率的限值。

53、进一步的,所述能量管理优化决策模型中目标函数的表达式为:

54、

55、式中,obj为能量管理目标函数值;t为时间周期对应的总时段数,t为时段编号,γ(t)为外部电网单位电量分时电价,px(t)为外网联络线在第t时段的输入输出功率。

56、进一步的,所述利用基于深度强化学习的优化求解算法对能量管理优化决策模型进行优化,得到最佳能量管理动作策略包括以下步骤:

57、s41、定义状态空间、动作空间及奖励函数;

58、s42、利用基于深度强化学习的优化求解算法对能量管理优化决策模型进行求解,得到最佳能量管理动作策略。

59、进一步的,所述定义状态空间、动作空间及奖励函数包括:

60、一、空间状态定义:

61、氢光风储耦合能源系统中作为状态空间的元素包括光伏、风力、电力负荷、热力负荷、分时电价和氢储能的储能状态,则该氢光风储耦合能源系统的状态空间表示为:

62、s=[ppv(t),pwt(t),pl(t),qh(t),γ(t),hsh(t)];

63、二、动作空间定义:

64、当深度q网络的智能体观测到状态空间中的信息后,根据当前的能量管理动作策略集在动作空间中选取一个动作,对于氢光风储耦合能源系统主要为制氢装置、氢燃料电池、电网输入输出功率和电锅炉的电功率,因此氢光风储耦合能源系统的动作空间为:

65、a=[ph(t),pe(t),px(t),peb(t),qe(t),qeb(t)];

66、由于qeb(t)与peb(t)存在耦合关系,则采用peb(t)表示qeb(t);

67、由于pe(t)与qe(t)存在耦合关系,则采用pe(t)表示qe(t);

68、根据热力平衡约束,在已知热力负荷的基础上,采用peb(t)表示pe(t);

69、优化后氢光风储耦合能源系统的动作空间为:

70、a=[ph(t),px(t),peb(t)];

71、三、奖励函数定义:

72、以氢光风储耦合能源系统的经济运行为目的,将氢光风储耦合能源系统购电成本作为优化目标,c为氢光风储耦合能源系统向公共电网购电的成本,则购电成本的定义为:

73、

74、在迭代过程中使各变量满足系统级平衡约束,设置惩罚函数包含电力系统平衡约束,并在惩罚函数中加入氢储能系统储量上下限惩罚,综上定义惩罚函数为:

75、d=dp+dh=λ(|dp,i|+|dh,i|);

76、定义深度强化学习的奖励函数为:

77、r=-(c+d);

78、式中,t为时间周期对应的总时段数;px为第i时间段内系统购电功率,dp和dh分别为电力系统不平衡电量的惩罚和氢储能系统过放或过充储量的惩罚,λ为单位差额电量的惩罚,dp,i和dh,i分别是第i时刻电力系统不平衡电量和氢储能系统过放或过充量。

79、进一步的,所述利用基于深度强化学习的优化求解算法对能量管理优化决策模型进行求解,得到最佳能量管理动作策略包括以下步骤:

80、s421、初始化氢光风储耦合能源系统的运行环境,输入风电、光伏发电功率、分时电价、负荷功率和储能设施的荷载状态信息的历史样本数据;

81、s422、初始化经验池、当前q网络、目标q网络,设置参数包括:经验池样本数据库容量db、最大训练回合数episodemax、折扣率γ、学习率α、当前q网络参数ω、目标q网络参数ω′、目标q网络参数更新间隔ci、贪婪概率ε、训练批量pl;

82、s423、对于每一回合episode,随机选择一个初始状态s;

83、s424、每隔ci个回合更新一次目标q网络的参数ω′,计算episode%ci,其中%为取余运算符,如果episode%ci=0,更新目标q网络参数ω′=ω;

84、s425、比较episode与episodemax,如果episode<episodemax则episode=episode+1,返回s423,开始新一回合学习训练,否则,执行s426;

85、s426、保存q网络参数,深度强化学习训练结束;

86、s427、当q网络参数确定后,基于q网络结构和参数,输入能量管理周期内的风电、光伏发电预测功率、分时电价、负荷预测功率和储能设施的荷载状态的信息,计算得到最优的能量管理动作策略。

87、进一步的,所述对于每一回合episode,随机选择一个初始状态s包括以下步骤:

88、s4231、随机生成一个介于0到1之间的随机数,若该随机数大于ε,则根据当前的经验执行储能充放电动作a为储能充放电动作,(s,a)为一个状态-动作对,q(s,a)为对应状态-动作对(s,a)的奖励值,argmax为最优动作运算符号,即挑选出奖励值最大的动作a;反之,则随机执行一个储能充放电动作a;初始学习阶段ε为预设值,且随时间逐渐递减δε;

89、s4232、计算执行储能充放电动作a之后的奖励r和新的状态s′,将(s,a,r,s′,done)存储到经验池db中,其中,done为布尔值变量,表示新的状态s′是否为终止状态;

90、s4233、从经验池样本数据库db中随机抽取一定数量pl的样本,对q网络进行样本训练,在样本训练迭代过程中使用随机梯度下降法更新当前q网络参数ω;

91、s4234、判断新的状态s′是否为终止状态,如果是,则本回合结束,否则,令s=s′,并返回s4231。

92、本发明的有益效果为:

93、1)本发明以氢光风储耦合综合能源系统为研究对象,建立了一种以氢能为主要储能方式的氢光风储耦合能源系统典型架构,并提出了一种基于深度强化学习算法的氢光风储耦合综合能源系统能量管理决策方法,该方法利用神经网络储存强化学习的策略集以解决传统强化学习的维度爆炸问题,并引入经验回放机制和目标网络机制来提升算法性能,可有效克服光伏发电对系统运行带来的不确定性影响,实现整个系统的安全经济运行。

94、2)本发明可以利用策略推荐算法根据氢光风储耦合能源系统运行过程中的历史数据输出对应的能量管理动作策略集,从而可以为后续的深度强化学习模型提供了一个初始的、有针对性的搜索空间,有助于模型更好地进行学习和优化,提高优化效率和质量,更好的满足于氢光风储耦合能源系统的能量管理需求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1