基于多智能体强化学习的多能源优化方法、系统和介质与流程

文档序号:32311452发布日期:2022-11-23 11:46阅读:来源:国知局

技术特征:
1.基于多智能体强化学习的多能源优化方法,其特征在于,包括:获取区域能源互联网数据;根据区域能源互联网数据设置区域能源互联网环境;将多智能体深度强化学习与区域能源互联网环境进行交互训练,在交互训练过程中引入注意力机制,得到多能源协同优化运行策略。2.根据权利要求1所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述区域能源互联网数据包括电力系统参数、热力系统参数、天然气系统参数和可再生能源参数;所述电力系统参数包括:系统频率、火力发电机组有功功率和无功功率、发电机组燃料输入量、电负荷消耗的有功功率和无功功率、电力系统网络节点数、系统电压幅值、相角以及电储能容量;所述天然气系统参数包括:天然气管道稳态流量、节点气压和温度以及气负荷;所述热力系统参数包括:电锅炉的功率和实际转换热量、燃气锅炉的功率和实际转换热量、热网中各节点气压和温度、管道中介质流量和热负荷;所述可再生能源参数包括:风力发电机组有功功率以及光伏发电机组有功功率。3.根据权利要求2所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述区域能源互联网环境包括状态空间和动作空间;所述状态空间如下式所示:式中,s
i,t
为状态空间,t为当前所处调度时段,为i子区域t时段火电机组有功功率,为i子区域t时段火电机组燃煤输入,为i子区域t时段不包含电锅炉的其他电负荷功率,为i子区域t时段电储能电量,为i子区域t时段电锅炉有功功率,为i子区域t时段燃气锅炉燃气输入量,为i子区域t时段风电有功功率,为i子区域t时段光伏有功功率;所述动作空间如下式所示:式中,a
i,t
为动作空间,为i子区域t时段火电机组有功功率,为i子区域t时段电储能有功功率,为i子区域t时段电锅炉有功功率,为i子区域t时段燃气锅炉燃气输入量,为i子区域t时段风电有功功率,为i子区域t时段光伏有功功率。4.根据权利要求2所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述将多智能体深度强化学习与区域能源互联网环境进行交互训练过程中,通过设置奖励机制使智能体获得最大奖赏目标,所述奖励机制包括优化目标函数、约束条件及奖励函数。5.根据权利要求4所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述优化目标函数如下式所示:
式中:c
in
为区域能源互联网总体能源输入成本,为区域能源互联网火力发电燃煤输入,α为燃煤成本系数,为区域能源互联网天然气能源输入,β为燃气成本系数;其中,式中,n为区域能源互联网中子区域的个数,每个子区域对应一个智能体,m为子区域中设备数量,为第i子区域第j个火力发电出力功率,为第i子区域第j个火力发电机工作效率;为i子区域在t时段第j个燃气锅炉天然气输入量,为i子区域在t时段第j个不包括燃气锅炉的气负荷;其中,式中,为i子区域t时段风电有功功率,为i子区域t时段光伏有功功率,为i子区域t时段电储能有功功率,为i子区域t时段不包含电锅炉的其他电负荷功率,为i子区域在t时段第j个电锅炉有功功率。6.根据权利要求5所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述约束条件包括:1)满足电力系统、热力系统和天热气系统运行供需平衡;2)电力系统、热力系统和天热气系统中各能量生产转换设备均在设备功率上下限范围内;电能、热能生产转换设备的爬坡率满足爬坡率上下限范围内;3)电力系统满足系统节点电压标幺值在[0.95,1.05]之间。7.根据权利要求6所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述奖励函数表示如下:r=r1+r2+r3+r4+r5式中,r为总奖励函数,r1为第一奖励函数,r2为第二奖励函数,r3为第三奖励函数,r4为第四奖励函数,r5为第五奖励函数,r2和r3中有一个满足条件时,另一个数值为0,r4和r5中有一个满足条件时,另一个数值为0;式中,l
step
为强化学习算法迭代步长,v为系统节点电压标幺值,k1和k2为奖励系数,k3为惩罚系数,c1和c2分别为结果满足条件时的奖励常数值。8.根据权利要求4所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述将多智能体深度强化学习与区域能源互联网环境进行交互训练,具体为:构建区域能源互联网优化运行算法模型框架;
设计多智能体深度强化学习算法;基于区域能源互联网优化运行算法模型框架,利用多智能体深度强化学习算法生成多能源协同优化运行策略;所述利用多智能体深度强化学习算法生成多能源协同优化运行策略,具体为:初始化智能体训练网络参数,预设多智能体训练轮次;随机初始化区域能源互联网环境,获得当前区域能源互联网状态数据;将当前区域能源互联网状态数据输入多智能体中,各子区域智能体进行优化决策,生成联合决策动作,同时环境反馈奖励值和下一时刻状态数据;将当前区域能源互联网状态数据、联合决策动作、奖励值和下一时刻状态数据存储到经验池中;通过经验池中数据对智能体训练网络参数进行更新,循环训练直至满足约束条件收敛或训练轮次大于预设的多智能体训练轮次,生成多能源协同优化运行策略。9.根据权利要求4所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述在交互训练过程中引入注意力机制,具体为:各个智能体将观测到的环境信息输入到注意力机制中,进行关键特征提取,并且将特征权重输入到各智能体价值网络中,所述关键特征为可控设备的工作转换效率;各个智能体通过观测注意到其他智能体的可控设备情况后,调高工作转换效率高的可控设备能源输入,同时降低工作转换效率低的可控设备能源输入,达到每台可控设备的合理出力,实现能源互联网运行优化;其中,工作转换效率高的可控设备指的是工作转换效果大于全部可控设备平均工作转换效率的可控设备;工作转换效率低的可控设备指的是工作转换效果小于全部可控设备平均工作转换效率的可控设备。10.基于多智能体强化学习的多能源优化系统,其特征在于,包括:数据获取模块:用于获取区域能源互联网数据;环境设置模块:用于根据区域能源互联网数据设置区域能源互联网环境;运行策略优化模块:用于将多智能体深度强化学习与区域能源互联网环境进行交互训练,在交互训练过程中引入注意力机制,得到多能源协同优化运行策略。11.根据权利要求10所述的基于多智能体强化学习的多能源优化系统,其特征在于,所述数据获取模块中,区域能源互联网数据包括电力系统参数、热力系统参数、天然气系统参数和可再生能源参数;所述电力系统参数包括:系统频率、火力发电机组有功功率和无功功率、发电机组燃料输入量、电负荷消耗的有功功率和无功功率、电力系统网络节点数、系统电压幅值、相角以及电储能容量;所述天然气系统参数包括:天然气管道稳态流量、节点气压和温度以及气负荷;所述热力系统参数包括:电锅炉的功率和实际转换热量、燃气锅炉的功率和实际转换热量、热网中各节点气压和温度、管道中介质流量和热负荷;所述可再生能源参数包括:风力发电机组有功功率以及光伏发电机组有功功率。12.根据权利要求11所述的基于多智能体强化学习的多能源优化系统,其特征在于,所
述环境设置模块中,区域能源互联网环境包括状态空间和动作空间;所述状态空间如下式所示:式中,s
i,t
为状态空间,t为当前所处调度时段,为i子区域t时段火电机组有功功率,为i子区域t时段火电机组燃煤输入,为i子区域t时段不包含电锅炉的其他电负荷功率,为i子区域t时段电储能电量,为i子区域t时段电锅炉有功功率,为i子区域t时段燃气锅炉燃气输入量,为i子区域t时段风电有功功率,为i子区域t时段光伏有功功率;所述动作空间如下式所示:式中,a
i,t
为动作空间,为i子区域t时段火电机组有功功率,为i子区域t时段电储能有功功率,为i子区域t时段电锅炉有功功率,为i子区域t时段燃气锅炉燃气输入量,为i子区域t时段风电有功功率,为i子区域t时段光伏有功功率。13.根据权利要求11所述的基于多智能体强化学习的多能源优化系统,其特征在于,所述运行策略优化模块中,将多智能体深度强化学习与区域能源互联网环境进行交互训练过程中,通过设置奖励机制使智能体获得最大奖赏目标,所述奖励机制包括优化目标函数、约束条件及奖励函数。14.根据权利要求13所述的基于多智能体强化学习的多能源优化系统,其特征在于,所述运行策略优化模块中,将多智能体深度强化学习与区域能源互联网环境进行交互训练,具体为:构建区域能源互联网优化运行算法模型框架;设计多智能体深度强化学习算法;基于区域能源互联网优化运行算法模型框架,利用多智能体深度强化学习算法生成多能源协同优化运行策略;所述利用多智能体深度强化学习算法生成多能源协同优化运行策略,具体为:初始化智能体训练网络参数,预设多智能体训练轮次;随机初始化区域能源互联网环境,获得当前区域能源互联网状态数据;将当前区域能源互联网状态数据输入多智能体中,各子区域智能体进行优化决策,生成联合决策动作,同时环境反馈奖励值和下一时刻状态数据;将当前区域能源互联网状态数据、联合决策动作、奖励值和下一时刻状态数据存储到经验池中;通过经验池中数据对智能体训练网络参数进行更新,循环训练直至满足约束条件收敛或训练轮次大于预设的多智能体训练轮次,生成多能源协同优化运行策略。15.根据权利要求13所述的基于多智能体强化学习的多能源优化系统,其特征在于,所述运行策略优化模块中,在交互训练过程中引入注意力机制,具体为:
各个智能体将观测到的环境信息输入到注意力机制中,进行关键特征提取,并且将特征权重输入到各智能体价值网络中,所述关键特征为可控设备的工作转换效率;各个智能体通过观测注意到其他智能体的可控设备情况后,调高工作转换效率高的可控设备能源输入,同时降低工作转换效率低的可控设备能源输入,达到每台可控设备的合理出力,实现能源互联网运行优化;其中,工作转换效率高的可控设备指的是工作转换效果大于全部可控设备平均工作转换效率的可控设备;工作转换效率低的可控设备指的是工作转换效果小于全部可控设备平均工作转换效率的可控设备。16.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述基于多智能体强化学习的多能源优化方法的步骤。

技术总结
本发明公开了基于多智能体强化学习的多能源优化方法、系统和介质,获取区域能源互联网数据;根据区域能源互联网数据设置区域能源互联网环境;将多智能体深度强化学习与区域能源互联网环境进行交互训练,在交互训练过程中引入注意力机制,得到多能源协同优化运行策略。本发明通过多智能体深度强化学习和注意力机制相结合,以集中训练分布执行的模式,利用人工智能算法,保护多主体利益隐私的同时,实现区域能源互联网运行优化,进一步提高多能源利用率,从而保证能源互联网安全、稳定、高效运行。行。行。


技术研发人员:李健 韩笑 傅凯 王新迎 马慧远
受保护的技术使用者:国网北京市电力公司 国家电网有限公司
技术研发日:2022.08.09
技术公布日:2022/11/22
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1