一种基于深度强化学习调整电力系统潮流的方法及系统与流程

文档序号：19117697发布日期：2019-11-13 01:20阅读：421来源：国知局

本发明涉及大电网潮流自动调整领域，并且更具体地，涉及一种基于深度强化学习调整电力系统潮流的方法及系统。

背景技术：

电力系统运行方式是电力系统调度部门编制的指导电力系统运行的总体技术方案，是整个电网稳定安全运行基础，对电网安全经济运行起着举足轻重的作用。随着我国电网建设的迅猛发展和电网规模的显著扩大，特别是特高压交直流混连大电网格局的逐步形成，电力系统安全稳定特性与机理日趋复杂，电网运行控制难度不断加大，电网运行方式的计算量和调整内容也呈规模性地增长。其中，潮流计算是核心工作，因为电力系统静态稳定、暂态稳定等计算都要以各种运行方式下的潮流计算结果为基础。但是各种潮流方式的调整也是整个电力系统运行方式计算中最为耗时的一个环节，目前仍主要由人工来完成。大量方式人员手动将基础潮流调整至目标运行方式，然后进行暂态稳定分析。此项工作过于依赖方式人员的工作经验，且调整的结果受方式人员的主观影响较大，不同人员调整出的结果不唯一；对于缺乏经验的新手来说，需要花费更长的时间才能得出需要的潮流结果，工作效率低下。

鉴于人工调整潮流存在效率低下和过于依赖人员经验等缺点，迫切需要开发一种能够依靠规则来自动实现潮流调整的算法，众多学者和电力工作人员已经开始了相关算法的研究。潮流调整的过程可看成是一个连续的状态转移概率未知的马尔科夫决策过程，而人工智能算法正擅长于求解这类问题，因此可以使用人工智能算法来实现潮流调整的自动化。

技术实现要素：

针对上述问题，本发明提供了一种基于深度强化学习调整电力系统潮流的方法，包括：

获取待调整电力系统目标断面集合，对每个目标断面进行编号，确定每个目标断面的待调整有功功率范围并作为训练目标的输入信息；

记录任意一个目标断面m的初始功率为并根据断面m的目标功率边界对电力系统中可调发电机进行初步筛选；

随机获取目标断面m编号及目标断面m的传输功率；

针对目标断面m的传输功率确定可调发电机的精细筛选策略，并实时补偿有功功率的变化；

使用基于actor-critic架构的确定性策略梯度算法，以电力系统潮流的状态、目标断面m编号和目标断面m的传输功率作为输入，以精细筛选后的发电机的调整策略作为输出，并对其中的actor网络和critic网络进行训练，训练生成预设调整策略；

训练完成后，对预设调整策略的actor网络输入断面编号值m、目标传输功率值和电力系统潮流状态，由actor网络映射出潮流状态对应的调整策略，并执行调整策略调整电力系统潮流状态，直到目标断面m的传输功率调整至目标值。

可选的，初步筛选包括：

获取可调发电机i的有功功率为最大值和最小值时目标断面m的断面功率的正方向调整量与断面功率的负方向调整量和的计算公式如下：

式中，ω为可调发电机集合、ωc为目标断面m集合、为发电机i的有功功率为最大值时目标断面m的传输功率值、为可调发电机i的有功功率为最小值时目标断面m的传输功率值和为目标断面m的初始传输功率值；

将与按从大到小进行排序并按从大到小的顺序分别累加，直到累加的调整量大于待调整断面m的正方向和负方向目标功率边界值的特定倍数εc，获取初步筛选的可调发电机i集合和

可选的，针对目标断面m的传输功率确定可调发电机的精细筛选策略，并实时补偿有功功率的变化，包括：

针对断面m在范围内的任意目标功率值从和中进一步筛选待调整的发电机，使筛选出的发电机的调整量能够覆盖到并且数量最少，获取精细筛选结果；

引入参数将按从小到大的顺序排列，记录对应的发电机序列。

可选的，当因调整断面有功功率而引起全电网有功功率不平衡时，按照从小到大的排列顺序来选择发电机进行有功功率补偿。

可选的，生成预设调整策略，具体步骤包括：

s51.针对actor-critic构架，分别为actor和critic构建结构相同且包括n层的深度全连接神经网络，定义actor的输入为状态量s，输出为动作量a，critic的输入为状态量和动作量(s,a)，输出为状态动作值q；

所述的状态量s由所有归一化后的可调发电机的有功功率、归一化后的目标断面功率及目标断面编号组成的列向量，动作量a为一个连续的有界的实数并与精细筛选出待调整发电机的可调功率范围按比例映射，状态动作值q为一实数；

s52.随机初始化actor网络的网络参数θ^μ与critic网络的网络参数θ^q，用actor网络的网络参数θ^μ初始化目标actor网络的网络参数θ^μ’←θ^μ，用critic网络的网络参数θ^q初始化目标critic网络的网络参数θ^q’←θ^q；

s53.初始化一个预设值为d经验池r，初始化一个ornstein-uhlenbeck过程作为动作噪声noise；

s54.actor根据当前状态s及随机生成的目标信息选择基于当前策略的动作并添加上噪声noise得到动作at，在at的作用下，根据公式：

获取出奖励值rt，状态从st转移到st+1，将st，at，rt，st+1组合为一条经验(st，at，rt，st+1)，并将其存放在经验池r中，并为其初始化一个采样概率；

s56.根据损失l，利用adam算法按梯度下降方向更新critic网络参数θ^q；

s57.根据公式(4)计算该n条经验计算总的梯度；

s58.根据总梯度，利用adam算法按梯度上升方向更新actor网络的参数θ^μ；

s59.更新目标critic网络参数θ^q’←τθ^q+(1-τ)θ^q’，更新目标actor网络参数θ^μ’←τθ^μ+(1-τ)θ^μ’；

s510.确定当前所有随机目标的训练回合下电力系统待调整断面功率以预设的精度达到目标值或达到当前训练回合的最大迭代步数t，生成预设调整策略。

本发明还提供了一种基于深度强化学习调整电力系统潮流的系统，包括：

信息获取模块，获取待调整电力系统目标断面集合，对每个目标断面进行编号，确定每个目标断面的待调整有功功率范围并作为训练目标的输入信息；

第一筛选模块，记录任意一个目标断面m的初始功率为并根据断面m的目标功率边界对电力系统中可调发电机进行初步筛选；

训练目标确定模块，随机获取目标断面m编号及目标断面m的传输功率；

第二筛选模块，针对目标断面m的传输功率确定可调发电机的精细筛选策略，并实时补偿有功功率的变化；

策略生成模块，使用基于actor-critic架构的确定性策略梯度算法，以电力系统潮流的状态、目标断面m编号和目标断面m的传输功率作为输入，以精细筛选后的发电机的调整策略作为输出，并对其中的actor网络和critic网络进行训练，训练生成预设调整策略；

调整模块，训练完成后，对预设调整策略的actor网络输入断面编号值m、目标传输功率值和电力系统潮流状态，由actor网络映射出潮流状态对应的调整策略，并执行调整策略调整电力系统潮流状态，直到目标断面m的传输功率调整至目标值。

可选的，初步筛选包括：

获取可调发电机i的有功功率为最大值和最小值时目标断面m的断面功率的正方向调整量与断面功率的负方向调整量和的计算公式如下：

可选的，针对目标断面m的传输功率确定可调发电机的精细筛选策略，并实时补偿有功功率的变化，包括：

针对断面m在范围内的任意目标功率值从和中进一步筛选待调整的发电机，使筛选出的发电机的调整量能够覆盖到并且数量最少，获取精细筛选结果；

引入参数将按从小到大的顺序排列，记录对应的发电机序列。

可选的，当因调整断面有功功率而引起全电网有功功率不平衡时，按照从小到大的排列顺序来选择发电机进行有功功率补偿。

可选的，生成预设调整策略，具体步骤包括：

s53.初始化一个预设值为d经验池r，初始化一个ornstein-uhlenbeck过程作为动作噪声noise；

s54.actor根据当前状态s及随机生成的目标信息选择基于当前策略的动作并添加上噪声noise得到动作at，在at的作用下，根据公式：

获取出奖励值rt，状态从st转移到st+1，将st，at，rt，st+1组合为一条经验(st，at，rt，st+1)，并将其存放在经验池r中，并为其初始化一个采样概率；

s56.根据损失l，利用adam算法按梯度下降方向更新critic网络参数θ^q；

s57.根据公式(4)计算该n条经验计算总的梯度；

s58.根据总梯度，利用adam算法按梯度上升方向更新actor网络的参数θ^μ；

s59.更新目标critic网络参数θ^q’←τθ^q+(1-τ)θ^q’，更新目标actor网络参数θ^μ’←τθ^μ+(1-τ)θ^μ’；

s510.确定当前所有随机目标的训练回合下电力系统待调整断面功率以预设的精度达到目标值或达到当前训练回合的最大迭代步数t，生成预设调整策略。

本发明可不依赖方式人员的经验，依据目标和既定规则从零开始自动学习潮流调整方案，并且能够实现在一定范围内，以较高的精度连续调整断面的功率。

本发明可以使电力系统运行方式计算的自动化进行成为可能，具有较大的工程应用价值和推广前景。

附图说明

图1为本发明一种基于深度强化学习调整电力系统潮流的方法流程图；

图2为本发明一种基于深度强化学习调整电力系统潮流的系统结构图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

本发明提供了一种基于深度强化学习调整电力系统潮流的方法，如图1所示，包括：

步骤101，获取待调整电力系统目标断面集合，对每个目标断面进行编号，确定每个目标断面的待调整有功功率范围并作为训练目标的输入信息；

步骤102，记录任意一个目标断面m的初始功率为并根据断面m的目标功率边界对电力系统中可调发电机进行初步筛选；

初步筛选包括：

获取可调发电机i的有功功率为最大值和最小值时目标断面m的断面功率的正方向调整量与断面功率的负方向调整量和的计算公式如下：

步骤103，随机获取目标断面m编号及目标断面m的传输功率；

步骤104，针对目标断面m的传输功率确定可调发电机的精细筛选策略，并实时补偿有功功率的变化，包括：

针对断面m在范围内的任意目标功率值从和中进一步筛选待调整的发电机，使筛选出的发电机的调整量能够覆盖到并且数量最少，获取精细筛选结果；

引入参数将按从小到大的顺序排列，记录对应的发电机序列；

当因调整断面有功功率而引起全电网有功功率不平衡时，按照从小到大的排列顺序来选择发电机进行有功功率补偿。

步骤105，使用基于actor-critic架构的确定性策略梯度算法，以电力系统潮流的状态、目标断面m编号和目标断面m的传输功率作为输入，以精细筛选后的发电机的调整策略作为输出，并对其中的actor网络和critic网络进行训练，训练生成预设调整策略，具体包括：

s53.初始化一个预设值为d经验池r，初始化一个ornstein-uhlenbeck过程作为动作噪声noise；

s54.actor根据当前状态s及随机生成的目标信息选择基于当前策略的动作并添加上噪声noise得到动作at，在at的作用下，根据公式：

获取出奖励值rt，状态从st转移到st+1，将st，at，rt，st+1组合为一条经验(st，at，rt，st+1)，并将其存放在经验池r中，并为其初始化一个采样概率；

s56.根据损失l，利用adam算法按梯度下降方向更新critic网络参数θ^q；

s57.根据公式(4)计算该n条经验计算总的梯度；

s58.根据总梯度，利用adam算法按梯度上升方向更新actor网络的参数θ^μ；

s59.更新目标critic网络参数θ^q’←τθ^q+(1-τ)θ^q’，更新目标actor网络参数θ^μ’←τθ^μ+(1-τ)θ^μ’；

s510.确定当前所有随机目标的训练回合下电力系统待调整断面功率以预设的精度达到目标值或达到当前训练回合的最大迭代步数t，生成预设调整策略。

步骤106，训练完成后，对预设调整策略的actor网络输入断面编号值m、目标传输功率值和电力系统潮流状态，由actor网络映射出潮流状态对应的调整策略，并执行调整策略调整电力系统潮流状态，直到目标断面m的传输功率调整至目标值。

本发明还提供了一种基于深度强化学习调整电力系统潮流的系统200，如图2所示，包括：

信息获取模块201，获取待调整电力系统目标断面集合，对每个目标断面进行编号，确定每个目标断面的待调整有功功率范围并作为训练目标的输入信息；

第一筛选模块202，记录任意一个目标断面m的初始功率为并根据断面m的目标功率边界对电力系统中可调发电机进行初步筛选；

初步筛选包括：

获取可调发电机i的有功功率为最大值和最小值时目标断面m的断面功率的正方向调整量与断面功率的负方向调整量和的计算公式如下：

训练目标确定模块203，随机获取目标断面m编号及目标断面m的传输功率；

第二筛选模块204，针对目标断面m的传输功率确定可调发电机的精细筛选策略，并实时补偿有功功率的变化，包括：

针对断面m在范围内的任意目标功率值从和中进一步筛选待调整的发电机，使筛选出的发电机的调整量能够覆盖到并且数量最少，获取精细筛选结果；

引入参数将按从小到大的顺序排列，记录对应的发电机序列。

当因调整断面有功功率而引起全电网有功功率不平衡时，按照从小到大的排列顺序来选择发电机进行有功功率补偿。

策略生成模块205，使用基于actor-critic架构的确定性策略梯度算法，以电力系统潮流的状态、目标断面m编号和目标断面m的传输功率作为输入，以精细筛选后的发电机的调整策略作为输出，并对其中的actor网络和critic网络进行训练，训练生成预设调整策略，具体包括：

s53.初始化一个预设值为d经验池r，初始化一个ornstein-uhlenbeck过程作为动作噪声noise；

s54.actor根据当前状态s及随机生成的目标信息选择基于当前策略的动作并添加上噪声noise得到动作at，在at的作用下，根据公式：

获取出奖励值rt，状态从st转移到st+1，将st，at，rt，st+1组合为一条经验(st，at，rt，st+1)，并将其存放在经验池r中，并为其初始化一个采样概率；

s56.根据损失l，利用adam算法按梯度下降方向更新critic网络参数θ^q；

s57.根据公式(4)计算该n条经验计算总的梯度；

s58.根据总梯度，利用adam算法按梯度上升方向更新actor网络的参数θ^μ；

s59.更新目标critic网络参数θ^q’←τθ^q+(1-τ)θ^q’，更新目标actor网络参数θ^μ’←τθ^μ+(1-τ)θ^μ’；

s510.确定当前所有随机目标的训练回合下电力系统待调整断面功率以预设的精度达到目标值或达到当前训练回合的最大迭代步数t，生成预设调整策略。

调整模块206，训练完成后，对预设调整策略的actor网络输入断面编号值m、目标传输功率值和电力系统潮流状态，由actor网络映射出潮流状态对应的调整策略，并执行调整策略调整电力系统潮流状态，直到目标断面m的传输功率调整至目标值。

本发明可不依赖方式人员的经验，依据目标和既定规则从零开始自动学习潮流调整方案，并且能够实现在一定范围内，以较高的精度连续调整断面的功率。本发明可以使电力系统运行方式计算的自动化进行成为可能，具有较大的工程应用价值和推广前景。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐华廷;侯金秀;郑清平;于之虹;李淑芳;郑惠萍;吕颖;鲁广明;刘新元;史东宇;马东娟;戴红阳;李蒙赞;王兵;杨尉薇;曲莹;张璐路
技术所有人：中国电力科学研究院有限公司;国网山西省电力公司电力科学研究院;北京邮电大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。