基于深度强化学习的电网拓扑优化和潮流控制的方法与流程

文档序号：28970378发布日期：2022-02-19 15:38阅读：588来源：国知局

1.本发明涉及电网领域，尤其是涉及一种基于深度强化学习的电网拓扑优化和潮流控制的方法。

背景技术：

2.随着新能源和有源化负荷的占比不断提升，电网的动态性和不确定性逐渐增强，给电网运行和系统调度人员带来了新的挑战。现有的电网调控手段多集中于发电侧和负荷侧，而对电网拓扑结构的优化控制在研究中考虑较少。
3.电网拓扑优化控制是一种成本低、有前景且未被充分利用的系统缓解措施。由于其对应数学问题的组合和高度非线性等特点，常规的优化算法很难在短时间完成求解。从安全和经济角度来看，最大化系统的可用传输容量(available transfer capability,atc)对电力系统至关重要。从环境和经济方面考虑，今后通过建设新线路的方式来扩大系统传输能力对于电网公司将会越来越难。此外，可再生能源、需求响应、电动汽车和电力电子设备的日益普及导致了更多随机和动态行为，威胁到电网的安全稳定运行。因此，在满足各种约束的同时，考虑到系统的不确定性，开发电网拓扑优化的控制策略变得至关重要。
4.然而，现有电网拓扑优化的方法存在一定的局限性，首先，现有方法通常使用不考虑安全约束的直流潮流对问题进行近似，这样大大降低了调控的精度。其次，线路开合和母线分裂运行的排列组合呈指数爆炸性增长，而基于灵敏度的方法容易受到不断变化的系统运行状态的影响，因此，对于大电网，优化问题的求解耗时较久，无法满足拓扑实时优化控制的需求。

技术实现要素：

5.本发明的目的在于提供一种基于深度强化学习的电网拓扑优化和潮流控制的方法，可以缩短电网拓扑优化的时间，并且可以提高拓扑优化的精度。
6.为了达到上述目的，本发明提供了一种基于深度强化学习的电网拓扑优化和潮流控制的方法，包括：
7.s1：构建智能体；
8.s2：获取电网的多个历史断面潮流数据，并对多个历史断面潮流数据进行模仿学习，以确定所述智能体的参数的初始值；
9.s3：获取用于所述智能体训练的样本，并将所述样本输入所述智能体，所述样本包括多个时刻的在线断面潮流数据；
10.s4：对t时刻的所述在线断面潮流数据进行训练，得到多个电网拓扑优化的控制策略，并按价值的大小从大到小排列，获取n个动作价值排在前列的控制策略，其中，n为正整数；
11.s5：在电网环境仿真器中验证所述n个动作价值排在前列的控制策略，以获得回报最高的控制策略；
12.s6：电网环境仿真器执行所述回报最高的控制策略并获取t时刻的奖励值、t时刻的结束标志和t+1时刻的系统状态；
13.s7：将t时刻的系统状态、t时刻回报最高的控制策略、t时刻的奖励值、t+1时刻的系统状态和t时刻的结束标志作为数组存储到缓冲区中，t时刻的结束标志为真的数组存储次数越多；
14.s8：从缓冲区中随机采样多个数组，对采样得到的奖励值计算动作价值函数的目标值；
15.s9：t的取值加1；
16.s10：循环步骤s6～步骤s9，其中，每求得m次奖励值后，根据所述动作价值函数的目标值更新智能体参数，m为设定的正整数，完成所有时刻的在线断面潮流数据的智能体训练，从中选出最优的智能体参数；
17.s11：使用具有最优的智能体参数的智能体在实时环境下完成电网拓扑优化和潮流控制，以得到电网拓扑优化和潮流控制的方法。
18.可选的，在所述的电网拓扑优化和潮流控制的方法中，所述智能体为竞争深度q网络训练得到的神经网络模型。
19.可选的，在所述的电网拓扑优化和潮流控制的方法中，所述样本的个数为多个，每个所述样本均包括多个时刻的在线断面潮流数据，每个所述样本均输入所述智能体进行训练。
20.可选的，在所述的电网拓扑优化和潮流控制的方法中，n的值为10。
21.可选的，在所述的电网拓扑优化和潮流控制的方法中，所述数组的形式为《s
t
，a
t
，r
t
，s
t+1
，d
t
》，其中，s
t
为t时刻的系统状态，a
t
为t时刻的系统状态，r
t
为t时刻的奖励值，s
t+1
为t+1时刻的系统状态，d
t
为t时刻的结束标志。
22.可选的，在所述的电网拓扑优化和潮流控制的方法中，t的初始值为1，并且t为正整数。
23.可选的，在所述的电网拓扑优化和潮流控制的方法中，所述智能体的参数包括：所述智能体中的网络神经元之间的权重和连接关系。
24.可选的，在所述的电网拓扑优化和潮流控制的方法中，获取用于所述智能体训练的样本的方法包括：
25.获取多个在线断面潮流数据；
26.判断所述在线断面潮流数据是否越限；
27.如果断面潮流数据越限，则此在线断面潮流数据作为样本。
28.可选的，在所述的电网拓扑优化和潮流控制的方法中，判断断面潮流数据越限的方法包括：
29.判断所述断面潮流数据是否大于设定值，如果大于设定值，则认为断面潮流数据越限。
30.可选的，在所述的电网拓扑优化和潮流控制的方法中，所述控制策略包括：改变电网拓扑结构。
31.在本发明提供的基于深度强化学习的电网拓扑优化和潮流控制的方法中，通过提前模仿学习，根据历史断面潮流数据确定智能体的参数的初始值，可以节省智能体训练的
时间。在智能体训练过程中，智能体先获取n个动作价值较高的控制策略，电网仿真器直接在这n个动作价值较高的控制策略仿真获得奖励值最高的控制策略，进一步节省了时间，同时，在在对不同时刻的断面潮流数据训练时，不断更新智能体参数，提高了智能体训练的精度，完成所有时刻的断面潮流数据的智能体训练后，选出最优的智能体参数，采用最优的智能体参数的智能体在实时环境下完成电网拓扑优化，通过电网拓扑优化进行潮流控制，提升了电网拓扑优化和潮流控制的精度。
附图说明
32.图1是本发明实施例的基于深度强化学习的电网拓扑优化和潮流控制的方法的流程图。
具体实施方式
33.下面将结合示意图对本发明的具体实施方式进行更详细的描述。根据下列描述，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。
34.在下文中，术语“第一”“第二”等用于在类似要素之间进行区分，且未必是用于描述特定次序或时间顺序。要理解，在适当情况下，如此使用的这些术语可替换。类似的，如果本文所述的方法包括一系列步骤，且本文所呈现的这些步骤的顺序并非必须是可执行这些步骤的唯一顺序，且一些所述的步骤可被省略和/或一些本文未描述的其他步骤可被添加到该方法。
35.请参照图1，一种基于深度强化学习的电网拓扑优化和潮流控制的方法，包括：
36.s1：构建智能体；
37.s2：获取电网的多个历史断面潮流数据，并对多个历史断面潮流数据进行模仿学习，以确定智能体的参数的初始值；
38.s3：获取用于智能体训练的样本，并将样本输入所述智能体，样本包括多个时刻的在线断面潮流数据；
39.s4：利用深度强化学习技术对t时刻的在线断面潮流数据进行训练，得到多个电网拓扑优化的控制策略，并按动作价值的大小从大到小排列，获取n个价值排在前列的控制策略，其中，n为正整数；
40.s5：在电网环境仿真器中验证n个动作价值排在前列的控制策略，以获得回报最高的控制策略；
41.s6：电网环境仿真器执行所述回报最高的控制策略并获取t时刻的奖励值、t时刻的结束标志和t+1时刻的系统状态；
42.s7：将t时刻的系统状态、t时刻回报最高的控制策略、t时刻的奖励值、t+1时刻的系统状态和t时刻的结束标志作为数组存储到缓冲区中，t时刻的结束标志为真的数组存储次数越多；
43.s8：从缓冲区中随机采样多个数组，对采样得到的奖励值计算动作价值函数的目标值；
44.s9：t的取值加1；
45.s10：循环步骤s6～步骤s9，其中，每求得m次奖励值后，根据动作价值函数的目标值更新智能体参数，m为设定的正整数，完成所有时刻的在线断面潮流数据的智能体训练，从中选出最优的智能体参数；
46.s11：使用具有最优的智能体参数的智能体在实时环境下完成电网拓扑优化和潮流控制，以得到电网拓扑优化和潮流控制的方法。
47.本发明实施例中，所述智能体为竞争深度q网络训练得到的神经网络模型。
48.优选的，所述样本的个数为多个，每个所述样本均包括多个时刻的在线断面潮流数据，每个所述样本均输入所述智能体进行训练。同样的，每个样本都具有一个控制方法。
49.本发明实施例中，n的值为10。在本发明的其他实施例中，n的取值也可以是其他数值。同样的，m也是设定的值，不同的实施例有不同的值。
50.优选的，数组的形式为《s
t
，a
t
，r
t
，s
t+1
，d
t
》，其中，s
t
为t时刻的系统状态，a
t
为t时刻的系统状态，r
t
为t时刻的奖励值，s
t+1
为t+1时刻的系统状态，d
t
为t时刻的结束标志。以上计算动作价值的方法适用于程序中，奖励值越高的数组存储次数越多，被随机采样到的几率越大，相当于赋予了更大的权重。t时刻是时间点，例如，t秒。
51.优选的，智能体的参数包括：所述智能体中的网络神经元之间的权重和连接关系。而智能体的参数决定智能体训练结果的好坏，所以本发明实施例的参数初始值在进行智能体训练之前通过使用历史断面潮流数据模仿学习而得，根据以往历史断面潮流数据来确定参数的初始值，可以增加智能体的参数和断面潮流数据的相关性，使得智能体训练的结果更接近实际的断面潮流。并且，智能体的参数在训练过程中，会根据前面训练的结果不断更新改进，最终得到更优秀的智能体。
52.优选的，获取用于所述智能体训练的样本的方法包括：获取多个在线断面潮流数据；判断所述在线断面潮流数据是否越限；如果断面潮流数据越限，则此在线断面潮流数据作为样本。而判断断面潮流数据越限的方法包括：判断所述断面潮流数据是否大于设定值，如果大于设定值，则认为断面潮流数据越限。相当于在进行智能体训练之前进行了提前预警，在每个时刻，该机制使用如下公式中定义的告警标志(wf,warning flag)模拟对电网环境不采取任何行动的后果。如果线路的负载水平高于预先确定的设定值λ，则告警并将告警标志位设为“是”。之后智能体提供n个得分最高的控制策略以进行进一步的模拟，最后从这些动作中选取奖励值最高的动作予以执行。引导式探索和预警机制都提高了本文提出的深度强化学习算法的性能和鲁棒性。
[0053][0054]
其中：wf为告警标志，λ为设定值，线路负载水平。
[0055]
优选的，计算动作价值函数的目标值的公式为：
[0056][0057]
其中：yi为动作价值函数的目标值，ri为奖励值，dt为结束标志，γ为奖励折扣系数，q(s
t+1
，a
′
；θ-)为t+1时刻的控制策略的价值。控制策略并不是智能体直接产生，智能体产生的是动作，经过动作函数q(-|s
t
；θ)转换为电网环境仿真器可以执行的控制策略。
[0058]
优选的，通过损耗函数更新所述参数。损耗函数根据动作价值函数的目标值计算，所述损耗函数为：
[0059]
li(θ)＝(y
i-q(s
t
，a
t
；θ))2；
[0060]
其中：li(θ)为损耗，yi为动作价值函数的目标值，q(s
t
，a
t
；θ)为t时刻的控制策略的价值。
[0061]
具体的训练过程如果使用更为具体的程序进行举例，如下：
[0062]
1.从模仿学习结果中读取dqn网络的初始参数
[0063]
2.初始化容量为nd的回放缓存d
[0064]
3.for：k＝1,2,
…
执行，k代表样本个数
[0065]
4.for：t＝1,2,...每一步控制迭代，执行
[0066]
5.获取q(-|s
t
；θ)值并取q值最高的n个动作
[0067]
6.在环境中验证所有n个动作并找到回报最高的控制策略at
[0068]
7.在环境中执行at并获取下一时刻的系统状态st+1、奖励值rt、结束标志dt
[0069]
8.储存元组《s
t
，a
t
，r
t
，s
t+1
，d
t
》至回放缓存d中；如果结束标志为真，则多存几次
[0070]
9.从回放缓存d中根据重要性采样nb个小批量样本
[0071]
10.按照下述公式计算动作价值函数的目标值:
[0072][0073]
11.每ns步通过损耗函数li(θ)＝(y
i-q(s
t
，a
t
；θ))2进行主网络参数的更新
[0074]
12.将主网络参数θ拷贝至目标网络θ-[0075]
13.更新系统状态s
t
＝s
t+1
[0076]
14.end for
[0077]
15.end for
[0078]
其中：动作和控制策略有一定的映射关系，n是设置的值，ns是程序设置的值，是程序经过的步骤，可以根据m设定。本发明实施例就是一个智能体和电网环境仿真器不断交互的一个过程，智能体输出动作，根据动作和控制策略的映射关系，电网环境仿真器得到相应的控制策略，电网环境仿真器对控制策略进行验证和执行，并将回报值返给智能体，智能体给动作值赋予奖励值，并且根据奖励值再获得动作价值，再根据动作价值更新智能体的参数。
[0079]
本发明实施例中，控制策略包括：改变电网拓扑结构。具体包括三个：1)线路切断或闭合；2)母线分裂运行或母线合并；3)线路切断或闭合和母线分裂运行或母线合并同时进行，即1)和2)同时执行。每执行一个控制策略就会，就会根据执行后的断面潮流的值来判断此次执行的控制策略的效果，例如，可以将效果打分或者分为等级，再返回给智能体，智能体可以根据得分判断此次控制策略的好坏，将效果更好的控制策略给与更高的奖励值，具体的算法在此不做赘述。
[0080]
综上，在本发明实施例提供的基于深度强化学习的电网拓扑优化和潮流控制的方法中，通过提前模仿学习，根据历史断面潮流数据确定智能体的参数的初始值，可以节省智能体训练的时间。在智能体训练过程中，智能体先获取n个动作价值较高的控制策略，电网仿真器直接在这n个动作价值较高的控制策略仿真获得奖励值最高的控制策略，进一步节
省了时间，同时，在在对不同时刻的断面潮流数据训练时，不断更新智能体参数，提高了智能体训练的精度，完成所有时刻的断面潮流数据的智能体训练后，选出最优的智能体参数，采用最优的智能体参数的智能体在实时环境下完成电网拓扑优化，通过电网拓扑优化进行潮流控制，提升了电网拓扑优化和潮流控制的精度。
[0081]
上述仅为本发明的优选实施例而已，并不对本发明起到任何限制作用。任何所属技术领域的技术人员，在不脱离本发明的技术方案的范围内，对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动，均属未脱离本发明的技术方案的内容，仍属于本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周毅;周良才;丁佳立;何红玉;高佳宁
技术所有人：国家电网有限公司华东分部
我是此专利的发明人

上一篇：一种组合珍珠卡扣的制作方法
上一篇：一种基于改进FasterRCNN的设备开关状态识别方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。