本发明涉及电力系统,更具体地,涉及一种同时满足功角稳定和电压稳定的大电网潮流调整方法及系统。
背景技术:
1、为了保证在各种n-1故障下电力系统的稳定运行,满足暂态稳定约束的潮流调整是保证系统稳定运行的一种有效的手段。目前,满足暂态稳定约束的潮流调整主要通过两种方式实现,一种是暂态稳定约束最优潮流(transient stability constrained optimalpower flow,tscopf),另一种是稳定约束条件下重新安排运行方式。tscopf最早是被gan d提出的,动力学方程被转换为数值等效的代数方程,然后集成到标准opf公式中。然后,chenl将tscopf转化为欧几里德空间中的优化问题,该方法得到了进一步发展。然而,tscopf仍然受到维数灾难以及不可接受的计算时间和内存消耗的困扰。现有的研究主要从两个方向对tscopf进行改进。一方面,可通过内点法改进数值微分,如缩减空间内点法、两级并行分解和原始-对偶牛顿内点法。另一方面,暂态稳定约束可转化为其他形式,如轨迹灵敏度分析、独立暂态稳定评估、单机无穷大母线参考轨迹和能量灵敏度法。然而,对于tscopf,很少考虑暂态电压稳定约束,而静态电压稳定约束的研究较多。此外,几乎没有同时考虑功角稳定和暂态电压稳定约束的潮流调整研究。而功角失稳和暂态电压失稳往往相互交织,相互影响。同时考虑两者对控制策略在复杂大电网中的应用至关重要。常用的求解方法有传统的精确算法和智能算法。saberi h提出了一种基于启发式benders分解的tscopf问题求解算法。rattananatthaworn o使用了具有时变加速系数的粒子群优化算法,以确定同时保证经济性和稳定性的发电机组最佳输出。然而,无论是哪种tscopf模型,它都可能受到不可解或不收敛问题的困扰,或者由于其约束的复杂性为实际大电网提供局部最优解。对于稳定约束重调度,它主要侧重于定义电力调度的一些指标,如轨迹灵敏度、启发式稳定性能指数和能量裕度。但稳定约束重调度通常不考虑控制过程中的成本,会导致控制成本的激增。
2、对于ai算法在暂态稳定控制方面的应用,ernst d首次提出将强化学习应用于电力系统稳定控制中,并构建了两种模式,一种是仿真模型,另一种是与实际电力系统的交互。hadidi r使用强化学习设计了实时闭环广域分散电力系统稳定器,扩展了系统的稳定边界,在不损失任何发电机或负荷的情况下,实现了系统受到严重干扰后振荡的缓解。考虑到现代电网中不断增加的不确定性和变化,huang q提出了使用深度强化学习的自适应紧急控制方案,并研究了深度强化学习方法对不同仿真场景、模型参数不确定性和观测噪声的鲁棒性。然而,上述研究均将深度强化学习应用于电力系统稳定的紧急控制,缺乏预防控制的研究。
3、因此,需要一种技术,以实现同时满足功角稳定和电压稳定的大电网潮流调整。
技术实现思路
1、本发明技术方案提供一种同时满足功角稳定和电压稳定的大电网潮流调整方法及系统,以解决如何同时满足功角稳定和电压稳定的大电网潮流调整的问题。
2、为了解决上述问题,本发明提供了一种同时满足功角稳定和电压稳定的大电网潮流调整方法,所述方法包括:
3、形成同时满足功角稳定和电压稳定的潮流调整的马尔可夫过程;所述马尔可夫过程包括动作设置、状态设置以及奖赏设置;
4、基于所述马尔可夫过程,确定同时满足功角稳定和电压稳定的潮流调整策略识别失稳模式;基于所述失稳模式,确定可动作设备以及所述可动作设备的计算动作量;
5、基于预先建立的改进d4pg的深度强化学习模型对所述计算动作量进行优化,确定动作目标,基于所述动作目标实现潮流调整。
6、优选地,其中,所述状态设置包括:
7、状态空间如下式所示,
8、
9、其中,pgi表示第i台发电机的有功功率;ξcri表示第i个电容器/电抗器的开关状态;ng和ncr分别是发电机和电容器/电抗器的数量;
10、所述动作设置包括:
11、动作空间如下式所示,
12、a=[0,1]
13、其中,0表示不动作,1表示完全动作;
14、所述奖赏设置包括:
15、经过暂态稳定n-1计算,获取n组暂态稳定仿真结果;基于n组结果的稳定性条件,计算其中每个仿真结果的失稳发电机和失稳电压母线的数量,并表示为下式:
16、
17、其中,为第i个仿真结果的失稳发电机和失稳电压母线的数量;
18、失稳发电机和失稳电压母线的总数如下所示:
19、
20、将每次调整后的失稳发电机和失稳电压母线的总数计入奖赏函数,以反映潮流的失稳情况,表示为以下等式:
21、
22、其中,r1表示失稳数量的奖赏,表示第k次重新调度后失稳发电机和失稳电压母线的总数;nl是线路数;λr1是奖赏系数,为了将奖赏设计在-1和1之间,奖赏系数设置为2;
23、选择暂态稳定指数作为功角失稳程度评估指标,如下式:
24、
25、其中,δmax是系统中任意两台发电机之间的最大功角差,tsi∈(-1,1];当tsi≥0时,系统稳定;而当tsi<0,系统失稳;
26、暂态功角失稳严重性指标trsi定义为下式,其中trsi∈[0,1):
27、
28、选择暂态电压失稳严重性指标tvsi作为电压失稳评估指标,如下式所示:
29、
30、其中,t为暂态时段;tc为故障清除时间;tvdi是暂态电压偏差指数,由系统事故后时域模拟计算得出:
31、
32、其中,v0表示初始时刻的电压幅值,vt是时间t处的电压幅值;tvsi∈[0,1),tvsi越大,系统越不稳定;
33、奖赏设置表示为下式:
34、
35、其中,r2表示功角失稳程度的奖赏,r3表示电压失稳程度的奖赏,和分别表示第i个故障下第j个失稳设备的暂态稳定指数和tvsi;nrusi和nvusi分别是第i个故障下失稳设备的数量;
36、所述奖赏设置如下:
37、r4=-λr2[cpδp+cqδq]
38、其中,r4表示控制成本对应的奖赏,cp和cq分别表示有功功率和无功功率的单位动作成本;δp和δq是有功功率和无功功率的动作量;λr2是调整成本的奖赏系数设置λr2为0.1,则总的奖赏为:
39、r=r1+r2+r3+r4。
40、
41、优选地,所述基于所述马尔可夫过程,确定同时满足功角稳定和电压稳定的潮流调整策略识别失稳模式;基于所述失稳模式,确定可动作设备以及所述可动作设备的计算动作量,还用于:
42、基于n-1计算结果的失稳条件,确定主导失稳类型和主导失稳发电机通过计算轨迹灵敏度,筛选出可动作设备;
43、计算可动作设备的计算动作量,将所述计算动作量可映射到深度强化学习模型的动作。
44、优选地,所述确定主导失稳类型,包括:
45、如果功角失稳早于电压失稳,且电压失稳位于振荡中心,则主要失稳类型为功角失稳;
46、如果电压失稳发生时间早于功角失稳,且电压失稳发生在负载区,则主要失稳类型为电压失稳;
47、如果功角失稳和电压失稳同时发生,则通过判断电压失稳是否在振荡中心,电压形式在0到1之间来回振荡来判断是功角失稳还是电压失稳。
48、优选地,所述计算轨迹灵敏度,包括:
49、轨迹灵敏度的计算,以trsi和tvsi为因变量,以发电机有功功率和电容器/电抗器电抗值为自变量,两种轨迹灵敏度表示为:
50、
51、其中,中和为第j次故障下第i台发电机对trsi和第i个电容器/电抗器对tvsi的轨迹灵敏度;δpg,i和δxcr,i是第i台发电机和第i个电容器/电抗器的变化量;δtrsij和δtvsij是在第j次故障下,基于发电机和电容器/电抗器的变化,trsi和tvsi的变化量;
52、所述筛选出可动作设备,经过暂态稳定n-1计算,得到n个故障下的m个trsi和l个tvsi,计算轨迹灵敏度,获得如下灵敏度矩阵:
53、
54、
55、其中,stg表示发电机对trsi的灵敏度,svg表示电容电抗器对tvsi的灵敏度,至表示故障1下发电机1到n对trsi的灵敏度,至表示故障m下发电机1到n对trsi的灵敏度,至表示故障1下电容电抗器1到n对tvsi的灵敏度,至表示故障l下电容电抗器1-n对trsi的灵敏度,计算n次故障后功角和节点电压的失稳情况;判断各故障的主导失稳类型,选择以功角失稳和暂态电压失稳为主的故障如下:
56、
57、其中,nra为以功角失稳为主的故障数;ntv是由暂态电压失稳为主的故障数;fra表示功角失稳情况,ftv表示电压失稳情况;
58、根据每台发电机的灵敏度和相应故障下的trsi,用于反映发电机对整个系统稳定性的影响,则每台发电机的权重可表示为:
59、
60、
61、每个节点的电容器/电抗器的权重表示为:
62、
63、
64、根据发电机从高到低和从低到高的权重,得到正调整和负调整的发电机序列:
65、
66、其中,和分别为第i个正调整发电机和负调整发电机;ng+和ng-表示正调整发电机和负调整发电机的数量;
67、形成可动作的发电机对,如下式所示:
68、
69、其中nmg表示可动作发电机对的数量,相应的灵敏度对为:
70、
71、其中,表示正调整发电机1对trsi的灵敏度,表示负调整发电机1对tvsi的灵敏度,表示正调整发电机nmg对tvsi的灵敏度,表示负调整发电机nmg对tvsi的灵敏度;
72、根据每个节点的电容器/电抗器的权重从高到低排序,调整后的电容器/电抗器顺序如下:
73、
74、其中,cr1至表示电容电抗器1至ncr。
75、优选地,改进d4pg的深度强化学习模型,包括:
76、通过函数μ获得每一步的动作:
77、at=μ(st|θμ)
78、其中,at表示t时刻的动作,st表示t时刻的状态,μ代表最佳策略,;θμ是μ的参数;
79、改进d4pg包括当前网络actor、目标网络actor、当前网络critic和目标网络critic;
80、所述当前网络基于贪婪方法选择动作,将样本放入回放缓冲区,利用贪婪方法为回放缓冲区中的下一个状态选择动作,使目标网络计算目标q值;
81、目标网络计算出目标q值后,当前网络会更新网络参数,并定期将最新的网络参数复制到目标网络,更新网络参数的方程式如下所示:
82、
83、其中,δt表示更新前后的回报差值,ωt表示q函数的权重参数,θt表示q函数的偏移参数,γ表示折合因子,st表示当前状态,at表示当前动作,qω′(st+1,μθ′(st+1))表示更新后的q值,qω(st,at)表示原q值,表示q函数对参数ω的梯度,表示q函数对参数θ的梯度,μθ表示带有参数θ的策略,表示q函数对动作a的梯度,a表示动作,μθ(st)表示状态st下的策略,θ'和ω'是目标网络actor和目标网络critic的参数,θ和ω是当前网络actor和当前网络critic的参数;αω和αθ是当前网络critic和当前网络actor的折扣因子;τ是参数更新因子;
84、d4pg的临界值通过用q分布代替q函数进行了改进:
85、q(s,μθ(s))=ez(s,μθ(s))
86、其中,s表示状态,μθ(s)表示状态s下的策略,表示q分布的期望值,z表示值的分布;
87、采用n步返回法进行替换目标q函数为:
88、
89、其中,π表示策略,s0表示初始状态,a0表示初始动作,r(s0,a0)表示初始状态和动作下的奖赏,γn表示第n个奖赏折合因子,x0表示初始观察量,t是拜尔曼操作;n是更新步数。
90、为了增加动作的探索性,将随机噪声添加到动作中,如下式所示。
91、
92、其中,表示加噪声后的动作,ε是随机噪声;
93、采用了先经验回放,td error用于表示优先级,表示为:
94、δt=rt+γq(st,μθ'(st+1))-q(st,at)。
95、
96、基于本发明的另一方面,本发明提供一种同时满足功角稳定和电压稳定的大电网潮流调整系统,所述系统包括:
97、初始单元,用于形成同时满足功角稳定和电压稳定的潮流调整的马尔可夫过程;所述马尔可夫过程包括动作设置、状态设置以及奖赏设置;
98、确定单元,用于基于所述马尔可夫过程,确定同时满足功角稳定和电压稳定的潮流调整策略识别失稳模式;基于所述失稳模式,确定可动作设备以及所述可动作设备的计算动作量;
99、结果单元,用于基于预先建立的改进d4pg的深度强化学习模型对所述计算动作量进行优化,确定动作目标,基于所述动作目标实现潮流调整。
100、优选地,其中,所述状态设置包括:
101、状态空间如下式所示,
102、
103、其中,pgi表示第i台发电机的有功功率;ξcri表示第i个电容器/电抗器的开关状态;ng和ncr分别是发电机和电容器/电抗器的数量;
104、所述动作设置包括:
105、动作空间如下式所示,
106、a=[0,1]
107、其中,0表示不动作,1表示完全动作;
108、所述奖赏设置包括:
109、经过暂态稳定n-1计算,获取n组暂态稳定仿真结果;基于n组结果的稳定性条件,计算其中每个仿真结果的失稳发电机和失稳电压母线的数量,并表示为下式:
110、
111、其中,为第i个仿真结果的失稳发电机和失稳电压母线的数量;
112、失稳发电机和失稳电压母线的总数如下所示:
113、
114、将每次调整后的失稳发电机和失稳电压母线的总数计入奖赏函数,以反映潮流的失稳情况,表示为以下等式:
115、
116、其中,r1表示表示失稳数量的奖赏,表示第k次重新调度后失稳发电机和失稳电压母线的总数;nl是线路数;λr1是奖赏系数,为了将奖赏设计在-1和1之间,奖赏系数设置为2;
117、选择暂态稳定指数作为功角失稳程度评估指标,如下式:
118、
119、其中,δmax是系统中任意两台发电机之间的最大功角差,tsi∈(-1,1];当tsi≥0时,系统稳定;而当tsi<0,系统失稳;
120、暂态功角失稳严重性指标trsi定义为下式,其中trsi∈[0,1):
121、
122、选择暂态电压失稳严重性指标tvsi作为电压失稳评估指标,如下式所示:
123、
124、其中,t为暂态时段;tc为故障清除时间;tvdi是暂态电压偏差指数,由系统事故后时域模拟计算得出:
125、
126、其中,v0表示初始时刻的电压幅值,vt是时间t处的电压幅值;tvsi∈[0,1),tvsi越大,系统越不稳定;
127、奖赏设置表示为下式:
128、
129、其中,r2表示功角失稳程度的奖赏,r3表示电压失稳程度的奖赏,和分别表示第i个故障下第j个失稳设备的暂态稳定指数和tvsi;nrusi和nvusi分别是第i个故障下失稳设备的数量;
130、所述奖赏设置如下:
131、r4=-λr2[cpδp+cqδq]
132、其中,r4表示控制成本对应的奖赏,cp和cq分别表示有功功率和无功功率的单位动作成本;δp和δq是有功功率和无功功率的动作量;λr2是调整成本的奖赏系数设置λr2为0.1,则总的奖赏为:
133、r=r1+r2+r3+r4。
134、
135、优选地,所述确定单元,用于基于所述马尔可夫过程,确定同时满足功角稳定和电压稳定的潮流调整策略识别失稳模式;基于所述失稳模式,确定可动作设备以及所述可动作设备的计算动作量,包括:
136、基于n-1计算结果的失稳条件,确定主导失稳类型和主导失稳发电机通过计算轨迹灵敏度,筛选出可动作设备;
137、计算可动作设备的计算动作量,将所述计算动作量可映射到深度强化学习模型的动作。
138、优选地,所述确定主导失稳类型,包括:
139、如果功角失稳早于电压失稳,且电压失稳位于振荡中心,则主要失稳类型为功角失稳;
140、如果电压失稳发生时间早于功角失稳,且电压失稳发生在负载区,则主要失稳类型为电压失稳;
141、如果功角失稳和电压失稳同时发生,则通过判断电压失稳是否在振荡中心,电压形式在0到1之间来回振荡来判断是功角失稳还是电压失稳。
142、优选地,所述计算轨迹灵敏度,包括:
143、轨迹灵敏度的计算,以trsi和tvsi为因变量,以发电机有功功率和电容器/电抗器电抗值为自变量,两种轨迹灵敏度表示为:
144、
145、其中,中和为第j次故障下第i台发电机对trsi和第i个电容器/电抗器对tvsi的轨迹灵敏度;δpg,i和δxcr,i是第i台发电机和第i个电容器/电抗器的变化量;δtrsij和δtvsij是在第j次故障下,基于发电机和电容器/电抗器的变化,trsi和tvsi的变化量;
146、所述筛选出可动作设备,经过暂态稳定n-1计算,得到n个故障下的m个trsi和l个tvsi,计算轨迹灵敏度,获得如下灵敏度矩阵:
147、
148、
149、其中,stg表示发电机对trsi的灵敏度,svg表示电容电抗器对tvsi的灵敏度,至表示故障1下发电机1到n对trsi的灵敏度,至表示故障m下发电机1到n对trsi的灵敏度,至表示故障1下电容电抗器1到n对tvsi的灵敏度,至表示故障l下电容电抗器1-n对trsi的灵敏度,计算n次故障后功角和节点电压的失稳情况;判断各故障的主导失稳类型,选择以功角失稳和暂态电压失稳为主的故障如下:
150、
151、其中,nra为以功角失稳为主的故障数;ntv是由暂态电压失稳为主的故障数;fra表示功角失稳情况,ftv表示电压失稳情况;
152、根据每台发电机的灵敏度和相应故障下的trsi,用于反映发电机对整个系统稳定性的影响,则每台发电机的权重可表示为:
153、
154、
155、每个节点的电容器/电抗器的权重表示为:
156、
157、
158、根据发电机从高到低和从低到高的权重,得到正调整和负调整的发电机序列:
159、
160、其中,和分别为第i个正调整发电机和负调整发电机;ng+和ng-表示正调整发电机和负调整发电机的数量;
161、形成可动作的发电机对,如下式所示:
162、
163、其中nmg表示可动作发电机对的数量,相应的灵敏度对为:
164、
165、其中,表示正调整发电机1对trsi的灵敏度,表示负调整发电机1对tvsi的灵敏度,表示正调整发电机nmg对tvsi的灵敏度,表示负调整发电机nmg对tvsi的灵敏度;
166、根据每个节点的电容器/电抗器的权重从高到低排序,调整后的电容器/电抗器顺序如下:
167、
168、其中,cr1至表示电容电抗器1至ncr。
169、优选地,改进d4pg的深度强化学习模型,包括:
170、通过函数μ获得每一步的动作:
171、at=μ(st|θμ)
172、其中,at表示t时刻的动作,st表示t时刻的状态,μ代表最佳策略,;θμ是μ的参数;
173、改进d4pg包括当前网络actor、目标网络actor、当前网络critic和目标网络critic;
174、所述当前网络基于贪婪方法选择动作,将样本放入回放缓冲区,利用贪婪方法为回放缓冲区中的下一个状态选择动作,使目标网络计算目标q值;
175、目标网络计算出目标q值后,当前网络会更新网络参数,并定期将最新的网络参数复制到目标网络,更新网络参数的方程式如下所示:
176、
177、其中,δt表示更新前后的回报差值,ωt表示q函数的权重参数,θt表示q函数的偏移参数,γ表示折合因子,st表示当前状态,at表示当前动作,qω′(st+1,μθ′(st+1))表示更新后的q值,qω(st,at)表示原q值,表示q函数对参数ω的梯度,表示q函数对参数θ的梯度,μθ表示带有参数θ的策略,表示q函数对动作a的梯度,a表示动作,μθ(st)表示状态st下的策略,θ'和ω'是目标网络actor和目标网络critic的参数,θ和ω是当前网络actor和当前网络critic的参数;αω和αθ是当前网络critic和当前网络actor的折扣因子;τ是参数更新因子;
178、d4pg的临界值通过用q分布代替q函数进行了改进:
179、q(s,μθ(s))=ez(s,μθ(s))
180、其中,s表示状态,μθ(s)表示状态s下的策略,表示q分布的期望值,z表示值的分布;
181、采用n步返回法进行替换目标q函数为:
182、
183、其中,π表示策略,s0表示初始状态,a0表示初始动作,r(s0,a0)表示初始状态和动作下的奖赏,γn表示第n个奖赏折合因子,x0表示初始观察量,t是拜尔曼操作;n是更新步数。
184、为了增加动作的探索性,将随机噪声添加到动作中,如下式所示。
185、
186、其中,表示加噪声后的动作,ε是随机噪声;
187、采用了先经验回放,td error用于表示优先级,表示为:
188、δt=rt+γq(st,μθ'(st+1))-q(st,at)。
189、
190、本发明技术方案提供一种同时满足功角稳定和电压稳定的大电网潮流调整方法及系统,其中方法包括:形成同时满足功角稳定和电压稳定的潮流调整的马尔可夫过程;马尔可夫过程包括动作设置、状态设置以及奖赏设置;基于马尔可夫过程,确定同时满足功角稳定和电压稳定的潮流调整策略识别失稳模式;基于失稳模式,确定可动作设备以及可动作设备的计算动作量;基于预先建立的改进d4pg的深度强化学习模型对计算动作量进行优化,确定动作目标,基于动作目标实现潮流调整。本发明技术方案提供一种同时满足功角稳定和电压稳定的大电网潮流人工智能调整方法,包括同时满足功角稳定和电压稳定的潮流调整的马尔可夫过程形成、同时满足功角稳定和电压稳定的潮流调整策略、以及基于改进d4pg的深度强化学习模型构建,同时满足功角稳定和电压稳定的潮流调整的马尔可夫过程形成是人工智能模型构建的基础,同时满足功角稳定和电压稳定的潮流调整策略是潮流调整过程加速的关键,基于改进d4pg的深度强化学习模型构建是实现潮流自动调整的核心。