本发明涉及电力系统调压,尤其涉及一种光伏逆变器协调电压无功控制方法、系统及存储介质。
背景技术:
1、光伏发电的发展促进了配电网的清洁能源利用,减少了发电中的温室气体排放,但也对电力系统的运行提出了挑战。由于环境条件的波动,光伏发电是不确定的和间歇性的,光伏电力与配电网的深度集成导致了各种问题,如电压幅值上升、反向潮流和继电器设置困难,电网损耗和电压波动过大。
2、因此,本发明将光伏逆变器作为主要调压设备加入协调电压-无功控制模型中,实现了快速决策并有效地解决电压波动问题,以在确保电压约束的同时最大限度地减少功率损失,对于含高比例新能源配电网的快速精准调压的研究具有重要意义。
技术实现思路
1、本发明的目的是提出一种基于深度强化学习的光伏逆变器协调电压-无功控制方法、系统及存储介质,该方法充分考虑光伏逆变器的容量利用,通过求解得到光伏逆变器的基本无功功率输出和每个下垂控制函数的电压截距,以及局部下垂控制器使用优化的下垂函数来产生或吸收无功功率,在最大限度地减少功率损失的同时实现了快速决策并有效地解决电压波动。
2、为了实现上述目的,本发明采用了如下技术方案:
3、一种光伏逆变器协调电压无功控制方法,所述方法包括以下步骤:
4、创建基于集中-分布式协调电压-无功框架的集中式调控模型;
5、根据集中式调控模型,利用深度强化学习,优化下垂控制函数;
6、利用优化后的下垂控制,进行分布式的电压控制策略。
7、本发明的进一步改进在于,所述集中式调控模型的创建方式如下所示:
8、定义配电网中第i条总线中的电压幅值为vi,注入的复数功率公式化为:
9、
10、其中,n表示配电网中的母线集合,第i条母线中的注入有功功率由两部分组成:光伏发电pg i和有功负载pl i,表示为pi=pg i+pl i;
11、第i条总线中的注入无功功率有三部分:光伏逆变器的基本无功输出qbase i、实时下垂无功功率输出qdroop i和负载无功需求ql i,表示为qi=qbase i+qdroop i-ql i;
12、τi表示非平衡节点的母总线,节点i和τi之间的线路阻抗为ri+jxi,对于所有总线i∈n的配电网的的集中-分布式协调电压-无功框架的集中式调控模型的表达式如下:
13、
14、
15、其中si(t)=pi(t)+jqi(t)是从节点τi到节点i的复功率,xi是子节点的集合,上式中,qi(t)表示时刻t在第i条总线处注入的无功功率,k表示第k条子线,qk(t)表示第k条子线的无功功率,qi(t)表示时刻t从总母线到子线的无功功率,xi表示线路的电抗,pi(t)表示时刻t从总母线到子线的有功功率,表示平衡节点的电压,pi(t)表示时刻t在第i条总线处注入的有功功率,pk(t)表示第k条子线的有功功率,ri表示线路的电阻,vi(t)表示非平衡节点的电压。
16、本发明的进一步改进在于,优化下垂控制函数的包括以下内容:
17、将优化下垂控制函数的问题公式化为:
18、
19、
20、式(4)表示使用来自中央和本地集中-分布式协调电压-无功框架层级的实时逆变器无功功率输出最小化时调度间隔t上的网络功率损耗,t表示调度间隔中的实时点,表示母线i处光伏逆变器的基本无功功率输出,ij表示支路ij,b表示所有支路,表示每条支线的功率损耗,rij表示节点i到j线路的电阻,表示流经支路ij的有功功率的平方,表示流经支路ij的有功功率的平方,v02表示该电压等级下额定电压的平方;
21、同时优化每个光伏逆变器的基本无功功率输出qi,base和下垂函数的电压截距vi*,每个逆变器的基本无功功率输出qi,base对应于预期的光伏发电量和负载,预期光伏发电量和负载条件下的母线电压viexp被视为预期电压,每个逆变器的基本无功功率输出qi,base和预期电压viexp作为最优下垂函数的操作设定点,其表示式如下所示:
22、
23、式中,ω是下垂控制功能的控制增益,si是母线无功功率注入对母线电压幅值的敏感性;
24、光伏发电量和负载与预测值的变化,电压波动将在每个实时时间步长发生,预测值的表达式如下所示:
25、
26、式中,δvi,t表示每个节点的电压波动,vi,t表示t时刻的节点电压;
27、局部下垂控制通过利用优化的下垂功能对实时电压波动做出反应,实时下垂无功输出功率δqi,t采用下式计算:
28、
29、每个光伏逆变器在每个实时点t的无功输出有两部分:基本无功输出qi,base和实时下垂无功输出功率δqi,t,qi,tinv表示每个光伏逆变器的总无功功率输出,
30、
31、逆变器的实际无功功率输出受到其最大容量的限制,如下式所示:
32、
33、
34、上式中,表示逆变器实际无功功率输出的最小容量,表示逆变器实际无功功率输出的最大容量,表示母线无功功率注入对母线电压幅值的最大敏感性,表示母线处所安装光伏的预测输出功率;
35、母线电压与节点有功和无功功率的关系以及母线电压的不等式约束如下式所示:
36、
37、
38、上式中,vj,t表示时刻t节点j处的电压,xij表示节点ij之间的线路阻抗,vi表示节点i处的所允许的电压最低值,表示节点i处的所允许的电压最高值;
39、两个决策变量基本无功功率输出qi,base和下垂函数的电压截距vi*应在中央层次中同时优化,并且优化的下垂函数应快速分配到局部层次中的每个光伏逆变器中,以减轻电压波动。
40、本发明的进一步改进在于,利用优化后的下垂控制函数,基于深度强化学习算法,获取优化后的下垂控制,进行分布式的电压控制策略包括以下内容:
41、基于深度强化学习算法,协调获取优化后的下垂控制,进行分布式的电压控制策略优化问题被公式化为马尔可夫决策过程,建立四元组<st,at,pt,rt>,分别表示状态空间、动作空间、状态转移函数和奖励函数;
42、1)状态空间
43、状态空间包括节点i处的有功和无功功率负载以及光伏的发电量,使得所有节点的有功和无功负载以及发电信息都包括在单个时间步长状态中,st表示来自电力系统的观测状态,
44、
45、上式中,表示节点i处负荷的有功功率,表示节点i处光伏的有功功率,表示节点i处负荷的无功功率;
46、2)动作空间
47、协调获取优化后的下垂控制,进行分布式的电压控制策略的作用涉及两个要素:每个光伏逆变器的基本无功功率输出qi,base和下垂函数的电压截距vi*,以最大限度地减少功率损失,并确保电压约束,
48、at=(qi,base,vi*) (15);
49、3)状态转移函数
50、状态转换概率函数pt用于描述在采取行动at后从st到st+1的状态转换过程,用st+1~pt(st,at)表示;
51、4)奖励函数
52、奖励函数总是根据优化目标来设计的,因此,奖励函数定义为:
53、
54、上式中,rt表示奖励函数的奖励值,piloos(t)表示在时间步长t的第i个节点处的功率损耗,βi表示发生电压违规时的惩罚因数;
55、基于深度强化学习算法,在训练过程中,智能体基于来自电力系统的观测状态st生成动作at,并在每个时间步长t基于给定的奖励函数获得所有动作完成后的奖励值rt,然后转移到下一个状态st+1;协调获取优化后的下垂控制,进行分布式的电压控制策略的目标是获得最优策略π并使总回报最大化。
56、本发明的进一步改进在于,所述深度强化学习算法为借助动作网络和评价网络的ppo算法,所述动作网络用于生成调度决策方案,所述评价网络用于评估调度方案的优劣,动作网络和评价网络的输入都是以电力系统的观测状态st作为输入,动作网络在获得输入之后对输入数据进行归一化,根据不同的输入特征进行偏移和缩放调整,消除特征间量纲和数量级差异的影响,进而加快神经网络的收敛,最后,输出层神经元根据概率分布得到确定动作at,评价网络则输出观测状态的价值函数vθ(st),深度强化学习算法利用海量的数据样本进行自我探索,实现从状态变量到动作变量的映射。
57、本发明的进一步改进在于,所述ppo算法由信赖域策略优化算法修改得来,信赖域策略优化算法的计算复杂度较高,实现起来较为复杂,为解决上述问题,在信赖域策略优化算法的基础上做出了改进,得到ppo在线学习算法,其目标函数的形式如下式所示:
58、
59、上式中,为动作网络的参数;为新旧策略的相对概率;为优势函数,ε为介于0和1之间的超参数,clip函数限制了新旧策略之间的比率在一个较小的[1-ε,1+ε]范围内,从而限制策略更新的幅度;
60、智能体中的动作网络不断与环境进行交互,将交互数据收集暂存于样本经验池中,当完成一次策略更新后需要释放上次采集的样本数据,将样本数据输入到动作网络和评价网络,分别进行动作网络和评价网络的参数更新,通过上述的交互更新,最终得到更精确的动作网络和评价网络,ppo算法智能体训练逐步稳定直至收敛,对于评价网络的更新先构造其损失函数,损失函数如下所示:
61、
62、上式中,为期望函数,vθ(st)表示为当前的价值函数,即评价网络的输出,表示为评估评价网络输出准确性的目标价值函数;基于时序差分算法,得出的计算公式如式(19)所示:
63、
64、上式中,rt表示当前t时刻所获得的奖励,γ表示折扣因子,vθ(st+1)表示为下一个价值函数;
65、根据评价网络的损失函数,对评价网络进行梯度更新,如式(20)所示:
66、θ=θ-ηθ▽l(θ) (20)
67、上式中,θ是评价网络的参数,ηθ为评价网络的学习率;▽l(θ)表示为评价网络损失函数关于参数θ的梯度。
68、本发明的进一步改进在于,所述优势函数表示在当前状态st下采取动作at相对于遵循最优策略π的平均性能的优势,如式(21)所示:
69、
70、vθ(st)=e(rt|st=s;π) (22)
71、上式中,qθ(st,at)表示为动作价值函数,即在给定状态st下按照最优策略π执行动作at的奖励期望,vθ(st)表示在当前状态st下遵循最优策略π执行所有调度计划方案所得目标函数的期望值;
72、在动作网络的参数更新过程中,采用优势函数作为动作网络的损失函数,用来引导动作网络在智能体与环境交互式训练中逐步改善网络性能,由此得到动作网络的参数更新如式(23)所示:
73、
74、上式中,为动作网络的参数,为动作网络的动态学习率,表示动作网络的损失函数;
75、动作网络的动态学习率如式(24)所示:
76、
77、上式中,表示为动作网络的基准学习率;和分别表示对新旧策略πθ(at,st)和πθold(at,st)的采样概率。
78、一种光伏逆变器协调电压无功控制系统,包括:
79、创建模块,用于创建基于集中-分布式协调电压-无功框架的集中式调控模型;
80、优化模块,用于根据集中式调控模型,利用深度强化学习,优化下垂控制函数;
81、策略调控模块,用于获取优化后的下垂控制,进行分布式的电压控制策略。
82、本发明的进一步改进在于,一种光伏逆变器协调电压无功控制系统,所述创建模块执行以下计算:
83、定义配电网中第i条总线中的电压幅值为vi,注入的复数功率公式化为:
84、
85、其中,n表示配电网中的母线集合,第i条母线中的注入有功功率由两部分组成:光伏发电pg i和有功负载pl i,表示为pi=pg i+pl i;
86、第i条总线中的注入无功功率有三部分:光伏逆变器的基本无功输出qbase i、实时下垂无功功率输出qdroop i和负载无功需求ql i,表示为qi=qbase i+qdroop i-ql i;
87、τi表示非平衡节点的母总线,节点i和τi之间的线路阻抗为ri+jxi,对于所有总线i∈n的配电网的的集中-分布式协调电压-无功框架的集中式调控模型的表达式如下:
88、
89、
90、其中si(t)=pi(t)+jqi(t)是从节点τi到节点i的复功率,xi是子节点的集合,上式中,qi(t)表示时刻t在第i条总线处注入的无功功率,k表示第k条子线,qk(t)表示第k条子线的无功功率,qi(t)表示时刻t从总母线到子线的无功功率,xi表示线路的电抗,pi(t)表示时刻t从总母线到子线的有功功率,表示平衡节点的电压,pi(t)表示时刻t在第i条总线处注入的有功功率,pk(t)表示第k条子线的有功功率,ri表示线路的电阻,vi(t)表示非平衡节点的电压;
91、所述优化模块执行以下计算:
92、将优化下垂控制函数的问题公式化为:
93、
94、
95、式(4)表示使用来自中央和本地集中-分布式协调电压-无功框架层级的实时逆变器无功功率输出最小化时调度间隔t上的网络功率损耗,t表示调度间隔中的实时点,表示母线i处光伏逆变器的基本无功功率输出,ij表示支路ij,b表示所有支路,表示每条支线的功率损耗,rij表示节点i到j线路的电阻,表示流经支路ij的有功功率的平方,表示流经支路ij的有功功率的平方,v02表示该电压等级下额定电压的平方;
96、同时优化每个光伏逆变器的基本无功功率输出qi,base和下垂函数的电压截距vi*,每个逆变器的基本无功功率输出qi,base对应于预期的光伏发电量和负载,预期光伏发电量和负载条件下的母线电压viexp被视为预期电压,每个逆变器的基本无功功率输出qi,base和预期电压viexp作为最优下垂函数的操作设定点,其表示式如下所示:
97、
98、式中,ω是下垂控制功能的控制增益,si是母线无功功率注入对母线电压幅值的敏感性;
99、光伏发电量和负载与预测值的变化,电压波动将在每个实时时间步长发生,预测值的表达式如下所示:
100、
101、式中,δvi,t表示每个节点的电压波动,vi,t表示t时刻的节点电压;
102、局部下垂控制通过利用优化的下垂功能对实时电压波动做出反应,实时下垂无功输出功率δqi,t采用下式计算:
103、
104、每个光伏逆变器在每个实时点t的无功输出有两部分:基本无功输出qi,base和实时下垂无功输出功率δqi,t,qi,tinv表示每个光伏逆变器的总无功功率输出,
105、
106、逆变器的实际无功功率输出受到其最大容量的限制,如下式所示:
107、
108、
109、上式中,表示逆变器实际无功功率输出的最小容量,表示逆变器实际无功功率输出的最大容量,表示母线无功功率注入对母线电压幅值的最大敏感性,表示母线处所安装光伏的预测输出功率;
110、母线电压与节点有功和无功功率的关系以及母线电压的不等式约束如下式所示:
111、
112、
113、上式中,vj,t表示时刻t节点j处的电压,xij表示节点ij之间的线路阻抗,vi表示节点i处的所允许的电压最低值,表示节点i处的所允许的电压最高值;
114、两个决策变量基本无功功率输出qi,base和下垂函数的电压截距vi*应在中央层次中同时优化,并且优化的下垂函数应快速分配到局部层次中的每个光伏逆变器中,以减轻电压波动;
115、所述策略调控模块执行以下计算:
116、基于深度强化学习算法,协调获取优化后的下垂控制,进行分布式的电压控制策略优化问题被公式化为马尔可夫决策过程,建立四元组<st,at,pt,rt>,分别表示状态空间、动作空间、状态转移函数和奖励函数;
117、1)状态空间
118、状态空间包括节点i处的有功和无功功率负载以及光伏的发电量,使得所有节点的有功和无功负载以及发电信息都包括在单个时间步长状态中,st表示来自电力系统的观测状态,
119、
120、上式中,表示节点i处负荷的有功功率,表示节点i处光伏的有功功率,表示节点i处负荷的无功功率;
121、2)动作空间
122、协调集中-分布式协调电压-无功框架的作用涉及两个要素:每个光伏逆变器的基本无功功率输出qi,base和下垂函数的电压截距vi*,以最大限度地减少功率损失,并确保电压约束,
123、at=(qi,base,vi*) (15);
124、3)状态转移函数
125、状态转换概率函数pt用于描述在采取行动at后从st到st+1的状态转换过程,用st+1~pt(st,at)表示;
126、4)奖励函数
127、奖励函数总是根据优化目标来设计的,因此,奖励函数定义为:
128、
129、上式中,rt表示奖励函数的奖励值,piloos(t)表示在时间步长t的第i个节点处的功率损耗,βi表示发生电压违规时的惩罚因数;
130、基于深度强化学习算法,在训练过程中,智能体基于来自电力系统的观测状态st生成动作at,并在每个时间步长t基于给定的奖励函数获得所有动作完成后的奖励值rt,然后转移到下一个状态st+1;协调获取优化后的下垂控制,进行分布式的电压控制策略优化的目标是获得最优策略π并使总回报最大化;
131、所述深度强化学习算法为借助动作网络和评价网络的ppo算法,所述动作网络用于生成调度决策方案,所述评价网络用于评估调度方案的优劣,动作网络和评价网络的输入都是以电力系统的观测状态st作为输入,动作网络在获得输入之后对输入数据进行归一化,根据不同的输入特征进行偏移和缩放调整,消除特征间量纲和数量级差异的影响,进而加快神经网络的收敛,最后,输出层神经元根据概率分布得到确定动作at,评价网络则输出观测状态的价值函数vθ(st),深度强化学习算法利用海量的数据样本进行自我探索,实现从状态变量到动作变量的映射;
132、ppo算法由信赖域策略优化算法修改得来,信赖域策略优化算法的计算复杂度较高,实现起来较为复杂,为解决上述问题,在信赖域策略优化算法的基础上做出了改进,得到ppo在线学习算法,其目标函数的形式如下式所示:
133、
134、上式中,为动作网络的参数;为新旧策略的相对概率;为优势函数,ε为介于0和1之间的超参数,clip函数限制了新旧策略之间的比率在[1-ε,1+ε]范围内,从而限制策略更新的幅度;
135、智能体中的动作网络不断与环境进行交互,将交互数据收集暂存与样本经验池中,当完成一次策略更新后需要释放上次采集的样本数据,将样本数据输入到动作网络和评价网络,分别进行动作网络和评价网络的参数更新,通过上述的交互更新,最终得到更精确的动作网络和评价网络,ppo算法智能体训练逐步稳定直至收敛,对于评价网络的更新先构造其损失函数,损失函数如下所示:
136、
137、上式中,为期望函数,vθ(st)表示为当前的价值函数,即评价网络的输出,表示为评估评价网络输出准确性的目标价值函数;基于时序差分算法,得出的计算公式如式(19)所示:
138、
139、上式中,rt表示当前t时刻所获得的奖励,γ表示折扣因子,vθ(st+1)表示为下一个价值函数;
140、根据评价网络的损失函数,对评价网络进行梯度更新,如式(20)所示:
141、θ=θ-ηθ▽l(θ) (20)
142、上式中,θ是评价网络的参数,ηθ为评价网络的学习率;▽l(θ)表示评价网络损失函数关于参数θ的梯度;
143、所述优势函数表示在当前状态st下采取动作at相对于遵循最优策略π的平均性能的优势,如式(21)所示:
144、
145、vθ(st)=e(rt|st=s;π) (22)
146、上式中,qθ(st,at)表示为动作价值函数,即在给定状态st下按照最优策略π执行动作at的奖励期望,vθ(st)表示在当前状态st下遵循最优策略π执行所有调度计划方案所得目标函数的期望值;
147、在动作网络的参数更新过程中,采用优势函数作为动作网络的损失函数,用来引导动作网络在智能体与环境交互式训练中逐步改善网络性能,由此得到动作网络的参数更新如式(23)所示:
148、
149、上式中,为动作网络的参数,为动作网络的动态学习率,表示动作网络的损失函数;
150、动作网络的动态学习率如式(24)所示:
151、
152、上式中,表示为动作网络的基准学习率;和分别表示对新旧策略πθ(at,st)和πθold(at,st)的采样概率。
153、一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现光伏逆变器协调电压无功控制方法中任意一个方法步骤。
154、与现有技术相比,本发明的有益效果是:本发明所提出的光伏逆变器协调电压无功控制方法充分考虑高比例光伏接入配电网系统对电压波动的影响,通过强化学习优化下垂控制函数,得到最优的下垂控制曲线,在有效利用逆变器无功容量的情况下,可以有效减少网络损耗和缓解电压波动,将节点电压控制在安全运行范围内,解决了电压越限问题,改善了电压曲线,能有效地应对分布式电源出力的波动,提高配电网的安全稳定性。