基于DDPG算法的光伏逆变器多目标优化方法

文档序号:31448245发布日期:2022-09-07 12:31阅读:181来源:国知局
基于DDPG算法的光伏逆变器多目标优化方法
基于ddpg算法的光伏逆变器多目标优化方法
技术领域
1.本发明属于电力电子技术领域,涉及一种基于ddpg算法的光伏逆变器多目标优化方法。


背景技术:

2.近年来,太阳能光伏发电已经成为清洁能源利用的重要组成部分。在光伏发电系统中,逆变器作为连接光伏电池板和电网的接口,其主要功能是将光伏电池板转化的直流电变换成与电网同步的交流电。因此逆变器是保障光伏发电系统高效、经济和稳定运行不可或缺的关键环节之一,而让逆变器在任意运行工况下都能达到最优的效率、功率密度和寿命,同时使得成本最低对光伏发电系统的高效、经济和稳定运行是非常有意义的。
3.在电力电子装备的设计中,由于光伏逆变器实际的运行工况非常复杂多变,常见的优化指标如效率、功率密度、特殊成本和寿命之间也呈现出相互冲突的制约关系。在面对复杂的应用环境时,无法快速确定光伏逆变器的运行条件使光伏逆变器以最优的效率、功率密度、成本以及寿命运行,为此很多专家学者提出不同的解决方法:
4.中国发明专利公开说明书cn112968474a于2021年06月15日公开的《光伏离网逆变器系统的多目标寻优方法》,采用nsga
‑ⅲ
算法对光伏离网逆变系统进行多目标优化。但是,该解决方法存在以下不足:由于采用nsga
‑ⅲ
算法,当系统状态发生改变时,需要重新进行复杂、耗时的寻优求解过程,耗费计算资源,不能快速给出状态变化后的动作值,寻优过程存在局限性,应用范围有限。
5.中国发明专利公开说明书cn114172403ab于2022年03月11日公开的《基于深度强化学习的逆变器效率优化方法》,采用深度强化学习对逆变器的效率进行优化。但是,该解决方法存在以下不足:该方法只考虑效率这一优化目标,而逆变器在实际应用中,往往有多个目标需要优化,仅仅考虑效率可能造成其它性能指标的恶化,造成顾此失彼的问题,存在一定的局限性。


技术实现要素:

6.本发明针对现有光伏逆变器的单目标优化方法中仅仅考虑效率这一优化变量,存在光伏逆变器其它性能指标恶化的可能性,应用范围小,难以满足实际应用需求,并且采用nsga-iii算法训练或求解过程复杂耗时,寻优过程存在局限性的不足,提出了一种基于ddpg算法的光伏逆变器多目标优化方法,以解决现有技术中存在的上述问题。
7.本发明的目的是这样实现的,本发明提供了一种基于ddpg算法的光伏逆变器多目标优化方法,所述光伏逆变器包括直流电压源、支撑电容、三相三电平anpc逆变主电路、滤波电路和负载;所述支撑电容包括两个相同的支撑电容,分别记为支撑电容cap1和支撑电容cap2,支撑电容cap1和支撑电容cap2串联后接在直流电压源的直流正母线p和直流负母线e之间,支撑电容cap1和支撑电容cap2的连接点记为直流母线中点o;
8.所述三相三电平anpc逆变主电路包括互相并联在直流电压源的直流正母线p和直
流负母线e之间的三相桥臂,在三相桥臂的每相桥臂中包括6个带反并联二极管的开关管,即逆变主电路共包括18个带反并联二极管的开关管,将18个带反并联二极管的开关管记为开关管s
ij
,其中,i表示三相,i=a,b,c,j表示开关管的序号,j=1,2,3,4,5,6;在三相桥臂的每相桥臂中,开关管s
i1
、开关管s
i2
、开关管s
i3
、开关管s
i4
顺序串联,且开关管s
i1
的输入端接直流正母线p、开关管s
i4
的输出端接直流负母线e;开关管s
i5
的输入端接开关管s
i1
的输出端,开关管s
i5
的输出端接直流母线中点o,开关管s
i6
的输入端接直流母线中点o,开关管s
i6
的输出端接开关管s
i3
的输出端;将开关管s
i2
和开关管s
i3
的公共节点记为逆变器输出点φi,i=a,b,c;
9.所述滤波电路包括三相滤波电感l和三相滤波电容c0,三相滤波电感l一端的三相分别接三相三电平anpc逆变电路的输出端φi,另一端接入负载,三相滤波电容c0并联在三相滤波电感l和负载之间;
10.在18个开关管s
ij
中,开关管s
i1
、开关管s
i4
、开关管s
i5
和开关管s
i6
为工频开关管且开关频率相同,均为50hz,开关管s
i2
和开关管s
i3
为高频开关管且开关频率相同;
11.所述光伏逆变器多目标优化方法基于ddpg算法对光伏逆变器进行多目标优化,具体步骤如下:
12.步骤1,建立优化目标模型
13.将光伏逆变器记为系统,将18个带反并联二极管的开关管拆解为18个开关管和18个反并联二极管,并设定支撑电容cap1、支撑电容cap2和三相滤波电容c0的损耗、体积及购买成本均忽略不计;
14.所述建立优化目标模型包括建立效率优化模型、建立功率密度优化模型、建立特殊成本优化模型和建立寿命优化模型;
15.步骤1.1,建立效率优化模型
16.以系统的效率η为目标,建立效率优化模型,其表达式如下:
[0017][0018]
式中,p
loss
为系统总损耗,p
loss
=p
t
+p
l
,p
t
为18个开关管和18个反并联二极管的总损耗,p
l
为三相滤波电感l的损耗,pw为系统的额定输入功率;
[0019]
步骤1.2,建立功率密度优化模型
[0020]
以系统的功率密度σ为目标,建立功率密度优化模型,其表达式为:
[0021][0022]
式中,pw为系统的额定输入功率,v为系统体积,v=v
t
+3v
l
,v
t
为18个开关管和18个反并联二极管的总体积,v
l
为三相滤波电感l中单相滤波电感的磁芯体积;
[0023]
步骤1.3,建立特殊成本优化模型
[0024]
以系统的特殊成本c为目标,建立特殊成本优化模型,其表达式为:
[0025]
c=c
t
+c
l
[0026]
式中,c
t
为18个开关管和18个反并联二极管的购买成本,c
l
为三相滤波电感l的购买成本;
[0027]
步骤1.4,建立寿命优化模型
[0028]
首先做以下设定:
[0029][0030]
为高频开关管s
a2
稳定工作时的平均结温,为高频开关管s
a3
稳定工作时的平均结温,t
j,max
为开关管s
ij
能承受的最大结温,t
core
为三相滤波电感l的磁芯稳定工作时的温度,t
core,max
为三相滤波电感l的磁芯能承受的最大温度;
[0031]
以系统的寿命γ为目标,建立寿命优化模型,其表达式为:
[0032][0033]
式中,n
cg
为第g个开关周期中开关管s
a2
的循环次数,n
fg
为第g个开关周期中开关管s
a2
的失效循环次数,g=1,2,3
…gmax
,且g
max
为开关周期的最大循环次数;
[0034]
步骤2,根据步骤1得到的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型,确定状态集合s、动作集合a0和奖励函数r;
[0035]
步骤2.1,确定状态集合s和动作集合a0[0036]
记系统的当前时刻为t,t=1,2,3

t,t为系统终止状态的时刻,将系统在当前时刻t的状态记为状态s
t
,s
t
=(u
dc
,i)
t
,式中,u
dc
为直流电压源(10)的电压值,记为直流电压u
dc
,i为系统的输出电流有效值,记为输出电流i;
[0037]
所述状态集合s为t个状态s
t
的集合,s={s1,s2,
…st
,..s
t
},且s∈{(u
dc
,i)};
[0038]
将系统在t时刻采取的动作记为动作a
t
,a
t
=(f
sw
)
t
,式中,f
sw
为高频开关管的开关频率,记为高频开关频率f
sw

[0039]
所述动作集合a0为t个动作a
t
的集合,a0={a1,a2,
…at
,..a
t
},且},且式中,f
sw_min
为高频开关频率f
sw
的下限值,f
sw_max
为高频开关频率f
sw
的上限值;
[0040]
步骤2.2,确定奖励函数r
[0041]
步骤2.2.1,对多目标模型进行归一化处理
[0042]
所述系统的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型之间的数值不在同一量级上,进行归一化处理使四个优化模型的数值均在0至1之间;
[0043]
记效率优化模型中的系统总损耗p
loss
为优化目标f1,功率密度优化模型中的系统体积v为优化目标f2,特殊成本优化模型中的特殊成本的c记为优化目标f3,寿命优化模型中的寿命γ为优化目标f4;
[0044]
引入优化目标f
α
,α=1,2,3,4,对优化目标f
α
进行归一化得到归一化的优化目标且其表达式为:
[0045][0046]
式中,f
α,min
为优化目标的最小值,f
α,max
为优化目标的最大值;
[0047]
步骤2.2.2,对四个优化目标赋予权值,设置奖励函数r
[0048]
所述奖励函数r表示系统从当前状态到终止状态之间所有动作产生的奖励值的加权和,表达式如下:
[0049][0050]
式中,r
t
为系统在t时刻的状态s
t
采取动作a
t
后得到的单步奖励值,γ为折扣因子,折扣因子γ表示时间的长短对奖励值的影响程度,
[0051]
其中为惩罚系数,w
α
为权重系数,α=1,2,3,4,0《w
α
《1,且
[0052]
步骤3,ddpg算法的离线学习
[0053]
从状态集合s中任意抽取d个状态s
t
组成离线学习的训练数据集,d=4t/5;根据步骤2得到的状态集合s、动作集合a0和奖励函数r,利用深度强化学习的ddpg算法进行离线学习,得到最优策略π(sy);
[0054]
所述ddpg算法包含4个神经网络,分别为在线策略网络、目标策略网络、在线评价网络和目标评价网络,其中,在线策略网络的神经网络参数记为第一神经网络参数θ
μ
,目标策略网络的神经网络参数记为第二神经网络参数θ
μ

,在线评价网络的神经网络参数记第三神经网络参数为θq,目标评价网络的神经网络参数记为第四神经网络参数θq′

[0055]
给定训练步长step和最大步长step
max
,给定训练回合数m和最大训练回合数m,step=1,2,3

step
max
,m=1,2,3

m,即在每一个训练回合中包含step
max
次训练,共进行m个训练回合;
[0056]
定义在每个训练回合中的奖励函数r的平均值,并记为平均奖励定义在每个训练回合中的奖励函数r的平均值,并记为平均奖励在每个训练回合数m的过程中,第一神经网络参数θ
μ
、第二神经网络参数θ
μ

、第三神经网络参数θq、第四神经网络参数θq′
均朝着平均奖励最大化的方向更新,最终得到最优策略π(sy);
[0057]
所述最优策略π(sy)的表达式如下:
[0058]
π(sy)=ay[0059]
式中,sy为与最优策略对应的在线策略网络输入的状态值,且sy=(u
dc
,i)y,(u
dc
,i)y为状态集合s中与最优策略对应的直流电压u
dc
和输出电流i,ay为与最优策略对应的在线策略网络输出的动作值,记为最优动作ay,且ay=(f
sw
)y,(f
sw
)y为动作集合a0中与最优策略π(sy)对应的高频开关频率f
sw

[0060]
输出最优动作ay;
[0061]
步骤4,根据最优动作ay进行应用
[0062]
步骤4.1,首先将状态集合s中的选入训练数据集以外的状态s
t
重新组成一个应用数据集,然后从该应用数据集中随机抽取j
max
个状态s
t
并重新定义为应用状态s
β
,β=1,2,3
…jmax
,应用状态s
β
=(u
dc
,i)
β
,即应用状态s
β
为直流电压u
dc
和输出电流i下的一组状态;
[0063]
步骤4.2,将步骤3输出的最优动作ay代入j
max
个应用状态s
β
中,则得到不同应用状
态s
β
下输出的最优应用动作β=1,2,3
…jmax

[0064]
步骤4.3,将应用状态s
β
=(u
dc
,i)
β
、最优应用动作分别代入步骤1所建立的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型中,得到系统的最优效率系统的最优功率密度系统的最优特殊成本和系统的最优寿命β=1,2,3
…jmax
,其中系统的最优效率为在系统状态集合s中的任一状态{(u
dc
,i)}下的最优效率,系统的最优功率密度为在系统状态集合s中的任一状态{(u
dc
,i)}下的最优功率密度,系统的最优特殊成本为在系统状态集合s中的任一状态{(u
dc
,i)}下的最优特殊成本,系统的最优寿命为在系统状态集合s中的任一状态{(u
dc
,i)}下的最优寿命,即在系统状态集合s中的任一状态{(u
dc
,i)}下实现效率、功率密度和寿命的最大化,同时使得特殊成本最小化。
[0065]
优选地,步骤3所述利用深度强化学习的ddpg算法进行离线学习,得到最优策略π(sy)的具体步骤如下:
[0066]
步骤3.1,初始化第一神经网络参数θ
μ
、第二神经网络参数θ
μ

、第三神经网络参数θq和第四神经网络参数θq′
,并令θ
μ

=θ
μ
、θq′
=θq;初始化经验回放池p的容量为d;初始化在线评价网络的学习率αq,在线策略网络的学习率α
μ
,滑动平均更新参数τ,且0《αq《1,0《α
μ
《1,0《τ《1;记在线策略网络的输出为a,a=μ(s|θ
μ
),其中,a为在线策略网络输出的动作值,a对应于所述动作集合a0中的个体,且a=f
sw
;s为在线策略网络输入的状态值,s对应于所述状态集合s中的个体,且s=(u
dc
,i);μ为通过在线策略网络的第一神经网络参数θ
μ
和输入的状态值s得到的策略;
[0067]
步骤3.2,将系统在t时刻的状态s
t
输入在线策略网络,得到在线策略网络的输出并添加噪声δ
t
,得到最终输出的动作a
t
,具体表达式如下:
[0068][0069]
步骤3.3,系统根据状态s
t
执行动作a
t
,转换到新的状态s
t+1
,同时得到执行动作a
t
后的单步奖励值r
t
,将(s
t
,a
t
,r
t
,s
t+1
)称为状态转换序列,并把(s
t
,a
t
,r
t
,s
t+1
)存入经验回放池p,系统进入下一时刻t+1的状态s
t+1

[0070]
循环执行步骤3.2~步骤3.3,记经验回放池p中状态转换序列的个数为n,若n=d,进入步骤3.4,否则返回步骤3.2;
[0071]
步骤3.4,从经验回放池p中随机抽取n个状态转换序列,且n《d,将n个状态转换序列作为训练在线策略网络和在线评价网络的小批量数据,将小批量数据中的第k个状态转换序列记为(sk,ak,rk,s
k+1
),k=1,2,3

n;
[0072]
步骤3.5,根据步骤3.4得到的小批量数据(sk,ak,rk,s
k+1
),k=1,2,3

n,计算得到累积奖励yk和误差函数l(θq),具体表达式如下:
[0073]
yk=rk+q

(s
k+1


(s
k+1

μ

)|θq′
)
[0074][0075]
式中,q

(s
k+1


(s
k+1

μ

)|θq′
)为目标评价网络输出的评分值,其中μ

(s
k+1

μ

)|θq′
为目标策略网络输出的动作值,s
k+1
为目标评价网络和目标策略网络输入的状态值;q(sk,ak|θq)为在线评价网络输出的评分值,sk和ak为在线评价网络输入的状态值和动作值;
[0076]
步骤3.6,在线评价网络通过最小化误差函数l(θq)来更新θq,在线策略网络通过确定性策略梯度更新θ
μ
,目标评价网络和目标策略网络通过滑动平均方法更新θq′
和θ
μ

,具体表达式如下:
[0077][0078][0079][0080][0081][0082]
式中,为偏导符号,其中表示策略j对θ
μ
求偏导,表示在线评价网络的输入为s=sk,a=μ(sk)时,在线评价网络输出的评分值对动作值a求偏导,表示在线策略网络的输入为s=sk时,在线策略网络输出的动作值对θ
μ
求偏导,表示误差函数l(θq)对θq求偏导,为更新之后的第三神经网络参数,为更新之后的第一神经网络参数,为更新之后的第四神经网络参数,为更新之后的第二神经网络参数;
[0083]
步骤3.7,完成一次步骤3.4~步骤3.6时,一个步长的训练过程完成,当step《step
max
时,重复执行步骤3.4~步骤3.6,当step=step
max
时,一个回合的训练过程完成,下一个回合的训练过程从步骤3.2开始,到步骤3.6结束,当m《m时,重复执行步骤3.2~步骤3.6,当m=m时,m个回合的训练过程完成时,ddpg算法的学习过程结束;
[0084]
步骤3.8,训练算法结束,保存最优策略π(sy)=ay,记一个训练回合的平均奖励为
[0085]
在m个训练回合中,第一神经网络参数θ
μ
、第二神经网络参数θ
μ

、第三神经网络参数θq和第四神经网络参数θq′
朝着平均奖励最大化的方向更新,最终得到最优策略π(sy)。
[0086]
与现有技术相比,本发明的有益效果为:
[0087]
(1)本发明采用ddpg算法对光伏逆变器进行多目标优化,可以解决复杂的高维设
计变量问题,并且可以避免光伏逆变器设计中的顾此失彼问题,找到满足优化目标的最优方案,充分提升光伏逆变器的性能。
[0088]
(2)本发明提供的最优策略π(a|s)在动态的逆变器额定工作条件下,以及对四个目标分配的不同权重下,均能够直接得到最优的设计变量值使效率、功率密度、特殊成本和寿命达到最优,不需要重新进行复杂、耗时的寻优求解过程,简便快捷,节省计算资源。
附图说明
[0089]
图1为本发明实施例中光伏逆变器的拓扑图;
[0090]
图2为本发明光伏逆变器多目标优化方法的框图;
[0091]
图3为本发明光伏逆变器多目标优化方法的流程图;
[0092]
图4为本发明实施例中平均奖励的收敛效果图;
[0093]
图5为本发明实施例中动作变量的训练效果图。
具体实施方式
[0094]
下面结合附图,对本发明进行详细的说明。
[0095]
图1为本发明实施例中光伏逆变器的拓扑图。由图1可见,所述光伏逆变器包括直流电压源10、支撑电容20、三相三电平anpc逆变主电路30、滤波电路40和负载50。所述支撑电容20包括两个相同的支撑电容,分别记为支撑电容cap1和支撑电容cap2,支撑电容cap1和支撑电容cap2串联后接在直流电压源10的直流正母线p和直流负母线e之间,支撑电容cap1和支撑电容cap2的连接点记为直流母线中点o。
[0096]
所述三相三电平anpc逆变主电路30包括互相并联在直流电压源10的直流正母线p和直流负母线e之间的三相桥臂,在三相桥臂的每相桥臂中包括6个带反并联二极管的开关管,即逆变主电路共包括18个带反并联二极管的开关管,将18个带反并联二极管的开关管记为开关管s
ij
,其中,i表示三相,i=a,b,c,j表示开关管的序号,j=1,2,3,4,5,6。在三相桥臂的每相桥臂中,开关管s
i1
、开关管s
i2
、开关管s
i3
、开关管s
i4
顺序串联,且开关管s
i1
的输入端接直流正母线p、开关管s
i4
的输出端接直流负母线e;开关管s
i5
的输入端接开关管s
i1
的输出端,开关管s
i5
的输出端接直流母线中点o,开关管s
i6
的输入端接直流母线中点o,开关管s
i6
的输出端接开关管s
i3
的输出端;将开关管s
i2
和开关管s
i3
的公共节点记为逆变器输出点φi,i=a,b,c。
[0097]
所述滤波电路40包括三相滤波电感l和三相滤波电容c0,三相滤波电感l一端的三相分别接三相三电平anpc逆变电路30的输出端φi,另一端接入负载50,三相滤波电容c0并联在三相滤波电感l和负载50之间。
[0098]
在18个开关管s
ij
中,开关管s
i1
、开关管s
i4
、开关管s
i5
和开关管s
i6
为工频开关管且开关频率相同,均为50hz,开关管s
i2
和开关管s
i3
为高频开关管且开关频率相同。
[0099]
另外,图1中的d
ij
为开关管s
ij
上的反并联二极管,i表示三相,i=a,b,c,j表示开关管的序号,j=1,2,3,4,5,6。
[0100]
图2为本发明光伏逆变器多目标优化方法的框图,图3为本发明光伏逆变器多目标优化方法的流程图,由图2、图3可见,所述光伏逆变器多目标优化方法基于ddpg算法对光伏逆变器多目标进行优化,具体步骤如下:
[0101]
步骤1,建立优化目标模型
[0102]
将光伏逆变器记为系统,将18个带反并联二极管的开关管拆解为18个开关管和18个反并联二极管,并设定支撑电容cap1、支撑电容cap2和三相滤波电容c0的损耗、体积及购买成本均忽略不计。
[0103]
所述建立优化目标模型包括建立效率优化模型、建立功率密度优化模型、建立特殊成本优化模型和建立寿命优化模型。
[0104]
步骤1.1,建立效率优化模型
[0105]
以系统的效率η为目标,建立效率优化模型,其表达式如下:
[0106][0107]
式中,p
loss
为系统总损耗,p
loss
=p
t
+p
l
,p
t
为18个开关管和18个反并联二极管的总损耗,p
l
为三相滤波电感l的损耗,pw为系统的额定输入功率;
[0108]
步骤1.2,建立功率密度优化模型
[0109]
以系统的功率密度σ为目标,建立功率密度优化模型,其表达式为:
[0110][0111]
式中,pw为系统的额定输入功率,v为系统体积,v=v
t
+3v
l
,v
t
为18个开关管和18个反并联二极管的总体积,v
l
为三相滤波电感l中单相滤波电感的磁芯体积;
[0112]
在本实施例中,取系统的额定输入功率pw=140
×
103瓦,v
t
=3.98
×
10-4
立方米。
[0113]
步骤1.3,建立特殊成本优化模型
[0114]
以系统的特殊成本c为目标,建立特殊成本优化模型,其表达式为:
[0115]
c=c
t
+c
l
[0116]
式中,c
t
为18个开关管和18个反并联二极管的购买成本,c
l
为三相滤波电感l的购买成本;
[0117]
步骤1.4,建立寿命优化模型
[0118]
首先做以下设定:
[0119][0120]
为高频开关管s
a2
稳定工作时的平均结温,为高频开关管s
a3
稳定工作时的平均结温,t
j,max
为开关管s
ij
能承受的最大结温,t
core
为三相滤波电感l的磁芯稳定工作时的温度,t
core,max
为三相滤波电感l的磁芯能承受的最大温度;
[0121]
以系统的寿命γ为目标,建立寿命优化模型,其表达式为:
[0122][0123]
式中,n
cg
为第g个开关周期中开关管s
a2
的循环次数,n
fg
为第g个开关周期中开关管sa2
的失效循环次数,g=1,2,3
…gmax
,且g
max
为开关周期的最大循环次数。
[0124]
步骤2,根据步骤1得到的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型,确定状态集合s、动作集合a0和奖励函数r。
[0125]
步骤2.1,确定状态集合s和动作集合a0[0126]
记系统的当前时刻为t,t=1,2,3

t,t为系统终止状态的时刻,将系统在当前时刻t的状态记为状态s
t
,s
t
=(u
dc
,i)
t
,式中,u
dc
为直流电压源(10)的电压值,记为直流电压u
dc
,i为系统的输出电流有效值,记为输出电流i;
[0127]
所述状态集合s为t个状态s
t
的集合,s={s1,s2,
…st
,..s
t
},且s∈{(u
dc
,i)};
[0128]
将系统在t时刻采取的动作记为动作a
t
,a
t
=(f
sw
)
t
,式中,f
sw
为高频开关管的开关频率,记为高频开关频率f
sw

[0129]
所述动作集合a0为t个动作a
t
的集合,a0={a1,a2,
…at
,..a
t
},且},且式中,f
sw_min
为高频开关频率f
sw
的下限值,f
sw_max
为高频开关频率f
sw
的上限值。
[0130]
步骤2.2,确定奖励函数r
[0131]
步骤2.2.1,对多目标模型进行归一化处理
[0132]
所述系统的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型之间的数值不在同一量级上,进行归一化处理使四个优化模型的数值均在0至1之间;
[0133]
记效率优化模型中的系统总损耗p
loss
为优化目标f1,功率密度优化模型中的系统体积v为优化目标f2,特殊成本优化模型中的特殊成本的c记为优化目标f3,寿命优化模型中的寿命γ为优化目标f4;
[0134]
引入优化目标f
α
,α=1,2,3,4,对优化目标f
α
进行归一化得到归一化的优化目标且其表达式为:
[0135][0136]
式中,f
α,min
为优化目标的最小值,f
α,max
为优化目标的最大值。
[0137]
步骤2.2.2,对四个优化目标赋予权值,设置奖励函数r
[0138]
所述奖励函数r表示系统从当前状态到终止状态之间所有动作产生的奖励值的加权和,表达式如下:
[0139][0140]
式中,r
t
为系统在t时刻的状态s
t
采取动作a
t
后得到的单步奖励值,γ为折扣因子,折扣因子γ表示时间的长短对奖励值的影响程度,其中为惩罚系数,w
α
为权重系数,α=1,2,3,4,0《w
α
《1,且
[0141]
在本实施例中,u
dc
的取值范围为600伏~1200伏,i的取值范围为100安培~120安培,取f
sw_min
=1000hz,取f
sw_max
=80000hz,取t=100,取w1=w2=0.5,w3=w4=0,γ=0.9,
[0142]
步骤3,ddpg算法的离线学习
[0143]
从状态集合s中任意抽取d个状态s
t
组成离线学习的训练数据集,d=4t/5;根据步骤2得到的状态集合s、动作集合a0和奖励函数r,利用深度强化学习的ddpg算法进行离线学习,得到最优策略π(sy)。
[0144]
所述ddpg算法包含4个神经网络,分别为在线策略网络、目标策略网络、在线评价网络和目标评价网络,其中,在线策略网络的神经网络参数记为第一神经网络参数θ
μ
,目标策略网络的神经网络参数记为第二神经网络参数θ
μ

,在线评价网络的神经网络参数记第三神经网络参数为θq,目标评价网络的神经网络参数记为第四神经网络参数θq′

[0145]
给定训练步长step和最大步长step
max
,给定训练回合数m和最大训练回合数m,step=1,2,3

step
max
,m=1,2,3

m,即在每一个训练回合中包含step
max
次训练,共进行m个训练回合。
[0146]
在本实施例中,取step
max
=100,取m=4000。
[0147]
定义在每个训练回合中的奖励函数r的平均值,并记为平均奖励定义在每个训练回合中的奖励函数r的平均值,并记为平均奖励在每个训练回合数m的过程中,第一神经网络参数θ
μ
、第二神经网络参数θ
μ

、第三神经网络参数θq、第四神经网络参数θq′
均朝着平均奖励最大化的方向更新,最终得到最优策略π(sy)。
[0148]
所述最优策略π(sy)的表达式如下:
[0149]
π(sy)=ay[0150]
式中,sy为与最优策略对应的在线策略网络输入的状态值,且sy=(u
dc
,i)y,(u
dc
,i)y为状态集合s中与最优策略对应的直流电压u
dc
和输出电流i,ay为与最优策略对应的在线策略网络输出的动作值,记为最优动作ay,且ay=(f
sw
)y,(f
sw
)y为动作集合a0中与最优策略π(sy)对应的高频开关频率f
sw

[0151]
输出最优动作ay。
[0152]
步骤4,根据最优动作ay进行应用
[0153]
步骤4.1,首先将状态集合s中的选入训练数据集以外的状态s
t
重新组成一个应用数据集,然后从该应用数据集中随机抽取j
max
个状态s
t
并重新定义为应用状态s
β
,β=1,2,3
…jmax
,应用状态s
β
=(u
dc
,i)
β
,即应用状态s
β
为直流电压u
dc
和输出电流i下的一组状态;
[0154]
步骤4.2,将步骤3输出的最优动作ay代入j
max
个应用状态s
β
中,则得到不同应用状态s
β
下输出的最优应用动作β=1,2,3
…jmax

[0155]
步骤4.3,将应用状态s
β
=(u
dc
,i)
β
、最优应用动作分别代入步骤1所建立的效率优化模型、功率密度优化模型、特殊成本优化模型和寿命优化模型中,得到系统的最优效率系统的最优功率密度系统的最优特殊成本和系统的最优寿命β=1,2,3
…jmax
,其中系统的最优效率为在系统状态集合s中的任一状态{(u
dc
,i)}下的最优效率,系统的最优功率密度为在系统状态集合s中的任一状态{(u
dc
,i)}下的
最优功率密度,系统的最优特殊成本为在系统状态集合s中的任一状态{(u
dc
,i)}下的最优特殊成本,系统的最优寿命为在系统状态集合s中的任一状态{(u
dc
,i)}下的最优寿命,即在系统状态集合s中的任一状态{(u
dc
,i)}下实现效率、功率密度和寿命的最大化,同时使得特殊成本最小化。
[0156]
在本实施例中,步骤3所述利用深度强化学习的ddpg算法进行离线学习,得到最优策略π(sy)的具体步骤如下:
[0157]
步骤3.1,初始化第一神经网络参数θ
μ
、第二神经网络参数θ
μ

、第三神经网络参数θq和第四神经网络参数θq′
,并令θ
μ

=θ
μ
、θq′
=θq;初始化经验回放池p的容量为d;初始化在线评价网络的学习率αq,在线策略网络的学习率α
μ
,滑动平均更新参数τ,且0《αq《1,0《α
μ
《1,0《τ《1;记在线策略网络的输出为a,a=μ(s|θ
μ
),其中,a为在线策略网络输出的动作值,a对应于所述动作集合a0中的个体,且a=f
sw
;s为在线策略网络输入的状态值,s对应于所述状态集合s中的个体,且s=(u
dc
,i);μ为通过在线策略网络的第一神经网络参数θ
μ
和输入的状态值s得到的策略。
[0158]
步骤3.2,将系统在t时刻的状态s
t
输入在线策略网络,得到在线策略网络的输出并添加噪声δ
t
,得到最终输出的动作a
t
,具体表达式如下:
[0159][0160]
在本实施例中,取αq=0.002,取α
μ
=0.001,取τ=0.01,取噪声δ
t
=0.9995m×
1000。
[0161]
步骤3.3,系统根据状态s
t
执行动作a
t
,转换到新的状态s
t+1
,同时得到执行动作a
t
后的单步奖励值r
t
,将(s
t
,a
t
,r
t
,s
t+1
)称为状态转换序列,并把(s
t
,a
t
,r
t
,s
t+1
)存入经验回放池p,系统进入下一时刻t+1的状态s
t+1

[0162]
循环执行步骤3.2~步骤3.3,记经验回放池p中状态转换序列的个数为n,若n=d,进入步骤3.4,否则返回步骤3.2。
[0163]
步骤3.4,从经验回放池p中随机抽取n个状态转换序列,且n《d,将n个状态转换序列作为训练在线策略网络和在线评价网络的小批量数据,将小批量数据中的第k个状态转换序列记为(sk,ak,rk,s
k+1
),k=1,2,3

n。
[0164]
在本实施例中,取d=10000,取n=32。
[0165]
步骤3.5,根据步骤3.4得到的小批量数据(sk,ak,rk,s
k+1
),k=1,2,3

n,计算得到累积奖励yk和误差函数l(θq),具体表达式如下:
[0166]
yk=rk+q

(s
k+1


(s
k+1

μ

)|θq′
)
[0167][0168]
式中,q

(s
k+1


(s
k+1

μ

)|θq′
)为目标评价网络输出的评分值,其中μ

(s
k+1

μ

)|θq′
为目标策略网络输出的动作值,s
k+1
为目标评价网络和目标策略网络输入的状态值;q(sk,ak|θq)为在线评价网络输出的评分值,sk和ak为在线评价网络输入的状态值和动作值。
[0169]
步骤3.6,在线评价网络通过最小化误差函数l(θq)来更新θq,在线策略网络通过确
定性策略梯度更新θ
μ
,目标评价网络和目标策略网络通过滑动平均方法更新θq′
和θ
μ

,具体表达式如下:
[0170][0171][0172][0173][0174][0175]
式中,为偏导符号,其中表示策略j对θ
μ
求偏导,表示在线评价网络的输入为s=sk,a=μ(sk)时,在线评价网络输出的评分值对动作值a求偏导,表示在线策略网络的输入为s=sk时,在线策略网络输出的动作值对θ
μ
求偏导,表示误差函数l(θq)对θq求偏导,为更新之后的第三神经网络参数,为更新之后的第一神经网络参数,为更新之后的第四神经网络参数,为更新之后的第二神经网络参数。
[0176]
步骤3.7,完成一次步骤3.4~步骤3.6时,一个步长的训练过程完成,当step《step
max
时,重复执行步骤3.4~步骤3.6,当step=step
max
时,一个回合的训练过程完成,下一个回合的训练过程从步骤3.2开始,到步骤3.6结束,当m《m时,重复执行步骤3.2~步骤3.6,当m=m时,m个回合的训练过程完成时,ddpg算法的学习过程结束。
[0177]
步骤3.8,训练算法结束,保存最优策略π(sy)=ay,记一个训练回合的平均奖励为
[0178]
在m个训练回合中,第一神经网络参数θ
μ
、第二神经网络参数θ
μ

、第三神经网络参数θq和第四神经网络参数θq′
朝着平均奖励最大化的方向更新,最终得到最优策略π(sy)。
[0179]
为了佐证本发明的有益效果,对本发明进行了仿真。
[0180]
图4为本发明实施例中平均奖励r的收敛效果图,图4中横坐标为训练回合数m,纵坐标为平均奖励m=1,2,3

4000。从图4可以看出,随着训练回合数m的增加,平均奖励先上下振荡,然后逐渐增大并最后保持在-30~-33之间,且当m=4000时,训练效果已经达到最优,四个神经网络参数θ
μ
、θ
μ

、θq、θq′
已经更新完成,得到最优策略π(sy)。
[0181]
在本实施例中,当u
dc
=1200伏,i=120安培时,对动作集合a0中的a
t
=(f
sw
)
t
进行训练,图5为本发明实施例中动作变量即高频开关频率f
sw
的训练效果图,图5中横坐标为训练回合数m,纵坐标为高频开关频率f
sw
,m=1,2,3

4000。由图5可见,随着训练回合数m的增
加,高频开关频率f
sw
先上下振荡,然后逐渐增大并最后保持在32000hz~34000hz之间,且当m=4000,step=100时,f
sw
=32188hz为最优动作变量值,计算得到系统的总损耗p
loss
为最小值1763瓦,系统的效率η达到最大值0.987,功率密度σ达到33.113千瓦/立方分米。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1