基于全局在线启发式动态规划永磁同步电机矢量控制方法与流程

文档序号:14683388发布日期:2018-06-12 22:49阅读:来源:国知局
基于全局在线启发式动态规划永磁同步电机矢量控制方法与流程

技术特征:

1.一种基于全局在线启发式动态规划永磁同步电机矢量控制方法,其特征在于,该方法包括以下步骤:

步骤1:初始化单神经元全局在线启发式动态规划算法的目标网络学习率、评价网络学习率、单神经元PI算法参数,根据系统的跟踪误差,设计外部强化学习信号;

步骤2:通过神经网络正向传输,计算评价网络的输出和目标网络的输出,所述评价网络的输出为性能指标函数J(t),所述目标网络的输出为内部强化学习信号S(t),其中t表示当前时刻;

步骤3:计算目标网络误差和评价网络误差,通过计算出的误差分别对目标网络和评价网络的权值进行在线调整;

步骤4:通过求解最优性能指标函数,得到单神经元PI算法K值,通过得到的K值调节单神经元PI控制算法的输出,即永磁同步电机系统q轴电流的参考值iq*

步骤5:矢量控制系统中的d轴电流内环采用改变趋近率的滑模变结构控制器,通过d轴给定参考值id*=0和实际电流id的差,来调节d轴电压ud;

矢量控制系统中的q轴电流内环采用改变趋近率的滑模变结构控制器,通过步骤4得到的q轴电流的参考值iq*和实际电流iq的差,来调节q轴电压uq。

2.根据权利要求1所述的基于全局在线启发式动态规划永磁同步电机矢量控制方法,其特征在于,所述步骤1中按照下式设计外部强化学习信号r(t):

r(t)=0.98*e(t)+0.02*e(t-1),e(t)=ω*(t)-ω(t)

其中,t表示当前时刻,t-1表示上一时刻,ω*(t)为目标转速,ω(t)为实际转速,e(t)为当前时刻转速差,e(t-1)为上一时刻转速差。

3.根据权利要求1所述的基于全局在线启发式动态规划永磁同步电机矢量控制方法,其特征在于,所述步骤2中的性能指标函数为:

其中,为评价网络激活函数,为当前时刻评价网络输入向量,ck(t)为当前时刻t的评价网络输入向量中的第k个元素,k的取值范围为1到5,t-1为上一时刻,l为评价网络隐层节点序号,l取值范围为1到Nc,Nc为评价网络隐层节点数,Nf为目标网络隐层节点数,u(t)为当前时刻t的控制量,u(t-1)为上一时刻控制量,e(t)为当前时刻t的系统误差,e(t-1)为上一时刻系统误差,S(t)为当前时刻t的内部强化学习信号,为当前时刻t的评价网络输入层到隐层权值矩阵第l行,第k列元素,zl(t)为当前时刻t的评价网络隐层输出向量的第l个元素,为当前时刻t的评价网络隐层到输出层的权值矩阵第l个元素,J(t)为当前时刻t的性能指标函数。

4.根据权利要求3所述的基于全局在线启发式动态规划永磁同步电机矢量控制方法,其特征在于,所述步骤2中的内部强化学习信号S(t)为:

其中,为目标网络的激活函数,aj(t)为当前时刻t的目标网络输入向量中的第j个元素,j的取值范围为1到4,t表示当前时刻,t-1表示上一时刻,i的取值范围为1到Nf,Nf为目标网络隐层节点数,i为目标网络隐层节点序号,u(t)为当前时刻t的控制量,u(t-1)为上一时刻控制量,e(t)为当前时刻t的系统误差,e(t-1)为上一时刻系统误差,为当前时刻t的目标网络输入层到隐层的权值矩阵第i行,第j列元素,qi(t)为当前时刻t的目标网络隐层输出向量的第i个元素,为当前时刻t的目标网络隐层到输出层权值矩阵第i个元素,S(t)为当前时刻t的内部强化学习信号。

5.根据权利要求2、3或4所述的基于全局在线启发式动态规划永磁同步电机矢量控制方法,其特征在于,所述步骤3中根据下式计算目标网络误差:

ef(t)=αS(t)-[S(t-1)-r(t-1)]

其中,α为目标网络折扣因子,其取值范围为0<α<1,S(t)为t时刻的内部强化学习信号,S(t-1)为上一时刻的内部强化学习信号,r(t-1)为上一时刻的外部强化学习信号,ef(t)为当前时刻t的目标网络误差。

6.根据权利要求2、3或4所述的基于全局在线启发式动态规划永磁同步电机矢量控制方法,其特征在于,所述步骤3中根据下式计算评价网络误差:

ec(t)=γJ(t)-[J(t-1)-S(t)]

其中,γ为评价网络折扣因子,其取值范围为0<γ<1,J(t)为当前时刻t的性能指标,J(t-1)为上一时刻性能指标,S(t)为当前时刻t的内部强化学习信号,ec(t)为当前时刻t的评价网络误差。

7.根据权利要求2、3或4所述的基于全局在线启发式动态规划永磁同步电机矢量控制方法,其特征在于,所述步骤3中根据以下调整规则对目标网络的权值进行在线调整:

隐层到输出层:

其中,

输入层到隐层:

其中,

其中,aj(t)为当前时刻t的目标网络输入向量中的第j个元素,lf(t)是当前时刻t的目标网络学习率,ef(t)为当前时刻t的目标网络误差,Ef(t)是当前时刻t的目标网络误差的平方,为当前时刻t的目标网络隐层到输出层权值矩阵第i个元素的增量,为当前时刻t的目标网络输入层到隐层权值矩阵第i行,第j列元素的增量,为目标网络的激活函数,qi(t)为当前时刻t的目标网络隐层输出向量的第i个元素,S(t)为当前时刻t的内部强化学习信号,为当前时刻t的目标网络输入层到隐层的权值矩阵第i行,第j列元素,为当前时刻t的目标网络隐层到输出层权值矩阵第i个元素,α为目标网络折扣因子。

8.根据权利要求2、3或4所述的基于全局在线启发式动态规划永磁同步电机矢量控制方法,其特征在于,所述步骤3中根据以下调整规则对评价网络的权值进行在线调整:

隐层到输出层:

其中,

输入层到隐层:

其中,

其中,ck(t)为当前时刻t的评价网络输入向量中的第k个元素,lc(t)为当前时刻t的评价网络学习率,ec(t)为当前时刻t的评价网络误差,Ec(t)为当前时刻t的评价网络误差的平方,为当前时刻t的评价网络隐层到输出层权值矩阵第l个元素的增量,为当前时刻t的评价网络输入层到隐层权值矩阵第l行,第k列元素的增量,为目标网络的激活函数,qi(t)为当前时刻t的目标网络隐层输出向量的第i个元素,为评价网络的激活函数,zl(t)为当前时刻t的目标网络隐层输出向量的第l个元素,J(t)为当前时刻t的性能指标,为当前时刻t的目标网络输入层到隐层的权值矩阵第i行,第j列元素,为当前时刻t的目标网络隐层到输出层权值矩阵第i个元素,γ为评价网络折扣因子。

9.根据权利要求2、3或4所述的基于全局在线启发式动态规划永磁同步电机矢量控制方法,其特征在于,所述步骤4中按照如下方法求解最优性能指标函数:

其中,

K(t)=K(t-1)+ΔK(t)

其中,la(t)为当前时刻t的单神经元PI折扣因子学习率,ea(t)为当前时刻t的单神经元PI折扣因子学习反传误差,Ea(t)为当前时刻t的单神经元PI折扣因子学习反传误差的平方,ΔK(t)为当前时刻t的K值增量,Δu(t)为当前时刻t的控制信号的增量,u(t)为当前时刻t的控制信号,为当前时刻t的目标网络输入层到隐层权值矩阵第i行,第3列元素,为当前时刻t的评价网络输入层到隐层权值矩阵第l行,第4列元素,为当前时刻t的评价网络输入层到隐层权值矩阵第l行,第1列元素,为目标网络的激活函数,qi(t)为当前时刻t的目标网络隐层输出向量的第i个元素,为评价网络的激活函数,zl(t)为当前时刻t的目标网络隐层输出向量的第l个元素,J(t)为当前时刻t的性能指标,为当前时刻t的目标网络隐层到输出层权值矩阵第i个元素,为当前时刻t的评价网络隐层到输出层的权值矩阵第l个元素,S(t)为当前时刻t的内部强化学习信号,K(t-1)为上一时刻单神经元PI算法K值,K(t)为当前时刻t的K值。

10.根据权利要求2、3或4所述的基于全局在线启发式动态规划永磁同步电机矢量控制方法,其特征在于,所述步骤5中滑模变结构控制器的改进趋近率根据下式确定:

其中,s为滑模面,为s的导数,sgn(·)为符号函数,k,δ,ε为趋近率调整参数,k>0,δ>0,0<ε<1,x1为状态变量。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1