1.本发明涉及集群系统时变编队跟踪优化控制领域,特别是涉及一种适用于具有未知动力学和非合作领导者的非线性集群系统的实用时变编队跟踪优化控制方法及系统。
背景技术:2.由于集群系统编队控制在诸如协同监视、源搜索、移动目标包围等许多领域的广泛应用而成为了研究热点。集群系统编队控制包括无领导编队控制和有领导编队控制,其中无领导编队控制是指智能体通过与邻居之间的交互实现预定义的编队形状。在有领导编队控制中,跟随者除了构成期望的编队形状外,整个编队还应该跟踪由领导者产生的状态轨迹。
3.最优控制在许多实际控制系统中起着重要的作用,它通过最小化性能指标来实现控制目标,达到性能和能源的平衡。一般来说,最优控制协议是通过求解hjb方程得到。集群系统由于存在状态耦合问题,其最优控制在控制协议设计和稳定性分析上都比单系统控制更加复杂和具有挑战性。目前关于优化编队控制的研究主要集中在时不变编队和已知动力学方面,对于具有未知动力学和非合作领导者的非线性集群系统的时变编队跟踪优化控制仍然是一个有待解决的问题。
技术实现要素:4.本发明的目的是提供一种非线性集群系统的时变编队跟踪优化控制方法及系统,能够对具有未知动力学和非合作领导者的非线性集群系统的时变编队跟踪优化控制。
5.为实现上述目的,本发明提供了如下方案:
6.一种非线性集群系统的时变编队跟踪优化控制方法,包括:
7.建立集群系统通信网络拓扑模型;
8.根据所述集群系统通信网络拓扑模型建立集群系统未知动力学模型;
9.定义每个跟随者的相对于邻居的局部编队跟踪误差,根据所述局部编队跟踪误差和所述集群系统动力学模型,得到局部编队跟踪误差模型;
10.根据每个所述跟随者的所述局部编队跟踪误差得到每个所述跟随者的能耗性能指标;所述能耗性能指标为包括所述局部编队跟踪误差和跟随者控制协议的性能指标;
11.将每个所述跟随者的所述局部编队跟踪误差模型和所述能耗性能指标带入至hjb方程得到所述局部编队跟踪误差的梯度和最优控制协议;
12.根据所述梯度、所述局部编队跟踪误差、跟随者未知动力学和非合作者领导者未知动力学得到所述梯度对应的平衡量;
13.利用神经网络辨识所述梯度对应的平衡量、集群系统中跟随者和非合作者领导者未知动力学,得到平衡量神经网络逼近函数、跟随者未知动力学神经网络逼近函数和非合作者领导者未知动力学神经网络逼近函数;
14.在每个所述跟随者的最优控制协议中结合所述平衡量神经网络逼近函数、跟随者
未知动力学神经网络逼近函数和非合作者领导者未知动力学神经网络逼近函数,得到执行控制协议;
15.根据所述执行控制协议和所述执行控制协议中各权重系数的更新律对各所述跟随者进行优化控制。
16.一种非线性集群系统的时变编队跟踪优化控制系统,包括:
17.集群系统通信网络拓扑模型建立模块,用于建立集群系统通信网络拓扑模型;
18.集群系统未知动力学模型建立模块,用于根据所述集群系统通信网络拓扑模型建立集群系统未知动力学模型;
19.跟踪误差模型建立模块,用于定义每个跟随者的相对于邻居的局部编队跟踪误差,根据所述局部编队跟踪误差和所述集群系统动力学模型,得到局部编队跟踪误差模型;
20.能耗性能指标获取模块,用于根据每个所述跟随者的所述局部编队跟踪误差得到每个所述跟随者的能耗性能指标;所述能耗性能指标为包括所述局部编队跟踪误差和跟随者控制协议的性能指标;
21.梯度和最优控制协议获取模块,用于将每个所述跟随者的所述局部编队跟踪误差模型和所述能耗性能指标带入至hjb方程得到所述局部编队跟踪误差的梯度和最优控制协议;
22.平衡量获取模块,用于根据所述梯度、所述局部编队跟踪误差、跟随者未知动力学和非合作者领导者未知动力学得到所述梯度对应的平衡量;
23.神经网络辨识模块,用于利用神经网络辨识所述梯度对应的平衡量、集群系统中跟随者和非合作者领导者的未知动力学,得到平衡量神经网络逼近函数、跟随者未知动力学神经网络逼近函数和非合作者领导者未知动力学神经网络逼近函数;
24.执行控制协议获取模块,用于在每个所述跟随者的最优控制协议中结合所述平衡量神经网络逼近函数、跟随者未知动力学神经网络逼近函数和非合作者领导者未知动力学神经网络逼近函数,得到执行控制协议;
25.优化控制模块,用于根据所述执行控制协议和所述执行控制协议中各权重系数的更新律对各所述跟随者进行优化控制。
26.根据本发明提供的具体实施例,本发明公开了以下技术效果:
27.本发明提供一种非线性集群系统的时变编队跟踪优化控制方法及系统,包括:建立集群系统未知动力学模型;根据局部编队跟踪误差和集群系统动力学模型,得到跟踪误差模型;根据每个跟随者的局部编队跟踪误差得到每个跟随者的能耗性能指标;将每个跟随者的局部编队跟踪误差模型和能耗性能指标带入至hjb方程得到局部编队跟踪误差的梯度和最优控制协议;根据梯度、局部编队跟踪误差、跟随者未知动力学和非合作者领导者未知动力学得到梯度对应的平衡量;利用神经网络辨识所述梯度对应的平衡量、集群系统中跟随者和非合作者领导者的未知动力学,得到平衡量神经网络逼近函数、跟随者未知动力学神经网络逼近函数和非合作者领导者未知动力学神经网络逼近函数并结合到每个跟随者的最优控制协议中得到执行控制协议;根据执行控制协议和执行控制协议中各权重系数的更新律对各跟随者进行优化控制。本发明研究了实用优化时变编队跟踪问题,其中时变编队跟踪误差可以任意小,可以解决非线性集群系统求解hjb方程的困难,自适应辨识的控制协议可以处理跟随者和非合作者领导者的未知动力学,最终能够提高跟踪优化控制的精
准度。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
29.图1为本发明实施例1提供的一种非线性集群系统的时变编队跟踪优化控制方法流程图;
30.图2为本发明实施例1提供的跟随者和非合作者领导者在不同时刻的状态图;
31.图3为本发明实施例1提供的跟随者的编队跟踪误差变化曲线;
32.图4为本发明实施例1提供的集群系统的代价函数变化曲线;
33.图5为本发明实施例2提供的一种非线性集群系统的时变编队跟踪优化控制系统框图。
具体实施方式
34.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
35.本发明提出了一种适用于非线性集群系统的实用优化时变编队跟踪控制方法。一般来说,非线性系统的hjb方程求解困难,甚至无法保证获得解析解。对于集群系统,由于状态耦合问题,求解方法更具挑战性。在本发明中,使用辨识-评价-执行架构的强化学习解决了这些问题。此外,未知动力学由集成到控制器中的神经网络近似。最后,仿真结果说明了本发明的有效性。
36.本发明的目的是提供一种非线性集群系统的时变编队跟踪优化控制方法及系统,能够对具有未知动力学和非合作领导者的非线性集群系统的时变编队跟踪优化控制。
37.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
38.实施例1
39.如图1所示,本实施例提供一种非线性集群系统的时变编队跟踪优化控制方法,包括:
40.步骤s1:建立集群系统通信网络拓扑模型;
41.考虑包含n个跟随者和一个非合作者领导者的集群系统。跟随者之间通信拓扑由无向图描述,其中表示节点集合,为边集合,为邻接矩阵。如果从节点vj到节点vi之间存在信息流,那么(vi,vj)∈ε。当(vi,vj)∈ε时,对应的a
ij
=1,否则a
ij
=0。由于图g是无向的,所以a
ij
=a
ji
。非合作者领导者和跟随者之间的通信用bi表示,如果跟随者i能够收到非合作者领导者的信息,则bi=1,否则bi=
0。假设非合作者领导者为根节点,至少有一个跟随者与非合作者领导者通信。
42.步骤s2:根据所述集群系统通信网络拓扑模型建立集群系统未知动力学模型;
43.所述集群系统未知动力学模型包括跟随者未知动力学模型和非合作者领导者未知动力学模型;
44.其中,所述跟随者未知动力学模型表达式为:
[0045][0046]
其中,为第i个跟随者的状态,为第i个跟随者的未知动力学函数;为第i个跟随者的控制协议;
[0047]fi
(
·
)+ui(t)满足lipschitz条件使得跟随者未知动力学模型对于有界初始状态具有唯一解。跟随者未知动力学模型满足可镇定性,即存在连续控制输入ui(t),i∈{1,2,...n}使得系统渐近稳定。
[0048]
所述非合作者领导者未知动力学模型表达式为:
[0049]
其中,为非合作者领导者的状态;为非合作者领导者的未知动力学函数。
[0050]
步骤s3:定义每个跟随者的相对于邻居的局部编队跟踪误差,根据所述局部编队跟踪误差和所述集群系统未知动力学模型,得到跟踪误差模型;
[0051]
由集群系统未知动力学模型中的状态信息定义实用时变编队跟踪优化控制。
[0052]
跟随者构成的期望时变编队队形由向量描述,其中为相对于非合作者领导者的分段连续可微的偏移向量。
[0053]
假设1:期望时变编队队形hi(t)有界,满足||hi(t)||≤υ,其中υ为正常数。
[0054]
定义1:集群系统中跟随者未知动力学模型和非合作者领导者未知动力学模型在满足下列条件的前提下实现了实用时变编队跟踪;
[0055]
i:所有跟随者的状态有界;
[0056]
ii:对于任意有界状态xi(0),存在ε0>0使得成立,其中ε0称为实用时变编队跟踪误差界。
[0057]
定义每个所述跟随者的相对于邻居的局部编队跟踪误差ei(t)
[0058][0059]
其中,a
ij
表示第i个跟随者和第j个跟随者之间信息流的状态;bi表示非合作者领导者和第i个跟随者之间的通信状态;为第j个跟随者的状态;为相对于非合作者领导者的分段连续可微的偏移向量;n表示跟随者的数量;ni表示第i个跟随者的邻居集合;
[0060]
结合集群系统中跟随者未知动力学模型和非合作者领导者未知动力学模型得到所述跟踪误差模型的表达式为:
[0061][0062]
其中,
[0063]
步骤s4:根据每个所述跟随者的所述局部编队跟踪误差得到每个所述跟随者的能耗性能指标;所述能耗性能指标为包括所述局部编队跟踪误差和跟随者控制协议的性能指标;
[0064]
利用编队跟踪误差定义集群系统跟随者未知动力学模型和非合作者领导者未知动力学模型整体的性能指标;
[0065][0066]
其中r(e(t),u(t))=e
t
e+u
t
u,
[0067]
则每个跟随者的性能指标
[0068][0069]
其中整体的性能指标可进一步写成
[0070][0071]
步骤s5:将每个所述跟随者的所述局部编队跟踪误差模型和所述能耗性能指标带入至hjb方程得到性能指标关于局部编队跟踪误差的梯度和最优控制协议;
[0072]
本发明主要研究基于神经网络的强化学习方法设计最优协议实现对集群系统中跟随者和非合作者领导者未知动力学的实用最优时变编队跟踪以及最小化性能指标。
[0073]
最小化性能指标表达式为:
[0074]
根据最优性原理,将步骤3中的编队跟踪误差导数(局部编队跟踪误差模型)以及能耗性能指标代入hjb方程;
[0075]
所述hjb方程为:
[0076]
其中,为j
*i
(ei)关于ei的梯度;j
*i
(ei)为最小化的能耗性能指标;
[0077]
为了实现编队跟踪,梯度包含有跟踪误差,跟随者及非合作者领导者的未知动力学,定义所述梯度的表达式为:
[0078]
令静态条件即得出最优控制协议表达式为:
[0079]
其中,γi为设计常量,γi>2。
[0080]
步骤s6:根据所述梯度、所述局部编队跟踪误差、跟随者未知动力学和非合作者领导者未知动力学得到所述梯度对应的平衡量;
[0081]
对所述梯度的表达式进行变形得到所述梯度对应的平衡量表达式为:
[0082][0083]
步骤s7:利用神经网络辨识所述梯度对应的平衡量、集群系统中跟随者和非合作者领导者的未知动力学,得到平衡量神经网络逼近函数、跟随者未知动力学神经网络逼近函数和非合作者领导者未知动力学神经网络逼近函数;
[0084]
所述平衡量神经网络逼近函数的表达式为:
[0085]
所述跟随者未知动力学神经网络逼近函数的表达式为:
[0086]
所述非合作者领导者未知动力学神经网络逼近函数的表达式为:
[0087]
其中,分别是平衡量、跟随者和非合作者领导者的神经网络权重矩阵;s
fi
(xi),s
f0
(x0)以及si(ei)为高斯函数。
[0088]
步骤s8:在每个所述跟随者的最优控制协议中结合所述平衡量神经网络逼近函数、跟随者未知动力学神经网络逼近函数和非合作者领导者未知动力学神经网络逼近函数,得到执行控制协议;
[0089]
所述执行控制协议为:
[0090][0091]
其中,为神经网络权重矩阵;
[0092]
所述执行控制协议中各权重系数的更新律为:
[0093][0094][0095][0096]
其中,γi,ξ0为正定矩阵。σi为设计正常数,ρ0为设计负常数;κ
ci
>0为设计常量;κ
ai
>0为设计常量;>0为设计常量;为利用神经网络辨识梯度后得到的梯度神经网络逼近函数中的权重矩阵。
[0097]
利用神经网络辨识梯度后得到的梯度神经网络逼近函数,将在梯度的表达式中引
入梯度神经网络逼近函数、跟随者未知动力学神经网络逼近函数和非合作者领导者未知动力学神经网络逼近函数得到梯度评价协议表达式为:
[0098][0099]
其中,的更新律设计为
[0100]
步骤s9:根据所述执行控制协议和所述执行控制协议中各权重系数的更新律对各所述跟随者进行优化控制。
[0101]
本实施例中,研究了实用优化时变编队跟踪问题,其中时变编队跟踪误差可以任意小。使用辨识(神经网络辨识)-评价(梯度评价协议)-执行(执行控制协议)架构的强化学习算法设计的实用优化编队跟踪控制协议可以解决非线性集群系统求解hjb方程的困难。设计包含自适应辨识的控制协议用于处理未知动力学以及非合作者领导者。
[0102]
下面通过一个数值仿真例子来说明所提出理论的有效性。考虑具有一个非合作者领导者和四个跟随者的三阶非线性集群系统。非合作者领导者和追随者的模型为
[0103][0104][0105]
其中α
i=1,2,3,4
=-0.7,0.1,-0.5,0.1,β
i=1,2,3,4
=0.5,0.4,-5.5,-11.5。初始位置x0(0)=[0,0,0]
t
,x
i=1,2,3,4
(0)=[4,5,2]
t
,[-5,-2,3]
t
,[5,-3,1]
t
,[4,-5,8]
t
。
[0106]
期望的编队队形为
[0107][0108]
图2为个体在不同时刻的状态快照,非合作者领导者用星号表示,跟随者用三角形、五角星、正方形和菱形表示。从图3可以看出,编队跟踪误差可以控制在较小范围内。代价函数变化如图4所示,反映了性能指标的优化情况。仿真结果进一步表明,该发明能够实现非线性集群系统的时变编队跟踪优化。
[0109]
实施例2
[0110]
如图5所示,本实施提供一种一种非线性集群系统的时变编队跟踪优化控制系统,包括:
[0111]
集群系统通信网络拓扑模型建立模块m1,用于建立集群系统通信网络拓扑模型;
[0112]
集群系统未知动力学模型建立模块m2,用于根据所述集群系统通信网络拓扑模型建立集群系统未知动力学模型;
[0113]
跟踪误差模型建立模块m3,用于定义每个跟随者的相对于邻居的局部编队跟踪误
差,根据所述局部编队跟踪误差和所述集群系统动力学模型,得到局部编队跟踪误差模型;
[0114]
能耗性能指标获取模块m4,用于根据每个所述跟随者的所述局部编队跟踪误差得到每个所述跟随者的能耗性能指标;所述能耗性能指标为包括所述局部编队跟踪误差和跟随者控制协议的性能指标;
[0115]
梯度和最优控制协议获取模块m5,用于将每个所述跟随者的所述局部编队跟踪误差模型和所述能耗性能指标带入至hjb方程得到性能指标关于局部编队跟踪误差的梯度和最优控制协议;
[0116]
平衡量获取模块m6,用于根据所述梯度、所述局部编队跟踪误差、跟随者未知动力学和非合作者领导者未知动力学得到所述梯度对应的平衡量;
[0117]
神经网络辨识模块m7,用于利用神经网络辨识所述梯度对应的平衡量、集群系统中跟随者和非合作者领导者的未知动力学,得到平衡量神经网络逼近函数、跟随者未知动力学神经网络逼近函数和非合作者领导者未知动力学神经网络逼近函数;
[0118]
执行控制协议获取模块m8,用于在每个所述跟随者的最优控制协议中结合所述平衡量神经网络逼近函数、跟随者未知动力学神经网络逼近函数和非合作者领导者未知动力学神经网络逼近函数,得到执行控制协议;
[0119]
优化控制模块m9,用于根据所述执行控制协议和所述执行控制协议中各权重系数的更新律对各所述跟随者进行优化控制。
[0120]
对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
[0121]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。