本发明涉及跨域无人系统,尤其是一种基于拓扑推断的海空跨域无人平台编队方法。
背景技术:
1、海空跨域无人平台编队是指多个无人平台在海洋环境中进行跨域协同作战或执行任务的一种技术和战术部署。这种编队可以包括空中无人机、水面无人艇、水下无人潜器不同类型的无人平台,它们通过协同工作来完成复杂的海上任务。如何对无人机、水面艇和潜器进行有效地协同控制是海空跨域无人平台执行复杂动态任务的前提条件和基本保障。
2、专利文献cn114967730a,公开了一种海空无人集群的跨域协同控制系统。该文献搭建了无人机与水面艇的海空跨域协同控制系统,其中通过超短基线进行无人机与水面艇的定位,并根据地面站接收到的定位信息,对下一时刻无人机与水面艇的速度和期望位置进行估计,同时设计跨域协同集群控制算法,提高无人机和水面艇的联合行动能力。然而该方法假设集群的拓扑稳定不变,忽略了海空复杂环境造成的编队拓扑动态变化,无法保证编队拓扑的稳健性。
3、专利文献cn113037395a,公开了一种水上水下跨域无人装备协同作业方法。该专利构建了包括无人机、水面艇、潜器、指控站的跨域无人系统,其中通过水上无线电通信构建无人机、水面艇子网络,通过水下声学通信构建水面艇和潜器子网络,使得跨域无人装备形成一个协同网络,在与地面指控中心实时交互的条件下协同执行任务。该方法采用邻域规则构建拓扑,其中每个无人机、水面艇与潜器都需要与邻居进行通信,虽然保证了拓扑连通性,却增大了通信组网的能耗。综上,面向海空复杂动态环境,如何在拓扑动态变化情况下构建具有连通稳健性与能量有效性的跨域无人平台编队方法仍是亟需解决的问题。
技术实现思路
1、本发明需要解决的技术问题是提供一种基于拓扑推断的海空跨域无人平台编队方法,确保在海空环境下,提高跨域无人平台编队过程中拓扑稳健性与能量有效性。
2、为解决上述技术问题,本发明所采用的技术方案是:一种基于拓扑推断的海空跨域无人平台编队方法,包括步骤如下:
3、步骤1:在任务目标监测区域,空中部署n1个无人机;水面部署n2个水面艇;水下部署n3个潜器,构成无人机-水面艇-潜器协同的海上跨域无人系统;
4、步骤2:在tk时刻,其中k∈{1,2,…}为时间序列的索引,无人机利用雷达收集感知范围内其它无人机的位置和速度信息,同时无人机利用下方搭载的相机收集其观测范围内水面艇的位置与速度信息;水面艇利用相机收集观测范围内水面艇的位置与速度信息,同时利用声呐收集感知范围内潜器的速度和状态信息;潜器利用声呐收集其感知范围内水面艇和潜器的位置与速度信息;
5、步骤3:无人机、水面艇与潜器分别利用它们之间的距离变化来映射拓扑链接,通过收集的局部状态信息,分别构建拓扑推断优化模型;设计基于逆强化学习的拓扑推断估计器,对无人机编队、水面艇编队和潜器编队分别进行拓扑估计;
6、步骤4:对无人机与水面艇构建角度约束,采用最小角度刚性对编队拓扑进行优化;对水面艇与潜器构建距离约束,采用最优持久刚性对编队拓扑进行优化;
7、步骤5:根据目标态势信息,无人机、水面艇与潜器分别设计基于逆强化学习的编队控制器,在编队过程中实现对目标点的趋近;
8、步骤6:在tk+1时刻对无人机-水面艇-潜器编队重新进行拓扑推断并更新拓扑信息,如果拓扑发生变化,则返回步骤4;否则,保持现有拓扑趋近目标点,当到达目标点时,任务结束。
9、本发明技术方案的进一步改进在于:步骤2中无人机、水面艇与潜器收集的状态信息分别具体如下:
10、无人机利用雷达收集感知范围内其他无人机的位置和速度状态,表示为其中分别表示感知范围内无人机iuav(iuav∈{1,2,...,n1})在x轴、y轴和z轴方向上的位置状态向量,表示无人机iuav在x轴、y轴、z轴上的速度分量;
11、无人机利用下方搭载的相机收集观测范围内水面艇的位置与速度信息、水面艇利用相机收集观测范围内水面艇的位置与速度信息,同时潜器通过声呐收集感知范围内水面艇的位置与速度信息,可表示为其中分别为观测范围内水面艇iusv(iusv∈{1,2,...,n2})在x轴、y轴和z轴方向上的位置向量,表示水面艇iusv在x轴、y轴和z轴方向上的速度分量;
12、水面艇和潜器利用搭载的声纳收集其感知范围内潜器的位置与速度信息,表示为其中为潜器iauv(iauv∈{1,2,...,n3})在x轴、y轴和z轴方向上的位置向量,分别为潜器iauv在x轴、y轴、z轴上的速度分量。
13、本发明技术方案的进一步改进在于:步骤3中分别构建的无人机、水面艇和潜器拓扑推断优化模型为:
14、
15、其中i∈{iuav,iusv,iauv},li表示拉普拉斯矩阵,表示其估计值,s'i表示状态矩阵,表示速度估计量,表示偏移向量估计量,为的第j行,ii单位矩阵,1i为单位列向量,表示克罗内克积。
16、本发明技术方案的进一步改进在于:步骤3中设计的基于逆强化学习的拓扑推断估计器为:
17、
18、其中,为专家策略,可以通过无人机、水面艇和潜器与环境交互,选定其中表现最优的策略获得;s'i是速度状态矩阵,g(li,u)=[δ1,i,δ2,i]tqi,1[δ1,i,δ2,i]+uitri,1ui为代价函数,qi,1和ri,1是正定矩阵,ui是学习增量,通过求解ui的最优值,得到li的最优估计。
19、本发明技术方案的进一步改进在于:步骤4中采用最小角度刚性对编队拓扑进行优化方法如下:
20、针对水上环境,首先无人机和水面艇在本地建立邻居列表,并据此生成角度刚度矩阵,即
21、
22、其中,a,b,c∈{iuav,iusv}且a≠b≠c,iuav∈{1,2,...,n1}与iusv∈{1,2,...,n2}分别表示无人机与水面艇,α为∠bac的角度大小,dab为a与b之间的方向向量,lab为a与b之间的距离;与为正交投影算子;删除中多余的行,使得na为a与其邻居总个数;将与剩余行对应的角作为角度约束;记录无人机和水面艇角度约束;通过上述计算得到所有无人机和水面艇的角度约束;利用这些构成角度约束的边,组成新的全局角度刚性拓扑,即最小角度刚性拓扑。
23、本发明技术方案的进一步改进在于:步骤4中采用最优持久刚性对编队拓扑进行优化方法如下:
24、针对水下环境,采用最优持久刚拓扑对编队拓扑进行优化;首先构建距离刚度矩阵为:
25、
26、其中f,g∈{iusv,iauv},iusv∈{1,2,...,n2}与iauv∈{1,2,...,n3}分别表示水面艇与潜器;将中的行按照拓扑中对应的边长从小到大排序,删除多余的行以保证根据剩余的边构建水面艇和潜器的局部距离刚性拓扑;重复上述过程,利用这些拓扑中被重复使用的边,组成新的全局刚性拓扑,即最优刚性拓扑;通过将最优刚性拓扑中的无向边有向化,可得最优持久拓扑;最优持久拓扑需要满足的条件为每个点指向邻居的方向不超过3个,即每个点的出度满足小于等于3。
27、本发明技术方案的进一步改进在于:步骤5中设计编队控制器具体为:设置无人机、水面艇和潜器的代价函数为:
28、
29、其中i∈{iuav,iusv,iauv},xi为状态向量;τi为控制输入;ei为目标跟踪误差和编队误差;和为状态权重矩阵和控制权重矩阵;设计基于逆强化学习的异构组网编队控制方法,以寻求最优控制策略,即:
30、
31、其中,为专家控制策略,可以通过无人机、水面艇和潜器与环境交互,选定其中表现最优的策略获得,采用神经网络逼近τi,即:
32、
33、其中,φi(t)与分别为代价函数和控制策略τi的基函数,与分别为评论家网络向量与行动者网络,通过寻找最优策略可以将无人机、水面艇和潜器控制水平提升到与专家策略相同的水平。
34、本发明技术方案的进一步改进在于:步骤6中拉普拉斯矩阵li、目标跟踪与编队误差ei提供了指标,可分别表示为:
35、
36、其中,为预设拓扑下的局部拉普拉斯矩阵;ε1是拓扑未发生变化的阈值;ε2是编队任务完成的阈值。
37、由于采用了上述技术方案,本发明取得的技术进步是:考虑海空跨域环境下,无人机-水面艇-潜器异构组网拓扑结构动态变化问题,通过设计基于逆强化学习的拓扑推断估计器,实现了异构网络拓扑的最优估计,确保了组网拓扑的实时可知。充分考虑了跨域场景下不同介质信息传输的不同特点,通过采用最小角度刚性拓扑优化无人机-无人机、无人机-水面艇组网拓扑,同时采用距离刚性下的最优持久拓扑优化水面艇-潜器、潜器-潜器组网拓扑,保证异构组网拓扑连通稳健性的同时,以最大程度地减少通信能耗。通过采用基于逆强化学习异构组网编队控制器,适用于模型不同的无人机、水面艇与潜器,实现了异构编队的协同控制,在保证学习到最优控制策略的同时,提升控制效果到达和专家策略相同的水平。