本发明涉及多无人机自主协同决策与控制,具体是一种基于双延迟深度确定性策略梯度(twin delayed deep deterministic policy gradient algorithm,td3)的多无人机空战策略生成方法。
背景技术:
1、近年来,随着无人机技术的飞速发展,以无人机为核心的蜂群作战技术对陆上阵地、海面平台、关键基础设施等高价值目标防护构成严峻威胁。为应对无人机蜂群所带来的战争威胁,各军事强国均在竞相开展智能型自主对抗关键技术研究,其中格斗型无人机的研发已成为各国研究的热点。格斗型无人机是通过空中格斗实现对常规旋翼/固定翼无人机进行反制的创新型无人机,其以“群对群”的方式反制敌方无人机蜂群的“多数量”和“低成本”,是当前具有发展潜力的大规模反蜂群技术路线之一。
2、目前格斗型无人机执行作战任务的控制方法多采用预先程序设定或由地面站操作员实时操控。预先程序设定的方法无法根据实时战场环境灵活决策,作战前战场信息多数未知,在不确定目标位置、数量和能力的情况下提前规划很难达到预期效果。由地面人员控制的方法需要考虑通信的稳定性与延时问题,战场电磁环境复杂,信息不能保证可靠传递;战场环境瞬息万变,战机稍纵即逝,尤其是空战格斗这种战场态势迅速变化的场景,信息回传和指令接收的延时将对空中格斗产生重大影响。此外,当无人机数量增加时,操纵人力成本也相应增加,特别是构成集群后操纵人员的组织、协调压力增大,协同配合能力要求提升。因此,对于格斗型无人机而言,面对大规模的来袭无人机蜂群,依靠地面人员的决策实现群对抗已然变得完全不可能,自主机动决策已成为决定格斗型无人机反无人机空战成败的关键。
3、实现格斗型无人机的自主空中对抗,最关键的是要整合探测、决策和执行全过程,实现完整的“端到端”控制,也就是空战的自主机动决策。自20世纪50年代以来,研究人员一直试图建立能够自主执行空战的算法。主要方法可分为两类:一是基于规则的方法,利用飞行员经验积累的专家知识,根据不同的位置情境制定机动策略。例如专家系统、模糊系统等。另一种是基于优化的方法,将空对空情景转化为一个可以通过数值计算来解决的优化问题,例如动态规划遗传算法、博弈论等。
4、基于传统的微分对策理论等数学方法研究无人机空中格斗问题时,需要先精确建立数学模型,不论定性问题还是定量问题,前提都需要已知双方的机动策略和性能参数,这在现实中是不可能的。未来战斗中敌方战略意图、战术、出动的装备性能等信息一般不可能提前准确预判,以及战场环境中各种不确定性因素干扰和目标的低可探测性都将限制方法的适用程度。无人机动力学模型较为复杂,其状态方程为非线性微分方程,导致求解困难且计算量巨大,占用大量计算资源且耗时长,当敌我双方无人机数量进一步增加时会发生维度灾难。基于专家知识等方法所设计的决策系统在空战机动决策、态势评估和目标攻击过程中具有较强的主观性,而无人机自主空战具有复杂的、动态的作战过程以及极强的不确定性,人为预先设置规则和策略缺乏足够的灵活性。
5、2016年6月27日,美国psibernetix公司开发的人工智能系统阿尔法(alpha),在模拟作战环境中用战胜了美军空战专家,其身份为驾驶四代机的经验丰富的美国空军退役上校飞行员,证实了空战算法的有效性。美国国防大学高级研究员诺林·麦克唐纳和乔治·豪威尔在2019年2月~8月对全球无人机制造商网站和无人机专业网站进行了开源研究,证实全球目前有244项无人机系统,人工智能在无人机上的应用共计123项,其中人工智能作战算法应用3项。由此可见,基于人工智能方法赋予无人机战斗“智慧”,使得格斗型无人机可以根据自身传感器和通信能力获得实时战场态势,自主决策开始空中格斗是实现智能空战极具潜力的技术路线,相比采用预先程序设定或由地面站操作员实时操控方法具有更高效、突出的作战能力。
6、目前,学术界已达成共识:深度学习在探测数据、抽取特征方面具有巨大的潜力,比如预测和分类。比如,zhang和huang等设计了一个深度网络,能够对ucav的状态进行预测,这可以作为一个机动的选项。li等提出一个cnn网络,以实现从状态数据到动作之间的映射,这些动作包括,攻角变化率、油门系数等,然而,仅仅依靠深度学习,不能鼓励智能体开发新的策略对不熟悉的状态做出响应。智能体智能对在训练中出现的状态或者与之相似的状态做出响应。
7、在最近的研究中,很多研究者尝试将强化学习应用于空战决策中了,包括视距内决策和超视距决策。视距内决策和超视距决策的主要区别在于无战斗机携带的武器。视距内空战主要使用航炮,而超视距空战则主要使用中近程导弹,这使得智能体必须使用更多的时间去逃避制导导弹,战术策略也变得更加复杂。首先,由于三维空间建模和格斗的复杂性,大多数研究者假设无人机在平面运动,采用简化的2维模型研究空中格斗。这就丢失了大量的无人机空中格斗细节。其次,先前在序贯决策问题方面的研究也表明,由于空战环境复杂性的限制,常规的深度学习方法(drl)极度依赖专家知识,并且从大规模探索空间中获得有效知识的学习效率非常低。比如,绝大多数深度学习算法只能处理离散的动作集合,设计ucav的机动动作会受到搜索空间和优化的影响。在张的论文中,9个在水平面的离散动作被设计为启发式q-网络智能体。动作空间在杨的论文中扩展到15个机动动作。而在li和pope,在连续动作空间和运动参数被用于机动并映射为仿真的控制系统。而对于连续动作空间如何选择合适的算法进行深度学习也是学术界研究的热点问题。
技术实现思路
1、针对上述现有技术中的不足,本发明提供一种基于td3多无人机空战策略生成方法包括如下步骤:
2、将多无人机空战协同决策问题构建为马尔可夫决策模型;
3、建立态势评估函数,采用双延迟深度确定性策略梯度训练所述马尔可夫决策模型,在训练过程中基于所述态势评估函数选择执行动作的目标;
4、基于训练完成的马尔可夫决策模型生成多无人机空战策略。
5、在其中一个实施例,所述马尔可夫决策模型具体为(s、a、r、γ),其中:
6、s为无人机空战相对状态空间,为:
7、s={d,α,β,vr,vb,γr,γb,ψr,ψb,μr,μb}
8、其中,d、α、β分别为无人机空战中红方无人机与蓝方无人机之间的相对距离、水平视线偏角与纵向视线倾角,vr、γr、ψr、μr为红方无人机的速度大小、航迹倾角、航迹偏角和滚转角,(xb,yb,zb)为蓝方无人机在三维空间中的坐标值,vb、γb、ψb、μb为蓝方无人机的速度大小、航迹倾角、航迹偏角和滚转角;
9、a为无人机空战的动作空间,采用三个连续的控制量a=[nt,nf,ω]控制无人机机动执行动作,其中,nt为切向过载,nf为法向过载,ω为机体滚转角速度;
10、r为无人机机动执行动作的奖励函数;
11、γ为折扣率。
12、在其中一个实施例,所述奖励函数具体为:
13、r=r+k1r1+k2r2+k3r3+k4r4
14、其中,r为锁定成功奖励,r1为角度优势奖励,r2为距离优势奖励,r3为高度优势奖励,r4为速度优势奖励,k1、k2、k3、k4为权值;
15、锁定成功奖励为:
16、
17、其中,d*为满足锁定成功时两机最小距离,p*、e*为红方无人机、蓝方无人机速度方向与视线角的夹角,p、e为满足锁定成功时红方无人机、蓝方无人机速度方向与视线角的最大夹角;
18、所述角度优势奖励、所述距离优势奖励、所述高度优势奖励、所述速度优势奖励为:
19、
20、其中,dmax为无人机的最大探测距离,δh为双机高度差,vmax、vmin为无人机飞行速度所能达到的最大值和最小值。
21、在其中一个实施例,所述态势评估函数为:
22、
23、其中,cij是红方无人机i对蓝方无人机j的综合态势值,为格斗优势指标,为威胁态势指标,为目标价值指标,kc1、kc2、kc3为不同态势项对综合态势值的影响权重。
24、在其中一个实施例,采用层次分析法确定不同态势项对综合态势值的影响权重kc1、kc2、kc3的值。
25、在其中一个实施例,所述格斗优势指标为:
26、
27、其中,为角度优势,为距离优势,为能量优势,ω1、ω2、ω3为优势权重;所述角度优势为:
28、
29、其中,αij为红方无人机i对应于蓝方无人机j的追击角,βij为蓝方无人机j对应于红方无人机i的逃逸角;
30、所述距离优势为:
31、
32、其中,dij为红方无人机i与蓝方无人机j的相对距离。da为无人机武器最大作用范围,dt为无人机武器最大探测距离;
33、所述能量优势为:
34、
35、
36、
37、其中,ei、ej为红方无人机i、蓝方无人机j的能量优势参数,hi、hj为红方无人机i、蓝方无人机j的高度,vi、vj为红方无人机i、蓝方无人机j的速度,g为重力加速度。
38、在其中一个实施例,所述威胁态势指标为:
39、
40、其中,为所携带武器相关威胁,为距离防御目标的距离威胁,为机动性能威胁,ω4、ω5、ω6为威胁项权重;
41、所述所携带武器相关威胁、所述距离防御目标的距离威胁、所述机动性能威胁为:
42、
43、
44、
45、其中,p1为武器成功命中目标概率,p2为命中后毁伤概率,na为可攻击次数,dhvt为攻击无人机距离高价目标直线距离,tmax为无人机发动机最大推力,w为无人机重量,ξ为统一量纲系数。
46、在其中一个实施例,所述目标价值指标为:
47、
48、其中,x∈[0,0.5,1]由专家评定法确定指标,分别为一样重要、比较重要与非常重要。
49、在其中一个实施例,所述采用td3训练所述马尔可夫决策模型,具体为:
50、使用actor网络μ(s|θu)得到行为策略,使用critic网络q(s,a|θq)得到评估策略,对构造的代价函数进行梯度下降,迭代收敛后得到最优的神经网络参数θu、θq;
51、在第i步时,输入此时状态量si至actor网络μ(s|θu),输出的是无人机的动作μ(s|θu),为保证探索增加噪声ni得到此时动作ai=μ(s|θu)+ni;
52、将此时的si、ai输入交互环境中的状态转移函数得到奖励值ri和下一步状态si+1,将得到的这组样本数据存入到经验池中;
53、再从经验池中随机抽取n个样本数据进行网络参数θu、θq的学习更新。
54、在其中一个实施例,在学习更新critic的网络参数θq的过程中,将损失函数l设置为当前网络输出q(si,ai|θq)的估计值与目标期望值yi的均方差,为:
55、
56、其中,目标期望值yi根据当前真实奖励值ri与下一步输出值乘以折扣率γ得到,为:
57、yi=ri+γq(si+1,μ(si+1|θμ)|θq)
58、在学习更新actor的网络参数θu的过程中,actor网络的策略梯度为:
59、
60、目标网络采用延迟更新的方式,即一定时间后将目标网络参数替换为策略网络的参数。
61、本发明公开了一种td3的多无人机空战策略生成方法,为了使格斗型无人机所学动作更加接近实际情况,本发明在3维空间中进行无人机动力学建模,而且将无人机的动力设定为连续动作空间。接着,采用双延迟深度确定性策略梯度对格斗型无人机决策过程进行训练,在双延迟深度确定性策略梯度算法中,使用了两套网络估算q值,并选择相对较小的网络作为更新目标,进而有效地解决了q值高估的问题。