基于协同奖励机制与MATD3的双机协同空战机动决策方法

文档序号：37051017发布日期：2024-02-20 20:48阅读：47来源：国知局

本发明属于计算机仿真与人工智能，具体涉及一种基于协同奖励机制与matd3的双机协同空战机动决策方法。

背景技术：

1、空战模拟系统是借助于计算机仿真手段对战斗机的整个作战过程进行细致、逼真的模拟。为了有效提高用户体验的真实性以及对抗游戏和模拟系统的易操控性，需要从实际空战角度仿真设计对抗游戏和模拟系统，更为重要的是战术模拟及其便捷性交互设计，从而在还原空战真实度的同时，提高用户在对抗游戏和模拟系统中的操控水平。在空战模拟与目标进行对抗过程中，机动决策作为整个空战流程中最重要的行为决策，对空战态势的变化有巨大的影响，而双无人机编队又是当前空战作战的一种重要形式，在很多场景下发挥着重要作用。与传统空战“一对一”的作战模式不同，双机编队可以进行战术协同，提高作战效能，达到“1+1>2”的目的，可以在空战模拟中对无人机编队的协同机动决策进行更加贴近真实空战的仿真，对于飞行员飞行技巧的训练有很大的帮助。因此，双机协同机动策略生成方法研究具有非常重要的应用价值。

2、目前，双机编队机动决策领域相关研究主要分为基于对策论的方法与基于人工智能的方法，主要包括：数值计算方法(矩阵对策法、微分对策法)、分布式方法、人工神经网络法以及深度强化学习方法等。比如，《bargaining differential game theory andapplication to multiple-airplane combat analysis》(jianxun l,mingan t,dekunj.systems engineering-theory&practice[j],1997,17(6):68-72.)，以及《anintelligent differential game on air combat decision》(wang y,jiang y.flightdynamics[j],2003,21(1):66-70.)通过微分对策方法建立空战机动决策模型，该模型原则上可以实现；《air combat decision-making for cooperative multiple target attackusing heuristic adaptive genetic algorithm》(luo d l,shen c l,wang b,etal.2005international conference on machine learning and cybernetics[c].ieee,2005,1:473-478)，《a new approach to multi-aircraft air combat assignments》(sum c,lai s c,lin s c,et al.swarm and evolutionary computation[j],2012,6:39-46.)，以及《an efficient clonal selection algorithm to solve dynamic weapon-target assignment game model in uav cooperative aerial combat》(wang y,zhangw,li y.2016 35th chinese control conference(ccc)[c].ieee,2016:9578-9581.)中采用了分布式方法，通过目标分配将多对多协同空战转化为多个一对一对抗，达到双机空战对抗自主机动决策的目的。

3、但是，对于现有技术，存在以下问题：

4、(1)、数值计算方法对最优机动决策模型可以进行实时解算，但在面对复杂空战态势时，由于计算量过大，难以实时解算得到真实可靠的数学解析解。

5、(2)、分布式方法可以将敌方目标分配给己方无人机，但由于缺少对编队作战战术特点与机理的理解，不能有效实现编队作战的多目标攻击能力和战术协同能力，因此无法实现“1+1>2”的战斗力。

6、(3)、深度强化学习可以获得编队策略自演进，但由于缺乏对真实空战协同方式的分析与建模，导致学习到的机动策略与真实空战有所区别，不具备可信度，可应用性与可拓展性。

技术实现思路

1、为了解决现有技术中存在的上述问题，本发明提供了一种基于协同奖励机制与matd3的双机协同空战机动决策方法。本发明要解决的技术问题通过以下技术方案实现：

2、第一方面，本发明实施例提供了一种基于协同奖励机制与matd3的双机协同空战机动决策方法，包括：

3、对二对二双机编队空战对抗环境进行建模；

4、对建模的二对二双机编队空战对抗环境的特点与作战目的进行分析，设计基于协同奖励机制的奖励函数；其中，所述基于协同奖励机制的奖励函数包括真实奖励函数、协同行为奖励函数、即时奖励函数和局部奖励函数；通过引入协同行为奖励函数使得在空战对抗环境中我机保护友机以及我机与友机协同攻击敌机，且通过引入基于角度和最优作战距离的即时奖励函数使得在空战对抗环境中我机保持在敌机的正后方以及我机与友机保持在可通信范围内；

5、结合建模的二对二双机编队空战对抗环境的空间状态信息、动作状态信息，以及基于协同奖励机制的奖励函数，建立基于协同奖励机制与matd3的双无人机协同机动决策算法；

6、基于协同奖励机制与matd3的双无人机协同机动决策算法输出决策结果。

7、第二方面，本发明实施例提供了一种基于协同奖励机制与matd3的双机协同空战机动决策系统，包括：

8、环境建模模块，用于对二对二双机编队空战对抗环境进行建模；

9、协同奖励机制设计模块，用于对建模的二对二双机编队空战对抗环境的特点与作战目的进行分析，设计基于协同奖励机制的奖励函数；其中，所述基于协同奖励机制的奖励函数包括真实奖励函数、协同行为奖励函数、即时奖励函数和局部奖励函数；通过引入协同行为奖励函数使得在空战对抗环境中我机保护友机以及我机与友机协同攻击敌机，且通过引入基于角度和最优作战距离的即时奖励函数使得在空战对抗环境中我机保持在敌机的正后方以及我机与友机保持在可通信范围内；

10、协同机动决策算法建立模块，用于结合建模的二对二双机编队空战对抗环境的空间状态信息、动作状态信息，以及基于协同奖励机制的奖励函数，建立基于协同奖励机制与matd3的双无人机协同机动决策算法；

11、决策结果生成模块，用于基于协同奖励机制与matd3的双无人机协同机动决策算法生成决策结果。

12、本发明的有益效果：

13、本发明提出的基于协同奖励机制与matd3的双机协同空战机动决策方法，针对双机协同空战对抗问题，为双无人机编队进行战术机动决策提供了一种合理可行的解决方案，包括：对二对二双机编队空战对抗环境进行建模；对建模的二对二双机编队空战对抗环境的特点与作战目的进行分析，设计基于协同奖励机制的奖励函数；其中，基于协同奖励机制的奖励函数包括真实奖励函数、协同行为奖励函数、即时奖励函数和局部奖励函数；通过引入协同行为奖励函数使得在空战对抗环境中我机保护友机以及我机与友机协同攻击敌机，且通过引入基于角度和最优作战距离的即时奖励函数使得在空战对抗环境中我机保持在敌机的正后方以及我机与友机保持在可通信范围内；结合建模的二对二双机编队空战对抗环境的空间状态信息、动作状态信息，以及基于协同奖励机制的奖励函数，建立基于协同奖励机制与matd3的双无人机协同机动决策算法；基于协同奖励机制与matd3的双无人机协同机动决策算法输出决策结果。可见，本发明对双机协同对抗作战环境进行建模，并基于双机空战的特点与作战目的设计双机空战问题中的奖励函数，针对双机空战中的协同问题，基于现实空战中双机空战的协同思想在奖励函数中引入协同奖励机制，针对空战奖励稀疏的问题，在即时奖励的计算中引入基于角度和最优作战距离的考虑，通过引入的协同奖励机制和基于角度和最优作战距离的即时奖励对奖励函数进行重塑，以引导无人机在对抗过程中学习协同作战策略，并在matd3算法框架下进行双机编队对抗仿真训练，使无人机可以学习到包括保护友机以及协同攻击敌机等具有更高作战效能的协同策略，且通过仿真结果也验证了本发明所提方法生成的空战协同策略的合理性和更高效的作战效能。

14、以下将结合附图及实施例对本发明做进一步详细说明。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨振,王家臻,王星煜,李枭扬,柴仕元,周颖,周德云
技术所有人：西北工业大学
我是此专利的发明人

上一篇：数据采集方法、装置、设备及存储介质与流程
上一篇：一种动铁式二维驱动微振镜的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。