本发明涉及无人机决策控制,更具体的说是涉及一种基于博弈制导的无人机决策控制方法。
背景技术:
1、飞行器的控制问题本质上是一个轨迹跟踪问题,当前对于飞行器控制问题的解决方法可以归为两类。一类方法将此问题分解为制导与控制问题,并进一步分离为外部制导回路和内部控制回路,简称外环、内环;另一类方法同时集成内外环功能,如滚动时域、微分平滑、神经网络等,由于其泛用性、可靠性、可解释性等原因,此类方法尚未得到广泛应用。
2、由于制导拦截弹药的出现和航天中有关机动追击问题的需要,现有技术中运用博弈论、变分法和控制理论的原理,来解决涉及两个或多个智能体之间动态冲突的问题,采用微分动态规划的方法,使得微分博弈从传统博弈的离散时间限制中跳脱出来,能够求解实时、动态的最优均衡策略。
3、现有的用于实机的飞行控制算法能够较好地解决航点和航迹的跟踪问题,但是对于当前高智能高机动目标的跟踪控制需求却无法满足最优;而为追逃最优决策而生的微分博弈方法却长期停留在数值分析计算层面,飞行器质点模型与实际模型相去甚远,且绝大多数研究场景被简化为二维平面,这也离实物应用相去甚远。
4、因此,如何提出一种基于博弈制导的无人机决策控制方法,面向实机,提高在追逃场景下无人机决策控制结果的最优性是本领域技术人员亟需解决的问题。
技术实现思路
1、有鉴于此,本发明提供了一种基于博弈制导的无人机决策控制方法,适用于对目标的追逃、两智能体以及集群间的攻防;同时支持集中式和分布式飞行决策控制,为了实现上述目的,本发明采用如下技术方案:
2、一种基于博弈制导的无人机决策控制方法,包括:
3、获取参与攻防的个体信息,基于预设规则对参与攻防的个体进行目标匹配;
4、根据所述目标匹配结果进行博弈制导计算;
5、将博弈制导计算结果转化为期望姿态和油门后发送给飞行控制栈;
6、飞行控制栈内环通过pid将期望姿态和油门转化成电机转速和舵机控制量,控制仿真中或者实物的动作。
7、可选的,所述获取参与攻防的个体信息包括:追捕方集群与逃逸方集群所有个体的位置和欧拉角信息。
8、可选的,所述个体在向其他个体发送消息前需要检测自身状态,根据不同集群收发消息的无人机数量确定集群博弈的规模。
9、可选的,所述根据所述目标匹配结果进行博弈制导计算包括:将目标匹配结果输出至无人机,各无人机依据自身和匹配对象的状态信息进行博弈制导计算,或通过中心式计算得到各无人机加速度后再向各无人机发送指令,进行目标匹配与决策。
10、可选的,所述目标匹配基于拍卖机制,追捕方集群通过对逃逸方集群内个体的出价和竞价循环,最终确定每架目标无人机的归属。
11、可选的,对于逃逸方集群无人机的价值,采用基于三维dubins路径长度的价值函数确定。
12、可选的,所述博弈制导计算包括:根据各无人机依据目标匹配后形成的配对,由微分博弈制导计算各无人机的三轴加速度,计算所需信息包括无人机的位置、速度与姿态。
13、可选的,所述将博弈制导计算结果转化为期望姿态和油门包括:
14、对于博弈制导计算得到的加速度,依据坐标系转换方法,将其从固定坐标系转化至载体坐标系;由载体坐标系下的y轴加速度生成期望滚转角;由载体坐标系下的x轴和z轴加速度生成期望速度与期望高度,经由总能量控制系统tecs计算后转化为期望俯仰角与期望油门。
15、可选的,将所述期望俯仰角、期望滚转角和期望油门以外部程序通信形式发送至飞行控制栈内环,外部程序与飞行控制栈以及各无人机飞行控制栈之间通过ros2进行通讯,每一架飞机的飞行控制栈和外部程序都是不同的通信节点,各无人机之间分属不同的域。
16、可选的,所述目标匹配应用于最多三个集群间个体的追逃,对于无人机个体的追逃,无需进行目标匹配过程,对于两个个体间的攻防则直接跳过目标匹配步骤。
17、经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于博弈制导的无人机决策控制方法,具有如下有益效果:
18、本发明与px4自动驾驶仪相比,能够支持集群层面的决策控制求解与输入,并不局限于个体控制。能够实现高机动追逃下的最优控制,相比于现有的传统无人机控制技术更加智能,而相较于基于神经网络的无人机控制技术可靠性、可解释性更强。本发明面向高仿真度无人机节点以及无人机实物平台,相较于当前微分博弈技术以及其他高智能现代飞行控制技术,具有更高的可行性与技术成熟度。
1.一种基于博弈制导的无人机决策控制方法,其特征在于,包括:
2.根据权利要求1所述的一种基于博弈制导的无人机决策控制方法,其特征在于,所述获取参与攻防的个体信息包括:追捕方集群与逃逸方集群所有个体的位置和欧拉角信息。
3.根据权利要求1所述的一种基于博弈制导的无人机决策控制方法,其特征在于,所述个体在向其他个体发送消息前需要检测自身状态,根据不同集群收发消息的无人机数量确定集群博弈的规模。
4.根据权利要求1所述的一种基于博弈制导的无人机决策控制方法,其特征在于,所述根据所述目标匹配结果进行博弈制导计算包括:将目标匹配结果输出至无人机,各无人机依据自身和匹配对象的状态信息进行博弈制导计算,或通过中心式计算得到各无人机加速度后再向各无人机发送指令,进行目标匹配与决策。
5.根据权利要求1所述的一种基于博弈制导的无人机决策控制方法,其特征在于,所述目标匹配基于拍卖机制,追捕方集群通过对逃逸方集群内个体的出价和竞价循环,最终确定每架目标无人机的归属。
6.根据权利要求5所述的一种基于博弈制导的无人机决策控制方法,其特征在于,对于逃逸方集群无人机的价值,采用基于三维dubins路径长度的价值函数确定。
7.根据权利要求1所述的一种基于博弈制导的无人机决策控制方法,其特征在于,所述博弈制导计算包括:根据各无人机依据目标匹配后形成的配对,由微分博弈制导计算各无人机的三轴加速度,计算所需信息包括无人机的位置、速度与姿态。
8.根据权利要求1所述的一种基于博弈制导的无人机决策控制方法,其特征在于,所述将博弈制导计算结果转化为期望姿态和油门包括:
9.根据权利要求8所述的一种基于博弈制导的无人机决策控制方法,其特征在于,将所述期望俯仰角、期望滚转角和期望油门以外部程序通信形式发送至飞行控制栈内环,外部程序与飞行控制栈以及各无人机飞行控制栈之间通过ros2进行通讯,每一架飞机的飞行控制栈和外部程序都是不同的通信节点,各无人机之间分属不同的域。
10.根据权利要求1所述的一种基于博弈制导的无人机决策控制方法,其特征在于,所述目标匹配应用于最多三个集群间个体的追逃,对于无人机个体的追逃,无需进行目标匹配过程,对于两个个体间的攻防则直接跳过目标匹配步骤。