本发明涉及博弈论、任务决策和多智能体协同任务规划,尤其涉及一种基于联盟博弈的大规模异构无人机多层次动态任务决策方法。
背景技术:
1、随着航空航天技术的进步,无人机在农业、运输和军事领域的应用越来越广泛。多智能体系统的发展进一步增强了大型无人机群在危险和不确定环境中协同作业的能力。在多无人机系统中,任务决策对成功执行任务至关重要,其本质是一个具有多个约束条件的组合优化问题,约束条件包括异构无人机的能力、能源、安全和飞行成本等。在这些约束条件下,如何设计快速且动态的策略实现异构多无人机的自主任务决策是一个重大挑战。
2、多无人机系统中的任务决策方法主要分为集中式和分布式两种框架。集中式任务决策方法通过单一计算单元对战场环境、敌情信息的分析,统一对多无人机进行任务决策,根据求解方式不同,可以进一步分为基于优化和基于启发式的集中式方法。优化方法通常包括整数规划、组合优化和图论,能够清晰有效地解决简单的任务决策问题。然而,这些方法在处理无人机之间复杂的动态协作时常常表现不佳,使其在大规模任务中效率降低。启发式方法,如遗传算法和粒子群优化算法,能够很好地平衡实时性和最优性,提供及时且实用的决策方案。尽管启发式方法在计算效率上表现良好,但由于场景特定的假设和约束,它们有时在通用性和可扩展性方面存在局限,并可能收敛于局部最优解而非全局最优解。
3、与集中式任务决策方法不同,在分布式任务决策框架中,每个无人机作为决策主体,与其他无人机共享环境数据、任务信息和操作状态。在分布式框架中,任务决策基于信息的迭代交换,从而增强了算法的灵活性和适应性。常见的分布式任务决策方法包括基于市场机制和基于博弈论的方法。基于市场机制的方法通过将任务概念化为可拍卖的商品来模拟经济交易,无人机参与拍卖和谈判,在多个任务被拍卖的场景中优化整体系统性能。与市场机制不同,博弈论是一种分析性方法,用于研究多参与者在合作或竞争环境中的最佳决策问题。基于博弈论的方法在求解效率、可扩展性和通信成本方面具有优势,适用于大规模任务决策,但对算法的收敛性要求较高,同时,无人机存在冗余的情况会对任务决策结果产生影响。
4、目前,大规模任务决策仍存在以下问题:任务和环境的复杂性提高对决策方法的效率和适应性有了更高的要求,对于异构无人机,这种复杂性因需考虑每个无人机的不同能力而进一步增加;在做出决策之前忽视无人机和任务的当前状态会导致计算和通信资源的浪费;现有的基于市场机制和基于博弈论的分布式任务决策方法需要所有无人机之间进行多次通信,系统通信负担较重。
技术实现思路
1、本发明的目的是针对大规模异构无人机,提出了一种基于联盟博弈的大规模异构无人机多层次动态任务决策方法,通过无人机间的定向通信并形成无人机联盟,实现任务决策和无人机资源动态调整,提出的决策方法具有出色的实时性能和泛化能力。
2、本发明的技术方案是这样实现的:
3、一种基于联盟博弈的大规模异构无人机多层次动态任务决策方法,包括以下步骤:
4、步骤1:建立多约束下异构无人机动态任务决策优化模型,确定约束条件并基于无人机收益设计评价函数,为任务分配合适类型和数量的无人机,建立优化模型,对异构无人机任务决策问题进行数学表达;
5、步骤2:将动态任务决策过程转化为联盟博弈求解过程,建立联盟博弈模型,并基于联盟收益确定无人机的偏好关系,并以此设计无人机的联盟切换规则,给出联盟博弈稳定解的形式,确定博弈的收敛条件;
6、步骤3:基于建立的联盟博弈模型,设计多层次动态任务决策策略;首先,基于无人机需求和任务等级确认参与动态任务决策的无人机和任务;其次,通过基于最大加权匹配方法确定动态任务和部分初始任务的领机;最后,当每个任务确定其领机后,其余无人机基于偏好关系执行切换操作进行任务响应,领机对无人机的响应结果进行评估,并基于成本最优进行冲突消解,最终获得任务决策结果。
7、进一步的,所述无人机在进行动态任务决策时需要满足如下约束条件:
8、(a)无人机i和任务tj的类型约束为:
9、
10、其中,i和j分别代表无人机和任务id;二元变量pij表示在满足类型约束条件,t_tj=t_vi的情况下将无人机i分配给任务j;t_tj=t_vi表示当无人机i类型与任务j类型相同的时候,无人机才可以选择执行该任务;lj≤max(t_new)表示只有任务级别不超过最高动态任务级别的任务才能参与动态任务决策;表示初始任务级别不超过最高动态任务级别的无人机或者状态为空闲或任务完成的无人机有资格参与动态任务决策,其中代表无人机i的初始任务k的等级;
11、(b)能力约束:由于无人机不能同时执行多个任务,所以每架无人机最多可以选择一个任务执行,即满足:
12、
13、(c)规模约束:考虑每个任务需要若干架无人机协同执行,所分配的无人机数目应不小于任务所需的无人机数目,同时为了防止有过多无人机选择同一个任务,造成无人机资源浪费,因此给每个任务所需的无人机数量设置上限:
14、
15、其中,j为所有任务构成的集合。
16、(d)能源约束:根据实际情况,所有无人机在执行完任务之后需保留足够的能源以返回基地,表示为:
17、
18、其中,e_vi表示无人机i当前的剩余能源;e_tj表示执行任务j所需的能源;gij表示无人机i到达任务j并返回的飞行成本;e_th表示无人机的最低能源阈值。
19、进一步的,所述每架无人机分配合适任务的收益评价函数包括以下步骤:
20、(1)建立无人机执行任务的评价函数:
21、
22、其中,rij(tj,|aj|)为无人机i执行任务j的奖励;|aj|表示参与任务j的无人机数量;
23、(2)无人机i执行任务j的收益函数rij(tj,|aj|)表达式如下:
24、
25、其中,uj是任务j在整个任务决策过程中产生的实际价值;
26、(3)执行同一任务的无人机共享任务的实际价值uj:
27、
28、其中,vj表示任务j的预设价值,与无人机小组从任务中获得的实际价值uj不同,该价值在整个任务决策过程中保持不变;ε和η均为极小的常数;
29、(4)确定无人机i执行任务j的成本函数表达式为:bij=e_tj+gij(8)。
30、进一步的,所述联盟博弈模型的建立方法包括以下步骤:
31、步骤一:联盟定义和联盟分区的构建:
32、联盟是指被分配到相同任务的一组无人机,每个联盟中的无人机协同执行一个任务,每架无人机只能选择一个联盟;
33、在任务决策过程中,联盟分区被定义为一个不相交的联盟集合ω={a0,a1,...,am+k},其中表示分配给任务j的无人机组成的联盟,满足且
34、步骤二:建立一种基于全局收益的偏好关系:
35、每个参与者无人机根据偏好关系制定策略,决定是否加入或离开某个联盟,对于两个联盟aj,aj',如果无人机i的偏好关系为aj≥i aj',这意味着无人机i更倾向于选择联盟aj而非aj',或者对加入这两个联盟的意愿相当,根据式(6)-式(7)建立全局收益的偏好关系:
36、
37、其中,表示等价关系;符号>i表示对一个联盟的严格偏好;aj∪{i}表示无人机i参与联盟aj;aj'\{i}表示无人机i离开联盟aj';
38、步骤三:无人机的联盟切换规则:
39、基于联盟分区和偏好关系,切换操作被定义为因此联盟分区从ω{a0,a1,...,am+k}转变为ω'=(ω\{aj,aj'})∪{aj∪{i},aj'\{i}},该切换操作的奖励计算如下:
40、
41、步骤四:纳什稳定分区:
42、联盟分区ω={a0,a1,...,am+k}为纳什稳定的条件是当且仅当每个无人机i∈n更倾向于其当前联盟,并且无法通过切换操作来增加全局收益,纳什稳定的联盟分区意味无人机无法再通过切换操作增加所有联盟的总收益,并达到稳定状态,此时获得的纳什稳定联盟分区即为博弈过程的解以及任务决策过程的最终结果。
43、进一步的,所述基于建立的联盟博弈模型,设计多层次动态任务决策方法为:
44、1、基于无人机需求和任务等级的参与者识别
45、根据式(1),在满足无人机安全和基本需求等低层级需求的前提下,基于任务等级、无人机状态识别参与者,表示为:
46、
47、2、基于最大加权匹配方法确定任务领机
48、领机被指定用于存储关键的任务信息和决策过程中的迭代结果,这些迭代结果包括当前的联盟分区、无人机收益和能源消耗情况,无人机通过与领机交互,获取这些信息并相应地制定策略,领机确定过程如下:
49、首先,领机集合被初始化为空集de,基于参与者识别结果将收益矩阵更新为;其次,基于双向匹配法识别出最大化任务tj收益的无人机i*,如果无人机i*的最优任务是tj,则将其指定为tj的领机;然后,无人机i*被添加到领机集合de,并从待分配队列中移除,同时任务tj从领机待定的列表中删除;最后更新收益矩阵,以防止i*和tj再次被选择;该过程精确地为每个任务匹配其领机,并建立初始联盟分区此时,参与重新分配的任务联盟仅包含指定的领机;同时,所有参与重新分配的其他无人机被分配到虚拟任务联盟a0。
50、3、基于联盟博弈的无人机响应
51、当每个任务确定其领机后,其余无人机基于切换操作进行任务响应;基于初始联盟分区,无人机根据其偏好关系执行切换操作以增强全局收益,直到联盟分区达到纳什稳定,形成中间联盟并获得初始任务决策结果;
52、无人机从领机处获取当前的联盟分区和任务信息,包括无人机分配情况、id、执行成本、执行收益以及当前全局收益;然后,无人机根据偏好关系计算执行切换操作的潜在奖励,选择具有最高切换奖励的任务或留在当前联盟中;执行切换操作后,无人机i将其响应结果传达给任务领机,触发对联盟分区的更新,并进行下一阶段;
53、4、基于成本最优的冲突消解,以确保参与任务的无人机数量不超过任务所需的最大数量限制;
54、根据上一阶段的联盟划分结果,任务领机将其联盟中无人机的数量与任务上限maxj进行比较;如果数量超过这一限制,则按照执行成本的升序对无人机进行排序,仅保留不超过限制数量maxj的无人机,多余的无人机将被重新分配到虚拟任务联盟;如果某任务的无人机数量在范围[minj,maxj]内,则联盟中的无人机被分配给任务j;冲突消解结果在领机之间进行沟通,经过冲突消解后获得的纳什稳定联盟被作为最终任务决策结果。
55、本发明的有益效果是:(1)解决了大规模异构无人机动态任务决策在多约束条件下求解难和全局通信受限导致的决策效率低的问题。本发明基于联盟博弈策略,无人机根据自身偏好自组织成独立的联盟,提高了联盟的整体收益。同时,通过无人机与领机,领机与领机之间的定向通信来进行任务决策结果的更新,减少了无人机之间的交互次数。
56、(2)解决了因任务变更而导致的初始任务与动态任务之间的冲突问题。本发明提出的针对无人机需求和任务等级的多层次调控机制,能够首先满足无人机的安全和基本需求等低层次需求,并且确保初始任务中的高等级任务得到优先处理。同时在满足无人机需求的基础上确保无人机能够安全执行任务。
57、(3)本发明将复杂的动态任务决策过程被分解为多个阶段,包括基于无人机需求和任务等级的参与者识别阶段、基于最大加权匹配的领机确定阶段、基于联盟博弈的无人机响应阶段,以及基于成本最优的冲突消解阶段。所提出的多层次动态任务决策方法提高了大规模异构无人机任务决策的实时性,同时实现全局收益最大化,并且对异构无人机集群具有良好的可扩展性。