1.本公开涉及指挥决策技术领域,具体涉及一种指挥决策突击方案的生成方法及电子设备。
背景技术:2.科学技术变革推动军事领域的发展,随着人工智能(artificial intelligent,简称为ai)技术的迅速发展和无人平台的大量列装,未来战争的作战样式和制胜机理将发生颠覆性改变。推进ai技术融入作战筹划和指挥控制领域,创新智能化作战指挥模式、实现作战指挥决策方案智能化生成成为军事领域的研究热点。
3.指挥决策方案生成是指在考虑当前的作战意图、打击任务要求、战场态势、敌情我情、作战资源约束以及兵力完成指标可靠性等多种因素的基础上,合理分配有限的作战资源,制定满足作战任务的行动方案。然而,相关技术中在生成指挥决策方案时,考虑的因素较少,只能生成满足简单作战任务的兵力行动方案,不能综合考虑多种因素对指挥决策的影响,无法应对多种因素下的复杂决策要求。
4.针对相关技术中不能综合考虑多种因素对指挥决策的影响,无法应对多种因素下的复杂作战任务的问题,目前尚未提出有效的技术解决方案。
技术实现要素:5.本公开的主要目的在于提供一种指挥决策突击方案的生成方法及电子设备,以解决相关技术中不能综合考虑多种因素对指挥决策的影响,无法应对多种因素下的复杂决策要求的问题。
6.为了实现上述目的,本公开的第一方面提供了一种指挥决策突击方案的生成方法,包括:获取当前来袭目标的相关信息,将武器分配至不同的来袭目标,得到武器-目标分配结果;获取预先构建的兵力编组行为树,基于武器-目标分配结果,遍历执行兵力编组行为树,得到用于突击来袭目标的兵力编组,其中,兵力编组行为树的根节点下连接一顺序节点,该顺序节点下依次连接第一动作节点和多个第一选择节点,每个第一选择节点对应一个来袭目标,多个第一选择节点下均连接编组子树,编组子树用于基于武器-目标分配结果和可用作战平台情况,确定用于突击来袭目标的兵力编组;以及为兵力编组生成用于对来袭目标进行突击的兵力行动方案。
7.可选地,基于武器-目标分配结果,遍历执行兵力编组行为树,得到用于突击来袭目标的兵力编组,包括:执行兵力编组行为树的根节点下连接的顺序节点以及该顺序节点下连接的第一动作节点,通过第一动作节点评估来袭目标的威胁程度;按照威胁程度从高到低的顺序将来袭目标与多个第一选择节点一一对应,并依次
执行多个第一选择节点以及第一选择节点下连接的编组子树;在所有的第一选择节点的执行结果均为执行成功时,向根节点返回执行成功的执行结果。
8.进一步地,编组子树的最上层按照执行的先后顺序设置有第一顺序节点和第二顺序节点,在第一顺序节点下按照执行的先后顺序依次连接第一条件节点和第二选择节点,在第二顺序节点下按照执行的先后顺序依次连接第四条件节点和第四动作节点;其中,执行第一选择节点以及第一选择节点下连接的编组子树包括:按照优先级从高到低的顺序从第一选择节点下依次连接的第一顺序节点和第二顺序节点中进行选择,在选择的第一顺序节点或第二顺序节点的执行结果为执行成功时,结束选择操作并返回执行成功的执行结果;其中,第一顺序节点用于表示当前可用作战平台有战斗机,第二顺序节点用于表示当前可用作战平台只有驱逐舰;在执行第一顺序节点时,依次执行第一顺序节点下连接的第一条件节点和第二选择节点,通过第一条件节点判断当前可用作战平台是否有战斗机;如果判断出当前可用作战平台有战斗机,则触发第二选择节点确定针对来袭目标的打击方式和用于突击来袭目标的兵力编组,并返回执行成功的执行结果;如果判断出当前可用作战平台没有战斗机,则直接返回执行失败的执行结果;在执行第二顺序节点时,依次执行第二顺序节点下连接的第四条件节点和第四动作节点,通过第四条件节点判断在武器-目标分配结果中分配给来袭目标的武器的数量是否满足打击要求,并判断当前可用作战平台中驱逐舰的数量是否满足载弹要求;如果均满足,则触发第四动作节点确定用于突击来袭目标的兵力编组,并返回执行成功的执行结果;如果任一不满足,则直接返回执行失败的执行结果。
9.进一步地,触发第二选择节点确定针对来袭目标的打击方式和用于突击来袭目标的兵力编组,包括:按照优先级从高到低的顺序从第二选择节点下依次连接的第三顺序节点和第四顺序节点中进行选择,在选择的第三顺序节点或第四顺序节点的执行结果为执行成功时,结束选择操作并返回执行成功的执行结果;其中,第三顺序节点对应的打击方式为单一空中打击,第四顺序节点对应的打击方式为空海混合打击;在执行第三顺序节点时,依次执行第三顺序节点下连接的第二条件节点和第二动作节点,通过第二条件节点判断在武器-目标分配结果中分配给来袭目标的武器的数量是否满足单一空中打击要求,并判断当前可用作战平台中战斗机的数量是否满足载弹要求;如果均满足,则触发第二动作节点确定用于突击来袭目标的兵力编组;如果任一不满足,则直接返回执行失败的执行结果;在执行第四顺序节点时,依次执行第四顺序节点下连接的第三条件节点和第三动作节点,通过第三条件节点判断在武器-目标分配结果中分配给来袭目标的武器的数量是否满足空海混合打击要求,并判断当前可用作战平台中战斗机和驱逐舰的数量是否满足各自的载弹要求;如果均满足,则触发第三动作节点确定用于突击来袭目标的兵力编组;如果任一不满足,则直接返回执行失败的执行结果。
10.可选地,为兵力编组生成用于对来袭目标进行突击的兵力行动方案,包括:获取预先构建的兵力行动行为树;
遍历执行兵力行动行为树,为兵力编组生成用于对来袭目标进行突击的兵力行动方案。
11.进一步地,兵力行动行为树的根节点下连接一顺序节点,该顺序节点下按照优先级从高到低的顺序依次连接第五条件节点、第五动作节点、第六条件节点、第六动作节点、第一行动子树和第二行动子树;其中,遍历执行兵力行动行为树,为兵力编组生成用于对来袭目标进行突击的兵力行动方案,包括:执行兵力行动行为树的根节点下连接的顺序节点以及该顺序节点下连接的所有子节点和子树,在所有的子节点和子树的执行结果均为执行成功时,向根节点返回执行成功的执行结果;执行第五条件节点,判断能否获取到来袭目标的位置、航向和速度信息;如果能获取到,则触发第五动作节点根据获取到的来袭目标的位置、航向和速度信息,确定来袭目标在基准突击时刻的位置;执行第六条件节点,判断能否获取到作战平台信息、武器信息和敌方干扰源位置;如果能获取到,则触发第六动作节点根据获取到的作战平台信息、武器信息和敌方干扰源位置确定兵力编组的突击位置;执行第一行动子树,从多种候选队形中进行选择,为兵力编组配置选中的队形;执行第二行动子树,在兵力编组到达突击位置,且来袭目标到达在基准突击时刻的位置时,指令兵力编组停止机动并在基准突击时刻进行火力打击。
12.进一步地,第一行动子树包括第三选择节点,第三选择节点下连接多个第五顺序节点,每个第五顺序节点对应一种候选队形,第五顺序节点下按照执行的先后顺序依次连接第七条件节点和第七动作节点;其中,执行第一行动子树,从多种候选队形中进行选择,为兵力编组配置选中的队形,包括:执行第三选择节点,按照优先级从高到低的顺序从第三选择节点下连接的多个第五顺序节点中进行选择,在任意一个第五顺序节点的执行结果为执行成功时,结束选择操作并返回执行成功的执行结果;在执行第五顺序节点时,先执行第七条件节点,判断兵力编组是否符合对应的候选队形的配置条件;如果符合,则触发第七动作节点为兵力编组配置该候选队形,并返回执行成功的执行结果;如果不符合,则直接返回执行失败的执行结果。
13.进一步地,第二行动子树中包括第四选择节点,第四选择节点下按照执行先后顺序依次连接第六顺序节点和第八动作节点,第六顺序节点下按照执行先后顺序依次连接第八条件节点和第九动作节点;其中,执行第二行动子树,在兵力编组到达突击位置,且来袭目标到达在基准突击时刻的位置时,指令兵力编组停止机动并在基准突击时刻进行火力打击,包括:执行第四选择节点,从第四选择节点下连接的第六顺序节点和第八动作节点中进行选择,在选择的第六顺序节点或第八动作节点的执行结果为执行成功时,结束选择操作并返回执行成功的执行结果;在执行第六顺序节点时,先执行第八条件节点,判断兵力编组是否到达突击位置,
并判断来袭目标是否到达基准突击时刻的位置;如果均到达,则触发第九动作节点指令兵力编组停止机动,并在基准突击时刻进行火力打击,返回执行成功的执行结果;在执行第八动作节点时,采用蒙特卡洛树搜索算法为兵力编组生成兵力行动方案,并返回执行成功的执行结果。
14.进一步地,采用蒙特卡洛树搜索算法为兵力编组生成兵力行动方案包括:基于预先设计的奖赏函数,获取作战平台选择路径上相应阵位点的分数值,其中,路径为作战平台从当前位置到突击位置的路径;利用蒙特卡洛树搜索算法进行不断模拟,确定分数值最高的阵位点对应的兵力行动方案。
15.本公开的第二方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使计算机执行第一方面任意一项提供的指挥决策突击方案的生成方法。
16.本公开的第三方面提供了一种电子设备,电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器执行第一方面任意一项提供的指挥决策突击方案的生成方法。
17.在本公开实施例提供的指挥决策突击方案的生成方法中,将指挥决策突击方案的规划过程分为若干个任务:武器-目标分配、兵力编组和兵力行动,利用行为树的逻辑结构与先验知识将指挥决策突击方案生成过程进行了层次性划分,基于武器-目标分配结果遍历执行预先构建的兵力编组行为树,得到用于突击来袭目标的兵力编组,然后再为兵力编组生成用于对来袭目标进行突击的兵力行动方案,本公开通过依次执行若干个不同的任务,分别考虑不同因素对指挥决策突击方案的影响,最终得出由武器-目标分配结果、兵力编组方案、以及兵力行动方案组成的指挥决策突击方案,可以满足复杂的作战任务需求,解决了相关技术中不能综合考虑多种因素对指挥决策的影响,无法应对多种因素下复杂决策要求的问题。
附图说明
18.为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
19.图1为本公开实施例提供的行为树的节点类型图;图2为本公开实施例提供的指挥决策突击方案的生成方法的流程示意图;图3为本公开实施例提供的武器-目标分配结果的获取方法的流程示意图;图4为本公开实施例提供的武器-目标分配行为树的结构示意图;图5为本公开实施例提供的兵力编组的获取方法的流程示意图;图6为本公开实施例提供的兵力编组行为树的结构示意图;图7为本公开实施例提供的兵力行动方案的生成方法的流程示意图;图8为本公开实施例提供的兵力行动行为树的结构示意图;
图9为本公开实施例提供的电子设备框图。
具体实施方式
20.为了使本技术领域的人员更好地理解本公开方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
21.需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
22.在本公开中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本公开及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
23.需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
24.指挥决策方案生成是指在考虑当前的作战意图、打击任务要求、战场态势、敌情我情、作战资源约束以及兵力完成指标可靠性等因素的基础上,合理分配有限的作战资源,制定满足作战任务的行动方案。然而,相关技术中在生成指挥决策方案时,考虑的因素较少,只能生成满足简单作战任务的兵力行动方案,不能综合考虑多种因素对指挥决策的影响,无法应对多种因素下的复杂决策要求。针对相关技术中不能综合考虑多种因素对指挥决策的影响,无法应对多种因素下的复杂作战任务的问题,目前尚未提出有效的技术解决方案。
25.为了解决上述问题,本公开实施例提供了一种指挥决策突击方案的生成方法,该方法以军事运筹学为基础,以行为树和强化学习为技术支撑。考虑突击任务的特点与目标,结合指挥决策流程,将突击方案规划分解为武器-目标分配、兵力编组生成和兵力行动规划,通过构建行为树进行指挥决策。最终得到的指挥决策突击方案由武器-目标分配结果、兵力编组方案、以及兵力行动方案组成。
26.行为树的多个节点包括复合节点、装饰节点和叶节点,复合节点包括顺序节点、选择节点、并行节点和随机节点,叶节点包括条件节点和动作节点;行为树的逻辑结构由复合节点实现,叶节点则用来帮助其发挥实际的作用,叶节点可以看作逻辑策略与实体之间的接口,本公开提供的行为树的节点类型图如图1所示。
27.其中,行为树可以被定义为一棵由边和节点组成的有组织层次的有向节点树,可以表示为二元组bt=《v,e》,其中v表示行为树的节点集合,e表示连接行为树中各个节点的边的集合。执行行为树的逻辑时,节点之间有层次划分,根节点是整棵树的执行起点,然后按照深度优先的顺序对行为树进行遍历操作,并且根节点的子节点只能为顺序节点或选择
节点。在遍历过程中,由复合节点和装饰节点决定下一个执行节点,通过动作节点做出决策,执行预先定义的原子动作,当叶节点执行完毕以后,会将执行结果反馈给父节点。其中,执行结果包括:成功(success)、失败(failure)、执行中(running)。
28.下面对行为树中各个节点的执行逻辑进行说明。
29.顺序节点(sequence):可看作逻辑“与”关系,按照优先级从高到低或者位置从左到右的顺序执行顺序节点的每个子节点,若返回值为success(成功),则继续执行,在返回值为failure(失败)的节点停止,其中,最左侧的子节点拥有被执行的最高优先级。
30.选择节点(selector):可看作逻辑“或”关系,选择节点的子节点表示完成该选择节点任务时,可选择的子任务或可执行的动作,最左侧的子节点拥有被选择或被执行的最高优先级。
31.并行节点(parallel):不论并行节点的子节点是何返回值,都按照从左到右的顺序依次并行地执行所有的子节点。
32.随机节点(random):与选择节点具有类似的逻辑结构,不同的是随机节点下子节点的执行顺序是随机的,且每个子节点仅执行一次。
33.装饰节点(decorator):可看作其他节点类型的前缀,用于改变节点行为,允许自定义逻辑。
34.条件节点(condition):相当于条件判断语句,根据判断结果返回相应的值。
35.动作节点(action):用于执行与节点相关的具体任务或动作,将执行结果作为返回值。
36.基于上述行为树中各个节点的执行逻辑,行为树的遍历执行的逻辑为:从执行起点开始按照深度优先的顺序进行遍历,通过行为树中的复合节点和装饰节点决定节点中的下一个执行节点;当执行节点为叶节点时,通过叶节点中的动作节点执行预先定义的原子动作;在叶节点执行完毕后,生成执行结果,并将执行结果反馈给父节点。
37.在构建行为树的过程中可以通过以下条件约束行为树的结构,进而避免无效组合:(1)行为树中的复合节点以顺序节点和选择节点交替的层级结构出现;(2)任意一个复合节点拥有至少两个子节点。
38.本公开实施例提供的指挥决策突击方案的生成方法的流程示意图如图2所示,该方法包括如下的步骤s101至步骤s103:步骤s101:获取当前来袭目标的相关信息,将武器分配至不同的来袭目标,得到武器-目标分配结果;其中,当前来袭目标的相关信息可以包括当前来袭目标的数量和当前来袭目标所属的目标类型。
39.该步骤用于解决武器-目标分配(weapon target assignment,简称为wta)问题,作为指挥和控制决策领域需要解决的主要问题之一,其核心是把具有不同毁伤能力和经济价值的武器,在武器数量等已知信息的约束条件下分配给不同的目标,最大化武器利用率以及作战效果的同时,尽可能地减少作战资源消耗,进而优化整个火力打击体系。该步骤得到的武器-目标分配结果,即,将武器分配至来袭目标的分配结果。
40.在实际实施时,步骤s101中可以采用相关技术完成武器-目标分配,得到武器-目标分配结果。例如,可以采用仿真建模的方法、或者基于案例的方案生成法等。
41.可选的,也可以预先构建武器-目标分配行为树,通过遍历执行武器-目标分配行
为树完成武器-目标分配,得到武器-目标分配结果,其中,武器-目标分配行为树是基于武器和来袭目标构建的、用于为来袭目标分配武器的行为树。这样,步骤s101中武器-目标分配结果的获取方法的流程示意图如图3所示,具体包括如下的步骤s1011至步骤s1013:步骤s1011:获取预先构建的武器-目标分配行为树,其中,武器-目标分配行为树的根节点下连接一顺序节点,该顺序节点下连接多个第五选择节点,每个第五选择节点对应一个目标,每个第五选择节点下均连接第一分配子树;第一分配子树用于确定目标所属的目标类型,为目标选择突击打击方式,并按照选中的突击打击方式为目标分配武器;通过预先构建的武器-目标分配行为树,将我方武器分配给敌方目标,以使武器对目标造成毁伤,其中,武器-目标分配行为树是用于解决wta问题的行为树。
42.步骤s1012:根据当前战场态势,获取所有的来袭目标的相关信息,建立来袭目标与第五选择节点的对应关系;当前战场态势包括当前来袭目标,当前来袭目标的相关信息包括当前来袭目标的数量和目标所属的目标类型,将当前来袭目标与武器-目标分配行为树中的第五选择节点一一对应,当前来袭目标主要是驱逐舰。
43.步骤s1013:遍历执行武器-目标分配行为树,为所有的来袭目标分配武器,得到武器-目标分配结果。
44.通过将武器和来袭目标以行为树的方式关联起来,利用行为树的逻辑结构与先验知识将武器-目标分配任务进行层次性划分,且行为树中的子树支持复用,在动态环境下只需要执行武器-目标分配行为树就可以灵活地解决wta问题,得到武器-目标分配结果,在满足武器消耗要求和目标毁伤要求的同时,提高了灵活性和对动态环境的适应性。
45.具体的,步骤s1013中的遍历执行武器-目标分配行为树,为所有的来袭目标分配武器,具体包括:从根节点开始按照深度优先遍历的方式遍历执行根节点下连接的顺序节点,按照优先级从高到低的顺序依次执行该顺序节点下连接的多个第五选择节点,以及执行第五选择节点下连接的第一分配子树;在所有的第五选择节点的执行结果均为执行成功时,向根节点返回执行成功的执行结果。
46.按照各个第五选择节点对应的目标的优先级从高到低的顺序依次执行多个第五选择节点,并在所有第五选择节点的执行结果均为执行成功时,向执行起点返回执行成功。
47.本公开实施例提供的武器-目标分配行为树的结构示意图如图4所示,其中,根节点的子节点为一个顺序节点,该顺序节点下连接n个第五选择节点作为子节点,n表示根据情报获取的当前来袭目标的数量,在图4中n为3,每个第五选择节点对应于一个目标;按照优先级从高到低的顺序依次执行n个第五选择节点,并在所有第五选择节点返回的执行结果全部为成功时,向根节点返回成功。这n个第五选择节点的优先级顺序可以随机排序,也可以按照建模人员对可行解的评估决策偏好为依据进行设置,图4中父节点与子节点之间为上下逻辑结构,多个第五选择节点呈左右形式排列,按照从左到右的顺序依次执行n个第五选择节点。
48.具体的,第一分配子树的最上层设置有多个第七顺序节点,每个第七顺序节点对应一种目标类型,第七顺序节点下按照执行的先后顺序依次连接第九条件节点和第六选择
节点,第九条件节点用于限定对应的目标类型,且第六选择节点下连接第二分配子树;第二分配子树用于为目标选择能够满足毁伤要求的打击方式,并按照选中的打击方式为目标分配武器;其中,执行第五选择节点、以及第五选择节点下连接的第一分配子树,具体包括:按照优先级从高到低的顺序从第五选择节点下连接的多个第七顺序节点中进行选择,在一个第七顺序节点的执行结果为执行成功时,结束选择操作并返回执行成功的执行结果;在执行第七顺序节点时,判断来袭目标的类型是否符合第九条件节点中限定的目标类型;如果符合,则继续执行第六选择节点及其下连接的第二分配子树,并返回执行成功的执行结果;如果不符合,则直接返回执行失败的执行结果。
49.在每个第五选择节点下连接第一分配子树,每个第五选择节点复用第一分配子树,第一分配子树用于表示为每个第五选择节点对应的目标分配武器。复用表示行为树的模块复用,通过针对第一分配子树的复用,体现了武器-目标分配行为树的强复用性优势,有效提升了指挥决策的灵活性与适应性。
50.其中,按照各种目标类型的优先级从高到低的顺序依次执行多个第七顺序节点,其中,目标类型为驱逐舰的类型,驱逐舰的类型按照优先级从高到低的顺序包括:基隆级、康定级和成功级。
51.例如,在图4中,n个第五选择节点下均连接第一分配子树,第一分配子树的最上层设置有a个第七顺序节点,a表示目标类型的数量,每个第七顺序节点对应于一种目标类型,且a个第七顺序节点依据对应的目标类型的优先级进行排序。本公开实施例中考虑的当前来袭目标主要是驱逐舰,当前驱逐舰的类型主要包括基隆级、康定级和成功级,图4中以a=3为例进行说明,这3个第七顺序节点以基隆级》康定级》成功级的优先级进行排序。
52.每一个第七顺序节点下均连接两个子节点,按照从左到右的顺序分别为一个第九条件节点和一个第六选择节点,并且该第六选择节点连接第二分配子树;其中,第九条件节点用于限定对应的目标类型,判断当前来袭目标是否符合第九条件节点中限定的目标类型,根据判断结果确定是否继续执行后续对应的第六选择节点,图4中菱形表示条件节点;并且,通过每个第六选择节点对第二分配子树的复用,可以体现出行为树的强复用性优势,有效提升了指挥决策的灵活性与适应性。
53.在执行对应于第m个(m=1,2,
…
,n)来袭目标的第五选择节点slm时,按照从左到右的顺序从第一分配子树的a个第七顺序节点中进行选择,在接收到第一个返回成功的第七顺序节点的执行结果后立即向父节点返回成功,并结束选择操作;其中,在执行父节点为第五选择节点slm的某一个第七顺序节点时,判断第m个来袭目标的类型是否符合第九条件节点中限定的目标类型,若符合,则继续执行右边的第六选择节点,执行成功后向父节点返回成功,若不符合,则直接向父节点返回失败。
54.进一步的,第二分配子树的最上层设置有多个第八顺序节点,每个第八顺序节点对应一种打击方式,第八顺序节点下按照执行的先后顺序依次连接第十条件节点和动作节点,第十条件节点用于限定对应的打击方式;其中,执行第六选择节点及其下连接的第二分配子树,具体包括:按照优先级从高到低的顺序从第六选择节点下连接的多个第八顺序节点中进行
选择,在一个第八顺序节点的执行结果为执行成功时,结束选择操作并返回执行成功的执行结果;在执行第八顺序节点时,判断采用第十条件节点中限定的打击方式能否满足毁伤要求;如果能满足,则触发后续的动作节点按照第十条件节点中限定的打击方式为来袭目标分配武器,并返回执行成功的执行结果;如果不能满足,则直接返回执行失败的执行结果。
55.以图4为例,在第二分配子树中的最上层设置有两个第八顺序节点,在此将打击方式分为单一空中打击和空海混合打击两类,以单一空中打击》空海混合打击的优先级排序,左边的第八顺序节点对应于单一空中打击方式,右边的第八顺序节点对应于空海混合打击方式;对来袭的驱逐舰目标进行单一空中打击的武器包括空舰导弹,对来袭的驱逐舰目标进行空海混合打击的武器包括空舰导弹和舰舰导弹。
56.在执行第二分配子树时,按照从左到右的顺序从最上层的两个第八顺序节点中进行选择,在接收到第一个返回成功的第八顺序节点的执行结果后立即向父节点返回成功,并结束选择操作;其中,在执行某一个第八顺序节点时,根据我方武器数量及武器类型、目标命中概率和毁伤概率,判断采用第十条件节点中限定的打击方式能否满足毁伤要求,若满足,则触发右边对应的动作节点,以消耗资源价值最小为依据完成武器-目标分配,并返回执行成功的执行结果;若不满足,则直接向父节点返回执行失败的执行结果。
57.进一步的,目标类型为驱逐舰的类型,驱逐舰的类型按照优先级从高到低的顺序包括:基隆级、康定级和成功级;打击方式按照优先级从高到低的顺序包括:单一空中打击和空海混合打击。
58.具体的,以消耗资源价值f最小建立以下公式(1),按照以下公式(1)为来袭目标分配武器:(1)其中,x
ij
表示分配给第i个目标的第j类武器的数量,vj表示第j类武器的综合价值属性,综合价值属性包括经济价值、稀缺价值和运输消耗等,q
ij
表示第j类武器对第i个目标的毁伤值,qi表示对第i个目标的毁伤要求,mj表示第j类武器的数量,m表示武器总数量,k表示武器类型的数量,n表示目标数量,f表示消耗资源价值。
59.在每一个武器仅能攻击一个目标、不考虑武器发射的先后顺序、以及不同武器和不同目标之间的打击效果互不影响的假设条件下,根据我方武器数量m、武器类型数量k、目标数量n,建立以消耗资源价值f最小完成作战任务的武器-目标分配的目标函数和约束条件,即公式(1);通过执行如公式(1)所示的目标函数及其约束条件,可以得出武器-目标分配的最佳方案,得到满足武器消耗要求和目标毁伤要求的武器-目标分配结果,在满足目标毁伤要求的前提下,作战资源消耗达到最小,使得武器利用率最大化,优化了整个火力打击体系。
60.具体的,在执行对应于单一空中打击方式的第八顺序节点时,根据武器的数量、武器的类型、对目标的命中概率和毁伤概率,判断采用第十条件节点中限定的单一空中打击方式能否满足毁伤要求,若满足,则触发右边对应的动作节点,以消耗资源价值最小为依据完成武器-目标分配,即,按照公式(1)计算武器-目标分配结果,并返回执行成功的执行结果;若不满足,则直接向父节点返回执行失败的执行结果。
61.在执行对应于空海混合打击方式的第八顺序节点时,根据武器的数量、武器的类型、对目标的命中概率和毁伤概率,判断采用第十条件节点中限定的空海混合打击方式能否满足毁伤要求,若满足,则触发右边对应的动作节点,以消耗资源价值最小为依据完成武器-目标分配,即,按照公式(1)计算武器-目标分配结果,并返回执行成功的执行结果;若不满足,则直接向父节点返回执行失败的执行结果。
62.进一步的,由于来袭目标主要是驱逐舰,而对来袭的驱逐舰目标进行单一空中打击的武器主要是空舰导弹,对来袭的驱逐舰目标进行空海混合打击的武器主要是空舰导弹和舰舰导弹;因此,如果采用单一空中打击方式能满足毁伤要求,则按照公式(1)计算武器-目标分配结果时的武器类型数量可以为1,即空舰导弹;如果采用空海混合打击方式能满足毁伤要求,则按照公式(1)计算武器-目标分配结果时武器类型数量可以为2,即为空舰导弹和舰舰导弹。
63.通过上述的武器-目标分配行为树的遍历执行流程,最终可以得到武器-目标分配结果,同时满足目标毁伤要求和减少武器资源消耗,以使武器利用率最大化;并且,通过对武器-目标分配行为树中第一分配子树和第二分配子树的复用,可以适应动态环境下的决策要求,提高了指挥决策的灵活性和适应性。
64.步骤s102:获取预先构建的兵力编组行为树,基于武器-目标分配结果,遍历执行兵力编组行为树,得到用于突击来袭目标的兵力编组,其中,兵力编组行为树的根节点下连接一顺序节点,该顺序节点下依次连接第一动作节点和多个第一选择节点,每个第一选择节点对应一个来袭目标,多个第一选择节点下均连接编组子树,编组子树用于基于武器-目标分配结果和可用作战平台情况,确定用于突击来袭目标的兵力编组;兵力编组包括携带武器的作战平台,兵力编组行为树是用于为来袭目标确定作战平台的行为树。
65.该步骤用于基于步骤s101得出的武器-目标分配结果,获取用于突击不同来袭目标的兵力编组,兵力编组是指挥员进行作战方案筹划的主要内容,是指挥决策的重要环节,根据作战任务要求和特点,对现有的作战平台与所需的作战力量进行量化判断,灵活巧妙地制定编组方案,以达到完成作战任务的目的;各编组之间要合理编配作战力量,适应如指挥协同高效、较强机动能力、能够隐蔽接敌、较强火力突击等作战要求。兵力编组可定义为首先求解突击任务,通过输入上级指令和武器-目标分配结果,生成每一个编组中的作战平
台以及各自携带的导弹数量,一个兵力编组即为攻击某一来袭目标的所有我方作战平台的集合。
66.具体的,本公开实施例提供的兵力编组的获取方法的流程示意图如图5所示,步骤s102中的基于武器-目标分配结果,遍历执行兵力编组行为树,得到用于突击来袭目标的兵力编组,包括:步骤s1021:执行兵力编组行为树的根节点下连接的顺序节点以及该顺序节点下连接的第一动作节点,通过第一动作节点评估来袭目标的威胁程度;其中,来袭目标包括驱逐舰;本公开实施例提供的兵力编组行为树的结构示意图如图6所示,根节点的子节点为一个顺序节点,该顺序节点下按照从左到右的顺序连接了一个第一动作节点和n(图6中n=3)个第一选择节点作为子节点。
67.步骤s1022:按照威胁程度从高到低的顺序将来袭目标与多个第一选择节点一一对应,并依次执行多个第一选择节点以及第一选择节点下连接的编组子树;其中,每个第一选择节点对应一个来袭目标,每个第一选择节点均复用编组子树,n个第一选择节点下连接同一个编组子树,编组子树用于基于分配结果中分配给来袭目标的武器类型和武器数量,确定用于突击来袭目标的兵力编组;从根节点开始按照深度优先的顺序进行遍历,遍历到根节点下连接的顺序节点时,执行最左边的第一动作节点中按照威胁程度由高到低的顺序对n个来袭目标进行威胁评估排序的步骤,依据排序结果建立n个第一选择节点与n个来袭目标的对应关系。然后,按照从左到右的顺序依次执行n个第一选择节点,并在n个第一选择节点返回的执行结果全部为执行成功时,向根节点返回成功。
68.显然,n个第一选择节点中位于最左边的节点(即优先级最高的节点)对应于威胁程度最高的来袭目标,依此类推,最右边的节点(即优先级最低的节点)对应于威胁程度最低的来袭目标。
69.兵力编组行为树的编组子树用于判断在分配结果中,分配给来袭目标的武器的数量是否满足对来袭目标的打击要求,并判断当前可用作战平台的数量是否满足载弹要求,如果均满足,则确定用于突击来袭目标的兵力编组;其中,作战平台包括战斗机和驱逐舰,武器类型包括空舰导弹和舰舰导弹,战斗机携带的武器类型为空舰导弹,驱逐舰携带的武器类型为舰舰导弹。
70.步骤s1023:在所有的第一选择节点的执行结果均为执行成功时,向根节点返回执行成功的执行结果。
71.本公开实施例通过兵力编组行为树的逻辑结构与先验知识将任务进行了层次性划分,且兵力编组行为树中的子树支持复用,有效提升了指挥决策的灵活性与适应性。
72.具体的,编组子树的最上层按照执行的先后顺序设置有第一顺序节点和第二顺序节点,在第一顺序节点下按照执行的先后顺序依次连接第一条件节点和第二选择节点,在第二顺序节点下按照执行的先后顺序依次连接第四条件节点和第四动作节点;编组子树的最上层设置有两个顺序节点,左边的第一顺序节点代表我方目前可用作战平台有战斗机的情况,右边的第二顺序节点代表我方目前可用作战平台只有驱逐舰的情况。
73.步骤s1022中的执行第一选择节点以及第一选择节点下连接的编组子树包括:
按照优先级从高到低的顺序从第一选择节点下依次连接的第一顺序节点和第二顺序节点中进行选择,在选择的第一顺序节点或第二顺序节点的执行结果为执行成功时,结束选择操作并返回执行成功的执行结果;其中,第一顺序节点用于表示当前可用作战平台有战斗机,第二顺序节点用于表示当前可用作战平台只有驱逐舰;在执行对应于第n个(n=1,2,
…
,n)来袭目标的第一选择节点时,按照从左到右的顺序从编组子树的第一顺序节点和第二顺序节点中进行选择,在接收到第一个返回成功的顺序节点的执行结果后立即向父节点返回成功,并结束选择操作。
74.在执行第一顺序节点时,依次执行第一顺序节点下连接的第一条件节点和第二选择节点,通过第一条件节点判断当前可用作战平台是否有战斗机;如果判断出当前可用作战平台有战斗机,则触发第二选择节点确定针对来袭目标的打击方式和用于突击来袭目标的兵力编组,并返回执行成功的执行结果;如果判断出当前可用作战平台没有战斗机,则直接返回执行失败的执行结果;在执行第二顺序节点时,依次执行第二顺序节点下连接的第四条件节点和第四动作节点,通过第四条件节点判断在武器-目标分配结果中分配给来袭目标的武器的数量是否满足打击要求,并判断当前可用作战平台中驱逐舰的数量是否满足载弹要求;如果均满足,则触发第四动作节点确定用于突击来袭目标的兵力编组,并返回执行成功的执行结果;如果任一不满足,则直接返回执行失败的执行结果。
75.进一步的,触发第二选择节点确定针对来袭目标的打击方式和用于突击来袭目标的兵力编组,包括:按照优先级从高到低的顺序从第二选择节点下依次连接的第三顺序节点和第四顺序节点中进行选择,在选择的第三顺序节点或第四顺序节点的执行结果为执行成功时,结束选择操作并返回执行成功的执行结果;其中,第三顺序节点对应的打击方式为单一空中打击,第四顺序节点对应的打击方式为空海混合打击,单一空中打击对应的武器类型包括空舰导弹,空海混合打击对应的武器类型包括空舰导弹和舰舰导弹;第二选择节点的子节点为两个顺序节点,左边的第三顺序节点对应于单一空中打击方式,而右边的第四顺序节点对应于空海混合打击方式;每个顺序节点下进一步连接条件节点和动作节点,在满足条件节点限定的条件后,才能触发执行后续的动作节点。
76.在执行第三顺序节点时,依次执行第三顺序节点下连接的第二条件节点和第二动作节点,通过第二条件节点判断在武器-目标分配结果中分配给来袭目标的武器的数量是否满足单一空中打击要求,并判断当前可用作战平台中战斗机的数量是否满足载弹要求;如果均满足,则触发第二动作节点确定用于突击来袭目标的兵力编组;如果任一不满足,则直接返回执行失败的执行结果;在执行第三顺序节点时,依据第二条件节点判断在上述步骤s101得出的武器-目标分配结果中分配给第n个来袭目标的武器数量(空舰导弹的数量)是否满足单一空中打击要求,以及判断目前可用战斗机的数量是否满足载弹要求;若均满足,则触发第二动作节点计算用于攻击第n个来袭目标的兵力编组,并将成功状态返回给第三顺序节点;若任一不满足,则直接向第三顺序节点返回失败。其中,打击方式包括单一空中打击和空海混合打击,作战平台包括战斗机和驱逐舰,武器类型包括空舰导弹和舰舰导弹,当选择单一空中打击方式时,对应的作战平台为战斗机,战斗机携带的武器类型为空舰导弹;当选择空海混合打
击方式时,对应的作战平台为战斗机和驱逐舰,驱逐舰携带的武器类型为舰舰导弹,因此,对来袭目标(主要是驱逐舰)进行单一空中打击的武器是空舰导弹,对驱逐舰进行空海混合打击的武器是空舰导弹和舰舰导弹。
77.在计算兵力编组时,根据武器-目标分配结果进行武器装载,需在满足最大载弹量的约束下,选择尽可能少的作战平台。
78.在执行第四顺序节点时,依次执行第四顺序节点下连接的第三条件节点和第三动作节点,通过第三条件节点判断在武器-目标分配结果中分配给来袭目标的武器的数量是否满足空海混合打击要求,并判断当前可用作战平台中战斗机和驱逐舰的数量是否满足各自的载弹要求;如果均满足,则触发第三动作节点确定用于突击来袭目标的兵力编组;如果任一不满足,则直接返回执行失败的执行结果。
79.在执行第四顺序节点时,依据第三条件节点判断在上述步骤s101得出的武器-目标分配结果中分配给第n个来袭目标的武器数量(空舰导弹和舰舰导弹的数量)是否满足空海混合打击要求,以及判断当前可用战斗机和驱逐舰的数量是否满足各自的载弹要求;若均满足,则执行第三动作节点,计算用于突击第n个来袭目标的兵力编组,并将成功状态返回给第四顺序节点;若任一个不满足,则直接向第四顺序节点返回失败。
80.进一步的,执行第一选择节点下连接的兵力编组行为树的编组子树还包括:在执行第二顺序节点时,依次执行第二顺序节点下连接的第四条件节点和第四动作节点,通过第四条件节点判断在武器-目标分配结果中,分配给来袭目标的武器中舰舰导弹的数量是否满足打击要求,并判断当前可用作战平台中驱逐舰的数量是否满足载弹要求;如果均满足,则触发第四动作节点确定用于突击来袭目标的兵力编组;如果任一不满足,则直接返回执行失败的执行结果。
81.第二顺序节点下连接第四条件节点和第四动作节点,在满足第四条件节点限定的条件后,才能触发执行后续的第四动作节点。
82.在执行第二顺序节点时,依据第四条件节点判断在上述步骤s101得出的武器-目标分配结果中分配给第n个来袭目标的武器数量(舰舰导弹的数量)是否满足打击要求,以及判断当前可用驱逐舰的数量是否满足载弹要求;若均满足,则触发第四动作节点计算用于攻击第n个来袭目标的兵力编组,并将成功状态返回给第二顺序节点;若任一个不满足,则直接向第二顺序节点返回失败。
83.步骤s103:为兵力编组生成用于对来袭目标进行突击的兵力行动方案。
84.该步骤用于基于上述步骤s102获取到的兵力编组,为每一个兵力编组生成对来袭目标进行突击的兵力行动方案。
85.本公开实施例提供的兵力行动方案的生成方法的流程示意图如图7所示,步骤s103包括如下的步骤s1031至步骤s1032:步骤s1031:获取预先构建的兵力行动行为树;其中,兵力行动行为树是用于为兵力编组生成兵力行动方案的行为树;步骤s1032:遍历执行兵力行动行为树,为兵力编组生成用于对来袭目标进行突击的兵力行动方案。
86.本公开利用行为树的逻辑结构与先验知识将指挥决策突击方案生成过程进行了层次性划分,通过依次遍历执行预先构建的武器-目标分配行为树、兵力编组行为树和兵力
行动行为树,在不同的行为树中分别考虑不同因素对指挥决策突击方案的影响,最终得出由武器-目标分配结果、兵力编组方案、以及兵力行动方案组成的指挥决策突击方案,可以满足复杂的作战任务需求,解决了相关技术中不能综合考虑多种因素对指挥决策的影响,无法应对多种因素下复杂决策要求的问题。
87.本公开实施例提供的兵力行动行为树的结构示意图如图8所示,兵力行动行为树的根节点下连接一顺序节点,该顺序节点下按照优先级从高到低的顺序依次连接第五条件节点、第五动作节点、第六条件节点、第六动作节点、第一行动子树和第二行动子树;通过遍历执行兵力行动行为树,为突击第k个(k=1,2,
…
, n)来袭目标的兵力编组生成兵力行动方案,在遍历执行兵力行动行为树时,从根节点开始按照深度优先的顺序进行遍历。
88.其中,步骤s1032包括:执行兵力行动行为树的根节点下连接的顺序节点以及该顺序节点下连接的所有子节点和子树,在所有的子节点和子树的执行结果均为执行成功时,向根节点返回执行成功的执行结果;执行第五条件节点,判断能否获取到来袭目标的位置、航向和速度信息;如果能获取到,则触发第五动作节点根据获取到的来袭目标的位置、航向和速度信息,确定来袭目标在基准突击时刻的位置,其中,基准突击时刻为作战平台对来袭目标进行突击的时刻;可选的,可以根据战场环境和敌我双方态势,判断能否获取到来袭目标的位置、航向和速度信息;按照从左到右的顺序先触发顺序节点下连接的第五条件节点判断能否根据战场环境和敌我双方态势获取第k个来袭目标的位置、航向和速度信息,若能获取到,则触发第一动作节点根据获取到的位置、航向和速度信息计算敌方第k个来袭目标在基准突击时刻的位置信息,即打击位置。
89.执行第六条件节点,根据兵力编组、战场环境和敌我双方态势,判断能否获取到作战平台信息、武器信息和敌方干扰源位置;如果能获取到,则触发第六动作节点根据获取到的作战平台信息、武器信息和敌方干扰源位置确定兵力编组的突击位置,即我方兵力编组的精确突击位置;执行第一行动子树,从多种候选队形中进行选择,为兵力编组配置选中的队形;通过执行第一行动子树为兵力编组配置队形;执行第二行动子树,在兵力编组到达突击位置,且来袭目标到达在基准突击时刻的位置时,指令兵力编组停止机动并在基准突击时刻进行火力打击。
90.进一步的,第一行动子树包括第三选择节点,第三选择节点下连接多个第五顺序节点,每个第五顺序节点对应一种候选队形,第五顺序节点下按照执行的先后顺序依次连接第七条件节点和第七动作节点;其中,执行第一行动子树,从多种候选队形中进行选择,为兵力编组配置选中的队形,包括:执行第三选择节点,按照优先级从高到低的顺序从第三选择节点下连接的多个第五顺序节点中进行选择,在任意一个第五顺序节点的执行结果为执行成功时,结束选择操作并返回执行成功的执行结果;可选的,采用第三选择节点为当前兵力编组配置队形,以达到提升其打击能力和防御能力的目的;第三选择节点的子节点为b个第五顺序节点,b表示候选队形的个数,b个
第五顺序节点与b种候选队形一一对应。图8中b=4,4种候选队形包括:菱形、人字形、梯形和楔形,第三选择节点下连接的4个第五顺序节点以菱形》人字形》梯形》楔形的优先级排序,4个第五顺序节点中的每一个节点下连接的子节点为一个第七条件节点和一个第七动作节点。
91.在执行第五顺序节点时,先执行第七条件节点,判断兵力编组是否符合对应的候选队形的配置条件;如果符合,则触发第七动作节点为兵力编组配置该候选队形,并返回执行成功的执行结果;如果不符合,则直接返回执行失败的执行结果。其中,每个第五顺序节点对应兵力编组的一个候选队形,多个候选队形按照优先级从高到低的顺序依次包括:菱形、人字形、梯形和楔形。
92.执行第一行动子树时,按照从左到右的顺序从第三选择节点下连接的b个第五顺序节点中进行选择,在接收到第一个返回成功的第五顺序节点的执行结果后立即向父节点返回成功,并结束选择操作。其中,在执行b个第五顺序节点中的某一个第五顺序节点时,先判断当前兵力编组是否符合第七条件节点中所限定的候选队形的配置条件,若符合,则触发右边的第七动作节点为当前兵力编组配置此种候选队形,并向第三选择节点返回成功。
93.可选的,判断当前兵力编组是否符合第七条件节点中所限定的菱形的候选队形的配置条件,若符合,则触发右边的第七动作节点为当前兵力编组配置菱形的候选队形;判断当前兵力编组是否符合第七条件节点中所限定的人字形的候选队形的配置条件,若符合,则触发右边的第七动作节点为当前兵力编组配置人字形的候选队形;判断当前兵力编组是否符合第七条件节点中所限定的梯形的候选队形的配置条件,若符合,则触发右边的第七动作节点为当前兵力编组配置梯形的候选队形;判断当前兵力编组是否符合第七条件节点中所限定的楔形的候选队形的配置条件,若符合,则触发右边的第七动作节点为当前兵力编组配置楔形的候选队形。
94.进一步的,第二行动子树中包括第四选择节点,第四选择节点下按照执行先后顺序依次连接第六顺序节点和第八动作节点,第六顺序节点下按照执行先后顺序依次连接第八条件节点和第九动作节点;其中,执行第二行动子树,在兵力编组到达突击位置,且来袭目标到达在基准突击时刻的位置时,指令兵力编组停止机动并在基准突击时刻进行火力打击,包括:执行第四选择节点,从第四选择节点下连接的第六顺序节点和第八动作节点中进行选择,在选择的第六顺序节点或第八动作节点的执行结果为执行成功时,结束选择操作并返回执行成功的执行结果;可选的,在执行第四选择节点时,可以按照优先级从高到低的顺序从第四选择节点下依次连接的第六顺序节点和第八动作节点中进行选择,在接收到第一个返回成功的节点的执行结果后立即向父节点返回成功,并结束选择操作。采用第四选择节点为兵力编组确定下一步行动,第四选择节点的子节点为第六顺序节点和第八动作节点,第六顺序节点的子节点为第八条件节点和第九动作节点。在图8所示的兵力行动行为树中,第四选择节点下连接了两个第八条件节点和两个第九动作节点,显然,在实际实施过程中,第八条件节点也可以只有一个,第九动作节点也可以只有一个,本公开实施例对此不做限定。
95.在执行第六顺序节点时,先执行第八条件节点,判断兵力编组是否到达突击位置,并判断来袭目标是否到达基准突击时刻的位置;如果均到达,则触发第九动作节点指令兵
力编组停止机动,并在基准突击时刻进行火力打击,返回执行成功的执行结果;否则,直接向第六顺序节点返回失败。
96.在执行第八动作节点时,采用蒙特卡洛树搜索算法为兵力编组生成兵力行动方案,并返回执行成功的执行结果。在执行第八动作节点时,可以采用强化学习方法中的蒙特卡洛树搜索算法为兵力编组生成兵力行动方案,并向第六顺序节点返回执行成功的执行结果。
97.其中,采用蒙特卡洛树搜索算法为兵力编组生成兵力行动方案包括:基于预先设计的奖赏函数,获取作战平台选择路径上相应阵位点的分数值,其中,路径为作战平台从当前位置到突击位置的路径;利用蒙特卡洛树搜索算法进行不断模拟,确定分数值最高的阵位点对应的兵力行动方案。
98.具体的,生成兵力行动方案的步骤如下:通过奖赏函数设计给出作战平台选择相应阵位点的分数值,然后通过蒙特卡洛树搜索算法不断模拟找出最佳的兵力行动方案;其中,阵位点是作战平台从当前位置移动到精确突击位置的路径规划数据集。基于强化学习算法的学习能力遍历执行兵力行动行为树,提升了对复杂问题的应对能力,有效提高了兵力行动规划的学习与适应性,解决了相关技术中不能综合考虑多种因素对指挥决策的影响,无法应对多种因素下的复杂作战任务的问题。
99.进一步的,蒙特卡洛树搜索算法包括选择部分、扩展部分、模拟部分和回溯部分,其中:选择部分:假设当前为第t决策时刻,其战场态势为x(t),x(t)是根据双方位置信息、武器信息、来袭目标信息、兵力编组信息等信息得到的,作战平台的机动动作为a(t),本公开采用机动方向划分动作空间,每45
°
表示一个机动动作,动作个数为8;对t+1时刻的机动动作进行决策,首先选择不同的a(t),然后计算选择不同a(t)之后得到的状态值,其中,s(t) 和ci分别表示当前时刻执行机动动作后下一时刻的角度和动作状态;若蒙特卡洛树没有达到终止条件且存在未经探索的节点,则执行扩展部分的步骤,否则执行回溯部分的步骤。
100.扩展部分:继续向下选择机动动作,列出所有可能的动作,选择第一个节点作为接下来的新节点,加入蒙特卡洛树中。
101.模拟部分:对新增的子节点进行模拟,直到分出胜负。
102.回溯部分:将模拟结果沿着新节点向上反馈到根节点,更新所有的父节点。
103.根据上述利用蒙特卡洛树搜索算法得出兵力行动方案,确定各个兵力编组行动的各个阵位点。
104.本公开将强化学习作为兵力行动行为树的叶节点对其进行模块化使用,采用强化学习中的蒙特卡洛树搜索算法不断模拟找出最佳的兵力行动方案,利用逻辑规则方法与学习类方法相结合实现了突击方案生成中的兵力行动规划任务。通过行为树的逻辑规则与先验约束解决了学习类方法收敛速度慢、奖赏函数设计难的问题,又基于强化学习的学习能力提升了对复杂问题的应对能力,有效提高了兵力行动规划的学习与适应性。
105.具体的,在构建武器-目标分配行为树、兵力编组行为树或兵力行动行为树的过程中,该方法还包括:
建立针对行为树结构的约束条件,其中,该约束条件包括:行为树中的复合节点以顺序节点和选择节点交替的层级结构出现,并且任意一个复合节点拥有至少两个子节点;通过上述约束条件构建武器-目标分配行为树、兵力编组行为树或兵力行动行为树的结构。通过约束条件约束武器-目标分配行为树、兵力编组行为树或兵力行动行为树的结构,可以避免无效组合。
106.从以上的描述中,可以看出,本公开实现了如下技术效果:本公开将指挥决策突击方案的规划过程分为若干个任务:武器-目标分配、兵力编组和兵力行动,并分别为各个任务构建行为树,通过行为树的逻辑结构与先验知识将任务进行了层次性划分,且行为树中的子树支持复用,有效提升了指挥决策的灵活性与适应性;本公开将强化学习作为兵力行动行为树的叶节点对其进行模块化使用,采用强化学习中的蒙特卡洛树搜索算法不断模拟找出最佳的兵力行动方案,利用逻辑规则方法与学习类方法相结合实现了突击方案生成中的兵力行动规划任务;通过行为树的逻辑规则与先验约束解决了学习类方法收敛速度慢、奖赏函数设计难的问题,又基于强化学习的学习能力提升了对复杂问题的应对能力,有效提高了兵力行动规划的学习与适应性,解决了相关技术中不能综合考虑多种因素对指挥决策的影响,无法应对多种因素下的复杂作战任务的问题;本公开利用行为树的逻辑结构与先验知识将指挥决策突击方案生成过程进行了层次性划分,通过依次遍历执行预先构建的武器-目标分配行为树、兵力编组行为树和兵力行动行为树,在不同的行为树中分别考虑不同因素对指挥决策突击方案的影响,最终得出由武器-目标分配结果、兵力编组方案、以及兵力行动方案组成的指挥决策突击方案,可以满足复杂的作战任务需求;通过约束条件约束预先构建的武器-目标分配行为树、兵力编组行为树或兵力行动行为树的结构,可以避免无效组合。
107.需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
108.本公开实施例还提供了一种电子设备,如图9所示,该电子设备包括一个或多个处理器91以及存储器92,图9中以一个处理器91为例。
109.该控制器还可以包括:输入装置93和输出装置94。
110.处理器91、存储器92、输入装置93和输出装置94可以通过总线或者其他方式连接,图9中以通过总线连接为例。
111.处理器91可以为中央处理器(central processing unit,简称为cpu),处理器91还可以为其他通用处理器、数字信号处理器(digital signal processor,简称为dsp)、专用集成电路(application specific integrated circuit,简称为asic)、现场可编程门阵列(field-programmable gate array,简称为fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合,通用处理器可以是微处理器或者任何常规的处理器。
112.存储器92作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本公开实施例中的控制方法对应的程序指令/模块。处
理器91通过运行存储在存储器92中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的指挥决策突击方案的生成方法。
113.存储器92可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外,存储器92可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器92可选包括相对于处理器91远程设置的存储器,这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
114.输入装置93可接收输入的数字或字符信息,以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置94可包括显示屏等显示设备。
115.一个或者多个模块存储在存储器92中,当被一个或者多个处理器91执行时,执行如图2所示的方法。
116.本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各电机控制方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,简称为rom)、随机存储记忆体(randomaccessmemory,简称为ram)、快闪存储器(flashmemory,简称为fm)、硬盘(harddiskdrive,简称为hdd)或固态硬盘(solid-statedrive,简称为ssd)等;存储介质还可以包括上述种类的存储器的组合。
117.虽然结合附图描述了本公开的实施方式,但是本领域技术人员可以在不脱离本公开的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。