一种无人舰艇协同巡航的路径规划方法

文档序号：33345629发布日期：2023-03-04 03:33阅读：29来源：国知局

1.本公开涉及军事信息技术领域，尤其涉及一种无人舰艇协同巡航的路径规划方法。

背景技术：

2.无人舰艇作为未来智能化无人化作战中一支重要的组成力量，在未来海战中将发挥至关重要的作用。随着越来越多的无人舰艇参与到更为复杂的军事任务中，人们对无人舰艇的自主化要求也逐渐提高。在无人舰艇的自主系统中加入人工智能技术，能够使无人舰艇执行更为复杂的任务，增加了其自主权和自协同能力。
3.现有的无人舰艇协同巡航路径规划中采用的深度强化学习方法虽然已经能够有效解决无人舰艇在面临高纬度、高动态战场环境下协同巡航问题，更加契合无人作战平台路径规划任务的特点和规律。但由于存在值函数过估计问题，会直接导致在较为复杂的任务环境中，无人舰艇无法高效、合理的进行路径规划。因此，如何合理利用有限的计算资源，缓解值函数过估计问题，改善算法的最终性能，使其高效的进行路径规划，提高无人舰艇在复杂环境下协同巡航的效率和质量成为了亟待解决的问题。
4.因此，有必要改善上述相关技术方案中存在的一个或者多个问题，以提高导航系统全局估计精度和系统容错性能。
5.需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

6.本公开实施例的目的在于提供一种无人舰艇协同巡航的路径规划方法，该方法能够缓解值函数过估计问题，并提高无人舰艇协同巡航的效率和质量。
7.本公开实施例提供一种无人舰艇协同巡航的路径规划方法，该方法包括以下步骤：
8.构建无人舰艇协同巡航的路径规划系统模型，所述无人舰艇协同巡航的路径规划系统模型包括多个无人舰艇在任意时刻的状态集合，多个所述无人舰艇在任意时刻的动作集合，以及多个所述无人舰艇得到的环境反馈；
9.利用深度确定性策略梯度算法对所述无人舰艇协同巡航的路径规划系统模型进行训练；在训练过程中引入加权目标函数和双延迟网络，同时将得到的训练结果进行更新，得到多个所述无人舰艇的协同巡航策略；
10.将得到的多个所述无人舰艇的协同巡航策略部署于真实任务环境中。
11.本公开的一示例性实施例中，构建无人舰艇协同巡航的路径规划系统模型的步骤包括：多个所述无人舰艇在任意时刻t的环境状态集合s
t
；多个所述无人舰艇根据所述环境状态集合s
t
中各自对应的状态做出的相应动作组成的动作集合a
t
；以及多个所述无人舰艇得到的环境反馈r
t
。
12.本公开的一示例性实施例中，所述环境状态集合s
t
的公式包括：
13.s
t
＝{(x1，y1),(x2，y2),(x3，y3),...,(xn，yn)}
14.其中，x和y分别表示每个无人舰艇的状态的横坐标和纵坐标，x∈[0,10000]，y∈[0,10000]；n表示无人舰艇的编号。
[0015]
本公开的一示例性实施例中，所述动作集合a
t
的公式包括：
[0016]at
＝{move1,move2,move3,move4,move5,move6,move7,move8}
[0017]
其中，move1表示无人舰艇的机动动作向正东方向前进；move2表示无人舰艇的机动动作向东南方向前进；move3表示无人舰艇的机动动作向正南方向前进；move4表示无人舰艇的机动动作向西南方向前进；move5表示无人舰艇的机动动作向正西方向前进；move6表示无人舰艇的机动动作向西北方向前进；move7表示无人舰艇的机动动作向正北方向前进；move8无人舰艇的机动动作向东北方向前进；机动动作的取值范围包括move∈[0,50]，0表示无动作。
[0018]
本公开的一示例性实施例中，所述环境反馈r
t
包括无人舰艇到达任一地点的奖励、无人舰艇碰到障碍的惩罚、无人舰艇触碰边界的惩罚和无人舰艇相碰的惩罚。
[0019]
本公开的一示例性实施例中，利用深度确定性策略梯度算法对所述无人舰艇协同巡航的路径规划系统模型进行训练；并引入加权目标函数和双延迟网络，将得到的训练结果进行更新，得到多个所述无人舰艇的协同巡航策略的步骤中，所述无人舰艇协同巡航的路径规划系统模型的训练过程中包括多个参数，多个所述参数包括：
[0020]
多个评价网络，多个所述评价网络包括q(s
t
,a
t
|θ1)，q(s
t
,a
t
|θ2)，q(s
t
,a
t
|θ3)；
[0021]
一个行动网络u
φ
；
[0022]
多个目标评价网络，多个所述目标评价网络包括
[0023]
一个目标行动网络u
φ'
；
[0024]
记忆存储单元r，所述记忆存储单元r的容量为m；折扣系数为γ，批处理容量大小为c，截断系数为η，权重稳定系数为β；参数复制间隔为d，参数复制系数为τ，噪声为ε，循环次数为t。
[0025]
本公开的一示例性实施例中，利用深度确定性策略梯度算法对所述无人舰艇协同巡航的路径规划系统模型进行训练；在训练过程中引入加权目标函数和双延迟网络，同时将得到的训练结果进行更新，得到多个所述无人舰艇的协同巡航策略的过程包括：
[0026]
将多个所述参数初始化；
[0027]
为动作a
t
选择初始化所述噪声ε，所述噪声ε服从分布，其中，～表示服从的意思；clip表示裁剪；表示正态分布；
[0028]
初始化时刻t＝1，接受无人舰艇的初始状态s1；
[0029]
根据所述行动网络u
φ
和所述噪声ε，得到无人舰艇选择的动作a
t
为a
t
＝u
φ
(s)+ε；
[0030]
执行所述动作a
t
，观察新的环境状态s
t’，得到所述环境反馈r
t
；
[0031]
向所述记忆存储单元r中存储所述环境反馈r
t
的奖励组(s
t
,a
t
,s
t’,r
t
)；
[0032]
从所述记忆存储单元r中进行随机采样，得到采样组数据(si,ai,s
i’,ri)，i＝1,2,...,c；
[0033]
选择下一时刻所述动作a
t+1
＝u
φ'
(r
t
)+ε；
[0034]
令
[0035]
通过最小化损失法分别更新多个所述评价网络；其中，
[0036]
更新所述q(s
t
,a
t
|θ1)评价网络：
[0037]
更新所述q(s
t
,a
t
|θ2)评价网络：
[0038]
更新所述q(s
t
,a
t
|θ3)评价网络：
[0039]
其中，
←
表示赋值运算的意思；
[0040]
当所述时刻t不能够整除所述参数复制间隔d时，若所述t时刻大小等于所述循环时间t，根据所述行动网络u
φ
，得到多个所述无人舰艇的协同巡航策略，所述协同巡航策略的公式包括：其中，s
t
表示环境状态，φ表示行动网络u
φ
的网络参数，π表示最终输出策略；a表示动作a
t
的集合，u(s
t
|φ)表示行动网络，简写为u
φ
。
[0041]
本公开的一示例性实施例中，当所述时刻t能够整除所述参数复制间隔d时，还需进行如下步骤：
[0042]
利用所述深度确定性策略梯度的算法公式：
[0043]
更新所述行动网络u
φ
；c表示批处理容量大小，
▽
为求导，a
t
表示动作，q
θi
(s
t
,a
t
)表示评价网络，u
φ
(s
t
)表示环境状态集合s
t
的行动网络；
▽
φ
j(φ)表示深度确定性策略梯度；
[0044]
分别更新多个所述目标评价网络和所述目标行动网络u
φ'
的参数，其中，
[0045][0046][0047]
←
表示赋值运算的意思；
[0048]
若所述t时刻大小等于所述循环时间t，根据所述行动网络u
φ
，得到多个所述无人舰艇的协同巡航策略
[0049]
本公开的一示例性实施例中，当所述t时刻能够整除所述参数复制间隔d时，还需进行如下步骤：
[0050]
利用所述深度确定性策略梯度的算法公式：
[0051]
更新所述行动网络u
φ
；
[0052]
分别更新多个所述目标评价网络和所述目标行动网络u
φ'
的参数，其中，
[0053][0054]
φ
t+1
←
τφ
t
+(1-τ)φ
t
；
[0055]
若所述t时刻大小不等于所述循环时间t，则需要在t+1时刻起返回至步骤根据所
述行动网络u
φ
和所述噪声ε，得到无人舰艇选择的动作a
t
，所述a
t
＝u
φ
(s
t
)+ε，继续进行训练过程。
[0056]
本公开提供的技术方案可以包括以下有益效果：
[0057]
本公开实施例中，提出一种无人舰艇协同巡航的路径规划方法，该路径规划方法通过在深度确定性策略梯度算法的训练过程中引入加权目标函数和双延迟网络，从而能够缓解深度确定性策略梯度算法训练过程中的值函数过估计问题，又避免了低估计问题，提升了算法的最终性能，提高了无人舰艇协同巡航策略的效率和质量。
附图说明
[0058]
此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见的，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0059]
图1示出本公开示例性实施例中无人舰艇协同巡航的路径规划方法的步骤示意图；
[0060]
图2示出本公开示例性实施例中无人舰艇协同巡航的路径规划方法的流程图；
[0061]
图3示出本公开示例性实施例在深度确定性策略梯度算法的训练过程中引入加权目标函数和双延迟网络的示意图。
具体实施方式
[0062]
现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
[0063]
此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
[0064]
本示例实施方式中提供了一种无人舰艇协同巡航的路径规划方法，参照图1所示，该方法可以包括以下步骤：
[0065]
步骤s101：构建无人舰艇协同巡航的路径规划系统模型；其中，该无人舰艇协同巡航的路径规划系统模型包括多个无人舰艇在任意时刻的状态集合，多个无人舰艇在任意时刻的动作集合，以及多个无人舰艇得到的环境反馈；
[0066]
步骤s102：利用深度确定性策略梯度算法对无人舰艇协同巡航的路径规划系统模型进行训练；在训练过程中引入加权目标函数和双延迟网络，同时将得到的训练结果进行更新，得到多个无人舰艇的协同巡航策略；
[0067]
步骤s103：将得到的多个无人舰艇的协同巡航策略部署于真实任务环境中。
[0068]
本实施例中提出一种无人舰艇协同巡航的路径规划方法，该路径规划方法通过在
深度确定性策略梯度算法的训练过程中引入加权目标函数和双延迟网络，从而能够缓解深度确定性策略梯度算法训练过程中的值函数过估计问题，又避免了低估计问题，提升了算法的最终性能，提高了无人舰艇协同巡航策略的效率和质量。
[0069]
下面，对本示例实施方式中的计算方法的各个步骤进行更详细的说明。
[0070]
深度确定性策略梯度算法(deep deterministic policy gradient，ddpg)，在解决无人舰艇协同巡航路径规划问题时，能够利用无人舰艇与环境持续性不间断的交互，根据环境反馈的奖惩信息，来不断调整自身的行为策略，最终学习得到最优策略。但该算法在训练过程中存在过估计问题，降低了算法的学习效率和最终性能。本公开通过在该算法的训练过程中引入加权目标函数和双延迟网络，能够帮助缓解过估计问题，同时又可以避免地估计问题，从而优化该算法生成的无人舰艇协同巡航策略。具体如下：
[0071]
如图2所示，在步骤s101中，构建无人舰艇协同巡航的路径规划系统模型。
[0072]
在该步骤中，是以多个水上无人舰艇在复杂战场环境中，如何使尽可能多水上无人舰艇的到达目标地点为例，描述本公开提出的无人舰艇协同巡航的路径规划方法。
[0073]
水上无人舰艇担负管控区域内的巡航任务，依据巡逻侦查计划，水上无人舰艇从预设海域集结出发，复杂海域环境中存在若干未知位置岛礁障碍，多个水上无人舰艇需要在复杂环境中自行协同巡航，在有限时间内到达尽可能多的目标地点，完成管控海域内的巡逻侦察任务。
[0074]
在本示例实施方式中，水上无人舰艇共分为3组，每一组代表一个行动单位。事先将3组水上无人舰艇部署于指定区域的西北角；将巡航总时长预设为5000个时间步长；并模仿真实海上战场环境预设了100个目标地点。此次协同巡航任务的终止条件达到巡航巡航总时长，或者水上无人舰艇到达并侦察所有预设目标地点。
[0075]
这样，在任意时刻t的环境状态集合s
t
为：s
t
＝{x1,y1,x2,y2,x3,y3}，其中，x和y分别表示每组无人舰艇的在环境中所处位置的横坐标和纵坐标，这里虽然仅用来表示无人舰艇的位置，但环境状态集合s
t
可以包括多种环境因素，例如无人艇当前位置水流流向、水流流速、能见度、风速等。下标1,2,3分别代表3组水上无人舰艇的编号。各维度状态变量的取值范围为：x∈[0,10000]，y∈[0,10000]。
[0076]
多个无人舰艇根据环境状态集合s
t
中各自对应的状态做出的相应动作组成的动作集合a
t
为，a
t
＝{move1,move2,move3,move4,mov5e,mov6e,mov7e,mov8e}，其中，move1表示无人舰艇的机动动作向正东方向前进；move2表示无人舰艇的机动动作向东南方向前进；move3表示无人舰艇的机动动作向正南方向前进；move4表示无人舰艇的机动动作向西南方向前进；move5表示无人舰艇的机动动作向正西方向前进；move6表示无人舰艇的机动动作向西北方向前进；move7表示无人舰艇的机动动作向正北方向前进；move8无人舰艇的机动动作向东北方向前进；机动动作的取值范围包括move∈[0,50]，将整个指定区域看做一个坐标系，0表示无动作，50表示共划分为50个行动分区。
[0077]
得到的环境反馈r
t
包括：
[0078]
水上无人舰艇到达任一目标地点的奖励：r
t
＝+100；
[0079]
水上无人舰艇碰到障碍的惩罚：r
t
＝-50；
[0080]
水上无人舰艇触碰边界的惩罚：r
t
＝-1000；
[0081]
水上无人舰艇相碰的惩罚：r
t
＝-100。
[0082]
如图3所示，在步骤s102中，利用深度确定性策略梯度算法对无人舰艇协同巡航的路径规划系统模型进行训练；在训练过程中引入加权目标函数和双延迟网络，同时将得到的训练结果进行更新，得到多个无人舰艇的协同巡航策略。
[0083]
在该步骤中，该无人舰艇协同巡航的路径规划系统模型的训练过程中包括多个参数：
[0084]
三个评价网络，包括q(s
t
,a
t
|θ1)，q(s
t
,a
t
|θ2)，q(s
t
,a
t
|θ3)；可以简写为q
θ1
，q
θ2
，q
θ3
；
[0085]
一个行动网络u(s
t
|φ)；可以简写为u
φ
；
[0086]
三个目标评价网络，多个所述目标评价网络包括
[0087]
一个目标行动网络u
φ'
；
[0088]
这些网络均采用包含2个隐含层(64个神经元)的全连接神经网络。
[0089]
记忆存储单元r，该记忆存储单元r的容量为m＝10000；折扣系数为γ＝0.99，批处理容量大小为c＝32，截断系数为η＝0.5，权重稳定系数为β＝1；参数复制间隔为d＝5，参数复制系数为τ＝0.5，噪声为ε，循环时间为t＝20000。
[0090]
多个无人舰艇的协同巡航策略的过程包括:
[0091]
将多个参数初始化；
[0092]
为动作a
t
选择初始化噪声ε，噪声ε服从分布，其中，～表示服从的意思；clip表示裁剪；表示正态分布；
[0093]
初始化时刻t＝1，接受无人舰艇的初始状态s1；
[0094]
根据行动网络u
φ
和噪声ε，得到无人舰艇选择的动作a
t
，a
t
＝u
φ
(s)+ε；
[0095]
执行动作a
t
，观察新的环境状态s
t’，得到环境反馈r
t
；
[0096]
向记忆存储单元r中存储数据(s
t
,a
t
,s
t’,r
t
)；从记忆存储单元r中进行随机采样，得到采样组数据(si,ai,s
i’,ri)，i＝1,2,...,32；
[0097]
选择下一时刻动作a
t+1
＝u
φ'
(r
t
)+ε；
[0098]
令
[0099]
此处引入加权目标函数和双延迟网络，通过最小化损失法
[0100]
分别更新多个评价网络和其中，
[0101]
更新所述q(s
t
,a
t
|θ1)评价网络：
[0102]
更新所述q(s
t
,a
t
|θ2)评价网络：
[0103]
更新所述q(s
t
,a
t
|θ3)评价网络：
[0104]
其中，
←
表示赋值运算的意思，这里赋值运算的意思是指将
←
右边部分值大小赋予
←
左边部分。
[0105]
若t时刻的大小等于循环时间20000，根据行动网络u
φ
，得到多个无人舰艇的协同
巡航策略，协同巡航策略的公式为：其中，s
t
表示环境状态，φ表示行动网络u
φ
的网络参数，π表示最终输出策略；a表示动作a
t
的集合，u(s
t
|φ)表示表示环境状态集合s
t
的行动网络，简写为u
φ
。
[0106]
当t时刻能够整除所述参数复制间隔5时，则还需进行如下步骤：
[0107]
利用深度确定性策略梯度的算法公式：
[0108]
更新行动网络u
φ
；c表示批处理容量大小，
▽
为求导，a
t
表示动作，q
θi
(s
t
,a
t
)表示评价网络，u
φ
(s
t
)表示环境状态集合s
t
的行动网络；
▽
φ
j(φ)表示深度确定性策略梯度；
[0109]
分别更新多个目标评价网络和所述目标行动网络u
φ'
的参数，其中，
[0110][0111]
φ
t+1
←
0.5φ
t
+0.5φ
t
；
[0112]
←
表示赋值的意思；这里赋值运算的意思是指将
←
右边部分值大小赋予
←
左边部分。
[0113]
若t时刻的大小不等于循环时间20000，则需要在t+1时刻起返回至步骤根据所述行动网络u
φ
和所述噪声ε，得到无人舰艇选择的动作a
t
，所述a
t
＝u
φ
(s
t
)+ε，继续进行训练过程，直至某一时刻的大小等于循环时间20000，则得到多个无人舰艇的协同巡航策略
[0114]
需要说明的是，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。另外，也易于理解的是，这些步骤可以是例如在多个模块/进程/线程中同步或异步执行。
[0115]
应当注意，尽管在上文详细描述中提及了用于动作执行的系统的若干单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。可以根据实际的需要选择其中的部分或者全部单元来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。
[0116]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐志雄李爱玲陈希亮苟小涛李子敬井塬塬王婧李方
技术所有人：中国人民解放军陆军边海防学院
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、唐老师：1.高效节能装备 2.流动稳定性 3.汽车流场分析和淀粉糖工艺技术。
2、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
3、王老师：电子信息处理、先进检测方法和智能化仪表
4、周老师：1.智能电网 2.新能源利用 3.泛在电力物联网
5、赵老师：检测与控制技术、机器人技术、机电一体化技术
如您是高校老师，可以点此联系我们加入专家库。