一种路径规划方法及装置与流程

文档序号:29623484发布日期:2022-04-13 13:51阅读:126来源:国知局
一种路径规划方法及装置与流程

1.本发明涉及数据处理技术领域,尤其涉及一种路径规划方法及装置。


背景技术:

2.路径规划问题是实现智能设备自主移动的核心组成部分,以实现智能设备在最少的时间或最短的距离等优化目标下,在预设的区域范围内找到一条从起点到终点的最优路径为目标。
3.在密集场景中,路径规划变得更加困难:大量的障碍物不仅会带来较大的观测空间,而且还要求智能体更加快速的去实施路径规划和实时避障。对于一条全局路径来说,密集场景下往往需要躲避很多个障碍物,这就需要大量的时间探索环境学习避障行为,导致收敛时间慢甚至出现不收敛的情况,从而进一步导致了路径规划的准确率不高。
4.综上所述,现有的路径规划方法在密集场景中存在避障准确率不高的问题。


技术实现要素:

5.本发明实施例提供一种路径规划方法及装置,提高了在密集场景中进行避开障碍的准确率。
6.本技术实施例的第一方面提供了一种路径规划方法,包括:
7.获取待规划智能设备分别与多个第一障碍物之间的多个第一相对距离;
8.根据局部感知条件从多个第一相对距离中筛选得到第二相对距离后,将第二相对距离设为局部环境状态并输入至神经网络中,以使神经网络根据局部环境状态对待规划智能设备进行路径规划。
9.在第一方面的一种可能的实现方式中,将第二相对距离设为局部环境状态并输入至神经网络中,以使神经网络根据局部环境状态对待规划智能设备进行路径规划,具体为:
10.神经网络包括:决策网络和价值网络;
11.将第二相对距离设为局部环境状态并输入决策网络中,以使决策网络根据局部环境状态计算得到决策行为;
12.根据决策行为控制待规划智能设备进行移动后,当判定决策行为为避障行为时,通过价值网络增强学习决策行为,并赋予决策行为第一奖励值;
13.将第一奖励值输入至价值网络中,以使价值网络计算决策行为的策略评估值;
14.根据策略评估值更新决策网络和价值网络,直至待规划智能设备到达目标位置,完成对待规划智能设备的路径规划。
15.在第一方面的一种可能的实现方式中,判定决策行为为避障行为,具体为:
16.若继续执行历史移动行为将会撞到第一障碍物、且执行决策行为不会撞到第一障碍物,则判定决策行为为避障行为;否则,判定决策行为不是避障行为。
17.在第一方面的一种可能的实现方式中,还包括:
18.获取待规划智能设备的实时移动方向,并根据实时移动方向和目标位置,计算移
动角度;
19.根据移动角度和预设约束角度,计算得到第二奖励值;
20.当移动角度小于预设角度时,赋予移动角度第二奖励值。
21.在第一方面的一种可能的实现方式中,根据局部感知条件和多个第一相对距离,得到第二相对距离,具体为:
22.局部感知条件包括:第一预设数值;
23.当判定第一相对距离小于第一预设数值时,将第一相对距离作为第二相对距离并获取。
24.本技术实施例的第二方面提供了一种路径规划装置,包括:获取模块和规划模块;
25.其中,获取模块用于获取待规划智能设备分别与多个第一障碍物之间的多个第一相对距离;
26.规划模块用于根据局部感知条件从多个第一相对距离中筛选得到第二相对距离后,将第二相对距离设为局部环境状态并输入至神经网络中,以使神经网络根据局部环境状态对待规划智能设备进行路径规划。
27.在第二方面的一种可能的实现方式中,将第二相对距离设为局部环境状态并输入至神经网络中,以使神经网络根据局部环境状态对待规划智能设备进行路径规划,具体为:
28.神经网络包括:决策网络和价值网络;
29.将第二相对距离设为局部环境状态并输入决策网络中,以使决策网络根据局部环境状态计算得到决策行为;
30.根据决策行为控制待规划智能设备进行移动后,当判定决策行为为避障行为时,通过价值网络增强学习决策行为,并赋予决策行为第一奖励值;
31.将第一奖励值输入至价值网络中,以使价值网络计算决策行为的策略评估值;
32.根据策略评估值更新决策网络和价值网络,直至待规划智能设备到达目标位置,完成对待规划智能设备的路径规划。
33.在第二方面的一种可能的实现方式中,判定决策行为为避障行为,具体为:
34.若继续执行历史移动行为将会撞到第一障碍物、且执行决策行为不会撞到第一障碍物,则判定决策行为为避障行为;否则,判定决策行为不是避障行为。
35.在第二方面的一种可能的实现方式中,还包括:
36.获取待规划智能设备的实时移动方向,并根据实时移动方向和目标位置,计算移动角度;
37.根据移动角度和预设约束角度,计算得到第二奖励值;
38.当移动角度小于预设角度时,赋予移动角度第二奖励值。
39.在第二方面的一种可能的实现方式中,根据局部感知条件和多个第一相对距离,得到第二相对距离,具体为:
40.局部感知条件包括:第一预设数值;
41.当判定第一相对距离小于第一预设数值时,将第一相对距离作为第二相对距离并获取。
42.相比于现有技术,本发明实施例提供的一种路径规划方法及装置,所述方法包括:先通过获取待规划智能设备分别与多个第一障碍物之间的多个第一相对距离;再根据局部
感知条件从多个第一相对距离中筛选得到第二相对距离后,将第二相对距离设为局部环境状态并输入至神经网络中,以使神经网络根据局部环境状态对待规划智能设备进行路径规划。
43.其有益效果在于:本发明实施例根据局部感知条件筛选得到第二相对距离后,将第二相对距离设为局部环境状态并输入至神经网络中,不仅保留了关键的环境状态,而且降低了环境的复杂度,在高密度障碍物的场景中,能够减少待规划智能设备环境学习避障行为的时间,提高神经网络的收敛效率和实时性,最终提高了待规划智能设备避障的准确性。
44.其次,本发明实施例通过添加角度约束的方式来引入全局引导的方式,从全局环境下指导待规划智能设备,当移动角度超过预设约束角度时,给予一定的惩罚,而当移动角度小于预设约束角度时,给予适当的奖励,让待规划智能设备逐渐学习以固定范围的角度移动,能够有效避免待规划智能设备陷入局部环境中无法前进。
45.再者,本发明实施例从决策行为中筛选出避障行为后,强化避障行为,赋予避障行为相应的奖励值,使待规划智能设备快速记忆并学会如何避障。
46.最后,本发明实施例通过计算奖励值,以接近目标位置为优化目标,实现了在每一步决策行为中除避障行为外都径直向着目标位置出发,以使最终规划出的路线不仅平滑且更短,以使待规划智能设备能够快速到达目标位置,提高了移动效率。
附图说明
47.图1是本发明一实施例提供的一种路径规划方法的流程示意图;
48.图2是本发明一实施例提供的移动角度示意图;
49.图3是本发明一实施例提供的一种路径规划装置的结构示意图。
具体实施方式
50.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
51.参照图1,是本发明一实施例提供的一种路径规划方法的流程示意图,包括:s101-s102:
52.s101:获取待规划智能设备分别与多个第一障碍物之间的多个第一相对距离。
53.优选地,所述第一障碍物为密集场景中的障碍物。
54.s102:根据局部感知条件从多个第一相对距离中筛选得到第二相对距离后,将第二相对距离设为局部环境状态并输入至神经网络中,以使神经网络根据局部环境状态对待规划智能设备进行路径规划。
55.具体地,在具有高密度障碍物的场景中,若将第一相对距离作为环境状态便会产生较大的状态空间,但对于智能体(即待规划智能设备)而言,不同距离障碍物的影响力是不同的:距离待规划智能设备较远的障碍物不可能在下一步中与智能体发生碰撞行为。所以以局部感知条件的从多个第一相对距离中筛选得到第二相对距离,而第二相对距离为较
近的障碍物与待规划智能设备之间的相对距离。将第二相对距离设为局部环境状态并输入至神经网络中,不仅保留了关键的环境状态,而且降低了环境的复杂度,在高密度障碍物的场景中,能够减少待规划智能设备环境学习避障行为的时间,提高神经网络收敛效率和实时性,最终提高了待规划智能设备避障的准确性。
56.在本实施例中,所述将所述第二相对距离设为局部环境状态并输入至神经网络中,以使所述神经网络根据所述局部环境状态对所述待规划智能设备进行路径规划,具体为:
57.所述神经网络包括:决策网络和价值网络;
58.将所述第二相对距离设为局部环境状态并输入所述决策网络中,以使所述决策网络根据所述局部环境状态计算得到决策行为;
59.根据所述决策行为控制所述待规划智能设备进行移动后,当判定所述决策行为为避障行为时,通过所述价值网络增强学习所述决策行为,并赋予所述决策行为第一奖励值;
60.将所述第一奖励值输入至所述价值网络中,以使所述价值网络计算所述决策行为的策略评估值;
61.根据所述策略评估值更新所述决策网络和所述价值网络,直至所述待规划智能设备到达目标位置,完成对所述待规划智能设备的路径规划。
62.具体地,决策行为包括待规划智能设备的预设前进距离,预设前进距离可由以下坐标表示:
63.a(step*a[0],step*a[1]);
[0064]
其中,a代表决策行为;step为预先设置的固定步长,用于缩放动作空间;待规划智能设备的预设前进距离包括:在x方向上的移动距离step*a[0]和在y方向上的移动距离step*a[1]。
[0065]
在一具体实施例中,将所述第二相对距离设为局部环境状态并输入所述决策网络中,具体为:
[0066]
将所述第二相对距离进行归一化处理过后设为局部环境状态并输入所述决策网络中,其中,归一化处理如下所示:
[0067][0068][0069]
其中,第二相对距离包括在x方向上的第二相对距离和在y方向上的第二相对距离[x0,y0]为待规划智能设备的坐标位置,[xi,yi]为第一障碍物的坐标位置,w为环境的宽度,h为环境的高度。
[0070]
在一具体实施例中,所述判定所述决策行为为避障行为,具体为:
[0071]
若继续执行历史移动行为将会撞到所述第一障碍物、且执行所述决策行为不会撞到所述第一障碍物,则判定所述决策行为为避障行为;否则,判定所述决策行为不是避障行为。
[0072]
具体为:在执行每一步移动行为之前将上一步移动行为(即历史移动行为)记为a
t-1
。在当前的环境状态下,将a
t-1
与当前的决策行为a
t
进行比较。若在当前状态执行上一步移动行为会发生碰撞,但执行本次移动行为(即决策行为)是不会发生碰撞,则判定本次移动行为是避障行为,完成避障行为的筛选。
[0073]
根据局部感知条件从多个第一相对距离中筛选得到第二相对距离后,将第二相对距离设为局部环境状态并输入至神经网络中,进行了环境的局部观测,即待规划智能设备只是与周围小范围的环境进行交互,但对于路径规划问题来说,所求的是一个全局的路径,局部范围的环境交互难以实现全局路径的探索。所以需要通过添加角度约束的方式来引入全局引导的方式,旨在从全局环境下指导待规划智能设备的行为。角度约束的方式具体为:获取所述待规划智能设备的实时移动方向,并根据所述实时移动方向和目标位置,计算移动角度;根据所述移动角度和预设约束角度,计算得到第二奖励值;当所述移动角度小于所述预设角度时,赋予所述移动角度所述第二奖励值。
[0074]
进一步地,待规划智能设备通过探索环境逐步寻找可行路径,以角度约束的方式对智能体的移动方向进行限制,当移动角度超过预设约束角度时,给予一定的惩罚,而当移动角度小于预设约束角度时,给予适当的奖励,让待规划智能设备逐渐学习以固定范围的角度移动。
[0075]
具体地,第二奖励值的计算过程可由以下公式表示:
[0076]
r=(15-θ)*γ;
[0077]
其中,r为第二奖励值,15为预设约束角度,θ为移动角度,γ为比例因子,则(15-θ)代表夹角。当夹角越小,前进方向越靠近目标方向,奖励值越大;当夹角越大,则奖励值越小。
[0078]
进一步地,当夹角大于设定角度差时,则给予惩罚,夹角越大惩罚越高。
[0079]
在本实施例中,所述根据局部感知条件和多个所述第一相对距离,得到第二相对距离,具体为:
[0080]
所述局部感知条件包括:第一预设数值;
[0081]
当判定所述第一相对距离小于所述第一预设数值时,将所述第一相对距离作为所述第二相对距离并获取。
[0082]
在本实施例中,将路径规划问题建模为强化学习问题,以序列决策的方式实现全局路径规划。具体表现为:待规划智能设备获取环境状态,通过决策网络做出决策行为(决策行为包括:预设前进距离和预设前进方向),根据决策行为控制待规划智能设备进行移动,环境状态发生改变,则将改变的环境状态再次输入决策网络,重复上述决策过程直至待规划智能设备到达目标位置。
[0083]
在无模型的强化学习中,状态之间的转移概率并不确定,学习过程主要由策略评估和策略改善组成。1、策略评估:对当前策略进行评价,一般采用计算值函数的方式,包括状态值函数和行为值函数,采用随机样本估计值作为评价标准。以神经网络拟合价值函数,直接输出具体的价值,然后通过更新网络参数缩小其与实际价值的差距。2、策略改善:得到策略评估值之后,根据评估值进行更新策略,逐步改善策略,使其能够获得更高的价值,改善过程具体映射为网络参数的更新。
[0084]
网络更新:本发明实施例所使用的神经网络主要包括两部分:决策网络和价值网
络。决策网络用于输出决策行为,价值网络用于评估决策行为。决策网络和价值网络都采用梯度下降的方式更新网络。
[0085]
决策网络的参数梯度如下所示:
[0086][0087]
其中,为价值梯度,该参数来源于价值网络,以最大化价值为更新目标。进一步地,si为第i时刻的环境状态,ai为第i时刻的动作,θq为第i时刻的网络参数,m为样本数量,n为每次从经验池中抽取的样本数量。由于采用梯度下降的方式,故以负梯度作为更新实现价值的最大化。
[0088]
价值网络的参数梯度如下所示:
[0089][0090]
其中,yi=ri+γq

(s
i+1
,a
i+1
|θq′
)表示为当前时刻的价值标准,ri表示为当前时刻环境反馈的奖励值。网络以最小化目标值的差距为更新目标。进一步地,s
i+1
为第i+1时刻的环境状态,a
i+1
为第i+1时刻的动作,θ
q’为第i+1时刻的网络参数,m为样本数量,n为每次从经验池中抽取的样本数量。
[0091]
为了进一步说明移动角度的计算过程,请参照图2,图2是本发明一实施例提供的移动角度示意图。
[0092]
其中,a[x,y]表示决策行为,(x0,y0)表示待规划智能设备的出发位置,(xi,yi)表示待规划智能设备的目标位置。
[0093]
则移动角度θ的计算由以下公式表示:
[0094]
θ=arctan y/x-arctan(y
i-y0)/(x
i-x0);
[0095]
其中,x表示待规划智能设备在x方向上移动的距离,y表示待规划智能设备在y方向上移动的距离,(xi-x0)、(yi-y0)代表着待规划智能设备的实时移动方向。
[0096]
为了进一步说明路径规划装置,请参照图3,图3是本发明一实施例提供的一种路径规划装置的结构示意图,包括:获取模块301和规划模块302;
[0097]
其中,所述获取模块301用于获取待规划智能设备分别与多个第一障碍物之间的多个第一相对距离。
[0098]
所述规划模块302用于根据局部感知条件从多个所述第一相对距离中筛选得到第二相对距离后,将所述第二相对距离设为局部环境状态并输入至神经网络中,以使所述神经网络根据所述局部环境状态对所述待规划智能设备进行路径规划。
[0099]
在本实施例中,所述将所述第二相对距离设为局部环境状态并输入至神经网络中,以使所述神经网络根据所述局部环境状态对所述待规划智能设备进行路径规划,具体为:
[0100]
所述神经网络包括:决策网络和价值网络;
[0101]
将所述第二相对距离设为局部环境状态并输入所述决策网络中,以使所述决策网络根据所述局部环境状态计算得到决策行为;
[0102]
根据所述决策行为控制所述待规划智能设备进行移动后,当判定所述决策行为为
避障行为时,通过所述价值网络增强学习所述决策行为,并赋予所述决策行为第一奖励值;
[0103]
将所述第一奖励值输入至所述价值网络中,以使所述价值网络计算所述决策行为的策略评估值;
[0104]
根据所述策略评估值更新所述决策网络和所述价值网络,直至所述待规划智能设备到达目标位置,完成对所述待规划智能设备的路径规划。
[0105]
在本实施例中,所述判定所述决策行为为避障行为,具体为:
[0106]
若继续执行历史移动行为将会撞到所述第一障碍物、且执行所述决策行为不会撞到所述第一障碍物,则判定所述决策行为为避障行为;否则,判定所述决策行为不是避障行为;其中,所述历史移动行为为所述决策行为的前一个移动行为。
[0107]
在本实施例中,还包括:
[0108]
获取所述待规划智能设备的实时移动方向,并根据所述实时移动方向和目标位置,计算移动角度;
[0109]
根据所述移动角度和预设约束角度,计算得到第二奖励值;
[0110]
当所述移动角度小于所述预设角度时,赋予所述移动角度所述第二奖励值。
[0111]
在本实施例中,所述根据局部感知条件和多个所述第一相对距离,得到第二相对距离,具体为:
[0112]
所述局部感知条件包括:第一预设数值;
[0113]
当判定所述第一相对距离小于所述第一预设数值时,将所述第一相对距离作为所述第二相对距离并获取。
[0114]
本发明实施例先通过获取模块获取待规划智能设备分别与多个第一障碍物之间的多个第一相对距离;再通过规划模块根据局部感知条件从多个第一相对距离中筛选得到第二相对距离后,将第二相对距离设为局部环境状态并输入至神经网络中,以使神经网络根据局部环境状态对待规划智能设备进行路径规划。
[0115]
本发明实施例根据局部感知条件筛选得到第二相对距离后,将第二相对距离设为局部环境状态并输入至神经网络中,不仅保留了关键的环境状态,而且降低了环境的复杂度,在高密度障碍物的场景中,能够减少待规划智能设备环境学习避障行为的时间,提高神经网络的收敛效率和实时性,最终提高了待规划智能设备避障的准确性。
[0116]
其次,本发明实施例通过添加角度约束的方式来引入全局引导的方式,从全局环境下指导待规划智能设备,当移动角度超过预设约束角度时,给予一定的惩罚,而当移动角度小于预设约束角度时,给予适当的奖励,让待规划智能设备逐渐学习以固定范围的角度移动,能够有效避免待规划智能设备陷入局部环境中无法前进。
[0117]
再者,本发明实施例从决策行为中筛选出避障行为后,强化避障行为,赋予避障行为相应的奖励值,使待规划智能设备快速记忆并学会如何避障。
[0118]
最后,本发明实施例通过计算奖励值,以接近目标位置为优化目标,实现了在每一步决策行为中除避障行为外都径直向着目标位置出发,以使最终规划出的路线不仅平滑且更短,以使待规划智能设备能够快速到达目标位置,提高了移动效率。
[0119]
以上是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1