一种基于目标驱动的机器人环境感知方法

文档序号:31095048发布日期:2022-08-10 00:43阅读:来源:国知局

技术特征:
1.一种基于目标驱动的机器人环境感知方法,其特征在于,包括如下步骤:实时获取采集的环境信息;基于获取的环境信息更新现场地图和地图中的poi信息,并根据距离有限勘探评价方法在跟新后的poi信息中选择最佳路径点形成最优路径;将感知信息输入基于近端策略优化的深度神经网络中生成行为策略,并根据环境返回的奖赏值进行策略优化,所述感知信息包括环境信息、最优路径和机器人当前状态和动作;根据优化后的行为策略进行运动,直至到达预设的全局目标。2.根据权利要求1所述的一种基于目标驱动的机器人环境感知方法,其特征在于,所述更新地图中的poi信息中确定poi的方法,具体包括如下步骤:获取以机器人为中心的未访问区域的激光点信息;若两个连续激光点读数的差值大于预设阈值,则在两个探测点间添加poi点,所述预设阈值不小于机器人的尺寸大小;若连续n个激光读数返回的均为非数值即探测区域超出激光探测设备的探测范围,其中n>5,则在探测区域内添加poi点。3.根据权利要求2所述的一种基于目标驱动的机器人环境感知方法,其特征在于,所述更新地图中的poi信息后,对内存中存储的poi信息进行对应调整。4.根据权利要求1所述的一种基于目标驱动的机器人环境感知方法,其特征在于,根据信息的距离有限勘探评价方法从跟新后的poi信息中选择最佳路径点形成最优路径,具体包括如下步骤:计算跟新后的每个poi的适应度,公式如下:式中,d(p
t
,c
i
)是机器人在当前时间步长上的位置p与候选点之间的欧几里德距d,d(c
i
,g)是候选点与全局目标之间g的欧几里德距离,为在t时间点地图信息的得分;根据每个poi的适应度的得分进行排序,将得分最少的poi点作为最佳路径点。5.根据权利要求1所述的一种基于目标驱动的机器人环境感知方法,其特征在于,将感知信息输入基于近端策略优化的深度神经网络中生成行为策略,并根据环境返回的奖赏值进行策略优化,具体包括如下步骤:所述行为策略的表达式为:式中,j(θ)为θ的似然函数,为时刻t对于优势函数的估计,它表示此时在状态s
t
下采取动作a
t
所能获得的优势,clip

(x)=clip(x,1-∈,1+∈)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(7)其中,clip函数表示当括号内的第一项小于第二项时,一直输出第二项的值,当第一项大于第三项时,一直输出第三项的值,r
t
(θ)为概率比例,具体表示为:其中π
θ

为行为策略概率,π
θ
为目标策略概率,s
t
表示t时刻的状态,a
t
表示t时刻采取的
动作,策略的奖励函数如下式所示:其中,d
t
表示t时刻与目标的距离,状态动作对(s
t
,a
t
)在时间步的报酬r取决于三个条件:如果当前时间步长t与目标的距离小于阈值η
d
,则获得正向奖励r
g
;如果检测到碰撞,则获得负向奖励r
c
;如果这两个条件都不存在,则根据当前线性速度v和角速度ω立即给予奖励,为了引导行为策略朝向目标,采用延迟属性奖励法进行以下计算:其中n是更新奖励的先前步骤数。

技术总结
本发明公开一种基于目标驱动的机器人环境感知方法,包括如下步骤:实时获取采集的环境信息;基于获取的环境信息更新现场地图和地图中的POI信息,并根据距离有限勘探评价方法从跟新后的POI信息中选择最佳路径点形成最优路径;将感知信息输入基于近端策略优化的深度神经网络中生成行为策略,并根据环境返回的奖赏值进行策略优化,所述感知信息包括环境信息、最优路径和机器人当前状态和动作;根据优化后的行为策略进行运动,直至到达预设的全局目标。本发明在实际中部署更容易,且在复杂的静态和动态环境下,不需要依赖地图或先验信息。息。息。


技术研发人员:吴迪 帅文轩 黄梦醒 冯子凯 毋媛媛 冯思玲 周家昊 施之羿 张宏瑞
受保护的技术使用者:海南大学
技术研发日:2022.04.14
技术公布日:2022/8/9
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1