本发明属于智能体路径规划领域,尤其涉及一种移动机器人的人群导航方法。
背景技术:
1、在医院、机场、商场等场所,移动机器人能够提供导引、咨询和其他辅助服务,提高服务效率和用户体验。但现有的机器人在人群中导航时多未考虑到行人感受与反应,现有机器人在人群中导航时完全不顾路人的心理感受鲁莽地“横冲直撞”,或者在遇见行人时不顾行驶效率的停下来等待。导致了现有移动机器人难以有效、和谐地融入人群。移动机器人导航技术的研究和应用,促进了人工智能、机器人学和人机交互等领域的发展,推动了科技的进步和创新。此外,随着技术的成熟和市场的扩大,移动机器人产业将催生显著的经济效益,未来社会将步入人机深度融合、高度协作的新纪元。移动机器人导航技术作为智能化社会构建的基石之一,将得到更加广泛的应用,从而创造新的就业机会和经济增长点。总体而言,移动机器人导航技术展现出了极为广阔的应用前景与深远的社会意义。
2、移动机器人人群导航面临的核心挑战主要在以下三个方面:首先,机器人在执行导航任务时需要确保行人行走的舒适度,机器人导航不能侵犯行人的舒适空间,那么如何为行人建立合适的安全空间来保证行人的舒适度是一个挑战,这需要结合心理学、社会学、人际关系学等众多学科来为行人建立合适的空间模型。其次是如何高效快速地对行人轨迹进行准确的预测,目前虽然已经有许多行人轨迹预测方法,但是这些算法本身已经非常消耗算力了,再让机器人利用预测的轨迹进行规划,机器人的计算能力不足,而且这些行人轨迹预测地算法很少考虑机器人对行人轨迹的影响,预测结果偏差较大,现有的行人轨迹预测算难以适用于移动机器人的人群导航应用,且现有的基于学习的方法大多仅仅将行人建模为一个简单的圆形,只考虑了行人的物理空间,忽略了行人的视觉以及社交空间,机器人导航时无法保证行人的舒适度。再者,大多数的研究在训练神经网络时忽略了时序因素,只考虑空间结构,这会导致需练出来的网络短视,无法做出较长的时间步的预测。
3、因此,需要建立一个新的模型来对行人未来状态地估计预测:使机器人在当前地环境下输出正确的动作,且保证机器人在行走时走的平,走地稳、轨迹平滑、并能在有限的时间完成任务不超时。
4、申请号为202311521198.3的发明公开了一种基于sac(soft actor-critic)和神经回路策略的机器人控制方法、电子设备及存储介质,将机器人控制与强化学习中sac算法相结合,摆脱了传统控制算法对模型的限制。但上述发明没有对人群进行建模,忽略了机器人的社交属性,无法在机器人导航时无法保证行人的舒适度。
技术实现思路
1、针对现有移动机器人导航算法在人群中无法兼顾行人行走舒适度和导航性能的技术问题,本发明提出一种基于异构神经回路策略的移动机器人的人群导航方法,通过在异构神经回路策略网络模型中设计了四个ncp(neural circuit policies)组件用于提取周围环境的信息特征,使机器人在空间域中看的更细,在时间域中看得更远,在复杂的人群环境中实现更加高效的导航。
2、为了达到上述目的,本发明的技术方案是这样实现的:
3、一种基于异构神经回路策略的移动机器人的人群导航方法,包括以下步骤:
4、s1、通过时空图构建模块构建时空图;通过雷达数据采集转换模块将雷达扫描采集的原始局部地图数据转换成栅格地图数据;
5、s2、构建异构神经回路策略网络模型,将时空图和和栅格地图数据输入到异构神经回路策略网络模型中,异构神经回路策略网络模型输出机器人在当前环境状态下最优价值的动作;
6、所述异构神经回路策略网络模型包括多层感知机mlp1、多层感知机mlp2、多层感知机mlp3和cnn神经网络,多层感知机mlp1与神经回路策略ncp网络ncp1连接,多层感知机mlp2与神经回路策略ncp网络ncp2连接,cnn神经网络依次与多层感知机mlp4、神经回路策略ncp网络ncp3连接,神经回路策略ncp网络ncp1和神经回路策略ncp网络ncp2接入至注意力机制网络,注意力机制网络与多层感知机mlp5连接,多层感知机mlp5、神经回路策略ncp网络ncp2、多层感知机mlp3和神经回路策略ncp网络ncp3接入至多层感知机mlp6连接,多层感知机mlp6依次与神经回路策略ncp网络ncp4、actor-critic网络连接;
7、s3、设计用于指导异构神经回路策略网络模型朝正确的方向优化的奖励函数,所述奖励函数包括机器人接近或到达目标点时的奖励、机器人碰撞惩罚、机器人与行人保持舒适的互动距离的奖励;
8、s4、搭建强化学习交互的仿真环境训练异构神经回路策略网络模型,采用并行ppo算法加速异构神经回路策略网络模型的训练速度直到训练完成,将训练好的异构神经回路策略网络模型应用于实际场景中,移动机器人将每一决策时刻接收到的环境状态输入到训练好的异构神经回路策略网络模型,训练好的异构神经回路策略网络模型输出每一决策时刻对应的最优价值动作,移动机器人在现实人群中执行每一决策时刻对应的最优价值的动作进行导航。
9、优选地,所述时空图的结构为:
10、g=(v,e,a)
11、
12、e=ehr={er-h1,er-h2,...,er-hm}
13、a=err={er-r}
14、g为静态图,v表示机器人和行人节点集合,e表示空间边集合,a表示时间边集合,为机器人节点r的特征向量,表示第m个行人节点的特征向量,ehr表示输入编码向量,er-hm表示第m个行人与机器人的相对位置关系,err={er-r}表示机器人的速度;
15、所述时空图中所有空间边参数共享。
16、优选地,将雷达扫描采集的原始局部地图数据转换成栅格地图数据的方法为:根据三角函数x=r*cos(θ)、y=r*sin(θ)将原始局部地图数据中的极坐标数据(r,θ)转换为笛卡尔坐标系中的(x,y)坐标点;根据机器人在全局坐标系中的位置和朝向,将(x,y)坐标点进行坐标系统一,映射到预先设定的栅格地图分辨率;映射后的(x,y)坐标点在栅格地图上形成了障碍物的边界轮廓线,使用基于队列的算法,从边界轮廓点出发,以边界点为起点,在每次迭代中检查相邻栅格单元,当遇到空闲区域时将其标记为障碍物并加入队列,一直扩展到遇到新的边界为止,逐步扩展标记内部栅格。
17、优选地,所述神经回路策略ncp网络ncp1、神经回路策略ncp网络ncp2、神经回路策略ncp网络ncp3与神经回路策略ncp网络ncp4网络架构与组成相同,网络架构均有四层,分别是ns个感觉神经元、ni个中间神经元、nc个命令神经元以及nm个运动神经元。
18、优选地,所述移动机器人的奖励函数其中,为机器人接近或到达目标点时的奖励,为机器人碰撞惩罚,为机器人与行人保持舒适的互动距离的奖励。
19、优选地,所述机器人接近或到达目标点时的奖励为:
20、
21、其中,pt表示机器人在当前时刻t的位置信息,pg表示机器人的目标位置,ρrobot为阈值,只要机器人在当前t时刻比t-1时刻距离目标位置的距离近就能获得正奖励,直到到达最终目标位置,当且仅当机器人到达目标点时,机器人获得最大的奖励值。
22、优选地,所述机器人碰撞惩罚dmin<ρcollision or(px,py)∈obstacle,其中,(px,py)为机器人当前位置,obstacle为静态障碍物占用的地图网格,当机器人与行人的最小距离dmin小于碰撞距离ρcollision、机器人与静态障碍物接触或者机器人接触到边界墙时,视为发生了碰撞,机器人获得最大惩罚;
23、机器人与行人保持舒适的互动距离的奖励iss为机器人对周围行人造成的社会压力总和。
24、优选地,所述训练异构神经回路策略网络模型的方法为:搭建强化学习交互的仿真环境后,将异构神经回路策略网络模型输出的机器人在当前环境状态下最优价值的动作输入到环境中,异构神经回路策略网络与仿真环境交互,将该当前环境状态下最优价值的动作输入进仿真环境,仿真环境会模拟出机器人做出当前环境状态下最优价值的动作后的环境新状态及根据奖励函数获得的该当前环境状态下最优价值的动作得到的奖励值,将旧的环境状态、动作、奖励以及新的环境状态作为一个元组保存到经验池,收集数据经验用于actor-critic网络的更新与训练,从而训练异构神经回路策略网络模型。
25、优选地,所述异构神经回路策略网络输出机器人在当前环境状态下最优价值的动作的过程为:步骤s1构建的时空图的空间边输入到异构神经回路策略网络模型的多层感知机mlp1,多层感知机mlp1对空间边进行非线性处理,得到当前时刻机器人-行人空间交互特征,神经回路策略ncp网络ncp1对当前时刻机器人-行人空间交互特征进行特征提取获得空间交互信息;
26、与空间边的处理类似,时空图的时间边输入到异构神经回路策略网络模型的多层感知机mlp2,时间边在多层感知机mlp2中进行非线性处理后由神经回路策略ncp网络ncp2处理,得到机器人自身的轨迹变化;
27、将神经回路策略ncp网络ncp1、神经回路策略ncp网络ncp2的输出输入进注意力机制网络中,注意力机制网络的输出输入进多层感知机mlp5中进行维度变换;
28、将时空图中的机器人节点特征向量输入到多层感知机mlp3,多层感知机mlp3对机器人节点特征向量进行编码处理;
29、栅格地图数据输入到异构神经回路策略网络模型的cnn神经网络,cnn神经网络输出障碍物边缘和形状特征向量,障碍物边缘和形状特征向量输入进多层感知机mlp4,多层感知机mlp4输出障碍物的编码向量,障碍物的编码向量输入进神经回路策略ncp网络ncp3进行特征提取;利用多层感知机mlp6将多层感知机mlp5的输出、神经回路策略ncp网络ncp3的输出、多层感知机mlp3的输出和神经回路策略ncp网络ncp2的输出拼接,将多层感知机mlp6的输出输入进神经回路策略ncp4神经网络,利用神经回路策略ncp网络ncp4形成决策,最后,将神经回路策略ncp网络ncp4输出的决策输入到actor-critic网络计算当前环境状态下价值和机器人动作。
30、优选地,所述多层感知机mlp6的输出为:
31、
32、f表示拼接后的输出,wmlp6表示多层感知机mlp6的权重,uattn为空间边加权求和结果,lo为局部栅格地图特征,vn为机器人节点特征的编码向量,et为处理后的时间特征信息;
33、所述神经回路策略ncp网络ncp4形成的决策为:
34、
35、为神经回路策略ncp网络ncp4做出的决策,ψ(·)表示一个神经回路策略ncp网络,wncp4为神经回路策略ncp网络ncp4的网络权重,hstate为神经回路策略ncp网络处理一次数据前的神经回路策略ncp网络隐藏状态,h′state为神经回路策略ncp网络处理一次数据后的神经回路策略ncp网络隐藏状态。
36、与现有技术相比,本发明的有益效果:
37、1、本发明利用时空图来构建人机之间的关系,更直观的表征出了人机的相对关系;在人群相对拥挤的环境中,时空图更易编码,有益于异构神经回路策略网络(lm-sncp)模型的输入。
38、2、本发明在含有异构障碍物的环境中利用多层cnn神经网络提取环境中障碍物的信息特征,并与处理过的时空图数据相融合,在复杂的人群环境中实现了更加高效的导航。
39、3、本发明在异构神经回路策略网络模型中,设计了四个ncp组件用于提取周围环境的信息特征,这种结构能够记录环境的时序信息特征,更适合处理含有时间关系的数据,从而做出较长的时间步的预测,使机器人在空间域中看的更细,在时间域中看得更远。
40、4、本发明为高度动态且拥挤的室内环境提供稳健高效的导航解决方案,为机器人在真实场景中与人自然共存奠定了基础。