本发明属于人工智能,尤其涉及基于几何图神经网络的多机器人未知环境路径规划方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、路径规划是指在移动机器人工作环境中,生成一条从起始位置到目标位置的最优无碰撞路径;机器人路径规划是实现机器人自动化的一个关键内容,一直是机器人研究领域的一个热点;随着机器人技术的发展和工业生产需求的提高,多机器人应用不断增多,多机器人路径规划算法的研究越来越重要;相较于单个移动机器人路径规划,多个机器人之间的动作会相互影响,造成机器人工作环境是非稳定的,单机器人路径规划算法不再适用;另外,机器人数量的增多引起系统状态空间和动作空间维度急剧增大,系统优化求解难度大,对部署设备计算能力和反应速度要求高。
3、现有基于深度强化学习方法的多机器人路径规划算法多采用图神经网络的方式实现机器人之间的交流;图数据主要由结点和边构成,在多机器人路径规划中,各个不同的机器人构成图结构上的结点,机器人结点之间是否存在边,主要取决于机器人之间的几何距离是否在机器人交流范围内,若几何距离小于机器人的交流半径则机器人之间存在边,两个机器人互为邻居机器人,反之则不存在;多个机器人利用图神经网络在构建好的图结构中实现邻居间的信息交换,聚合邻居结点机器人感知到的地图信息,间接增大机器人的感受野,增加机器人之间的协作;然而,图数据是一种非欧几里得结构数据,不具备规则的空间结构,是不规则的、无序的;虽然图数据能满足多个移动机器人在行进过程中结构随机变换的需要,但是丢失了机器人之间的相对位置关系信息,且现有的方法都没有对机器人的相对位置关系进行显式编码,主要依靠隐式学习机器人之间的位置关系,造成机器人无法准确获取邻居机器人的位置,仅是对邻域内的所有邻居机器人传递过来的编码观测信息进行加权求和,不利于机器人对周围环境进行更准确的感知。
技术实现思路
1、为克服上述现有技术的不足,本发明提供了基于几何图神经网络的多机器人未知环境路径规划方法及系统,提出一种路径规划网络模型,通过几何图神经网络的方法,实现机器人之间相对位置的有效编码,并根据位置编码对邻居机器人信息加权,采用深度强化学习的方法实现去中心化的分布控制方式,提高机器人对邻居机器人信息聚合的准确度,提升多机器人路径规划的成功率。
2、为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
3、本发明第一方面提供了基于几何图神经网络的多机器人未知环境路径规划方法;
4、基于几何图神经网络的多机器人未知环境路径规划方法,包括:
5、基于获取到的机器人当前时刻所在位置周围的地图感知信息,提取机器人地图感知特征;
6、对机器人之间的相对位置进行相对位置编码后,几何图神经网络将所述机器人地图感知特征和相对位置编码进行加权信息聚合,得到机器人完整状态表征;
7、将所述机器人完整状态表征输入到长短期记忆力网络中,提取时序特征;
8、基于提取的时序特征,计算行为决策,生成机器人当前时刻应执行的动作。
9、进一步的,采用全局目标指引和局部动态避障的双层决策方式:将利用a*算法计算出的通向目标点的完整路径,作为机器人在行进过程中的长期目标指引,为强化学习模型策略提供参考,同时强化学习模型根据环境的动态变化对机器人局部路径进行调整以完成避障。
10、进一步的,所述地图感知信息,包括障碍物分布情况和其他机器人的位置。
11、进一步的,所述相对位置编码,通过两个全连接神经网络实现,分别是相对位置权重编码网络和相对位置偏置编码网络。
12、进一步的,机器人与邻居机器人之间的相对位置输入到两个全连接神经网络,输出相对位置权重编码和相对位置偏置编码
13、进一步的,所述加权信息聚合,具体为:
14、
15、其中,是完整状态表征,ni表示机器人i所有邻居的集合,ni表示机器人i邻居的数量,是机器人地图感知特征,是相对位置权重编码,是相对位置偏置编码。
16、进一步的,所述计算行为决策,基于由全连接网络构成的机器人感知决策模型;
17、机器人感知决策模型通过深度强化学习训练,学习一个动作策略,从状态到动作概率的映射,并最大化累计奖励。
18、本发明第二方面提供了基于几何图神经网络的多机器人未知环境路径规划系统。
19、基于几何图神经网络的多机器人未知环境路径规划系统,包括感知特征提取模块、状态表征提取模块、时序特征提取模块和动作生成模块:
20、感知特征提取模块,被配置为:基于获取到的机器人当前时刻所在位置周围的地图感知信息,提取机器人地图感知特征;
21、状态表征提取模块,被配置为:对机器人之间的相对位置进行相对位置编码后,几何图神经网络将所述机器人地图感知特征和相对位置编码进行加权信息聚合,得到机器人完整状态表征;
22、时序特征提取模块,被配置为:将所述机器人完整状态表征输入到长短期记忆力网络中,提取时序特征;
23、动作生成模块,被配置为:基于提取的时序特征,计算行为决策,生成机器人当前时刻应执行的动作。
24、本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的基于几何图神经网络的多机器人未知环境路径规划方法中的步骤。
25、本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的基于几何图神经网络的多机器人未知环境路径规划方法中的步骤。
26、以上一个或多个技术方案存在以下有益效果:
27、(1)本发明采用深度强化学习的方法实现多机器人去中心化分布控制,每个机器人能够自主完成路径规划任务,去除对中央控制器的依赖,降低实际机器人部署的难度;同时利用多智能体强化学习强大的策略表征能力,降低多机器人运动引起的环境非稳定对移动机器人策略的影响,提升机器人运动策略的鲁棒性。
28、(2)本发明采用神经网络实现相对位置编码,提升编码的灵活性和表征能力,更容易学习到相对位置的物理意义;避免绝对位置编码中最大表征距离的设定,扩展性更好,更容易将在小场景中训练好的模型直接迁移到大范围的运行环境中,降低模型训练成本。
29、(3)本发明提出一种路径规划网络模型,采用几何图神经网络模型,将相对位置编码与图神经网络信息聚合结合起来,弥补了图神经网络不具备规则的空间结构的缺陷,使机器人在聚合邻居机器人信息时能对不同位置的邻居加以区分,根据邻居机器人的相对位置编码对邻居机器人传递的地图观测信息加权,提升机器人感知环境的能力,提高算法成功率。
30、本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
1.基于几何图神经网络的多机器人未知环境路径规划方法,其特征在于,包括:
2.如权利要求1所述的基于几何图神经网络的多机器人未知环境路径规划方法,其特征在于,采用全局目标指引和局部动态避障的双层决策方式:将利用a*算法计算出的通向目标点的完整路径,作为机器人在行进过程中的长期目标指引,为强化学习模型策略提供参考,同时强化学习模型根据环境的动态变化对机器人局部路径进行调整以完成避障。
3.如权利要求1所述的基于几何图神经网络的多机器人未知环境路径规划方法,其特征在于,所述地图感知信息,包括障碍物分布情况和其他机器人的位置。
4.如权利要求1所述的基于几何图神经网络的多机器人未知环境路径规划方法,其特征在于,所述相对位置编码,通过两个全连接神经网络实现,分别是相对位置权重编码网络和相对位置偏置编码网络。
5.如权利要求4所述的基于几何图神经网络的多机器人未知环境路径规划方法,其特征在于,机器人与邻居机器人之间的相对位置输入到两个全连接神经网络,输出相对位置权重编码和相对位置偏置编码
6.如权利要求1所述的基于几何图神经网络的多机器人未知环境路径规划方法,其特征在于,所述加权信息聚合,具体为:
7.如权利要求1所述的基于几何图神经网络的多机器人未知环境路径规划方法,其特征在于,所述计算行为决策,基于由全连接网络构成的机器人感知决策模型;
8.基于几何图神经网络的多机器人未知环境路径规划系统,其特征在于,包括感知特征提取模块、状态表征提取模块、时序特征提取模块和动作生成模块:
9.计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的基于几何图神经网络的多机器人未知环境路径规划方法中的步骤。
10.电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于几何图神经网络的多机器人未知环境路径规划方法中的步骤。