本发明涉及一种基于iros的多智能体强化学习方法、系统和介质,属于多智能体强化学习。
背景技术:
1、在传统的行业中,机器人取得了巨大的发展,在单调、重复率高、危险性强的工作中机器人已被大量使用。机器人之间如何协作是一个重点研究方向。多机器人系统具备环境的适应能力,效率高、成本低和鲁棒性高等优势。经典的解决方法依赖于人为设计和先验知识。多智能体强化学习可以通过与环境进行交互学习到知识,完成智能体间的协作。另外,强化学习等人工智能方法需要很大的算力,将机器人执行和算法模型的训练进行分离。因此机器人和算法模型之间需要进行通信。现有的通信方法的时延过大,由此导致决策不及时,影响系统的性能。
技术实现思路
1、本发明目的是提供了一种基于iros的多智能体强化学习方法、系统和介质,有效的提高了智能体的协作能力,同时也降低了算法模型和智能体间进行通信的时延,提升了系统的性能。
2、本发明为实现上述目的,所述方法通过以下技术方案实现:
3、使用建图定位技术对机器人所处的环境建模,并获得智能体的状态信息;
4、通过iros将智能体的状态信息发送至算法模型,算法模型根据所有智能体的状态信息进行模型的训练;
5、将训练好的模型参数通过iros周期性的发送给每个智能体,智能体以此进行实时决策,多个智能体进行协同完成目标任务。
6、优选的,所述建图定位技术采用指纹定位方法。
7、优选的,所述通过iros将智能体的状态信息发送至算法模型具体方式如下:建立iros消息系统中间件,实现智能体和算法模型间信息实时传输和安全加密;智能体获取到系统的状态信息后,利用iros消息系统中间件将智能体状态信息发送到算法模型。
8、优选的,所述将训练好的模型参数通过iros周期性的发送给每个智能体具体方式如下:算法模型训练完模型,将训练好的模型参数发送至iros消息系统中间件,所述iros消息系统中间件的周期性地将模型训练得到的参数传递给智能体。
9、优选的,所述算法模型为基于价值的vdn模型,所述vdn模型根据多个智能体的联合价值函数近似为多个单智能体的价值函数的和进行值函数的分解,并根据各个智能体观测、智能体的决策、环境的反馈信息进行模型的训练,优化系统的联合价值函数,使系统的联合价值函数最大,得到了各个智能体的价值函数。
10、优选的,各个智能体使用相同的参数,所有的智能体使用同一个值函数网络。
11、优选的,所述智能体以此进行实时决策,多个智能体进行协同完成目标任务具体方式如下:智能体将实时采集到状态信息送入到值函数网络中生成决策信息,指导智能体进行决策,实现多智能体的协作。
12、一种基于iros的多智能体强化学习系统,包括:
13、环境建模模块:使用建图定位技术对机器人所处的环境建模,并获得智能体的状态信息;
14、数据传输模块:建立iros消息系统中间件,实现智能体和算法模型间信息实时传输、安全加密;通过iros消息系统中间件将智能体状态信息发送到算法模型,并通过iros消息系统中间件的周期性地将模型训练得到的参数传递给智能体;
15、算法模型模块:算法模型根据所有智能体的状态信息进行模型的训练;
16、智能体决策模块:智能体根据获取的模型参数进行实时决策,多个智能体进行协同完成目标任务。
17、本发明的优点在于:通过使用iros实现智能体与算法模型间数据的传输,保证了通信的低时延,通过多智能体强化学习算法学习多个智能体间的协作策略。有效的提高了智能体的协作能力,同时也降低了算法模型和智能体间进行通信的时延,提升了系统的性能。
1.一种基于iros的多智能体强化学习方法,其特征在于,包括:
2.根据权利要求1所述的基于iros的多智能体强化学习方法,其特征在于,所述建图定位技术采用指纹定位方法。
3.根据权利要求1所述的基于iros的多智能体强化学习方法,其特征在于,所述通过iros将智能体的状态信息发送至算法模型具体方式如下:建立iros消息系统中间件,实现智能体和算法模型间信息实时传输和安全加密;智能体获取到系统的状态信息后,利用iros消息系统中间件将智能体状态信息发送到算法模型。
4.根据权利要求3所述的基于iros的多智能体强化学习方法,其特征在于,所述将训练好的模型参数通过iros周期性的发送给每个智能体具体方式如下:算法模型训练完模型,将训练好的模型参数发送至iros消息系统中间件,所述iros消息系统中间件的周期性地将模型训练得到的参数传递给智能体。
5.根据权利要求1所述的基于iros的多智能体强化学习方法,其特征在于,所述算法模型为基于价值的vdn模型,所述vdn模型根据多个智能体的联合价值函数近似为多个单智能体的价值函数的和进行值函数的分解,并根据各个智能体观测、智能体的决策、环境的反馈信息进行模型的训练,优化系统的联合价值函数,使系统的联合价值函数最大,得到了各个智能体的价值函数。
6.根据权利要求5所述的基于iros的多智能体强化学习方法,其特征在于,各个智能体使用相同的参数,所有的智能体使用同一个值函数网络。
7.根据权利要求6所述的基于iros的多智能体强化学习方法,其特征在于,所述智能体以此进行实时决策,多个智能体进行协同完成目标任务具体方式如下:智能体将实时采集到状态信息送入到值函数网络中生成决策信息,指导智能体进行决策,实现多智能体的协作。
8.一种基于iros的多智能体强化学习系统,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如上述权利要求1-7任一项所述的方法。