基于数字孪生和强化学习的多智能体协同避碰采摘方法

文档序号:31286583发布日期:2022-08-27 02:32阅读:来源:国知局

技术特征:
1.一种基于数字孪生和深度强化学习的多智能体协同避碰采摘方法,其特征在于包括下述步骤:(1)数据采集系统实时采集真实果园环境信息并传输到云服务器,结合数据分析与挖掘技术和农艺知识建立数字果园数据库;(2)建立云服务器与虚拟仿真平台之间的数据通信,利用云服务器的实时数据驱动虚拟仿真平台中的三维模型进行智能仿真调度,构建孪生果园场景;建立虚拟采摘机器人模型;(3)基于马尔可夫决策过程框架对虚拟机器人自主避碰采摘策略问题进行环境建模并搭建仿真系统,设定状态空间和动作空间;(4)基于人工势场法设计奖励函数,结合多智能体分布式近端策略优化算法建立apf-madppo学习模型;所述奖励函数包括采摘点引导函数、障碍物碰撞惩罚函数、机器人之间的碰撞惩罚函数以及时间惩罚函数;(5)建立apf-madppo网络模型及训练流程;(6)设置训练方法,包括终止条件设置、训练参数配置、训练过程设置以及使用apf-madppo学习模型进行多智能体采摘避碰策略学习训练;(7)基于迁移学习的方法将训练结果模型迁移到动态、非结构化环境下进行采摘避碰路径规划推理学习,规划出一条最优采摘路径;(8)以所述最优采摘路径为参考,通过控制指令驱动真实机器人在错综复杂的环境下完成自动避碰采摘任务。2.根据权利要求1所述的多智能体协同避碰采摘方法,其特征在于:步骤(1)中,所述数据采集系统包括处理器芯片模块、lora通信模块、摄像机以及传感器模块,用于采集真实果园实时状态信息;所述的传感器模块包括空气温湿度传感器、土壤水分传感器、土壤酸碱度传感器、二氧化碳浓度传感器和光照强度传感器;所述云服务器包括对真实果园实时数据获取以及对数据库进行数据查询和客户端的响应与反馈;所述数据库包括数字果园运行状态数据存储。3.根据权利要求1所述的多智能体协同避碰采摘方法,其特征在于:步骤(2)中,所述构建孪生果园场景是指根据真实果园场景信息,设定相关状态参数,所述状态参数与数字孪生果园的模型属性相对应匹配,通过获取服务器端的响应信号,利用协程机制将实时数据传输到仿真环境中并采用智能仿真调度算法驱动虚拟平台各模型构建孪生果园场景。4.根据权利要求1所述的多智能体协同避碰采摘方法,其特征在于:是对复杂动态的野外环境下多智能体协同避碰采摘策略问题进行环境建模,使用马尔科夫决策过程描述智能体与环境交互的随机决策过程;所述随机决策过程定义为四元组(s
t
,a
t
,r
t
,s
t+1
),具体包括:s
t
:为t时刻智能体所处的状态,构成系统状态空间;a
t
:为t时刻智能体所采取的动作,构成系统的动作空间;r
t
:为t时刻智能体所获得的奖励值,构成系统的奖励函数;s
t+1
:为t+1时刻智能体所处的状态。5.根据权利要求1所述的多智能体协同避碰采摘方法,其特征在于:步骤(4)中,所述apf-madppo学习模型,包括状态空间、动作空间和奖励函数设计;所述状态空间包括机器人
末端执行器空间位置采摘点空间位置p
goal
、障碍物空间位置p
obs
、机器人末端执行器与采摘点的相对位置机器人各个转动轴的中心点与障碍物的相对位置机器人末端执行器与采摘点的距离机器人各个转动轴的中心点与障碍物的距离机器人之间各个转动轴的距离记为其中i表示为智能体即采摘机器人个数;所述动作空间包括各个机器人各个关节轴的转动角度的变化。6.根据权利要求5所述的多智能体协同避碰采摘方法,其特征在于:所述奖励函数包括:采摘点引导函数r
guide
、障碍物避碰函数r
obs
、机器人之间的碰撞惩罚函数r
arm
以及时间惩罚函数r
time
;系统累积奖励值r计算方法如下式所示:r=r
guide
+r
obs
+r
arm
+r
time
其中,采摘点引导函数r
guide
的计算方法是计算各个机械臂末端执行器与目标采摘点位置p
goal
=(x
o
,y
o
,z
o
)之间的距离 i=1.2.3...n为智能体个数,并取得在状态t时刻的最小距离当逐渐减小时给予低奖赏,低奖赏系数为k1,否则给予惩罚;当目标距离为0时,给予最大奖赏k2并结束本回合,具体如下式所示:本回合,具体如下式所示:本回合,具体如下式所示:其中,障碍物避碰函数r
obs
的计算方法是计算各个机器人旋转轴的横向距离与障碍物位置之间的距离当大于旋转轴横向距离l与障碍物警示区域半径r时,惩罚函数不起作用;当大于障碍物半径r与横向距离l之和并且小于横向距离l与障碍物警示区域半径r之和时,给予低惩罚,惩罚值与距离成反比,k3表示为低惩罚系数;当小于障碍物半径r与横向距离l之和时,给予最大惩罚k4并结束本回合;具体如下式所示:其中,机器人之间的碰撞惩罚函数r
arm
的计算方法是判断机器人的空间集合与相邻机器人的空间集合是否有交集;如果有交集,则说明相邻机器人已经发生碰撞现象,此时给予最大惩罚k5并结束回合;如果没有交集,则说明相邻机器人没有发生碰撞现
象,此时惩罚函数不起任何作用,惩罚值为0;具体如下式所示:其中,时间惩罚函数r
time
计算方法是根据各个智能体在初始状态下到目标采摘点的路程进行设置,k6表示为时间惩罚系数;具体如下式所示:7.根据权利要求1所述的多智能体协同避碰采摘方法,其特征在于:步骤(5)中,所述建立apf-madppo网络模型包括建立actor网络、critic网络和经验库;其中,建立actor网络是用于选择动作策略,其输入为相机图像数据、末端执行器位置、障碍物位置、目标采摘点位置、末端执行器与目标采摘点的最近距离、障碍物与机器人各个旋转轴的距离、各机器人旋转轴之间的距离,其输出为机器人各个旋转轴旋转角度信息;建立critic网络是用于评价当前状态下动作策略优劣,其输入为获取相机图像数据、末端执行器位置、障碍物位置、目标采摘点位置、末端执行器与目标采摘点的最近距离、障碍物与机器人各个旋转轴的距离、各机器人旋转轴之间的距离,其输出为所获得累积奖励值;经验库用于存储探索数据。8.根据权利要求1所述的多智能体协同避碰采摘方法,其特征在于:步骤(6)中,还可以进一步采用人机协作的训练学习方式,设计交互式控制界面,结合人类的积极行为通过控制界面来干预机器人采摘避碰策略学习过程,用于频繁发生碰撞现象的动态场景,同时可通过控制界面设定采摘目标点和障碍物的位置信息及个数,进行目的性的自主避碰采摘仿真实验。9.一种基于数字孪生和深度强化学习的多智能体协同避碰采摘系统,其特征在于:包括孪生果园场景仿真环境;交互式控制界面;训练学习模块、推理学习模块以及人机协作模块。10.根据权利要求9所述的多智能体协同避碰采摘系统,其特征在于:所述孪生果园场景仿真环境,是数据采集系统实时采集真实果园信息并传输到云服务器上,结合农艺知识构建数字果园数据库,再利用数据驱动技术智能调度虚拟平台三维模型构建孪生果园场景仿真环境;同时用于接收实时训练过程控制效果进行可视化展示,为用户提供更加直观的采摘机器人避碰控制效果;所述交互式控制界面,用于为用户提供自定义的界面便于其进行目的性的仿真试验,同时也实时查看相关历史数据,为真实采摘机器人在避碰路径规划方面提供参考价值。11.根据权利要求9所述的多智能体协同避碰采摘系统,其特征在于:所述训练学习模块是指使用ml-agents插件建立深度强化学习与仿真环境之间的交互通信,然后利用apf-mappo学习模型对多智能体进行采摘策略学习;所述推理学习模块是指基于迁移学习方法将训练结果模型迁移到动态多变的环境下进行采摘机器人避碰路径规划;所述人机协作模块是指在训练学习过程中,结合人类的积极行为通过交互式控制界面进行人机协作,提高策略模型收敛速度,或者是通过控制界面设置目标点和障碍物位置和个数,进行目的性采摘避碰路径规划。

技术总结
本发明公开了一种基于数字孪生和深度强化学习的多智能体协同避碰采摘方法,包括建立数字果园数据库,构建孪生果园场景;基于马尔可夫决策过程框架对虚拟机器人自主避碰采摘策略问题进行环境建模并搭建仿真系统,设定状态空间和动作空间;基于人工势场法设计奖励函数,结合多智能体分布式近端策略优化算法建立APF-MADPPO学习模型;建立APF-MADPPO网络模型及训练流程,设置训练方法;基于迁移学习、推理学习,规划出最优采摘路径,通过控制指令驱动真实机器人在错综复杂的环境下完成自动避碰采摘任务。本发明可以实现在实时变化环境下,多智能体能够协同作业且自主避碰,进而完成自动采摘任务。动采摘任务。动采摘任务。


技术研发人员:王红军 林俊强 邹湘军 张坡 李承恩 邹伟锐
受保护的技术使用者:华南农业大学
技术研发日:2022.04.28
技术公布日:2022/8/26
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1