技术特征:
1.一种端到端的地外探测样品智能抓取方法,其特征在于,包括如下步骤:选择强化学习方法;构建地外探测样本采集仿真训练环境;在构建的仿真训练环境中,进行数字训练,得到抓取模型;将得到的抓取模型迁移到地外探测样本抓取物理实验系统中,进行地外探测基于强化学习的样品采集物理试验,从而完成端到端的地外探测样品抓取。2.根据权利要求1所述的一种端到端的地外探测样品智能抓取方法,其特征在于:采用近端策略优化方法ppo作为选择的强化学习方法。3.根据权利要求1所述的一种端到端的地外探测样品智能抓取方法,其特征在于:采用多平台机器人仿真软件webots构建地外探测样本采集仿真训练环境。4.根据权利要求3所述的一种端到端的地外探测样品智能抓取方法,其特征在于:构建地外探测样本采集仿真训练环境时,建立目标机械臂、手爪、相机、目标物体、箱子和桌面模型;手爪设置在目标机械臂的前端,用于抓取桌面上的目标物体;相机设置在桌面上方,用于观察待抓取的目标物体;箱子用于手爪抓取目标物体后,放置目标物体。5.根据权利要求1所述的一种端到端的地外探测样品智能抓取方法,其特征在于:所述进行数字训练,具体为:通过设计奖励函数和网络结构,训练深度神经网络,输入通过相机获得的rgb
‑
d图像,输出对应图像坐标系下最佳抓取位姿。6.根据权利要求5所述的一种端到端的地外探测样品智能抓取方法,其特征在于:奖励函数如下:ppo中执行网络actor和评价网络critic都采用稠密神经网络densenet,具体参数如下:选用densenet
‑
121网络,121层,包含初始化层、密集连接层、过渡层与全连接层。7.根据权利要求6所述的一种端到端的地外探测样品智能抓取方法,其特征在于,训练过程包括如下:(1)根据当前物品抓取环境状态,机械臂根据初始的抓取策略选取并执行抓取动作;初始的抓取策略根据选择的强化学习方法得到;(2)执行抓取动作后,抓取环境转移到新的状态,并通过奖励函数获得相应的动作奖励;(3)重复上述过程直到训练环境中物体全部抓取成功;(4)得到深度神经网络模型,即抓取模型。8.根据权利要求1所述的一种端到端的地外探测样品智能抓取方法,其特征在于:地外探测样本抓取物理实验系统包括目标机械臂、手爪、相机、目标物体、箱子和桌子;手爪设置在目标机械臂的前端,用于抓取桌面上的目标物体;
相机设置在桌面上方,用于观察待抓取的目标物体;箱子用于手爪抓取目标物体后,放置目标物体;所述将得到的抓取模型迁移到地外探测样本抓取物理实验系统中是指,建立仿真环境中的抓取位姿与物理试验环境抓取位姿一一对应的关系;在物理试验环境中,利用标定板求解相机相对机械臂基座坐标系的位姿,将仿真环境中的抓取位姿变换到机械臂基座坐标系下,从而控制机械臂完成样本抓取。9.根据权利要求1所述的一种端到端的地外探测样品智能抓取方法,其特征在于:所述进行地外探测基于强化学习的样品采集物理试验,具体为:训练得到的神经网络参数迁移物理环境中进行试验验证,并且通过不断与环境进行交互,使机械臂不断更新抓取模型,实现持续学习,提高样品采集成功率。10.一种根据权利要求1
‑
9中任一项所述的端到端的地外探测样品智能抓取方法实现的地外探测样品智能抓取系统,其特征在于包括:强化学习方法确定模块:选择近端策略优化方法ppo作为强化学习方法;仿真训练环境构建模块:采用多平台机器人仿真软件webots构建地外探测样本采集仿真训练环境;建立目标机械臂、手爪、相机、目标物体、箱子和桌面模型;手爪设置在目标机械臂的前端,用于抓取桌面上的目标物体;相机设置在桌面上方,用于观察待抓取的目标物体;箱子用于手爪抓取目标物体后,放置目标物体;训练模块:在构建的仿真训练环境中,进行数字训练,得到抓取模型,具体为:通过设计奖励函数和网络结构,训练深度神经网络,输入通过相机获得的rgb
‑
d图像,输出对应最佳抓取位姿;奖励函数如下:ppo中执行网络actor和评价网络critic都采用稠密神经网络densenet,具体参数如下:选用densenet
‑
121网络,121层,包含初始化层、密集连接层、过渡层与全连接层;试验验证模块:将得到的抓取模型迁移到地外探测样本抓取物理实验系统中,进行地外探测基于强化学习的样品采集物理试验,从而完成端到端的地外探测样本抓取位姿智能选择。
技术总结
一种端到端的地外探测样品智能抓取方法,按照先数字训练,再物理试验的方式开展了数字
技术研发人员:黄煌 高锡珍 汤亮 刘昊 谢心如 刘乃龙
受保护的技术使用者:北京控制工程研究所
技术研发日:2021.06.17
技术公布日:2021/10/23