一种针对不固定障碍的空间机械臂强化学习运动规划方法与流程

文档序号:35220331发布日期:2023-08-24 19:33阅读:28来源:国知局
本发明涉及机械臂路径规划,尤其是涉及一种针对不固定障碍的空间机械臂强化学习运动规划方法。
背景技术
::1、目前空间技术飞速发展,各个国家都有空间布局,不断在空间任务中的提出更高地指标。在空间任务中,空间机械臂也是其中一个重要组成部分,可以帮助航天员完成例如搬运、维修等方面的操作,提升操作的精准性与安全性。随着空间任务的复杂度提升,空间机械臂也逐渐向着自主化、智能化机器人的方向发展。2、在空间任务中,工作环境较为复杂,空间任务对作业的用时、距离最优性要求不高,但作业的精准度有极高的要求,需要准确无误的进行操作。且空间环境有微重力的特点,因此空间机械臂在执行动作前需要有合适地方法进行运动规划。3、对于空间空间机械臂面对的障碍微重力的情况相关研究较少,对于动态障碍物的情况,多数研究基于视觉模块来处理,通过不同地视觉模块来完成信息的跟新。但对于空间机械臂而言,如果在工作中与障碍物发生了碰撞,漂浮的障碍物移动的速度、方向以及移动规律都很难预测,因此可以考虑通过使用强化学习的方法来解决这一问题。4、因此,如何针对空间中微重力特点来针对空间机械臂进行运动规划,成了本领域技术人员亟待解决的技术问题。技术实现思路1、本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本发明的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。2、因此,本发明目的是提供针对不固定障碍的空间机械臂强化学习运动规划方法,包括如下具体步骤:3、s1、建立空间机械臂模型:用于进一步对运动规划算法进行设计,保证规划内容符合机械臂模型的动力学与运动学约束,步骤s3至s5的设计中都涉及机械臂模型;4、s2、建立障碍物与空间机械臂操作目标模型:为运动规划算法提供目标与障碍信息;5、s3、设计空间机械臂运动规划任务的状态空间:选取任务对象获取信息,以反映空间下的状态;6、s4、设计空间机械臂运动规划任务的动作空间:动作空间的设计需要能够符合对象模型、可以合法执行、且能够完备描述任务,达到目标;7、s5、设计空间机械臂运动规划任务的奖惩函数,由主线奖励、接近目标奖励、接近障碍惩罚、障碍移动惩罚来构成总奖励函数;8、s6、利用合适的强化学习方法所建立的模型进行训练求解:由于s3、s4步骤中,任务的状态空间与动作空间设计为连续状态空间与连续动作空间,需要选择可以处理连续空间的强化学习算法;9、s7、得到空间机械臂运动规划结果:通过s6步骤的训练,形成相应的模型,在不同环境下依然可以达到躲避障碍、规划空间机械臂达到目标的任务。10、可选的,所述步骤s2包括如下步骤:s21,为了保证空间操作的安全性,将每个障碍物等效为其最小外接球,且使用等效方法可以减少计算的复杂度;11、s22,目标模型为运动规划算法提供了规划目标。12、可选的,所述s3包括如下步骤:s31,由于机械臂在工作中连续执行动作,将任务的状态空间设计为连续状态空间;13、s32,状态空间包括目标信息、机械臂信息与反应末端与目标之间距离,具体如公式(1)所示;14、s=[goalpos,goalquat,posrelative,eepos,eequat,qgripper]    (1)15、其中goalpos、goalquat分别表示目标的位置与姿态信息,posrelative=goalpos-eepos表示机械臂末端与目标之间的欧氏距离,便于度量主线目标的达成情况,eepos、eequat分别表示空间机械臂末端的位置与姿态信息,qgripper表示空间机械臂末端装载的作动机构的状态信息。16、可选的,所述s4包括如下步骤:s41,由于空间机械臂在工作时,每个关节平滑连续转动,因此将动作空间设计为连续动作空间;17、s42,动作空间主要反应机械臂在关节空间与笛卡尔空间下的位姿,具体如公式2所示;18、a=[θi,gripper]      (2)19、其中,θi表示空间机械臂各个关节的关节角,根据s1中机械臂的模型,可以通过正向运动学获得空间机械臂末端在笛卡尔空间下的位姿信息;gripper表示机械臂末端装持的机构的位姿信息。20、可选的,所述s5包括如下步骤:s51,主线奖励设计思路,假设目标goal位于一有高度的平面上,空间机械臂需要抓持住该物体并搬运,若能完成此任务则给与空间机械臂一个正向奖励,内容具体如公式(3):21、rlift=(hgoal-htable-goalsize)>0    (3)22、得到的rlift为一表示任务是否完成的布尔值(0或1),在子奖励中不体现权重,最终在步骤s55的总奖励设计中集中体现各项权重;23、s52,接近目标奖励设计思路,接近目标奖励设计为一个使得动作规划有目标倾向性的塑性奖励,即当空间臂末端距离目标越近时,接近目标奖励越大,如公式(4):24、25、接近目标奖励rgood_dis中,dee、dl、dr分别表示目标中心与机械臂末端、抓持机构左侧、抓持机构右侧的欧氏距离,mgoal_dis是用于调节此项奖励变化范围的调节系数,tanh为激活函数;如公式(4),接近目标奖励rgood_dis的范围在(0,1),在步骤s55中统一设计权重;26、s53,接近障碍惩罚设计思路,接近障碍惩罚用于躲避空间中的障碍,设计了机械臂在执行任务过程中趋向于接近障碍时的塑性惩罚项,如公式(5):27、28、接近障碍惩罚rob_dis中,为使当机械臂末端移动到距离障碍物等效的球体半径2倍范围内时,才产生接近障碍惩罚,而距离障碍物较远时空间机械臂可以自由探索。其中,do_ee、do_l、do_r分别表示障碍物等效球体球心与机械臂末端、抓持机构左侧、抓持机构右侧的欧氏距离,mob_dis为用于调节此项奖励变化范围的调节系数,tanh为激活函数;如公式(5),接近障碍惩罚rob_dis的范围在(0,1),与s52中奖惩项的范围统一,后续在步骤s55中统一设计权重;29、s54,障碍移动惩罚设计思路,空间机械臂在工作时,除了步骤s53所考虑的机械臂末端碰撞,其连杆、关节也可能与障碍物发生碰撞;由于空间中为微重力环境,当机械臂碰撞障碍物时,障碍物将开始运动,产生位移,因此使用障碍物的移动来判断是否发生碰撞,如公式(6):30、31、障碍移动惩罚rob_move中,obpos与obpos_init分别表示障碍物当前与初始位置;考虑环境轻微扰动与测量误差,设置一个门限参数来判断障碍物是否被碰撞,为一个接近零的极小正数。障碍移动惩罚rob_move为布尔值,在障碍物受到碰撞时rob_move=1,反之rob_move=0。如公式(6),障碍移动惩罚rob_move的范围为0或1,后续在步骤s55中统一设计权重;32、s55,总奖励r设计为步骤s51至s54四项奖惩内容的线性叠加,由于s51至s54的四项奖惩结果输出范围一致(范围均在[0,1]内),而每项奖惩对任务达成的相关度不同,因此通过权重值来反应每项奖惩的重要性,如公式(7):33、r=slift·rlift+sgoal_dis·rgoal_dis-sob_dis·rob_dis-sob_move·rob_move   (7)34、其中slift、sgoal_dis、sob_dis、sob_move分别为s51至s54的四项奖惩内容的权重系数,每项均为正常数,且根据每项与最终任务目标的相关程度,设置slift>>sob_move≥sob_dis≥sgoal_dis。35、综上所述,本发明包括以下至少一种有益效果:1、验证了基于强化学习完成空间机械臂运动规划的可行性,提升了空间任务的智能性,更符合目前的发展趋势;36、2、使用强化学习的方法来完成空间机械臂运动规划,在方法中考虑了空间中障碍物被碰撞后会漂浮的情况。且对于不同的空间环境情况可以有更好地泛化性,相较于传统算法不需要在环境变化后每次都调整算法内容,只需调整输入模型。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1