本申请涉及机器人,尤其涉及一种机器人动作轨迹规划方法、装置及机器人。
背景技术:
1、机器人动作轨迹是指机器人从起点到完成任务的终点这条路线上的各关节轨迹变化,其代表了机器人每个关节在时间序列上的位姿。
2、目前机器人动作轨迹规划一般通过强化学习或模仿学习来实现。强化学习是一种根据奖励,不断与环境自主交互并学习最近轨迹的方法,其问题在于面对复杂动作时奖励函数设计复杂,且训练时间长。模仿学习是一种监督学习方式,其核心思想是输出与示教动作一致的轨迹。相关技术中提出的基于扩散策略(diffusion policy)的机器人运动轨迹规划方法,属于模仿学习范畴。该方法首先收集人类演示的示教数据,并训练一个扩散模型,在推理阶段实现输入当前观测图像和机器人各关节位姿,通过去噪的方式输出机器人的下一步动作。该方法存在的问题是,在实际应用中,但当机器人位置发生变动,其观测的视角图像就会改变;其次运动中人为或其他设备触碰到关节,关节位姿也会发生改变,因此应用时机器人数据很难保证与训练过程中一致,当数据不一致时,就会造成预测的动作也与训练时结果相差较大,从而导致机器人动作轨迹规划的准确性较差。
技术实现思路
1、本申请提供了一种机器人动作轨迹规划方法、装置及机器人,用以解决现有的机器人动作轨迹规划技术方案中,机器人动作轨迹规划的准确性较差的问题。
2、第一方面,本申请提供了一种机器人动作轨迹规划方法,所述方法包括:
3、获取机器人执行目标动作过程中第一时刻的各关节第一位姿和采集的视角图像,并获取所述目标动作对应的目标动作指令;
4、根据所述各关节第一位姿和所述视角图像,生成观测特征向量;根据所述目标动作指令,生成指令特征向量;将所述观测特征向量和所述指令特征向量进行拼接,得到目标特征向量;
5、将所述目标特征向量和随机噪声向量输入训练完成的扩散模型,基于所述扩散模型确定预测噪声向量;根据所述随机噪声向量和所述预测噪声向量确定迭代噪声向量,采用所述迭代噪声向量更新所述随机噪声向量,并根据经过预设迭代次数后确定出的预测噪声向量,确定所述机器人下一时刻的各关节第二位姿。
6、第二方面,本申请提供了一种机器人动作轨迹规划装置,所述装置包括:
7、获取模块,用于获取机器人执行目标动作过程中第一时刻的各关节第一位姿和采集的视角图像,并获取所述目标动作对应的目标动作指令;
8、第一确定模块,用于根据所述各关节第一位姿和所述视角图像,生成观测特征向量;根据所述目标动作指令,生成指令特征向量;将所述观测特征向量和所述指令特征向量进行拼接,得到目标特征向量;
9、第二确定模块,用于将所述目标特征向量和随机噪声向量输入训练完成的扩散模型,基于所述扩散模型确定预测噪声向量;根据所述随机噪声向量和所述预测噪声向量确定迭代噪声向量,采用所述迭代噪声向量更新所述随机噪声向量,并根据经过预设迭代次数后确定出的预测噪声向量,确定所述机器人下一时刻的各关节第二位姿。
10、第三方面,本申请提供了一种机器人,包括控制器、机械臂、移动组件和摄像组件;
11、所述摄像组件,用于采集机器人执行目标动作过程中第一时刻的视角图像,并将所述视角图像发送至所述控制器;
12、所述控制器,用于获取机器人执行目标动作过程中第一时刻的所述机械臂和所述移动组件各关节第一位姿,并获取所述目标动作对应的目标动作指令;根据所述各关节第一位姿和所述视角图像,生成观测特征向量;根据所述目标动作指令,生成指令特征向量;将所述观测特征向量和所述指令特征向量进行拼接,得到目标特征向量;将所述目标特征向量和随机噪声向量输入训练完成的扩散模型,基于所述扩散模型确定预测噪声向量;根据所述随机噪声向量和所述预测噪声向量确定迭代噪声向量,采用所述迭代噪声向量更新所述随机噪声向量,并根据经过预设迭代次数后确定出的预测噪声向量,确定下一时刻所述机械臂和所述移动组件各关节第二位姿。
13、本申请提供了一种机器人动作轨迹规划方法、装置及机器人,所述方法包括:获取机器人执行目标动作过程中第一时刻的各关节第一位姿和采集的视角图像,并获取所述目标动作对应的目标动作指令;根据所述各关节第一位姿和所述视角图像,生成观测特征向量;根据所述目标动作指令,生成指令特征向量;将所述观测特征向量和所述指令特征向量进行拼接,得到目标特征向量;将所述目标特征向量和随机噪声向量输入训练完成的扩散模型,基于所述扩散模型确定预测噪声向量;根据所述随机噪声向量和所述预测噪声向量确定迭代噪声向量,采用所述迭代噪声向量更新所述随机噪声向量,并根据经过预设迭代次数后确定出的预测噪声向量,确定所述机器人下一时刻的各关节第二位姿。
14、上述的技术方案具有如下优点或有益效果:
15、本申请中,机器人执行目标动作过程中,除了获取机器人第一时刻各关节第一位姿和采集的视角图像,还获取目标动作对应的目标动作指令;并且根据各关节第一位姿和视角图像生成观测特征向量,根据目标动作指令生成指令特征向量;将观测特征向量和指令特征向量进行拼接得到目标特征向量。进而将目标特征向量和随机噪声向量输入训练完成的扩散模型,基于扩散模型确定预测噪声向量。因为对于同一动作,相较于训练过程,当观测的视角图像发生变化,或者关节位姿发生变化,会造成观测特征向量发生变化,但是同一动作对应的动作指令是相同的。也就是同一动作对应的指令特征向量,扩散模型应用和训练时是相同的。本申请输入扩散模型的目标特征向量中融合了指令特征向量。可以保证目标特征向量中的一部分与训练时对应同一动作的特征向量是相同的,就容易产生与训练时相似的预测结果,进而生成更相似的轨迹,实现较好的鲁棒性。因此,本申请根据随机噪声向量和预测噪声向量确定迭代噪声向量,进而确定机器人执行目标动作过程中第一时刻的下一时刻的各关节第二位姿。可以提高机器人动作轨迹规划的准确性。
1.一种机器人动作轨迹规划方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,获取所述目标动作对应的目标动作指令包括:
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
4.如权利要求1所述的方法,其特征在于,根据所述各关节第一位姿和所述视角图像,生成观测特征向量包括:
5.如权利要求1所述的方法,其特征在于,根据所述目标动作指令,生成指令特征向量包括:
6.如权利要求1所述的方法,其特征在于,所述扩散模型的训练过程包括:
7.一种机器人动作轨迹规划装置,其特征在于,所述装置包括:
8.一种机器人,其特征在于,包括控制器、机械臂、移动组件和摄像组件;
9.如权利要求8所述的机器人,其特征在于,还包括:声音采集组件;
10.如权利要求8所述的机器人,其特征在于,所述控制器,还用于获取所述机器人执行样本动作过程中第二时刻的各关节第四位姿和采集的样本视角图像,并获取所述样本动作对应的样本动作指令;根据所述各关节第四位姿和所述样本视角图像,生成样本观测特征向量;根据所述样本动作指令,生成样本指令特征向量;将所述样本观测特征向量和所述样本指令特征向量进行拼接,得到样本特征向量;获取所述机器人执行所述样本动作下一时刻各关节第五位姿,对所述各关节第五位姿添加样本随机噪声向量,得到各关节第六位姿;将所述样本特征向量和所述各关节第六位姿输入待训练的扩散模型,基于所述扩散模型确定样本预测噪声向量;根据所述样本随机噪声向量和所述样本预测噪声向量确定损失值;根据所述损失值对所述扩散模型进行训练。