1.面向跨场景的机器人视觉模仿学习方法,其特征是,包括:
将给定来自原始语境的观察图像转换为预测的目标观察图像,即将视觉演示从演示者的语境转换到机器人所在语境,完成语境转换;
基于原始语境的观察图像及初始深度观察图像来预测结束深度观察图像;
针对获取到的初始观察图像、初始深度观察图像、结束观察图像、结束深度观察图像,使用深度神经网络来构建逆动态模型,利用逆动态模型来输出预测动作,完成模仿学习。
2.如权利要求1所述的面向跨场景的机器人视觉模仿学习方法,其特征是,演示者的视觉演示使用初始观察图像和最终观察图像来描述。
3.如权利要求1所述的面向跨场景的机器人视觉模仿学习方法,其特征是,所述语境转换步骤:
给定来自原始语境的观察图像,使用两个分支的第一编码器来提取特征;
第二编码器负责对目标语境中的初始观察图像提取特征;
将第二编码器提取的特征和第一编码器提取的特征合并,并作为转换函数的输入;
使用解码器将转换函数的输出特征解码为预测的目标观察图像。
4.如权利要求3所述的面向跨场景的机器人视觉模仿学习方法,其特征是,第一编码器和第二编码器使用resnet50网络的前3层模块来进行构建,第一编码器和第二编码器拥有不同的权重参数;
使用成对的演示数据{ds,dt}对第一编码器和第二编码器进行监督学习训练,其中ds来源于随机设置的语境即原始语境,dt来源于机器人所在的语境即目标语境。
5.如权利要求4所述的面向跨场景的机器人视觉模仿学习方法,其特征是,训练过程是通过包含像素级别的图像损失函数、语境损失函数及图像熵损失函数的加权融合后的损失函数来进行训练。
6.如权利要求1所述的面向跨场景的机器人视觉模仿学习方法,其特征是,基于初始深度观察图像来预测目标深度观察图像的步骤为:
基于alexnet网络构建编码器,编码器三个分支分别输入初始颜色图像、目标颜色图像和初始深度图像,然后分别生成特征向量,三个分支的cnn网络共享权重,特征向量合并之后输入到3层全连接网络中,然后经过解码器进行解码,最终得到预测的目标深度图像。
7.如权利要求1所述的面向跨场景的机器人视觉模仿学习方法,其特征是,使用深度神经网络来构建逆动态模型,其数学表达形式如下:
u=f({iinit,dinit},{igoal,dgoal})
其中,{iinit,dinit}是初始状态的颜色和深度观察图像,{igoal,dgoal}是目标状态的颜色和深度观察图像,u是预测的动作。
8.面向跨场景的机器人视觉模仿学习系统,其特征是,包括:
语境转换模块,将给定来自原始语境的观察图像转换为预测的目标观察图像,即将视觉演示从演示者的语境转换到机器人所在语境,完成语境转换;
深度预测模块,基于原始语境的观察图像及初始深度观察图像来预测结束深度观察图像;
多模态逆动态模型,针对获取到的初始观察图像、初始深度观察图像、结束观察图像、结束深度观察图像,使用深度神经网络来构建逆动态模型,利用逆动态模型来输出预测动作,完成模仿学习。
9.一种服务机器人,包括机械臂及计算设备,计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现以下步骤,包括:
将给定来自原始语境的观察图像转换为预测的目标观察图像,即将视觉演示从演示者的语境转换到机器人所在语境,完成语境转换;
基于原始语境的观察图像及初始深度观察图像来预测结束深度观察图像;
针对获取到的初始观察图像、初始深度观察图像、结束观察图像、结束深度观察图像,使用深度神经网络来构建逆动态模型,利用逆动态模型来输出预测动作,完成模仿学习,并将最终执行命令传送给机械臂,即可执行操作。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时执行以下步骤:
将给定来自原始语境的观察图像转换为预测的目标观察图像,即将视觉演示从演示者的语境转换到机器人所在语境,完成语境转换;
基于初始深度观察图像来预测目标深度观察图像;
针对获取到多模态的初始观察和目标观察,使用深度神经网络来构建逆动态模型,利用逆动态模型来输出预测动作,完成模仿学习。