1.一种由一个或多个处理器实施的方法,所述方法包括:
2.如权利要求1所述的方法,还包括:
3.如权利要求1所述的方法,还包括:
4.如权利要求1所述的方法,还包括:
5.如任一项前述权利要求所述的方法,其中,基于所述机器人技能和所述当前环境状态数据生成所述世界契合化度量,包括:
6.如权利要求5所述的方法,其中,所述当前环境状态数据包括所述传感器数据中的视觉数据,所述视觉数据由所述机器人的所述一个或多个传感器组件中的一个或多个视觉组件捕获。
7.如权利要求6所述的方法,其中,所述视觉数据包括多通道图像。
8.如权利要求5所述的方法,其中,所述经训练的值函数是语言条件化值函数,并且其中,使用所述经训练的值函数处理所述机器人技能包括处理所述机器人技能的所述技能描述。
9.如权利要求5所述的方法,其中,所述经训练的值函数被训练以与可供性函数相对应,并且所述值函数输出基于所述当前环境状态数据指定所述机器人技能是否可能。
10.如权利要求5所述的方法,其中,所述值函数是使用强化学习来训练的机器学习模型。
11.如任一项前述权利要求所述的方法,其中,基于所述任务契合化度量和所述世界契合化度量两者确定实施所述机器人技能以代替所述附加机器人技能包括:
12.如权利要求11所述的方法,其中,所述总体度量是所述任务契合化度量和所述世界契合化度量的加权或非加权组合。
13.如权利要求12所述的方法,其中,所述任务契合化度量是任务契合化概率,所述世界契合化度量是世界契合化概率,并且生成所述总体度量包括基于将所述任务契合化概率乘以所述世界契合化概率来生成乘积,并使用所述乘积作为所述总体度量。
14.如任一项前述权利要求所述的方法,其中,使所述机器人在所述当前环境中实施所述机器人技能包括:
15.如权利要求14所述的方法,其中,所述语言条件化机器人控制策略包括机器学习模型。
16.如权利要求15所述的方法,其中,所述语言条件化机器人控制策略使用强化学习和/或模仿学习进行训练。
17.如任一项前述权利要求所述的方法,其中,所述lm提示严格遵守由所述用户经由所述用户接口输入提供的自然语言输入。
18.如权利要求1至16中任一项所述的方法,其中,所述lm提示未严格遵守由所述用户经由所述用户接口输入提供的自然语言输入,并且所述方法还包括:
19.如权利要求1至16中任一项所述的方法,其中,所述lm提示未严格遵守由所述用户经由所述用户接口输入提供的自然语言输入,并且所述方法还包括:
20.如权利要求1至16中任一项所述的方法,其中,所述lm提示未严格遵守由所述用户经由所述用户接口输入提供的自然语言输入,并且所述方法还包括:
21.如任一项前述权利要求所述的方法,其中所述lm是大语言模型llm。
22.一种由一个或多个处理器实施的方法,所述方法包括:
23.一种机器人,包括:
24.一种系统,包括存储指令的存储器和一个或多个处理器,所述一个或多个处理器能够操作以执行所述指令来执行如权利要求1至22中任一项所述的方法。