机器人的自然语言控制的制作方法

文档序号：39905285发布日期：2024-11-08 19:55阅读：来源：国知局

技术特征：

1.一种由一个或多个处理器实施的方法，所述方法包括：

2.如权利要求1所述的方法，还包括：

3.如权利要求1所述的方法，还包括：

4.如权利要求1所述的方法，还包括：

5.如任一项前述权利要求所述的方法，其中，基于所述机器人技能和所述当前环境状态数据生成所述世界契合化度量，包括：

6.如权利要求5所述的方法，其中，所述当前环境状态数据包括所述传感器数据中的视觉数据，所述视觉数据由所述机器人的所述一个或多个传感器组件中的一个或多个视觉组件捕获。

7.如权利要求6所述的方法，其中，所述视觉数据包括多通道图像。

8.如权利要求5所述的方法，其中，所述经训练的值函数是语言条件化值函数，并且其中，使用所述经训练的值函数处理所述机器人技能包括处理所述机器人技能的所述技能描述。

9.如权利要求5所述的方法，其中，所述经训练的值函数被训练以与可供性函数相对应，并且所述值函数输出基于所述当前环境状态数据指定所述机器人技能是否可能。

10.如权利要求5所述的方法，其中，所述值函数是使用强化学习来训练的机器学习模型。

11.如任一项前述权利要求所述的方法，其中，基于所述任务契合化度量和所述世界契合化度量两者确定实施所述机器人技能以代替所述附加机器人技能包括：

12.如权利要求11所述的方法，其中，所述总体度量是所述任务契合化度量和所述世界契合化度量的加权或非加权组合。

13.如权利要求12所述的方法，其中，所述任务契合化度量是任务契合化概率，所述世界契合化度量是世界契合化概率，并且生成所述总体度量包括基于将所述任务契合化概率乘以所述世界契合化概率来生成乘积，并使用所述乘积作为所述总体度量。

14.如任一项前述权利要求所述的方法，其中，使所述机器人在所述当前环境中实施所述机器人技能包括：

15.如权利要求14所述的方法，其中，所述语言条件化机器人控制策略包括机器学习模型。

16.如权利要求15所述的方法，其中，所述语言条件化机器人控制策略使用强化学习和/或模仿学习进行训练。

17.如任一项前述权利要求所述的方法，其中，所述lm提示严格遵守由所述用户经由所述用户接口输入提供的自然语言输入。

18.如权利要求1至16中任一项所述的方法，其中，所述lm提示未严格遵守由所述用户经由所述用户接口输入提供的自然语言输入，并且所述方法还包括：

19.如权利要求1至16中任一项所述的方法，其中，所述lm提示未严格遵守由所述用户经由所述用户接口输入提供的自然语言输入，并且所述方法还包括：

20.如权利要求1至16中任一项所述的方法，其中，所述lm提示未严格遵守由所述用户经由所述用户接口输入提供的自然语言输入，并且所述方法还包括：

21.如任一项前述权利要求所述的方法，其中所述lm是大语言模型llm。

22.一种由一个或多个处理器实施的方法，所述方法包括：

23.一种机器人，包括：

24.一种系统，包括存储指令的存储器和一个或多个处理器，所述一个或多个处理器能够操作以执行所述指令来执行如权利要求1至22中任一项所述的方法。

技术总结
实施方式使用大语言模型处理自由形式自然语言(NL)指令以生成以生成LLM输出。那些实施方式基于LLM输出和机器人技能的NL技能描述来生成任务契合化度量，该任务契合化度量反映在LLM输出的概率分布中技能描述的概率。那些实施方式还基于机器人技能和当前环境状态数据生成世界契合化度量，该世界契合化度量反映基于当前环境状态数据该机器人技能成功的概率。那些实施方式还基于任务契合化度量和世界契合化度量两者确定是否实施机器人技能。

技术研发人员：卡罗尔·豪斯曼,布赖恩·依希特尔,谢尔盖·莱文,亚历山大·托舍夫,夏斐,卡罗琳娜·帕拉达
受保护的技术使用者：谷歌有限责任公司
技术研发日：
技术公布日：2024/11/7

完整全部详细技术资料下载

当前第2页1 2