背景技术:
::1、许多机器人被编程以执行某些任务。例如,装配线上的机器人可被编程以识别某些对象并对那些对象执行特定的操作。2、进一步地,一些机器人可以响应于与某个任务相对应的显式用户接口输入而执行某些任务。例如,吸尘机器人可以响应于口头话语“robot, clean (机器人,请清洁)”而执行一般的吸尘任务。然而,通常,致使机器人执行某个任务的用户接口输入必须被显式地映射到该任务。因此,机器人可能无法响应于试图控制机器人的用户的各种自由形式自然语言输入而执行某些任务。技术实现思路1、已经开发出语言模型(lm),该语言模型可用于处理自然语言(nl)内容和/或其他输入以生成lm输出,该lm输出反映nl内容和/或响应于输入的其他内容。例如,已经开发出大语言模型(llm),该大语言模型可以在海量数据上进行训练,并且能够用于稳健地处理大范围的nl输入并生成对应的lm输出,该lm输出反映准确的以及响应于nl输入的对应nl内容。llm可以包括至少数亿个参数,并且通常可以包括至少数十亿个参数,诸如一千亿个或更多个参数。例如,llm可以是序列到序列模型、基于transformer的、和/或包括编码器和/或解码器。llm的一个非限制性示例是谷歌的pathways语言模型(palm)。llm的另一个非限制性示例是谷歌的用于对话应用的语言模型(lamda)。2、另外,已经做出了努力以试图实现对机器人的稳健的自由形式(ff) nl控制。例如,使得机器人能够响应于来自人的针对机器人的各种不同的键入或口头指令中的任一种而适当地作出反应。例如,响应于ff nl指令“put the blocks in the toy bin (将积木放入玩具箱)”,能够执行包括(a)导航到“积木”、(b)拿起“积木”、(c)导航到“玩具箱”以及(d)将“积木”放入“玩具箱”的机器人任务。3、本文公开的实施方式认识到,lm (诸如llm)可以对有关世界的丰富语义知识进行编码,并且此类知识可对于机器人根据ff nl指令表达的高级的时间扩展指令来进行行动是有用的。本文公开的实施方式进一步认识到,llm的缺点是它们缺乏现实世界经验,诸如在机器人控制方面的现实世界经验,并且/或者它们缺乏对当前现实世界状况的任何契合化(grounding)。例如,用“i spilled my drink on the table, can you help (我把饮料洒在桌子上了,你能帮忙吗)”来提示llm可以生成反映描述清理溢出物的合理步骤的nl内容的llm输出。例如,llm输出的最高概率解码可以反映nl内容“you could try using avacuum (你可以尝试使用真空吸尘器)”。但是,“you could try using a vacuum”可能不适用于需要在特定环境中执行此任务的特定智能体,诸如机器人。例如,机器人可能没有集成式真空吸尘器,并且可能没有对特定环境中的任何单独的真空吸尘器的权限,或者可能无法在特定环境中控制单独的真空吸尘器。4、本文公开的实施方式利用lm输出来确定如何控制机器人响应于ff nl输入而执行任务,该ff nl输入:在高级别上描述任务;并且未能描述执行任务所需的所有(或甚至任何)机器人技能。然而,鉴于lm的已认识到的缺点,本文描述的实施方式利用一种或多种技术来使lm输出契合化(ground),使得基于lm输出而被选择用于响应于ff nl输入来执行的机器人技能是既可行(例如,可由机器人执行)又适合场境(例如,如果被机器人在特定环境中执行则可能成功)的机器人技能。更具体地说,实施方式通过不仅考虑lm输出而且还考虑可由机器人执行的机器人技能(诸如,预训练的机器人技能)来使lm输出契合化。5、作为那些实施方式中的一些实施方式的非限制性工作示例,假设用户提供了ffnl指令“i spilled my drink on the table, can you help”。可以基于ff nl指令生成llm提示。例如,llm提示可以严格遵守ff nl指令。作为另一个示例,并且如本文所述,llm提示可以基于ff nl指令,但未严格遵守该指令。例如,提示可以包括ff nl指令的词项中的一些或全部词项,但可以另外包括:当前环境的场景描述符(例如,在环境中检测到的对象的nl描述符);在利用llm的先前遍次(pass)中生成的解释(例如,基于先前llm提示“explainhow you would help when a user says ‘i spilled my drink on the table, can youhelp' (当用户说‘我把饮料洒在桌子上了,你能帮忙吗'时,解释你如何提供帮助)”;和/或用于鼓励llm对步骤进行预测的词项(例如,在提示末尾包括“i would 1. (我会1.)”)。6、可以使用llm处理所生成的llm提示以生成llm输出,该输出对依赖于指令的关于候选词构成的概率分布进行建模。继续该工作示例,llm输出的最高概率解码可以是例如“use a vacuum (使用真空吸尘器)”。然而,本文公开的实施方式并非仅仅盲目地利用llm输出的概率分布来确定如何控制机器人。而是,实施方式利用llm输出的概率分布,同时还考虑可由机器人实际执行的机器人技能,诸如数十、数百或数千种预训练的机器人技能。那些实施方式的一些版本生成针对所考虑的机器人技能中的每个机器人技能的对应任务契合化度量(task-grounding measure)和对应世界契合化度量(world-groundingmeasure)。进一步地,那些版本中的一些版本基于考虑对应任务契合化度量和对应世界契合化度量两者,响应于ff nl提示而选择特定的机器人技能来实施。例如,可以根据机器人技能中的每个机器人技能的对应世界契合化度量和任务契合化度量为该机器人技能生成对应总体度量,并且可以基于特定机器人技能具有最佳的对应总体度量来选择该特定机器人技能。7、在为机器人技能生成任务契合化度量时,可以将对机器人技能的nl技能描述与llm输出进行比较以生成任务契合化度量。例如,任务契合化度量可以反映在由llm输出进行建模的概率分布中nl技能描述的概率。例如,并且继续该工作示例,具有nl技能描述“pick up a sponge (拿起海绵)”的第一机器人技能的任务契合化度量可以反映比具有nl技能描述“pick up a banana (拿起香蕉)”的第二机器人技能的任务契合化度量更高的概率。换句话说,llm输出的概率分布可以表征“pick up a sponge”比“pick up a banana”的概率更高。另外,例如,并且继续该工作示例,具有nl技能描述“pick up a squeegee (拿起橡胶刮板)”的第三机器人技能的任务契合化度量可以反映与第一机器人技能相似的概率。8、在为机器人技能生成世界契合化度量时,可以任选地考虑当前状态数据,诸如环境状态数据和/或机器人状态数据。环境状态数据反映环境中的除机器人之外的一个或多个对象的状态,并且可以包括例如视觉传感器数据和/或通过处理视觉传感器数据而做出的确定(例如,对象检测和/或分类)。机器人状态数据反映机器人的一个或多个组件的状态,并且可以包括例如机器人的组件的当前位置、机器人的组件的当前速度和/或其他状态数据。9、在一些实施方式中或者对于一些机器人技能来说,还可以考虑机器人技能的描述。在那些实施方式中的一些实施方式中,使用经训练的值函数模型来处理机器人技能的描述(例如,其词嵌入)并处理当前状态数据,以基于当前状态数据生成反映机器人技能成功的概率的值,并且世界契合化度量是基于该值生成的(例如,符合该值)。在那些实施方式的一些版本中,还使用经训练的值函数模型并且连同描述和当前状态数据一起来处理候选机器人动作。在那些版本中的一些版本中,为给定的机器人技能生成多个值,其中,每个值是基于处理不同的候选机器人动作但利用相同的描述和相同的当前状态数据而生成的。在那些版本中,可以基于例如反映最高成功概率的所生成的值来生成世界契合化度量。10、继续该工作示例,假设当前环境状态数据包括由机器人的相机捕获的图像,并且该图像捕获到附近的海绵和附近的香蕉,但没有捕获到任何橡胶刮刀。在这种情况下,具有nl技能描述“pick up a sponge”的第一机器人技能的世界契合化度量可以反映高概率,具有nl技能描述“pick up a banana”的第二机器人技能的世界契合化度量也可以反映高概率,并且具有nl技能描述“pick up a squeegee”的第三机器人技能的世界契合化度量可以反映低概率。11、继续该工作示例,具有nl技能描述“pick up a sponge”的第一机器人技能可以基于考虑两者都反映了高概率的其任务契合化度量以及其世界契合化度量两者而被选择用于实施。应注意,第二机器人技能尽管具有高世界契合化度量,但由于其具有低任务契合化度量,因此并未被选择。同样,第三机器人技能尽管具有高任务契合化度量,但由于其具有低世界契合化度量,因此并未被选择。12、以这些和其他方式,本文公开的实施方式可以在选择要实施的机器人技能时考虑任务契合化度量和世界契合化度量两者。这确保了所选择的机器人技能不仅(a)可能导致成功完成由ff nl输入所反映的任务(如由任务契合化度量所反映的那样),而且(b)如果由机器人在当前环境中实施,则可能成功(如由世界契合化度量所反映)。13、提供上面的描述作为对本文公开的仅一些实施方式的概述。这些和其他实施方式在本文中,包括在具体实施方式以及权利要求书中,均进行了更详细地描述。14、应理解,前述概念和本文更详细描述的附加概念的所有组合都被视为本文公开的主题的一部分。例如,出现在本公开的末尾的所要求保护的主题的所有组合均被视为本文公开的主题的一部分。当前第1页12当前第1页12