使用神经网络进行场景转移的基于对象的预测的制作方法

文档序号:35777060发布日期:2023-10-21 10:55阅读:39来源:国知局
使用神经网络进行场景转移的基于对象的预测的制作方法


背景技术:

1、本说明书涉及使用神经网络来处理图像观察序列。

2、神经网络是采用一层或多层非线性单元来预测所接收输入的输出的机器学习模型。一些神经网络包括除了输出层之外的一个或多个隐藏层。每个隐藏层的输出用作网络中的下一层(即下一隐藏层或输出层)的输入。网络的每一层根据相应参数集的当前值从接收到的输入中生成输出。


技术实现思路

1、本说明书描述用于使用神经网络来进行场景转移(scene transitioning)的基于对象的预测的方法、计算机系统和设备,其包括在计算机存储介质上编码的计算机程序。

2、在一个创新方面,本说明书描述了一种用于预测场景转移的方法。该方法由包括一个或多个计算机的系统实施。该系统接收场景图像的输入序列,其中每个图像对应于观察时间序列中的不同时间点。对于每个时间点,系统使用分解神经网络处理对应图像以生成一个或多个特征表示。每个特征表示均表示一组对象中出现在对应图像中的一个对象。系统使用对准神经网络处理时间点的特征表示以生成一组对准的特征表示序列。每个对准的特征表示序列表示观察时间序列中的不同时间点上的相同对象。系统进一步使用转移神经网络处理所述一组对准的特征表示序列,以针对每个对准的特征表示序列来预测一个或多个特征表示,该一个或多个特征表示表示由对准序列表示的对象在一个或多个连续时间点的预测特征。

3、在实施方式中,方法可以被视为一种形式的对象跟踪方法。更具体来说,该方法能够在实施方式中跟踪多个对象,即使对象暂时从视图中消失,并且产生一组特征表示,每个特征表示表征一个对象,并且其中每个特征表示随时间一致地表示同一对象。特征表示可以根据对象的位置或运动和/或诸如大小、形状和颜色的其它特征来表征对象。此外,方法能够外推,即使用输入序列来预测在观察时间序列之后的时间点处的特征表示。被跟踪对象的预测特征可以以多种方式使用。

4、仅作为一个示例,预测特征能够用于控制在真实世界环境中操作的机械智能体,例如机器人,以执行真实世界任务。然后,图像可以是环境的图像。这能够使智能体能够规划对象表示空间中的未来轨迹,例如以表征机械臂以及其如何与环境中的物理对象交互。方法的一些实施方式还处理智能体为了预测每个对象的特征而采取的实际或计划的动作,因为场景可能随着智能体移动而改变,这是因为智能体的一部分包括在场景中,或者因为场景的视点与智能体的位置或配置相关联。作为另一示例,预测特征可以用于生成对应的预测场景。

5、方法的实施方式解决在非结构化表示空间中进行预测的问题。因此,方法的实施方式将图像分解为场景中的一组对象中的每个对象的表示,然后将这些表示对准,使得表示随时间是一致的。然后,将转移模型应用于这些一致的、基于对象的表示以预测未来的对象特征。不管个别神经网络的特征如何,以此方式构建系统有助于学习转换模型,即训练转移神经网络以产生准确的预测。

6、能够以无监督的方式训练系统也是有用的。然而,为了训练系统以预测对象特征,诸如对象位置、运动或其它特性,似乎需要标记的对象。尽管如此,系统的实施方式实现用于系统的无监督训练的方法。因此,能够使用组合分解损失(与分解神经网络相关)、对准损失(与对准神经网络相关)和转移损失(与转移神经网络相关)的联合损失无监督地训练系统。可以使用这些损失的总和对系统进行端到端训练。以这种方式合成损失允许分解损失是无监督的,被配置用于学习以生成图像中对象的对象特征表示。然后,对准损失和转移损失也能够是无监督的,被配置通过计算某一时间的特征表示与所述时间的预测特征表示之间的损失(即基于历史特征表示和当前特征表示)用于学习以随时间链接特征表示。

7、在方法的一些实施方式中,一组对准的特征表示序列分别存储在基于槽位的存储区(slot-based memory)中的一组槽位中。槽位可以是被配置成存储特征表示的存储区位置。这能够有助于维护一致的对象标识,并且在实施方式中促进对象持久性,尽管这不是必不可少的。在一些实施方式中,转移神经网络能够包括存储区,如稍后描述。

8、对准网络能够预测对准输出,该对准输出定义用于将当前时间点处的当前特征表示分配给基于槽位的存储区中的一组槽位中的每个的分配。例如,对准输出能够包括邻接矩阵,该邻接矩阵用于执行当前特征表示与基于槽位的存储区中的一组槽位的对准。

9、在方法的一些实施方式中,系统能够通过基于当前特征表示和邻接矩阵生成置换矩阵来执行硬对准。例如,使用匈牙利算法来执行硬对准。能够通过对从图像的输入序列生成的特征表示执行硬对准来生成一组对准的特征表示序列。

10、如先前所描述,在方法的一些实施方式中,已经联合地训练分解神经网络、对准神经网络和转移神经网络以最小化联合损失。

11、联合损失能够包括无监督分解损失,该无监督分解损失测量输入图像与重构图像之间的差异,该重构图像由分解神经网络的解码器重构,该重构图像基于对象的对象(分割)掩码重构。用于对象的对象(分割)掩码可以具有表示像素是否属于对象的像素;它可以是硬掩码(例如1或0的像素值)或软概率掩码。

12、无监督对准损失能够包括重构损失,该重构损失测量基于对准的历史特征表示的当前时间点的转移神经网络的输出与通过将邻接矩阵应用于一组当前特征表示生成的对准的当前特征表示之间的差异。能够通过执行将邻接矩阵与当前特征表示相乘的软对准来生成一组对准的当前特征表示。

13、无监督对准损失能够进一步包括对准输出的熵的测量。

14、无监督对准损失能够进一步包括惩罚邻接矩阵中总和为大于一的列的测量。

15、联合损失能够包括转移损失,该转移损失测量基于对准的历史特征表示的当前时间点的转移神经网络的输出与通过对准神经网络输出的对准的当前特征表示之间的差异。

16、在方法的一些实施方式中,对应于场景的环境正在与智能体进行交互。智能体能够获得场景图像的输入序列。

17、在方法的一些实施方式中,为了处理一组对准的特征表示序列,系统通过将转移神经网络应用于以下各项而在下一时间点处生成对准的特征表示:(i)从图像的输入序列生成的一组对准的特征表示序列和(ii)在观察时间序列中的最后一个时间点之后由智能体采取的一个或多个动作。

18、在方法的一些实施方式中,转移神经网络包括循环神经网络(rnn)。为了处理一组对准的特征表示序列,对于每个对准的特征表示序列,系统使用rnn来处理基于对准的特征表示序列、由智能体采取的一个或多个动作和隐藏状态导出的rnn输入以生成更新。对于当前时间点之后的连续时间点,系统通过将更新(其可以表示特征表示变化)应用于当前时间点的特征表示来生成连续时间点的预测特征表示。

19、在一些实施方式中,其中,rnn是独立地应用于每个槽位并且在槽位之间共享权重的长短期记忆(lstm)网络。

20、在方法的一些实施方式中,转移神经网络进一步包括变换(transformer)网络,其中,变换网络被配置成处理一组对准序列以生成对一组对象之间的交互进行编码的一组编码对准的特征表示序列。rnn输入包括一组编码对准的特征表示。

21、在方法的一些实施方式中,系统进一步根据转移神经网络的至少一个输出来控制智能体,例如通过从接收输出的控制器提供用于智能体的控制信号。

22、本说明书还提供一种系统,该系统包括一个或多个计算机和一个或多个存储装置,该存储装置存储指令,该指令在由一个或多个计算机施行时使一个或多个计算机执行上述场景转移预测方法。

23、本说明书还提供一个或多个存储指令的计算机存储介质,所述指令在由一个或多个计算机施行时使一个或多个计算机执行上述场景转移预测方法。

24、能够在特定实施例中实施在本说明书中描述的主题,以便实现以下优点中的一个或多个。

25、在本说明书中描述的系统通过预测对象级的特征表示来生成对象级的场景转移预测。在对象结构化的表示空间中工作提高了学习效率和准确性,这不仅是因为表示空间比像素空间维度更低,还因为模型能够利用对象作为一个整体移动的事实,从而简化学习所需的动力学。该系统进一步在对象级执行对准,从而进一步提高了对象级的转移预测的准确性,并且使系统能够在给定对象被暂时遮挡或暂时移出视场时为对象持久性进行建模。另外,系统包括能够以无监督方式进行端到端训练的模型。这使系统能够在没有标签的情况下有效地学习并且在环境中跨时间跟踪对象,这种情况在诸如机器人等现实世界任务中很常见,其中,智能体仅访问传感器读数,诸如环境图像。

26、在附图和以下具体实施方式中阐述本说明书中描述的主题的一个或多个实施例的细节。主题的其它特征、方面和优点将从具体实施方式、附图和权利要求书变得显而易见。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1