用于深度图像生成的方法和设备与流程

文档序号:25026062发布日期:2021-05-11 16:52阅读:112来源:国知局
用于深度图像生成的方法和设备与流程

本申请要求于2019年11月8日在韩国知识产权局提交的第10-2019-0142886号韩国专利申请的权益,所述韩国专利申请的全部公开出于所有目的的通过引用包含于此。

下面的描述涉及生成深度图像的图像处理技术。



背景技术:

三维(3d)信息的使用对于识别图像或理解场景可能是重要的。通过将深度信息添加到二维(2d)空间信息,对象的空间分布可被有效地预测。通常,仅当使用深度相机获取深度图像时才获得深度信息,并且可从深度相机获取的深度图像的质量根据深度相机的性能而变化。例如,获取的深度图像的噪声水平或分辨率可根据深度相机的性能而变化。因为深度信息的准确性对基于深度信息的结果的质量具有很大影响,所以获取具有高质量的深度图像是重要的。



技术实现要素:

提供本发明内容以简化的形式介绍在以下具体实施方式中进一步描述的构思的选择。本发明内容不意在确定要求保护的主题的关键特征或必要特征,也不意在用于帮助确定要求保护的主题的范围。

在一个总体方面,一种用于深度图像生成的方法包括:接收输入图像;生成具有比输入图像的分辨率低的分辨率的第一低分辨率图像;通过使用基于第一神经网络的第一生成模型来获取与输入图像对应的第一深度残差图像;通过使用基于第二神经网络的第二生成模型来生成与第一低分辨率图像对应的第一低分辨率深度图像;以及基于第一深度残差图像和第一低分辨率深度图像来生成与输入图像对应的目标深度图像。

生成目标深度图像的步骤可包括:将第一低分辨率深度图像上采样到输入图像的分辨率;以及通过将上采样的第一低分辨率深度图像的深度信息和第一深度残差图像的深度信息进行组合来生成目标深度图像。

生成第一低分辨率深度图像的步骤可包括:使用第二生成模型获取与第一低分辨率图像对应的第二深度残差图像;生成具有比第一低分辨率图像的分辨率低的分辨率的第二低分辨率图像;使用基于第三神经网络的第三生成模型来获取与第二低分辨率图像对应的第二低分辨率深度图像;以及基于第二深度残差图像和第二低分辨率深度图像来生成第一低分辨率深度图像。

生成第二低分辨率图像的步骤可包括对第一低分辨率图像进行下采样以生成第二低分辨率图像。

生成第一低分辨率深度图像的步骤可包括:将第二低分辨率深度图像上采样到第二深度残差图像的分辨率;以及通过将上采样的第二低分辨率深度图像的深度信息和第二深度残差图像的深度信息进行组合来生成第一低分辨率深度图像。

第二低分辨率深度图像的分辨率可低于第一低分辨率深度图像的分辨率。

与第二低分辨率深度图像相比,第二深度残差图像可包括高频分量的深度信息。

与第一深度残差图像相比,第一低分辨率深度图像可包括低频分量的深度信息。

生成第一低分辨率图像的步骤可包括:对输入图像进行下采样以生成第一低分辨率图像。

输入图像可包括彩色图像或红外图像。

输入图像可包括彩色图像和输入深度图像。在第一深度残差图像的获取中,第一生成模型可使用彩色图像的像素值和输入深度图像的像素值作为输入,并且输出第一深度残差图像的像素值。

输入图像可包括红外图像和输入深度图像。在第一深度残差图像的获取中,第一生成模型可使用红外图像的像素值和输入深度图像的像素值作为输入,并且输出第一深度残差图像的像素值。

在另一总体方面,一种非暂时性计算机可读存储介质存储在由处理器执行时使处理器执行上述方法的指令。

在另一总体方面,一种用于深度图像生成的方法包括:接收输入图像;通过使用基于使用输入图像作为输入的神经网络的生成模型来获取第一深度残差图像和第一低分辨率深度图像;以及基于第一深度残差图像和第一低分辨率深度图像来生成与输入图像对应的目标深度图像。

获取第一深度残差图像和第一低分辨率深度图像的步骤可包括:使用生成模型获取第二深度残差图像和第二低分辨率深度图像;以及基于第二深度残差图像和第二低分辨率深度图像来生成第一低分辨率深度图像。

生成模型可使用输入图像作为输入,并且输出第一深度残差图像、第二深度残差图像和第二低分辨率深度图像。

生成模型可包括单个神经网络模型。

在另一总体方面,一种用于深度图像生成的方法包括:接收输入图像;使用基于使用输入图像作为输入的神经网络的生成模型来获取具有相同尺寸的中间深度图像;以及通过将获取的中间深度图像进行组合来生成目标深度图像,其中,中间深度图像包括不同精确度的深度信息。

在另一总体方面,一种用于深度图像生成的设备包括处理器,处理器被配置为:接收输入图像;生成具有比输入图像的分辨率低的分辨率的第一低分辨率图像;通过使用基于第一神经网络的第一生成模型来获取与输入图像对应的第一深度残差图像;通过使用基于第二神经网络的第二生成模型来生成与第一低分辨率图像对应的第一低分辨率深度图像;以及基于第一深度残差图像和第一低分辨率深度图像来生成与输入图像对应的目标深度图像。

处理器还可被配置为:将第一低分辨率深度图像上采样到输入图像的分辨率;以及通过将上采样的第一低分辨率深度图像的深度信息和第一深度残差图像的深度信息进行组合来生成目标深度图像。

将上采样的第一低分辨率深度图像的深度信息和第一深度残差图像的深度信息进行组合的步骤可包括:计算第一深度残差图像和上采样的第一低分辨率深度图像中彼此对应的像素位置的深度值的加权和或总和。

处理器还可被配置为:使用第二生成模型获取与第一低分辨率图像对应的第二深度残差图像;生成具有比第一低分辨率图像的分辨率低的分辨率的第二低分辨率图像;使用基于第三神经网络的第三生成模型来获取与第二低分辨率图像对应的第二低分辨率深度图像;以及基于第二深度残差图像和第二低分辨率深度图像来生成第一低分辨率深度图像。

处理器还可被配置为:将第二低分辨率深度图像上采样到第二深度残差图像的分辨率;以及通过将上采样的第二低分辨率深度图像的深度信息和第二深度残差图像的深度信息进行组合来生成第一低分辨率深度图像。

将上采样的第二低分辨率深度图像的深度信息和第二深度残差图像的深度信息进行组合的步骤可包括:计算第二深度残差图像和上采样的第二低分辨率深度图像中彼此对应的像素位置的深度值的加权和或总和。

第一低分辨率深度图像的分辨率可高于第二低分辨率深度图像的分辨率。与第二低分辨率深度图像相比,第二深度残差图像可包括高频分量的深度信息。

处理器还可被配置为对输入图像进行下采样以生成第一低分辨率图像。

输入图像可包括彩色图像和输入深度图像。在第一深度残差图像的获取中,第一生成模型可使用彩色图像的像素值和输入深度图像的像素值作为输入,并且输出第一深度残差图像的像素值。

输入图像可包括红外图像和输入深度图像。在第一深度残差图像的获取中,第一生成模型可使用红外图像的像素值和输入深度图像的像素值作为输入,并且输出第一深度残差图像的像素值。

所述设备还可包括:传感器,被配置获取输入图像,其中,输入图像包括彩色图像和红外图像中的任何一个或两者。

在另一总体方面,一种用于深度图像生成的设备包括处理器,处理器被配置为:接收输入图像;通过使用基于使用输入图像作为输入的神经网络的生成模型来获取第一深度残差图像和第一低分辨率深度图像;以及基于第一深度残差图像和第一低分辨率深度图像来生成与输入图像对应的目标深度图像。

处理器还可被配置为:使用生成模型获取第二深度残差图像和第二低分辨率深度图像;以及基于第二深度残差图像和第二低分辨率深度图像来生成第一低分辨率深度图像。

第一低分辨率深度图像可具有低于输入图像的分辨率的分辨率。第二低分辨率深度图像可具有低于第一低分辨率深度图像的分辨率的分辨率。

在另一总体方面,一种用于深度图像生成的设备包括处理器,处理器被配置为:接收输入图像;通过使用基于使用输入图像作为输入的神经网络的生成模型来获取具有相同尺寸的中间深度图像;以及通过将获取的中间深度图像进行组合来生成目标深度图像,其中,中间深度图像包括不同精确度的深度信息。

将获取的中间深度图像进行组合的步骤包括:计算获取的中间深度图像中彼此对应的像素位置的深度值的加权和或总和。

从下面的具体实施方式、附图以及权利要求,其他特征和方面将是清楚的。

附图说明

图1示出深度图像生成设备的概要的示例。

图2是示出深度图像生成方法的示例的流程图。

图3是示出生成第一低分辨率深度图像的示例的流程图。

图4示出生成深度图像的处理的示例。

图5示出训练处理的示例。

图6示出生成深度图像的处理的示例。

图7示出训练处理的示例。

图8至图10示出生成深度图像的示例。

图11示出深度图像生成设备的配置的示例。

图12示出计算设备的配置的示例。

贯穿附图和具体实施方式,除非另有描述或提供,否则相同的附图参考标号将被理解为表示相同的元件、特征和结构。附图可不按比例,并且为了清楚、说明和方便,附图中的元件的相对尺寸、比例和描绘可被夸大。

具体实施方式

提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而,在理解本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如,在此描述的操作顺序仅是示例,并不限于在此阐述的那些顺序,而是除了必须以特定次序发生的操作之外,可如在理解本申请的公开之后将是清楚的那样被改变。此外,为了更加清楚和简明,可省略本领域中已知的特征的描述。

在此描述的特征可以以不同的形式被实现,而不应被解释为限于在此描述的示例。相反,在此描述的示例已被提供,以仅示出实现在理解本申请的公开之后将是清楚的在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式。

在此,注意的是,关于示例或实施例使用术语“可”(例如,关于示例或实施例可包括或实现什么)表示存在包括或实现这种特征的至少一个示例或实施例,而所有的示例和实施例不限于此。

贯穿说明书,当元件(诸如,层、区域或基底)被描述为“在”另一元件“上”、“连接到”或“结合到”另一元件时,该元件可直接“在”所述另一元件“上”、直接“连接到”或直接“结合到”所述另一元件,或者可存在介于它们之间的一个或多个其他元件。相反,当元件被描述为“直接在”另一元件“上”、“直接连接到”或“直接结合到”另一元件时,可不存在介于它们之间的其他元件。如在此所用,术语“和/或”包括相关所列项的任何一个和任何两个或更多个的任何组合。

尽管诸如“第一”、“第二”和“第三”的术语可在此用于描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不受这些术语限制。相反,这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分进行区分。因此,在不脱离示例的教导的情况下,在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。

在此使用的术语仅用于描述各种示例,而不将用于限制公开。除非上下文另外清楚地指示,否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合,但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。

如在理解本申请的公开之后将是清楚的,在此描述的示例的特征可以以各种方式被组合。此外,尽管在此描述的示例具有各种配置,但是如在理解本申请的公开之后将是清楚的,其他配置是可行的。

图1示出深度图像生成设备100的概要的示例。

参照图1,深度图像生成设备100是用于基于输入图像生成深度图像的设备。根据示例,深度图像生成设备100可基于彩色图像或红外图像而不是使用单独的深度图像来生成深度图像,或者可从具有相对低的分辨率或低质量的深度图像生成具有相对高的分辨率或高质量的深度图像。

在一个示例中,深度图像生成设备100可基于由图像传感器110感测的彩色图像或由红外传感器120感测的红外图像,来生成深度图像。在另一示例中,深度图像生成设备100可基于由图像传感器110感测的彩色图像和由深度传感器130感测的深度图像,来生成具有比由深度传感器130感测的深度图像的分辨率高的分辨率的深度图像。在另一示例中,深度图像生成设备100可基于由红外传感器120感测的红外图像和由深度传感器130感测的深度图像,来生成具有比由深度传感器130感测的深度图像的分辨率高的分辨率的深度图像。在前述示例中,彩色图像、红外图像和深度图像可以是表示相同场景并且彼此对应的图像。

图像传感器110是例如被配置为获取表示对象的颜色信息的彩色图像的传感器,并且包括例如互补金属氧化物半导体(cmos)图像传感器、电荷耦合器件(ccd)图像传感器或立体相机。红外传感器120是被配置为感测从对象发射的红外线或由对象反射的红外反射光并且生成红外图像的传感器。深度传感器130是被配置为获取表示对象的深度信息的深度图像的装置,并且可包括例如kinect、飞行时间(tof)深度相机或三维(3d)扫描仪。在图像传感器110是立体相机的示例中,可从立体相机获取包括左图像和右图像的立体图像,并且可使用已知的立体匹配(stereomatching)方案从立体图像得到深度图像。

深度图像是表示深度信息的图像,深度信息是关于从拍摄位置到对象的深度或距离的信息。深度图像可用于对象识别(诸如,3d脸部识别),或者用于处理摄影效果(诸如,失焦效果)。例如,深度图像可用于理解包括对象的场景。深度图像可确定对象之间的几何关系或者提供3d几何信息,以帮助提高视觉对象识别的性能。

当使用物理传感器(例如,深度传感器130)来获取深度图像时,可增加成本,可限制深度测量距离,可出现测量误差,并且可导致对外部光的脆弱性。深度图像生成设备100可使用基于深度学习的生成模型从彩色图像或红外图像生成深度图像,使得即使不使用深度传感器130也获取深度图像,以解决上述限制。例如,基于由深度图像生成设备100生成的深度图像,可使用单个彩色图像或单个红外图像来预测3d空间中的分布,可增大对象识别的准确率,并且可在存在遮挡(occlusion)的情况下鲁棒地理解场景。

为了增大深度图像的利用,重要的是使用具有高分辨率或高质量的深度图像。为了基于深度图像获得期望的结果,重要的是获取准确地表示深度特征(例如,对象的边缘的深度特征)的深度图像。深度图像生成设备100可使用以下将描述的基于多尺度的深度图像生成方法,来生成具有高分辨率和高质量的深度图像。也就是说,深度图像生成设备100可使用基于多尺度的深度图像生成方法,来更精确地和更准确地估计深度信息,基于多尺度的深度图像生成方法区分深度图像中的全局信息与局部信息并且估计全局信息和局部信息。

此外,深度图像生成设备100可通过处理由例如深度传感器130获取的深度图像来生成具有高质量的深度图像。深度图像生成设备100通过处理作为输入提供的深度图像来生成具有更高质量的深度图像的操作可对应于深度图像的校准(calibration)。例如,深度图像生成设备100基于包括在彩色图像或红外图像中的信息,生成具有比作为输入提供的深度图像的深度信息更精细的深度信息的深度图像。在这个示例中,深度图像生成设备100可使用基于多尺度的深度图像生成方法生成具有高质量的深度图像。

在下文中,将参照附图进一步描述通过深度图像生成设备100生成深度图像的方法。

图2是示出深度图像生成方法的示例的流程图。

参照图2,在操作210中,深度图像生成设备接收输入图像。输入图像可包括例如包括rgb颜色信息的彩色图像和/或红外图像,并且可以是单个图像。深度图像生成设备从图像获取设备接收输入图像,并且图像获取设备可包括图像传感器和/或红外传感器。

在操作220中,深度图像生成设备使用基于第一神经网络的第一生成模型来获取与输入图像对应的第一深度残差(residual)图像。将输入图像的像素值输入到第一生成模型,并且从第一生成模型输出与输入图像的尺度对应的第一深度残差图像。第一生成模型是通过训练处理被训练为基于输入信息输出深度残差图像的模型。第一深度残差图像包括例如高频分量的深度信息,并且是可相对准确地表示对象的边缘分量的图像。在本公开中,术语“尺度”和“分辨率”可彼此互换地使用。

在操作230中,深度图像生成设备生成具有比输入图像的分辨率低的分辨率的第一低分辨率图像。在一个示例中,深度图像生成设备可对输入图像进行下采样以生成第一低分辨率图像。例如,深度图像生成设备可生成与输入图像的尺度的一半的尺度对应的第一低分辨率图像。在输入图像是彩色图像的示例中,第一低分辨率图像可以是具有降低的分辨率的彩色图像。在输入图像是红外图像的示例中,第一低分辨率图像可以是具有降低的分辨率的红外图像。

在操作240中,深度图像生成设备使用基于第二神经网络的第二生成模型来生成与第一低分辨率图像对应的第一低分辨率深度图像。与在操作220中生成的第一深度残差图像相比,第一低分辨率深度图像包括例如低频分量的深度信息。第二生成模型也是通过训练处理训练的模型。

在一个示例中,深度图像生成设备估计高频分量的深度信息和低频分量的深度信息,并且将估计的高频分量的深度信息和估计的低频分量的深度信息进行组合以生成深度图像。在这个示例中,将第一低分辨率图像的像素值输入到第二生成模型,并且从第二生成模型输出与第一低分辨率图像的尺度或分辨率对应的第一低分辨率深度图像。第二生成模型是被训练为基于输入信息输出第一低分辨率深度图像的模型。第一深度残差图像包括高频分量的深度信息,并且第一低分辨率深度图像包括低频分量的深度信息。

在另一示例中,深度图像生成设备估计高频分量的深度信息、中频分量的深度信息和低频分量的深度信息,并且将估计的高频分量的深度信息、估计的中频分量的深度信息和估计的低频分量的深度信息进行组合以生成深度图像。在这个示例中,基于第三神经网络的第三生成模型可与第二生成模型一起使用。将参照图3进一步描述这个示例。

参照图3,在操作310中,深度图像生成设备使用第二生成模型获取与第一低分辨率图像对应的第二深度残差图像。将第一低分辨率图像的像素值输入到第二生成模型,并且从第二生成模型输出与第一低分辨率图像对应的第二深度残差图像。第二深度残差图像可包括中频分量的深度信息。第二生成模型是被训练为基于输入信息输出第二深度残差图像的模型。图3中的第二生成模型与图2中的第二生成模型可以是相同的生成模型。

在操作320中,深度图像生成设备生成具有比第一低分辨率图像的分辨率低的分辨率的第二低分辨率图像。例如,深度图像生成设备可对第一低分辨率图像进行下采样以生成第二低分辨率图像。例如,深度图像生成设备可生成与第一低分辨率图像的尺度的一半的尺度对应的第二低分辨率图像。

在操作330中,深度图像生成设备使用第三生成模型获取与第二低分辨率图像对应的第二低分辨率深度图像。第二低分辨率深度图像具有比第一低分辨率深度图像的分辨率低的分辨率,并且包括例如低频分量的深度信息。第三生成模型是被训练为基于输入信息输出第二低分辨率深度图像的模型。

在操作340中,深度图像生成设备基于第二深度残差图像和第二低分辨率深度图像生成第一低分辨率深度图像。与第二低分辨率深度图像相比,第二深度残差图像可包括高频分量的深度信息。在一个示例中,深度图像生成设备将第二低分辨率深度图像上采样到第二深度残差图像的分辨率,并且将上采样的第二低分辨率深度图像的深度信息和第二深度残差图像的深度信息进行组合以生成第一低分辨率深度图像。

返回参照图2,在操作250中,深度图像生成设备基于第一深度残差图像和第一低分辨率深度图像生成与输入图像对应的目标深度图像。在一个示例中,深度图像生成设备将第一低分辨率深度图像上采样到输入图像的分辨率,并且将上采样的第一低分辨率深度图像的深度信息和第一深度残差图像的深度信息进行组合以生成目标深度图像。

如上所述,深度图像生成设备可基于深度信息通过按尺度细分而被渐增地细化的结构生成深度图像。深度图像生成设备可配置具有各种尺度的输入图像,可将每个尺度的输入图像输入到对应的生成模型,并且可从每个生成模型获取包括具有不同频率分量的深度信息的图像。深度图像生成设备可通过将获取的包括具有不同频率分量的深度信息的图像进行组合来生成最终的目标深度图像。因此,深度图像生成设备可从彩色图像或红外图像而不是使用单独的深度传感器或初始深度图像,得到具有高质量的深度图像。

在一个示例中,深度图像生成设备可通过对作为输入提供的输入深度图像进行校准来生成具有更高质量的深度图像。在这个示例中,图2的深度图像生成方法可被改变。在操作210中,可将输入深度图像与彩色图像和红外图像中的一个一起作为输入图像提供给深度图像生成设备。输入深度图像可以是由深度传感器获取的深度图像,或者通过图像处理(例如,立体匹配方案)生成的深度图像。

在输入图像包括彩色图像和输入深度图像的示例中,在操作220中,深度图像生成设备可使用第一生成模型获取第一深度残差图像,第一生成模型使用彩色图像的像素值和输入深度图像的像素值作为输入并且输出第一深度残差图像的像素值。在操作230中,深度图像生成设备可生成具有比输入深度图像的分辨率低的分辨率的第一低分辨率输入深度图像以及具有比彩色图像的分辨率低的分辨率的第一低分辨率图像。在操作240中,深度图像生成设备可使用第二生成模型获取第一低分辨率深度图像,第二生成模型使用第一低分辨率图像的像素值和第一低分辨率输入深度图像的像素值作为输入并且输出第一低分辨率深度图像的像素值。

在另一示例中,深度图像生成设备还可使用与图3的示例类似的处理来获取第一低分辨率深度图像。例如,在操作310中,深度图像生成设备可使用第二生成模型获取第二深度残差图像,第二生成模型使用第一低分辨率图像的像素值和第一低分辨率输入深度图像的像素值作为输入并且输出第二深度残差图像的像素值。在操作320中,深度图像生成设备可生成具有比第一低分辨率输入深度图像的分辨率低的分辨率的第二低分辨率输入深度图像以及具有比第一低分辨率图像的分辨率低的分辨率的第二低分辨率图像。在操作330中,深度图像生成设备可使用第三生成模型获取第二低分辨率深度图像,第三生成模型使用第二低分辨率图像的像素值和第二低分辨率输入深度图像的像素值作为输入并且输出第二低分辨率深度图像的像素值。在操作340中,深度图像生成设备可通过将第二深度残差图像和第二低分辨率深度图像进行组合来生成第一低分辨率深度图像。

与以上描述类似,在操作250中,深度图像生成设备基于第一深度残差图像和第一低分辨率深度图像生成与输入图像对应的目标深度图像。与以上示例不同,当输入图像包括红外图像和输入深度图像时,深度图像生成设备可基于在上述处理中由红外图像代替彩色图像的处理来生成目标深度图像。即使深度信息不精细或者即使具有低质量(例如,大量噪声)的深度图像作为输入深度图像被提供,深度图像生成设备也可基于如上所述的多尺度深度图像生成结构来生成具有更高质量的深度图像。

图4示出生成深度图像的处理的示例。

如上所述,深度图像生成设备可通过基于多尺度的深度估计结构基于输入图像生成深度图像。即使当深度信息未作为输入提供时,深度图像生成设备也可使用基于多尺度的深度估计结构从彩色图像或红外图像估计深度信息。基于多尺度的深度估计结构是将输入图像分解为频率分量并且估计和处理与频率分量中的每个对应的深度信息的结构。例如,图4的基于多尺度的深度估计结构是将输入图像410分解为高频分量和低频分量、估计与每个频率分量对应的深度信息、将估计的深度信息进行组合并且生成深度图像的结构。使用基于多尺度的深度估计结构,顺序地针对每个尺度细化深度信息并且生成最终的目标深度图像。

参照图4,深度图像生成设备接收输入图像410。输入图像410可包括例如彩色图像或红外图像,并且可以是单个图像。在一个示例中,可提供通过将彩色图像和红外图像进行联结(concatenate)获得的图像作为输入图像410。尽管以下描述了输入图像410是彩色图像的示例,但是下面的处理同样适用于输入图像410是另一图像的示例。

深度图像生成设备使用基于第一神经网络的第一生成模型420来获取与输入图像410对应的第一深度残差图像430。输入图像410的像素值被输入到第一生成模型420,并且第一生成模型420输出第一深度残差图像430的像素值。第一深度残差图像430具有与输入图像410的分辨率或尺度对应的分辨率或尺度,并且包括高频分量的深度信息,高频分量包括对象的边缘细节分量。

深度图像生成设备通过对输入图像410进行下采样来生成第一低分辨率图像440。例如,深度图像生成设备可对输入图像410进行下采样,可执行模糊处理(例如,高斯平滑),并且可生成第一低分辨率图像440。与输入图像410相比,第一低分辨率图像440包括低频分量的颜色信息。

深度图像生成设备使用基于第二神经网络的第二生成模型450来生成与第一低分辨率图像440对应的第一低分辨率深度图像460。第一低分辨率图像440的像素值被输入到第二生成模型450,并且第二生成模型450输出第一低分辨率深度图像460的像素值。第一低分辨率深度图像460具有与第一低分辨率图像440的分辨率或尺度对应的分辨率或尺度,并且与第一深度残差图像430相比包括低频分量的深度信息。

第一生成模型420和第二生成模型450是被训练为基于输入信息分别输出第一深度残差图像430和第一低分辨率深度图像460的模型。使用生成对抗网络(gan)的图像到图像转化方案(例如,pix2pix、gyclegan和discogan)可用于实现第一生成模型420和第二生成模型450。

深度图像生成设备对第一低分辨率深度图像460进行上采样并且生成上采样的第一低分辨率深度图像470。例如,深度图像生成设备对第一低分辨率深度图像460进行上采样以生成具有与第一深度残差图像430的尺度对应的尺度的第一低分辨率深度图像470。在操作480中,深度图像生成设备将第一深度残差图像430和上采样的第一低分辨率深度图像470进行组合,以生成与输入图像410对应的目标深度图像490。例如,操作480对应于第一深度残差图像430和上采样的第一低分辨率深度图像470中彼此对应的像素位置的深度值的加权和或总和。在一个示例中,第一深度残差图像430包括通过从目标深度图像490去除上采样的第一低分辨率深度图像470的深度信息而获得的残差分量的深度信息。

如上所述,在通过将深度信息的全局信息和局部信息进行组合的深度信息的生成中,深度图像生成设备可指导在多尺度结构中的多个步骤中的每个步骤中将被估计的不同频率分量的深度信息,以生成具有更高分辨率的深度图像。深度图像生成设备可指导与在每个步骤中未被估计的深度信息对应的残差分量在另一步骤中被处理,因此可分离并在每个步骤中独立地估计频率分量的深度信息。即使不使用单独的深度传感器,深度图像生成设备也可从彩色图像或红外图像生成复杂的深度图像,并且还可从单个输入图像生成多个深度图像。

在一个示例中,深度图像生成设备通过使用图4的基于多尺度的深度估计结构对输入深度图像的深度信息进行校准来生成具有比输入深度图像的质量高的质量的深度图像。在这个示例中,输入深度图像以及彩色图像或红外图像可作为输入图像410被提供。深度图像生成设备使用第一生成模型420获取第一深度残差图像430,第一生成模型420使用彩色图像的像素值和输入深度图像的像素值作为输入并且输出第一深度残差图像430的像素值。深度图像生成设备生成具有比输入深度图像的分辨率低的分辨率的第一低分辨率输入深度图像以及具有比彩色图像的分辨率低的分辨率的第一低分辨率图像440。深度图像生成设备使用第二生成模型450获取第一低分辨率深度图像460,第二生成模型450使用第一低分辨率图像440的像素值和第一低分辨率输入深度图像的像素值作为输入并且输出第一低分辨率深度图像460的像素值。后续操作可与上述操作相同,并且基于以上处理生成的目标深度图像490可包括比作为输入提供的输入深度图像的深度信息更精细和更准确的深度信息。

图5示出训练处理的示例。

参照图5,用于执行训练处理的训练设备训练第一生成模型515和第二生成模型535。训练设备对作为目标图像的深度图像580进行下采样以生成具有降低的尺度的深度图像590。深度图像580可包括高频分量的深度信息,并且深度图像590可包括低频分量的深度信息。深度图像580和590中的每个被用作用于计算第一生成模型515和第二生成模型535中的每个的输出的误差值的参考图像。

当训练图像510被提供时,训练设备使用基于第一神经网络的第一生成模型515来生成与训练图像510对应的第一深度残差图像520。训练图像510可包括例如彩色图像、红外图像或通过将彩色图像和红外图像进行联结而获得的图像。第一深度残差图像520可包括高频分量的深度信息。

训练设备对训练图像510进行下采样以生成第一低分辨率图像530。训练设备使用基于第二神经网络的第二生成模型535来生成与第一低分辨率图像530对应的第一低分辨率深度图像540。第一低分辨率深度图像540包括低频分量的深度信息。

训练设备对第一低分辨率深度图像540进行上采样以生成具有与第一深度残差图像520的尺度相同的尺度的上采样的第一低分辨率深度图像550,并且在操作560中将上采样的第一低分辨率深度图像550和第一深度残差图像520进行组合以生成结果深度图像570。

训练设备生成结果深度图像570的以上处理对应于在图4的示例中的基于输入图像410生成目标深度图像490的处理。

训练设备通过将结果深度图像570和深度图像580进行比较来计算结果深度图像570与对应于高频分量的深度信息的地面真值(groundtruth)的深度图像580之间的差。训练设备调整参数(例如,第一生成模型515的第一神经网络的参数)的值,以降低结果深度图像570与深度图像580之间的差。例如,训练设备可寻找最优参数值以使定义结果深度图像570与深度图像580之间的差的损失函数的值最小化。在这个示例中,可基于分类方案或回归方案以各种形式定义损失函数。调整参数值的方案或校准用于深度图像580的生成的深度信息的处理可基于损失函数如何被定义而改变。此外,训练设备通过将第一低分辨率深度图像540和深度图像590进行比较来计算第一低分辨率深度图像540与对应于低频分量的深度信息的地面真值的深度图像590之间的差。训练设备调整第二生成模型535的参数以降低第一低分辨率深度图像540与深度图像590之间的差。训练设备可通过对大量训练图像重复执行以上处理来寻找第一生成模型515和第二生成模型535中的每个的参数的最优值。

结果,通过训练处理,第一生成模型515被训练为输出第一深度残差图像,第一深度残差图像包括通过从深度图像580减去通过按深度图像580的尺度对深度图像590进行上采样生成的深度图像而获得的残差分量,并且第二生成模型535被训练为输出被下采样的深度图像590。

训练设备可通过对大量训练图像重复执行以上处理来寻找第一生成模型515和第二生成模型535中的每个的参数的最优值。训练设备单独地训练估计深度图像的每个频率分量的深度信息的第一生成模型515和第二生成模型535,使得深度信息被有效地估计。在基于多尺度的深度估计结构中,训练设备使用先前操作的深度估计结果作为下一训练的指导。

图6示出生成深度图像的处理的另一示例。

在图6中,深度图像生成设备使用三层深度估计结构来生成深度图像。深度图像生成设备使用深度估计结构单独地估计高频分量、中频分量和低频分量的深度信息,并且将估计的深度信息进行组合以生成最终的目标深度图像。

参照图6,深度图像生成设备接收输入图像610。输入图像610可包括例如彩色图像、红外图像或通过将彩色图像和红外图像进行联结而获得的图像。尽管以下描述了输入图像610是彩色图像的示例,但是下面的处理同样适用于输入图像610是另一图像的示例。

深度图像生成设备使用基于第一神经网络的第一生成模型615来获取与输入图像610对应的第一深度残差图像620。输入图像610的像素值被输入到第一生成模型615,并且第一生成模型615输出第一深度残差图像620的像素值。第一深度残差图像620可具有与输入图像610的分辨率或尺度对应的分辨率或尺度,并且可包括高频分量的深度信息。

深度图像生成设备对输入图像610进行下采样以生成第一低分辨率图像625。例如,深度图像生成设备可对输入图像610进行下采样,可执行高斯平滑并且可生成第一低分辨率图像625。与输入图像610相比,第一低分辨率图像625可包括低频分量的颜色信息。

深度图像生成设备使用基于第二神经网络的第二生成模型630来获取与第一低分辨率图像625对应的第二深度残差图像640。第一低分辨率图像625的像素值被输入到第二生成模型630,并且第二生成模型630输出第二深度残差图像640的像素值。第二深度残差图像640可包括中频分量的深度信息,并且与第一深度残差图像620相比可包括低频分量的深度信息。

深度图像生成设备对第一低分辨率图像625进行下采样以生成第二低分辨率图像645。例如,深度图像生成设备可对第一低分辨率图像625进行下采样,可执行高斯平滑并且可生成第二低分辨率图像645。与第一低分辨率图像625相比,第二低分辨率图像645包括低频分量的颜色信息。

深度图像生成设备使用基于第三神经网络的第三生成模型650来获取与第二低分辨率图像645对应的第二低分辨率深度图像655。第二低分辨率图像645的像素值被输入到第三生成模型650,并且第三生成模型650输出第二低分辨率深度图像655的像素值。第二低分辨率深度图像655可包括低频分量的深度信息。

第一生成模型615、第二生成模型630和第三生成模型650是被训练为基于输入信息分别输出第一深度残差图像620、第二深度残差图像640和第二低分辨率深度图像655的模型。使用gan的图像到图像转化方案(例如,pix2pix、gyclegan和discogan)可用于实现第一生成模型615、第二生成模型630和第三生成模型650。

深度图像生成设备对第二低分辨率深度图像655进行上采样以生成上采样的第二低分辨率深度图像660。例如,深度图像生成设备可对第二低分辨率深度图像655进行上采样以生成具有与第二深度残差图像640的尺度对应的尺度的第二低分辨率深度图像660。在操作665中,深度图像生成设备将第二深度残差图像640和上采样的第二低分辨率深度图像660进行组合以生成第一低分辨率深度图像670。例如,操作665可对应于第二深度残差图像640和上采样的第二低分辨率深度图像660中彼此对应的像素位置的深度值的加权和或总和。在一个示例中,第二深度残差图像640包括通过从第一低分辨率深度图像670去除上采样的第二低分辨率深度图像660的深度信息而获得的残差分量的深度信息。

深度图像生成设备对第一低分辨率深度图像670进行上采样以生成上采样的第一低分辨率深度图像675。例如,深度图像生成设备可对第一低分辨率深度图像670进行上采样,并且生成具有与第一深度残差图像620的尺度对应的尺度的第一低分辨率深度图像675。在操作680中,深度图像生成设备将第一深度残差图像620和上采样的第一低分辨率深度图像675进行组合以生成与输入图像610对应的目标深度图像685。例如,操作680对应于第一深度残差图像620和上采样的第一低分辨率深度图像675中彼此对应的像素位置的深度值的加权和或总和。在一个示例中,第一深度残差图像620包括通过从目标深度图像685去除上采样的第一低分辨率深度图像675的深度信息而获得的残差分量的深度信息。

如上所述,深度图像生成设备通过基于多尺度的深度估计结构的多个步骤来将深度信息的全局信息和局部信息进行组合。深度图像生成设备从具有最小尺度的彩色图像提取全局深度信息,从具有其他尺度的彩色图像提取局部深度信息,并且将提取的局部深度信息添加到提取的全局深度信息以逐渐细化深度信息。

用于生成深度图像的基于多尺度的深度估计结构可具有四层或更多层以及图4的示例中描述的两层和图6的示例中描述的三层。

在一个示例中,深度图像生成设备通过使用图6的基于多尺度的深度估计结构对输入深度图像进行校准来生成具有比输入深度图像的质量高的质量的深度图像。在这个实例中,输入图像610可包括例如输入深度图像以及彩色图像或红外图像。深度图像生成设备使用第一生成模型615获取第一深度残差图像620,第一生成模型615使用彩色图像的像素值和输入深度图像的像素值作为输入并且输出第一深度残差图像620的像素值。深度图像生成设备生成具有比输入深度图像的分辨率低的分辨率的第一低分辨率输入深度图像以及具有比彩色图像的分辨率低的分辨率的第一低分辨率图像625。深度图像生成设备使用第二生成模型630获取第二深度残差图像640,第二生成模型630使用第一低分辨率图像625的像素值和第一低分辨率输入深度图像的像素值作为输入并且输出第二深度残差图像640的像素值。深度图像生成设备分别对第一低分辨率图像625和第一低分辨率输入深度图像进行下采样以生成第二低分辨率图像645和第二低分辨率输入深度图像。深度图像生成设备使用第三生成模型650获取第二低分辨率深度图像655,第三生成模型650使用第二低分辨率图像645的像素值和第二低分辨率输入深度图像的像素值作为输入并且输出第二低分辨率深度图像655的像素值。后续操作可与上述操作相同,并且基于以上处理生成的目标深度图像685可包括比作为输入提供的输入深度图像的深度信息更精细以及更准确的深度信息。

图7示出训练处理的另一示例。

参照图7,训练设备通过训练处理对第一生成模型715、第二生成模型730和第三生成模型750进行训练。训练设备将作为目标图像的深度图像790分解为三个不同的频率分量,并且对第一生成模型715、第二生成模型730和第三生成模型750进行训练,使得每个频率分量的深度信息基于分别与每个频率分量对应的深度图像790、792和794中的对应的一个被有效地估计。

训练设备对深度图像790进行下采样以生成具有降低的尺度的深度图像792,并且对深度图像792进行下采样以生成具有进一步降低的尺度的深度图像794。深度图像790可包括高频分量的深度信息,深度图像792可包括中频分量的深度信息,并且深度图像794可包括低频分量的深度信息。深度图像790、792和794中的每个被用作用于计算第一生成模型715、第二生成模型730和第三生成模型750中的每个的输出的误差值的参考图像。

当训练图像710被提供时,训练设备使用基于第一神经网络的第一生成模型715来生成与训练图像710对应的第一深度残差图像720。训练图像710可包括例如彩色图像、红外图像或通过将彩色图像和红外图像进行联结而获得的图像。第一深度残差图像720可包括高频分量的深度信息。

训练设备对训练图像710进行下采样以生成第一低分辨率图像725。训练设备使用基于第二神经网络的第二生成模型730来生成与第一低分辨率图像725对应的第二深度残差图像740。第二深度残差图像740可包括中频分量的深度信息。

训练设备对第一低分辨率图像725进行下采样以生成第二低分辨率图像745。训练设备使用基于第三神经网络的第三生成模型750来生成与第二低分辨率图像745对应的第二低分辨率深度图像755。第二低分辨率深度图像755可包括低频分量的深度信息。

训练设备按第二深度残差图像740的尺度对第二低分辨率深度图像755进行上采样以生成上采样的第二低分辨率深度图像760。在操作765中,训练设备将第二深度残差图像740和上采样的第二低分辨率深度图像760进行组合以生成第一低分辨率深度图像770。训练设备对第一低分辨率深度图像770进行上采样以生成具有与第一深度残差图像720的尺度相同的尺度的上采样的第一低分辨率深度图像775,并且在操作780中,将上采样的第一低分辨率深度图像775和第一深度残差图像720进行组合以生成结果深度图像785。

训练设备生成结果深度图像785的以上处理对应于图5的示例中的基于训练图像510生成目标深度图像的处理。

训练设备计算结果深度图像785与对应于高频分量的深度信息的地面真值的深度图像790之间的差,并且调整第一生成模型715的参数的值以降低结果深度图像785与深度图像790之间的差。训练设备计算第一低分辨率深度图像770与对应于中频分量的深度信息的地面真值的深度图像792之间的差,并且调整第二生成模型730的参数的值以降低第一低分辨率深度图像770与深度图像792之间的差。此外,训练设备计算第二低分辨率深度图像755与对应于低频分量的深度信息的地面真值的深度图像794之间的差,并且调整第三生成模型750的参数的值以降低第二低分辨率深度图像755与深度图像794之间的差。训练设备可通过对大量训练图像重复执行以上处理来寻找第一生成模型715、第二生成模型730和第三生成模型750中的每个的参数的最优值。

结果,通过训练处理,第一生成模型715被训练为输出第一深度残差图像,第一深度残差图像包括通过从深度图像790减去通过按深度图像790的尺度对深度图像792进行上采样生成的深度图像而获得的残差分量。第二生成模型730被训练为输出第二深度残差图像,第二深度残差图像包括通过从深度图像792减去通过按深度图像792的尺度对深度图像794进行上采样生成的深度图像而获得的残差分量。此外,第三生成模型750被训练为输出下采样的深度图像794。

如上所述,训练设备将深度图像790分解为多个频率分量,并且对第一生成模型715、第二生成模型730和第三生成模型750进行训练以估计每个频率分量的深度信息。在除了使用第三生成模型750的操作之外的操作中,训练设备允许仅学习先前操作的深度残差分量以分离在每个操作中估计的深度信息的特性并允许学习特性。在先前操作中估计的深度信息被用于生成用于在下一操作中训练的图像,并且被用于指导下一操作。训练设备指导在下一操作中将被处理的在每个操作中未被估计的残差分量,使得第一生成模型715、第二生成模型730和第三生成模型750中的每个有效地估计与第一生成模型715、第二生成模型730和第三生成模型750中的每个对应的频率分量的深度信息。

图8至图11示出生成深度图像的示例。

参照图8,深度图像生成设备接收输入图像810,并且使用基于神经网络模型的生成模型820来获取第一深度残差图像830和第一低分辨率深度图像840,而不是执行对输入图像810的分辨率或尺度进行转换的处理。输入图像810可包括例如彩色图像或红外图像,并且可以是单个图像。生成模型820对应于例如单个神经网络模型,并且基于输入图像810通过不同的输出层输出第一深度残差图像830和第一低分辨率深度图像840。生成模型820的功能通过对生成模型820进行训练的处理来实现。第一深度残差图像830和第一低分辨率深度图像840可分别对应于图4的第一深度残差图像430和第一低分辨率深度图像460。

与图4的处理类似,深度图像生成设备对第一低分辨率深度图像840进行上采样以生成上采样的第一低分辨率深度图像850,并且在操作860中,将第一深度残差图像830和上采样的第一低分辨率深度图像850进行组合以生成与输入图像810对应的目标深度图像870。例如,操作860对应于第一深度残差图像830和上采样的第一低分辨率深度图像850中彼此对应的像素位置的深度值的加权和或总和。

参照图9,深度图像生成设备接收输入图像910,并且使用基于神经网络模型的生成模型920来获取第一深度残差图像930、第二深度残差图像940和第二低分辨率深度图像950,而不是执行对输入图像910的分辨率或尺度进行转换的处理。输入图像910可包括例如彩色图像或红外图像,并且可以是单个图像。生成模型920对应于例如单个神经网络模型,并且基于输入图像910通过不同的输出层输出第一深度残差图像930、第二深度残差图像940和第二低分辨率深度图像950。生成模型920是被训练为基于输入信息输出第一深度残差图像930、第二深度残差图像940和第二低分辨率深度图像950的模型。为了实现生成模型920,可使用利用gan的图像到图像转化方案。第一深度残差图像930、第二深度残差图像940和第二低分辨率深度图像950可分别对应于图6的第一深度残差图像620、第二深度残差图像640和第二低分辨率深度图像655。

与图6的处理类似,深度图像生成设备对第二低分辨率深度图像950进行上采样以生成上采样的第二低分辨率深度图像960,并且在操作965中,将第二深度残差图像940和上采样的第二低分辨率深度图像960进行组合以生成第一低分辨率深度图像970。例如,操作965对应于第二深度残差图像940和上采样的第二低分辨率深度图像960中彼此对应的像素位置的深度值的加权和或总和。

深度图像生成设备对第一低分辨率深度图像970进行上采样以生成上采样的第一低分辨率深度图像975,并且在操作980中,将第一深度残差图像930和上采样的第一低分辨率深度图像975进行组合以生成与输入图像910对应的目标深度图像990。例如,操作980对应于第一深度残差图像930和上采样的第一低分辨率深度图像975中彼此对应的像素位置的深度值的加权和或总和。

用于生成深度图像的基于多尺度的深度估计结构可具有四层或更多层以及如图8的示例中描述的两层和图9的示例中描述的三层。

参照图10,深度图像生成设备接收输入图像1010,并且使用基于使用输入图像1010作为输入的神经网络模型的生成模型1020来获取中间深度图像1030、1040和1050。例如,中间深度图像1030、1040和1050可具有相同尺寸,但包括不同精确度的深度信息。生成模型1020基于输入图像1010通过不同的输出层输出包括具有不同精确度的深度信息的中间深度图像1030、1040和1050。生成模型1020是被训练为基于输入信息输出中间深度图像1030、1040和1050的单个神经网络模型。例如,中间深度图像1030包括具有相对高的精确度的深度信息,中间深度图像1050包括具有相对低的精确度的深度信息,并且中间深度图像1040包括具有中等精确度的深度信息。中间深度图像1030包括例如局部深度信息或高频的深度信息,并且中间深度图像1040包括例如中间频率的深度信息。中间深度图像1050包括例如全局深度信息或低频的深度信息。

在操作1060中,深度图像生成设备将中间深度图像1030、1040和1050进行组合以生成与输入图像1010对应的目标深度图像1070。例如,操作1060对应于中间深度图像1030、1040和1050中彼此对应的像素位置的深度值的加权和或总和。通过以上处理,深度图像生成设备基于彩色图像或红外图像生成具有高质量的深度图像。

图11示出深度图像生成设备1100的配置的示例。

参照图11,深度图像生成设备1100包括例如传感器1110、处理器1120和存储器1130。传感器1110、处理器1120和存储器1130经由通信总线1140彼此通信。在一个示例中,传感器1110可位于深度图像生成设备外部。

传感器1110可包括图像传感器、红外传感器和深度传感器中的任何一个或任何组合,图像传感器被配置为获取彩色图像,红外传感器被配置为获取红外图像,深度传感器被配置为获取深度图像。例如,传感器1110获取包括彩色图像和红外图像中的任何一个或两者的输入图像。传感器1110将获取的输入图像传送到处理器1120和存储器1130中的任何一个或两者。

处理器1120控制深度图像生成设备并且处理与上述深度图像生成方法相关联的至少一个操作。在一个示例中,处理器1120接收包括彩色图像和红外图像中的任何一个或两者的输入图像,并且生成具有比输入图像的分辨率低的分辨率的第一低分辨率图像。处理器1120对输入图像进行下采样以生成第一低分辨率图像。处理器1120使用基于第一神经网络的第一生成模型来获取与输入图像对应的第一深度残差图像,并且使用基于第二神经网络的第二生成模型来生成与第一低分辨率图像对应的第一低分辨率深度图像。处理器1120基于第一深度残差图像和第一低分辨率深度图像生成与输入图像对应的目标深度图像。与第一低分辨率深度图像相比,第一深度残差图像包括例如高频分量的深度信息。处理器1120将第一低分辨率深度图像上采样到输入图像的分辨率,并且将上采样的第一低分辨率深度图像的深度信息和第一深度残差图像的深度信息进行组合以生成目标深度图像。

在一个示例中,为了在处理器1120中的具有三层的多尺度结构中生成目标深度图像,除了第一生成模型和第二生成模型之外,处理器1120还可使用基于第三神经网络的第三生成模型。在这个示例中,处理器1120使用第二生成模型获取与第一低分辨率图像对应的第二深度残差图像。处理器1120生成具有比第一低分辨率图像的分辨率低的分辨率的第二低分辨率图像,并且使用第三生成模型获取与第二低分辨率图像对应的第二低分辨率深度图像。处理器1120将第二低分辨率深度图像上采样到第二深度残差图像的分辨率,并且将上采样的第二低分辨率深度图像的深度信息和第二深度残差图像的深度信息进行组合以生成第一低分辨率深度图像。与第二低分辨率深度图像相比,第二深度残差图像包括高频分量的深度信息。处理器1120将生成的第一低分辨率深度图像和第一深度残差图像进行组合以生成目标深度图像。

在另一示例中,处理器1120执行通过基于彩色图像或红外图像将由深度传感器获取的输入深度图像进行校准来生成具有高质量的深度图像的处理。以上已经参照图2描述了这个示例。

在又一示例中,处理器1120接收输入图像,并且使用基于使用输入图像作为输入的神经网络的生成模型来获取第一深度残差图像和第一低分辨率深度图像。处理器1120基于第一深度残差图像和第一低分辨率深度图像生成与输入图像对应的目标深度图像。为了获取第一低分辨率深度图像,处理器1120使用生成模型来获取第二深度残差图像和第二低分辨率深度图像,并且基于第二深度残差图像和第二低分辨率深度图像来生成第一低分辨率深度图像。以上已经参照图8和图9描述了这个示例。

在又一示例中,处理器1120接收输入图像,并且使用基于使用输入图像作为输入的神经网络的生成模型来获取具有相同尺寸的中间深度图像。中间深度图像包括不同精确度的深度信息。处理器1120将获取的中间深度图像进行组合以生成目标深度图像。以上已经参照图10描述了这个示例。

此外,处理器1120可执行以上参照图1至图10描述的操作中的至少一个,并且在此不重复对它们的进一步描述。

存储器1130存储在生成深度图像的上述处理中使用的信息和结果信息。此外,存储器1130存储能够在计算机中读取的指令。当存储在存储器1130中的指令被处理器1120执行时,处理器1120处理上述操作中的至少一个。

图12示出计算设备1200的配置的示例。

计算设备1200是被配置为执行生成深度图像的功能的设备,并且执行图11的深度图像生成设备的操作。参照图12,计算设备1200包括例如处理器1210、存储器1220、第一相机1230、第二相机1235、存储装置1240、输入装置1250、输出装置1260、通信装置1270和通信总线1280。计算设备1200中的每个组件经由通信总线1280与另一组件交换数据和/或信息。

处理器1210在计算设备1200中执行功能以及执行指令。例如,处理器1210可处理存储在存储器1220或存储装置1240中的指令。处理器1210执行以上参照图1至图11描述的操作中的至少一个操作。

存储器1220存储数据和/或信息。存储器1220包括非暂时性计算机可读存储介质或计算机可读存储装置。存储器1220可包括例如随机存取存储器(ram)、动态ram(dram)、静态ram(sram)或本领域已知的其他类型的非易失性存储器。存储器1220存储将由处理器1210执行的指令,以及在软件或应用被计算设备1200执行的同时与软件或应用的执行相关的信息。

第一相机1230可获取作为彩色图像的静态图像和视频图像中的任何一个或两者。第一相机1230对应于例如在此描述的图像传感器。第二相机1235可获取红外图像。第二相机1235可拍摄从对象发射的红外线或从对象反射的红外线。第二相机1235对应于例如在此描述的红外传感器。在一个示例中,计算设备1200可包括第一相机1230和第二相机1235中的任何一个或两者。在另一示例中,计算设备1200还可包括被配置为获取深度图像的第三相机(未示出)。在这个示例中,第三相机可对应于在此描述的深度传感器。

存储装置1240包括非暂时性计算机可读存储介质或计算机可读存储装置。存储装置1240可存储比存储器1220的信息量大的信息量,并且可将信息存储相对长的时间段。存储装置1240可包括例如磁性硬盘、光盘、闪存、电可擦除可编程只读存储器(eeprom)或本领域已知的其他类型的非易失性存储器。

输入装置1250通过触觉输入、视频输入、音频输入或触摸输入从用户接收输入。例如,输入装置1250可检测来自键盘、鼠标、触摸屏、麦克风或用户的输入,并且可包括被配置为将检测的输入传送到计算设备1200的其他装置。

输出装置1260使用视觉方案、听觉方案或触觉方案向用户提供计算设备1200的输出。例如,输出装置1260可包括例如液晶显示器(lcd)、发光二极管(led)显示器、触摸屏、扬声器、振动发生器或被配置为向用户提供输出的其他装置。

通信装置1270经由有线网络或无线网络与外部装置进行通信。例如,通信装置1270可使用有线通信方案或无线通信方案(例如,蓝牙通信、无线保真(wi-fi)通信、第三代(3g)通信或长期演进(lte)通信)与外部装置进行通信。

图1至图12中执行在本申请中描述的操作的第一生成模型420、515、615和715、第二生成模型450、535、630和730、第三生成模型650和750、处理器1120和1210、存储器1130和1220、通信总线1140和1280、存储装置1240、输入装置1250、输出装置1260、通信装置1270以及其他组件和装置由硬件组件来实现,硬件组件被配置为执行由硬件组件执行的在本申请中描述的操作。可用于执行在本申请中描述的操作的硬件组件的示例在适当的情况包括:控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器,以及被配置为执行在本申请中描述的操作的任何其他电子组件。在其他示例中,通过计算硬件(例如,通过一个或多个处理器或计算机)来实现执行在本申请中描述的操作的硬件组件中的一个或多个硬件组件。处理器或计算机可由一个或多个处理元件(诸如,逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以实现期望的结果的任何其他装置或装置的组合)来实现。在一个示例中,处理器或计算机包括或者连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行用于执行在本申请中描述的操作的指令或软件(诸如,操作系统(os)和在os上运行的一个或多个软件应用)。硬件组件还可响应于指令或软件的执行来访问、操控、处理、创建和存储数据。为了简单起见,在单数术语“处理器”或“计算机”可用于在本申请中描述的示例的描述中,但是在其他示例中,多个处理器或计算机可被使用,或者处理器或计算机可包括多个处理元件、或多种类型的处理元件或者两者。例如,单个硬件组件或者两个或更多个硬件组件可由单个处理器、或者两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可由一个或多个处理器、或者处理器和控制器来实现,并且一个或多个其他硬件组件可由一个或多个其他处理器、或者另一处理器和另一控制器来实现。一个或多个处理器、或者处理器和控制器可实现单个硬件组件、或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个,不同的处理配置的示例包括:单个处理器、独立处理器、并行处理器、单指令单数据(sisd)多处理、单指令多数据(simd)多处理、多指令单数据(misd)多处理和多指令多数据(mimd)多处理。

图1至图12中示出的执行在本申请中描述的操作的方法由计算硬件(例如,由一个或多个处理器或计算机)来执行,计算硬件被实现为上面描述的执行指令或软件以执行在本申请中描述的由该方法执行的操作。例如,单个操作或者两个或更多个操作可由单个处理器、或者两个或更多个处理器、或者处理器和控制器来执行。一个或多个操作可由一个或多个处理器、或者处理器和控制器来执行,并且一个或多个其他操作可由一个或多个其他处理器、或者另一处理器和另一控制器来执行。一个或多个处理器、或者处理器和控制器可执行单个操作、或者两个或更多个操作。

用于控制计算硬件(例如,一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件被编写为计算机程序、代码段、指令或它们的任何组合,以单独地或共同地指示或配置一个或多个处理器或计算机作为机器或专用计算机进行操作,以执行由如上所述的硬件组件和方法执行的操作。在一个示例中,指令或软件包括由一个或多个处理器或计算机直接执行的机器代码(诸如,由编译器产生的机器代码)。在另一示例中,指令或软件包括由一个或多个处理器或计算机使用解释器执行的高级代码。可基于附图中示出的框图和流程图以及说明书中的相应的描述使用任何编程语言来编写指令或软件,附图中示出的框图和流程图以及说明书中的相应的描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。

用于控制计算硬件(例如,一个或多个处理器或计算机)以实现硬件组件并执行如上所述的方法的指令或软件以及任何相关数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中,或者被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括:只读存储器(rom)、随机存取存储器(ram)、闪存、cd-rom、cd-r、cd+r、cd-rw、cd+rw、dvd-rom、dvd-r、dvd+r、dvd-rw、dvd+rw、dvd-ram、bd-rom、bd-r、bd-rlth、bd-re、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘和任何其他装置,任何其他装置被配置为以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构并将指令或软件以及任何相关的数据、数据文件和数据结构提供给一个或多个处理器或计算机,使得一个或多个处理器或计算机能够执行指令。在一个示例中,指令或软件以及任何相关的数据、数据文件和数据结构分布在联网的计算机系统上,使得指令和软件以及任何相关的数据、数据文件和数据结构由一个或多个处理器或计算机以分布式方式存储、访问和执行。

虽然本公开包括特定示例,但是在理解本申请的公开之后将清楚的是,在不脱离权利要求和它们的等同物的精神和范围的情况下,可在这些示例中做出形式和细节上的各种改变。在此描述的示例仅被认为是描述性的,而不是出于限制的目的。每个示例中的特征或方面的描述被认为可适用于其他示例中的相似的特征或方面。如果描述的技术以不同的顺序被执行,和/或如果描述的系统、架构、装置或电路中的组件以不同的方式被组合和/或由其他组件或它们的等同物替代或补充,则可实现合适的结果。因此,本公开的范围不是由具体实施方式限定,而是由权利要求和它们的等同物限定,并且在权利要求和它们的等同物的范围内的所有变化将被解释为包括在本公开中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1