图像深度估计方法和装置、可读存储介质、电子设备与流程

文档序号：23993453发布日期：2021-02-20 14:33阅读：103来源：国知局

[0001]
本公开涉及深度估计技术，尤其是一种图像深度估计方法和装置、计算机可读存储介质、电子设备。

背景技术：

[0002]
单目深度估计是计算机视觉领域基础而重要的研究分支，在智能机器人导航与避障、自动驾驶智能感知等任务中存在重要的应用价值。现有基于深度神经网络的单目有监督深度估计方法通常由彩色图像或灰度图像直接经过神经网络回归得到深度图，由于深度神经网络中未添加显式的几何约束，导致该类方法的泛化性同样较差。

技术实现要素：

[0003]
为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种图像深度估计方法和装置、计算机可读存储介质、电子设备。
[0004]
根据本公开实施例的一个方面，提供了一种深度估计方法，包括：
[0005]
获得电子设备运动过程中采集到的第一图像帧和第二图像帧；
[0006]
确定所述第一图像帧对应的第一特征图以及所述第二图像帧对应的第二特征图；
[0007]
确定所述第一图像帧和所述第二图像帧之间的有尺度的帧间几何关系；
[0008]
基于所述帧间几何关系，确定所述第一特征图与所述第二特征图之间的重构误差；
[0009]
基于所述重构误差，确定所述第一图像帧对应的深度图。
[0010]
根据本公开实施例的另一方面，提供了一种神经网络训练方法，包括：
[0011]
确定训练集中的样本图像对对应的有尺度的样本帧间几何关系；其中，所述训练集包括多对样本图像对，每对所述样本图像对中包括第一样本图像和第二样本图像，每个所述第一样本图像对应一个真值深度图；
[0012]
利用第一神经网络中的特征提取分支、姿态估计分支和深度估计分支对所述样本图像对进行处理，得到预测帧间几何关系和所述第一样本图像对应的预测深度图；
[0013]
基于所述预测帧间几何关系和所述样本帧间几何关系，确定第一损失，基于所述预测深度图和所述真值深度图，确定第二损失；
[0014]
基于所述第一损失和所述第二损失，训练所述第一神经网络。
[0015]
根据本公开实施例的又一方面，提供了一种图像深度估计装置，包括：
[0016]
图像获取模块，用于获得电子设备在运动过程中采集到的第一图像帧和第二图像帧；
[0017]
特征提取模块，用于确定所述图像获取模块获得的所述第一图像帧对应的第一特征图以及所述第二图像帧对应的第二特征图；
[0018]
几何关系确定模块，用于确定所述图像获取模块获得的所述第一图像帧和所述第二图像帧之间的帧间几何关系；
[0019]
误差重构模块，用于基于所述几何关系确定模块确定的帧间几何关系，确定所述第一特征图与所述第二特征图之间的重构误差；
[0020]
深度估计模块，用于基于所述误差重构模块确定的重构误差，确定所述第一图像帧对应的深度图。
[0021]
根据本公开实施例的还一方面，提供了一种神经网络训练装置，包括：
[0022]
监督信息确定模块，用于确定训练集中的样本图像对对应的有尺度的样本帧间几何关系；其中，所述训练集包括多对样本图像对，每对所述样本图像对中包括第一样本图像和第二样本图像，每个所述第一样本图像对应一个真值深度图；
[0023]
信息预测模块，用于利用第一神经网络中的特征提取分支、姿态估计分支和深度估计分支对所述样本图像对进行处理，得到预测帧间几何关系和所述第一样本图像对应的预测深度图；
[0024]
损失确定模块，用于基于所述信息预测模块确定的预测帧间几何关系和所述监督信息确定模块确定的样本帧间几何关系，确定第一损失，基于所述信息预测模块确定的预测深度图和所述真值深度图，确定第二损失；
[0025]
网络训练模块，用于基于所述损失确定模块确定的第一损失和第二损失，训练所述第一神经网络。
[0026]
根据本公开实施例的再一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的图像深度估计方法或任一实施例所述的神经网络训练方法。
[0027]
根据本公开实施例的又一方面，提供了一种电子设备，所述电子设备包括：
[0028]
处理器；用于存储所述处理器可执行指令的存储器；
[0029]
所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的图像深度估计方法或任一实施例所述的神经网络训练方法。
[0030]
基于本公开上述实施例提供的一种图像深度估计方法和装置、计算机可读存储介质、电子设备，利用帧间几何关系确定第一特征图与第二特征图之间的重构误差，为深度估计添加显式的几何约束，提升了深度估计泛化性。
[0031]
下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。
附图说明
[0032]
通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。
[0033]
图1是本公开一示例性实施例提供的图像深度估计方法中神经网络训练结构示意图。
[0034]
图2是本公开一示例性实施例提供的图像深度估计方法进行深度估计的结构示意图。
[0035]
图3是本公开一示例性实施例提供的图像深度估计方法的流程示意图。
[0036]
图4是本公开另一示例性实施例提供的图像深度估计方法的流程示意图。
[0037]
图5是本公开又一示例性实施例提供的图像深度估计方法的流程示意图。
[0038]
图6是本公开一示例性实施例提供的神经网络训练方法的流程示意图。
[0039]
图7是本公开图6所示的实施例中步骤601的一个流程示意图。
[0040]
图8是本公开一示例性实施例提供的图像深度估计装置的结构示意图。
[0041]
图9是本公开另一示例性实施例提供的图像深度估计装置的结构示意图。
[0042]
图10是本公开一示例性实施例提供的神经网络训练装置的结构示意图。
[0043]
图11是本公开一示例性实施例提供的电子设备的结构图。
具体实施方式
[0044]
下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。
[0045]
应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
[0046]
本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。
[0047]
还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。
[0048]
还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。
[0049]
另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。
[0050]
还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。
[0051]
同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
[0052]
以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。
[0053]
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。
[0054]
应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
[0055]
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和
包括上述任何系统的分布式云计算技术环境，等等。
[0056]
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
[0057]
申请概述
[0058]
在实现本公开的过程中，发明人发现，现有基于深度神经网络的单目有监督深度估计方法通常由彩色图像或灰度图像直接经过神经网络回归得到深度图，但深度估计的泛化性较差。
[0059]
示例性系统
[0060]
本公开一实施例中提出的图像深度估计方法，其中输入为移动设备(例如，摄像头、相机等)运动过程采集的连续两帧图像，神经网络的网络结构包括姿态估计网络分支和深度估计网络分支，姿态估计网络分支和深度估计网络分支共享用于特征提取的编码网络，利用姿态估计网络分支输出的帧间几何关系计算两帧图像对应的深层特征图之间的重构误差，为深度估计网络分支添加显式的几何约束，最后通过深度估计网络分支的解码网络回归得到深度图。该图像深度估计方法的关键在于不借助其它运动传感器件的情况下，使姿态估计网络输出有尺度的帧间几何关系(帧间几何关系用于体现移动设备的移动距离和角度变化，包括：平移距离和旋转矩阵；其中，尺度是指比例，有尺度是相对于相关技术的方法得到的帧间几何关系是没有尺度的，即，相关技术给出的帧间几何关系中平移距离与真实的平移距离存在不等于1的常数倍比例关系，并不能提供实际移动设备真实的平移距离，而有尺度的帧间几何关系提供的是移动设备真实的移动距离和旋转矩阵)。本公开实施例在训练用于深度估计的神经网络时，利用传统视觉里程计方法(视觉里程计方法是相关技术中计算帧间几何关系的方法，可概括为对每张图提取关键点，计算两帧图像之间的匹配关系，确定摄像头的旋转矩阵和平移距离)计算得到无尺度的帧间几何关系；再通过离散地假设不同的尺度因子，并结合真值深度图(可利用深度摄像头或其他设备获得)来恢复帧间几何关系的尺度信息(从多个假设的尺度因子中确定一个尺度因子作为尺度信息)，然后将有尺度的帧间几何关系(将尺度因子与无尺度的帧间几何关系相乘即可得到有尺度的帧间几何关系)作为姿态估计网络分支的监督信号，监督训练姿态估计网络分支，使其在仅输入两帧图像的情况下就能输出有尺度的帧间几何关系，并且姿态估计网络分支输出的帧间几何关系在训练和测试过程均能参与深度估计的计算，为单目深度估计添加显式的几何约束，从而提升图像深度估计方法的泛化性。
[0061]
图1是本公开一示例性实施例提供的图像深度估计方法中神经网络训练结构示意图。该神经网络在训练过程中的结构主要包括四部分：姿态估计网络分支的监督信号生成模块101、特征提取的编码模块102、基于神经网络的姿态估计模块103和基于神经网络的深度估计模块104，其中视觉里程计的相关计算仅在模型训练阶段实施，测试时仅执行图1中的虚线框内的步骤。如图1所示，神经网络训练过程包括：
[0062]
姿态估计网络分支的监督信号的生成模块101具体实现可以包括以下4个步骤：
[0063]
1.1)利用传统视觉里程计方法估计出两帧图像(目标图像和参考图像)间无尺度的旋转矩阵r和平移距离t；
[0064]
1.2)离散地假设不同的尺度因子(即，不连续的多个尺度因子，例如：1、1.5、2、2.5等)，结合真值深度图(目标图像的真值深度图)，计算参考图像到目标图像的全局重构误差r
err
，可基于以下公式(1)计算全局重构误差：
[0065]
r
err
＝|i
t
(p
t
)-i
s
(p
s
)|
ꢀꢀꢀꢀꢀꢀ
公式(1)
[0066]
其中，p
t
和p
s
分别是目标图像i
t
和参考图像i
s
中满足如公式(2)所示对应关系的像素对：
[0067][0068]
其中，k是相机(移动设备)内参，是在像素p
t
的真值深度值，t
t
→
s
是两帧图像间的变换矩阵，该变换矩阵的定义如公式(3)所示：
[0069][0070]
其中，c是离散假设的尺度因子，δc是用户根据精度需求子定义的尺度间隔，n1是c的取值总个数。
[0071]
1.3)记录最小全局重构误差对应的尺度因子，将该尺度因子为视觉里程计输出中平移向量的尺度信息，以该尺度因子乘以步骤1.1)得到的无尺度的旋转矩阵和平移距离，得到有尺度的旋转矩阵和平移距离；
[0072]
1.4)输出有尺度的旋转矩阵r
′
和平移距离t
′
，作为训练神经网络的姿态估计分支的监督信号。
[0073]
利用视觉里程计输出的无尺度帧间几何关系和真值深度图恢复出有尺度的帧间几何关系，用于深度估计网络中帧间深层特征图的重构误差计算，为深度估计网络中添加显式的几何约束，使得图像深度估计方法具有较好地泛化性。
[0074]
结合上述得到的监督信号对神经网络的训练过程可包括以下步骤：
[0075]
2.1)将目标图像和参考图像分别输入特征提取的编码模块102进行特征提取，输出两个特征图(目标图像的目标特征图和参考图像的参考特征图)；
[0076]
2.2)利用神经网络的姿态估计模块103对两个特征图进行姿态预测，得到移动设备从采集参考图像到采集目标图像的过程中的预测旋转矩阵r
″
和预测平移距离t
″
；
[0077]
2.3)基于预测旋转矩阵(欧拉角e
r
″
，e
r
″
是旋转矩阵r
″
的欧拉角表示)和预测平移距离与上述步骤1.4)输出的有尺度的旋转矩阵r
′
和平移距离t
′
，确定姿态估计分支的第一损失；本实施例中的第一损失l
pose
可基于以下公式(4)确定：
[0078]
l
pose
＝|t
″-
t
′
|+λ1|e
r
″-e
r
′
|
ꢀꢀꢀꢀꢀꢀꢀ
公式(4)
[0079]
其中，e
r
′
是旋转矩阵r
′
的欧拉角表示，λ1是平衡常数因子(取值可根据实际情况设定)。
[0080]
2.4)固定神经网络的姿态估计模块103输出的预测旋转矩阵和预测平移距离，离散地假设不同的深度值，计算参考特征图到目标特征图的重构误差，生成代价立方体，生成代价立方体可基于以下公式(5)实现：
[0081]
f
err
＝|f
t
(p
t
)-f
s
(p
s
)|
ꢀꢀꢀꢀꢀꢀꢀ
公式(5)
[0082]
其中，p
t
和p
s
分别是目标特征图f
t
和参考特征图f
s
中满足如公式(6)所示对应关系的特征点对：
[0083][0084]
其中，k是对应特征分辨率的相机内参，是由姿态估计分支输出的两帧之间的有尺度的变换矩阵，d
t
是在像素p
t
假设的深度值，δd是用户根据精度需求自定义的深度值间隔，n2是d
t
的取值总个数。通过遍历d
t
的取值，可得到由f
err
构成的误差向量，再由所有特征点的误差向量构成的四维矩阵作为代价立方体。
[0085]
2.5)将代价立方体输入神经网络的深度估计模块104，得到预测的目标图像对应的深度图；
[0086]
2.6)基于预测的深度图d
p
与真值深度图之间的差异，确定第二损失l
depth
，第二损失可基于以下公式(7)确定：
[0087][0088]
其中，ω是具有真值深度的像素集合。
[0089]
2.7)结合第一损失和第二损失确定综合损失(可通过加权相加的方法确定综合损失，其中权重为超参，可预先设定)，基于综合损失计算神经网络的梯度，反向传播，更新神经网络中的权重(即网络参数)，可选地，综合损失l
total
可基于以下公式(8)确定：
[0090]
l
total
＝l
depth
+λ2l
pose
ꢀꢀꢀꢀꢀꢀꢀ
公式(8)
[0091]
其中，λ2是平衡常数因子(取值可根据实际情况设定)。
[0092]
2.8)重复步骤2.1)至2.7)，直到神经网络收敛，可选地，收敛条件可以是两次训练的综合损失变化小于第一设定值，或综合损失小于第二设定值，或者达到设定的迭代次数等，本实施例不限制网络收敛条件。
[0093]
本公开实施例在训练集仅包含rgbd视频序列的情况下，通过离散地假设视觉里程计的尺度因子，结合真值深度图，计算得到有尺度的姿态信息，作为基于深度神经网络的姿态估计方法的真值，实现同时进行姿态估计网络和深度估计网络的有监督训练，获得有尺度的运动信息，有助于移动设备的精确定位，同时解决了深度估计中几何约束尺度不确定的问题，使得深度估计方法具有更好的泛化性。
[0094]
图2是本公开一示例性实施例提供的图像深度估计方法进行深度估计的结构示意图。如图2所示，利用上述图1训练得到的神经网络(包括特征提取的编码模块102、姿态估计模块103和深度估计模块104)对移动设备在移动过程中采集的连续两帧图像进行深度估计，得到一帧图像对应的深度图。
[0095]
将移动设备运动过程中采集的连续两帧图像(第一图像帧和第二图像帧)输入经过训练的神经网络，经神经网络的特征提取的编码模块102进行特征提取，得到两帧图像对应的第一特征图和第二特征图；
[0096]
姿态估计模块103对第一特征图和第二特征图进行姿态预测，得到有尺度的旋转矩阵和平移距离；
[0097]
基于有尺度的旋转矩阵和平移距离，离散的假设不同的深度值，得到第二特征图到第一特征图的重构误差，得到代价立方体；
[0098]
将代价立方体输入深度估计模块104，得到预测的第一图像帧对应的深度图。
[0099]
示例性方法
[0100]
图3是本公开一示例性实施例提供的图像深度估计方法的流程示意图。本实施例可应用在电子设备上，如图3所示，包括如下步骤：
[0101]
步骤301，获得电子设备运动过程中采集到的第一图像帧和第二图像帧。
[0102]
其中，第一图像帧和第二图像帧是电子设备采集的连续两帧图像，电子设备可以是摄像头、相机等设备。
[0103]
步骤302，确定第一图像帧对应的第一特征图以及第二图像帧对应的第二特征图。
[0104]
在一实施例中，分别对第一图像帧和第二图像帧进行特征提取，得到第一特征图和第二特征图，例如，利用图1训练得到的神经网络中的用于特征提取的编码网络102，即可实现特征提取。
[0105]
步骤303，确定第一图像帧和第二图像帧之间的有尺度的帧间几何关系。
[0106]
其中，帧间几何关系包括电子设备在采集第一图像帧到采集第二图像帧时移动的旋转矩阵和平移距离，有尺度是指该帧间几何关系表达的是电子设备实际移动的距离和旋转矩阵，是相对于相关技术中获得的无尺度的帧间几何关系。
[0107]
步骤304，基于帧间几何关系，确定第一特征图与第二特征图之间的重构误差。
[0108]
可选地，重构误差可基于第一特征图与第二特征图中满足如上述图1所示实施例中公式(6)的条件的特征点对确定，例如，如图上述公式(5)所示获得第二特征图到第一特征图的重构误差。
[0109]
步骤305，基于重构误差，确定第一图像帧对应的深度图。
[0110]
可选地，可将重构误差输入上述图2所示实施例中的深度估计模块104中，以该分支网络预测得到第一图像帧对应的深度图。
[0111]
本公开上述实施例提供的图像深度估计方法，利用帧间几何关系确定第一特征图与第二特征图之间的重构误差，为深度估计添加显式的几何约束，提升了深度估计泛化性。
[0112]
图4是本公开另一示例性实施例提供的图像深度估计方法的流程示意图。如图4所示，包括如下步骤：
[0113]
步骤401，获得电子设备运动过程中采集到的第一图像帧和第二图像帧。
[0114]
其中，该步骤的实现过程和实现效果与上述图3所示实施例中的步骤301类似，在此不再赘述。
[0115]
步骤402，利用第一神经网络中的特征提取分支对第一图像帧和第二图像帧分别进行特征提取，得到第一特征图和第二特征图。
[0116]
可选地，本实施例中的第一神经网络的结构可参照如图2所示的实施例中的网络结构，其中特征提取分支对应图2中的特征提取的编码模块102。
[0117]
步骤403，利用第一神经网络中的姿态估计分支对第一特征图和第二特征图进行姿态估计，得到第一图像帧到第二图像帧之间图像采集设备的平移距离和旋转矩阵。
[0118]
可选地，本实施例中的姿态估计分支可对应图2所示实施例中的姿态估计模块103，通过该姿态估计分支对第一特征图和第二特征图进行姿态预测，得到电子设备从采集第一图像帧到采集第二图像帧的过程中的平移距离和旋转矩阵。
[0119]
步骤404，基于帧间几何关系，确定第一特征图与第二特征图之间的重构误差。
[0120]
其中，该步骤的实现过程和实现效果与上述图3所示实施例中的步骤304类似，在此不再赘述。
[0121]
步骤405，基于重构误差，确定第一图像帧对应的深度图。
[0122]
其中，该步骤的实现过程和实现效果与上述图3所示实施例中的步骤305类似，在此不再赘述。
[0123]
本实施例中，帧间几何关系包括平移距离和旋转矩阵；通过第一神经网络实现特征提取和姿态估计，该第一神经网络可经过上述图1所示的实施例提供的过程进行训练，由于训练过程中利用视觉里程计输出的无尺度帧间几何关系和真值深度图恢复出有尺度的帧间几何关系，用于深度估计模块104中帧间深层特征图的重构误差计算，为深度估计模块104中添加显式的几何约束，使本实施例中的图像深度估计方法具有较好地泛化性。
[0124]
图5是本公开又一示例性实施例提供的图像深度估计方法的流程示意图。如图5所示，包括如下步骤：
[0125]
步骤501，获得电子设备运动过程中采集到的第一图像帧和第二图像帧。
[0126]
其中，该步骤的实现过程和实现效果与上述图3所示实施例中的步骤301类似，在此不再赘述。
[0127]
步骤502，利用第一神经网络中的特征提取分支对第一图像帧和第二图像帧分别进行特征提取，得到第一特征图和第二特征图。
[0128]
其中，该步骤的实现过程和实现效果与上述图4所示实施例中的步骤402类似，在此不再赘述。
[0129]
步骤503，利用第一神经网络中的姿态估计分支对第一特征图和第二特征图进行姿态估计，得到第一图像帧到第二图像帧之间图像采集设备的平移距离和旋转矩阵。
[0130]
其中，该步骤的实现过程和实现效果与上述图4所示实施例中的步骤403类似，在此不再赘述。
[0131]
步骤504，基于姿态估计分支输出的平移距离和旋转矩阵，计算第二特征图到第一特征图的重构误差。
[0132]
可选地，第二特征图到第一特征图的重构误差可基于上述图1所示实施例中公式(5)获得。
[0133]
可选地，基于平移距离、旋转矩阵和预设的多个深度值，确定第一特征图与第二特征图中包括的满足设定条件的多组像素对；其中，每组像素对中包括第一特征图中的一个第一特征点和第二特征图中的多个第二特征点；确定每组像素对中一个第一特征点与一个第二特征点之间的重构误差。
[0134]
该实施例为了确定重构误差，首先去的具有对应关系的像素对，在假设一个深度值的情况下，将该深度值对应的第一特征图和第二特征图中所有的像素对带入公式(5)，即可得到在该深度值下，第二特征图到第一特征图的重构误差。
[0135]
步骤505，基于重构误差，确定第二特征图到第一特征图的代价立方体。
[0136]
可选地，当深度值唯一时，基于公式(5)可得到该深度值对应的重构误差，而由于本实施例在此时对深度值不确定，通过离散的假设多个不同的深度值，公式(5)中的p
t
和p
s
分别是第一特征图和第二特征图中满足公式(6)所示对应关系的特征点对，通过遍历d
t
的取值，可得到由f
err
构成的误差向量，再由所有特征点的误差向量构成获得四维矩阵形式的
代价立方体。可选地，基于每组像素对中一个第一特征点与一个第二特征点之间的重构误差，确定像素对对应的误差向量；基于多组像素对对应的误差向量，确定第二特征图到第一特征图的代价立方体。
[0137]
步骤506，利用深度估计分支对代价立方体进行处理，得到第一图像帧对应的深度图。
[0138]
本实施例通过姿态估计分支获得有尺度的运动信息，有尺度的运动信息有助于电子设备的精确定位，同时解决了深度估计中几何约束尺度不确定的问题，使得深度估计方法具有更好的泛化性。
[0139]
图6是本公开一示例性实施例提供的神经网络训练方法的流程示意图。如图6所示，包括如下步骤：
[0140]
步骤601，确定训练集中的样本图像对对应的有尺度的样本帧间几何关系。
[0141]
其中，训练集包括多对样本图像对，每对样本图像对中包括第一样本图像和第二样本图像，每个第一样本图像对应一个真值深度图。
[0142]
可选地，真值深度图可基于深度相机等设备获得，该步骤获得有尺度的样本帧间几何关系的过程可参照图1所示实施例中姿态估计网络分支的监督信号的生成模块101具体实现的4个步骤。
[0143]
步骤602，利用第一神经网络中的特征提取分支、姿态估计分支和深度估计分支对样本图像对进行处理，得到预测帧间几何关系和第一样本图像对应的预测深度图。
[0144]
该步骤实现的对帧间几何关系的预测和深度图的预测可参照图1所示实施例中步骤2.1)、2.2)、2.4)和2.5)，实现第一神经网络对样本图像对的帧间几何关系预测和深度图预测。
[0145]
步骤603，基于预测帧间几何关系和样本帧间几何关系，确定第一损失，基于预测深度图和真值深度图，确定第二损失。
[0146]
其中，第一损失可参照公式(4)进行确定，第二损失可参照公式(7)确定。
[0147]
步骤604，基于第一损失和第二损失，训练第一神经网络。
[0148]
本公开上述实施例提供的神经网络训练方法，基于第一损失和第二损失首先确定综合损失，确定该综合损失的过程可参照上述公式(8)确定，再基于该综合损失确定第一神经网络的梯度，通过梯度反向传播，更新第一神经网络中的网络参数，实现对第一神经网络的训练，本实施例中由于加入了有尺度的样本帧间几何关系作为监督信号，实现同时进行姿态估计网络和深度估计网络的有监督训练，获得有尺度的运动信息，有助于移动设备的精确定位，同时解决了深度估计中几何约束尺度不确定的问题，使得训练得到的第一神经网络具有更好的泛化性。
[0149]
如图7所示，在上述图6所示实施例的基础上，步骤601可包括如下步骤：
[0150]
步骤6011，利用视觉里程计方法，确定样本图像对之间的无尺度的样本帧间几何关系。
[0151]
该步骤可参照图1所示实施例中的步骤1.1进行理解，其中，视觉里程计方法是相关技术中计算帧间几何关系的方法，可概括为对每张图提取关键点，计算两帧图像之间的匹配关系，确定摄像头的旋转矩阵和平移距离(无尺度的)。
[0152]
步骤6012，离散的设定多个预设尺度因子，基于每个预设尺度因子结合真值深度
图，确定每个预设尺度因子对应的第二样本图像到第一样本图像的全局重构误差。
[0153]
该步骤可参照图1所示实施例中的步骤1.2进行理解，可利用公式(1)确定第二样本图像到第一样本图像的全局重构误差。
[0154]
步骤6013，基于多个预设尺度因子对应的多个全局重构误差，确定一个预设尺度因子作为目标尺度因子。
[0155]
通过离散的预设多个尺度因子，可获得多个全局重构误差，以多个全局重构误差中值最小的全局重构误差对应的尺度因子，作为目标尺度因子。
[0156]
步骤6014，基于目标尺度因子和无尺度的样本帧间几何关系，确定样本图像对对应的有尺度的样本帧间几何关系。
[0157]
该步骤可参照图1所示实施例中的步骤1.3进行理解，将目标尺度因子和无尺度的帧间几何关系进行相乘，即可得到有尺度的样本帧间几何关系，本实施例中利用视觉里程计输出的无尺度帧间几何关系和真值深度图恢复出有尺度的帧间几何关系，用于深度估计网络中帧间深层特征图的重构误差计算，为深度估计网络中添加显式的几何约束，使得训练得到的第一神经网络具有较好地泛化性。
[0158]
在一些可选的实施例中，在上述实施例的基础上，步骤602可以包括：
[0159]
利用第一神经网络的特征提取分支对样本图像对进行特征提取，得到第一样本图像对应的第一样本特征图和第二样本图像对应的第二样本特征图；
[0160]
利用姿态估计分支确定第一样本图像和第二样本图像之间的预测帧间几何关系；
[0161]
基于预测帧间几何关系，确定第一样本特征图和第二样本特征图之间的样本重构误差；
[0162]
利用深度估计分支对样本重构误差对进行处理，得到第一样本图像对应的预测深度图。
[0163]
可选地，基于样本重构误差，确定第二样本特征图到第一样本特征图的预测代价立方体；利用第一神经网络的深度估计分支对预测代价立方体进行处理，得到第一样本图像对应的预测深度图。
[0164]
该实施例中利用第一神经网络进行特征提取、帧间几何关系预测和深度图预测的过程与上述图3-图5所示的实施例提供的图像深度估计方法中的过程类似，可参照图1所示实施例中的步骤2.1和2.2理解帧间几何关系的预测过程，参照图1所示实施例中的步骤2.4和2.5理解深度图的预测。
[0165]
本公开实施例提供的任一种图像深度估计方法或神经网络训练方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种图像深度估计方法或神经网络训练方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种图像深度估计方法或神经网络训练方法。下文不再赘述。
[0166]
示例性装置
[0167]
图8是本公开一示例性实施例提供的图像深度估计装置的结构示意图。如图8所示，该实施例提供的装置包括：
[0168]
图像获取模块81，用于获得电子设备在运动过程中采集到的第一图像帧和第二图像帧。
[0169]
特征提取模块82，用于确定图像获取模块81获得的第一图像帧对应的第一特征图以及第二图像帧对应的第二特征图。
[0170]
几何关系确定模块83，用于确定图像获取模块82获得的第一图像帧和第二图像帧之间的帧间几何关系。
[0171]
误差重构模块84，用于基于几何关系确定模块83确定的帧间几何关系，确定第一特征图与第二特征图之间的重构误差。
[0172]
深度估计模块85，用于基于误差重构模块84确定的重构误差，确定第一图像帧对应的深度图。
[0173]
本公开上述实施例提供的图像深度估计装置，利用帧间几何关系确定第一特征图与第二特征图之间的重构误差，为深度估计添加显式的几何约束，提升了深度估计泛化性。
[0174]
图9是本公开另一示例性实施例提供的图像深度估计装置的结构示意图。本实施例中，帧间几何关系包括平移距离和旋转矩阵；如图9所示，该实施例提供的装置包括：
[0175]
特征提取模块82，具体用于利用第一神经网络中的特征提取分支对第一图像帧和第二图像帧分别进行特征提取，得到第一特征图和第二特征图；
[0176]
几何关系确定模块83，具体用于利用第一神经网络中的姿态估计分支对第一特征图和第二特征图进行姿态估计，得到第一图像帧到第二图像帧之间图像采集设备的平移距离和旋转矩阵。
[0177]
可选地，该实施例提供的装置还可以包括：误差重构模块84，具体用于基于姿态估计分支输出的平移距离和旋转矩阵，计算第二特征图到所述第一特征图的重构误差；
[0178]
该实施例提供的装置还包括：立方体确定模块91，用于基于重构误差，确定第二特征图到第一特征图的代价立方体。
[0179]
可选地，该实施例提供的装置还可以包括：误差重构模块84，具体用于基于平移距离、旋转矩阵和预设的多个深度值，确定第一特征图与第二特征图中包括的满足设定条件的多组像素对；其中，每组像素对中包括第一特征图中的一个第一特征点和第二特征图中的多个第二特征点；确定每组像素对中一个第一特征点与一个第二特征点之间的重构误差。
[0180]
立方体确定模块91，具体用于基于每组像素对中一个第一特征点与一个第二特征点之间的重构误差，确定像素对对应的误差向量；基于多组像素对对应的误差向量，确定第二特征图到第一特征图的代价立方体。
[0181]
可选地，该实施例提供的装置还可以包括：深度估计模块85，具体用于利用深度估计分支对代价立方体进行处理，得到第一图像帧对应的深度图。
[0182]
图10是本公开一示例性实施例提供的神经网络训练装置的结构示意图。如图10所示，该实施例提供的装置包括：
[0183]
监督信息确定模块11，用于确定训练集中的样本图像对对应的有尺度的样本帧间几何关系。
[0184]
其中，训练集包括多对样本图像对，每对样本图像对中包括第一样本图像和第二样本图像，每个第一样本图像对应一个真值深度图。
[0185]
信息预测模块12，用于利用第一神经网络中的特征提取分支、姿态估计分支和深度估计分支对样本图像对进行处理，得到预测帧间几何关系和第一样本图像对应的预测深
度图。
[0186]
损失确定模块13，用于基于信息预测模块12确定的预测帧间几何关系和监督信息确定模块确定的样本帧间几何关系，确定第一损失，基于信息预测模块确定的预测深度图和真值深度图，确定第二损失。
[0187]
网络训练模块14，用于基于损失确定模块13确定的第一损失和第二损失，训练第一神经网络。
[0188]
本公开上述实施例提供的神经网络训练装置，由于加入了有尺度的样本帧间几何关系作为监督信号，实现同时进行姿态估计网络和深度估计网络的有监督训练，获得有尺度的运动信息，有助于移动设备的精确定位，同时解决了深度估计中几何约束尺度不确定的问题，使得训练得到的第一神经网络具有更好的泛化性。
[0189]
可选地，在本公开另一示例性实施例提供的神经网络训练装置中，信息预测模块12，具体用于利用第一神经网络的特征提取分支对样本图像对进行特征提取，得到第一样本图像对应的第一样本特征图和第二样本图像对应的第二样本特征图；利用姿态估计分支确定第一样本图像和第二样本图像之间的预测帧间几何关系；基于预测帧间几何关系，确定第一样本特征图和第二样本特征图之间的样本重构误差；利用深度估计分支对样本重构误差对进行处理，得到第一样本图像对应的预测深度图。
[0190]
可选地，在本公开另一示例性实施例提供的神经网络训练装置中，监督信息确定模块11，具体用于利用视觉里程计方法，确定样本图像对之间的无尺度的样本帧间几何关系；离散的设定多个预设尺度因子，基于每个预设尺度因子结合真值深度图，确定每个预设尺度因子对应的第二样本图像到第一样本图像的全局重构误差；基于多个预设尺度因子对应的多个全局重构误差，确定一个预设尺度因子作为目标尺度因子；基于目标尺度因子和无尺度的样本帧间几何关系，确定样本图像对对应的有尺度的样本帧间几何关系。
[0191]
可选地，在本公开另一示例性实施例提供的神经网络训练装置中，信息预测模块12在利用第一神经网络的深度估计分支对样本重构误差对进行处理，得到第一样本图像对应的预测深度图时，用于基于样本重构误差，确定第二样本特征图到第一样本特征图的预测代价立方体；利用第一神经网络的深度估计分支对预测代价立方体进行处理，得到第一样本图像对应的预测深度图。
[0192]
示例性电子设备
[0193]
下面，参考图11来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。
[0194]
图11图示了根据本公开实施例的电子设备的框图。
[0195]
如图11所示，电子设备110包括一个或多个处理器111和存储器112。
[0196]
处理器111可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备110中的其他组件以执行期望的功能。
[0197]
存储器112可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以
存储一个或多个计算机程序指令，处理器111可以运行所述程序指令，以实现上文所述的本公开的各个实施例的图像深度估计方法或神经网络训练方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
[0198]
在一个示例中，电子设备110还可以包括：输入装置113和输出装置114，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
[0199]
例如，在该电子设备是第一设备100或第二设备200时，该输入装置113可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置113可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。
[0200]
此外，该输入设备113还可以包括例如键盘、鼠标等等。
[0201]
该输出装置114可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备114可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
[0202]
当然，为了简化，图11中仅示出了该电子设备110中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备110还可以包括任何其他适当的组件。
[0203]
示例性计算机程序产品和计算机可读存储介质
[0204]
除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的图像深度估计方法或神经网络训练方法中的步骤。
[0205]
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c++等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
[0206]
此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的图像深度估计方法或神经网络训练方法中的步骤。
[0207]
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0208]
以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作
用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。
[0209]
本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
[0210]
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。
[0211]
可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
[0212]
还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
[0213]
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。
[0214]
为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱红梅;张骞;隋伟
技术所有人：北京地平线信息技术有限公司
我是此专利的发明人

上一篇：光传感器及光检测系统的制作方法
上一篇：LED户外广告屏并联使用供电装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。