本发明属于图像处理,具体涉及一种可泛化的通用单目深度图推理方法、系统、介质及设备。
背景技术:
1、单目深度图推理是机器人感知真实世界的基础研究问题之一。其对单视点下的物理传感器获取的原始数据进行推理,从而获取对应视点下场景的深度图,来表示物体与传感器之间的距离信息。深度图可被广泛地应用于目标检测、三维重建、机器人定位等多种机器人相关应用中。
2、面向不同的应用,通常采用某种装配了特定传感器的定制化机器人去感知特定的应用场景。例如,现有的物理传感器主要包括视觉相机、时间飞行传感器、结构光传感器、雷达传感器、视觉相机与其他传感器的组合等;常用的应用场景主要包括卧室、厨房、工厂等室内场景与道路、城市、村镇等室外场景。针对上述不同的物理传感器与应用场景,目前出现了大量的单目深度图推理方法。然而,这些定制化的单目深度图推理方法不能适应传感器与应用场景的变化,无法普适于不同的机器人应用中。
3、事实上,工业界更期望一种通用的单目深度图推理方法可以普适地应用于各种机器人中,不仅要很好地适应多种传感器甚至多种传感器的组合,同时也要满足工业界对于多种不同的应用场景的强泛化性需求;与之不同,现有的单目深度图推理方法主要聚焦于提升特定应用的工作性能;因此,现在亟需建立一种可泛化的通用单目深度图推理方法,解决现有方法无法适应传感器与应用场景的变化的难题。该方法有利于减少单目深度推理方法的定制化设计成本,提升相关的应用模块复用性能,有利于相关产业的快速落地与发展。
技术实现思路
1、本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种可泛化的通用单目深度图推理方法、系统、介质及设备,用于解决现有单目深度图推理方法无法适应传感器与应用场景变化的技术问题。
2、本发明采用以下技术方案:
3、可泛化的通用单目深度图推理方法,包括以下步骤:
4、s1、获取包含输入数据和监督数据的训练数据集;
5、s2、构建用于通用单目深度图推理的强泛化损失函数;
6、s3、构建由改进卷积运算块堆叠的7层u型卷积神经网络;
7、s4、基于步骤s1得到的训练数据集和步骤s2确定的强泛化损失函数,采用梯度下降方法对步骤s3构建的7层u型卷积神经网络进行训练,利用训练好的u型卷积神经网络推理得到同视点的深度图。
8、具体的,步骤s1中,输入数据包括视觉图像与可选的原始深度图;监督数据为与输入数据同视点的深度图。
9、进一步的,采用对监督深度图人工退化的方法获取可选的原始深度图,具体为:
10、通过改变高斯噪声与椒盐噪声的参数加入仿真噪声;通过改变图像分辨率加入仿真模糊;通过数据随机采样加入仿真稀疏性;通过建立空洞数据集并从数据集中随机采样空洞加入仿真空洞,监督深度图被退化为可选的原始深度图。
11、具体的,步骤s2中,强泛化损失函数具体为:
12、
13、其中,为尺度自适应损失,为尺度不变的多尺度梯度损失,λ为尺度自适应损失与尺度不变的多尺度梯度损失之间的平衡系数。
14、进一步的,尺度自适应损失具体为:
15、
16、其中,m为监督深度图的有效像素点个数,mv为输入深度图的有效像素点个数,di为推理出的深度图在像素点i的深度值,zi为监督深度图在像素点i的深度值,为推理出的深度图的均值,为监督深度图的均值,σd为推理出的深度图的平均差,σz为监督深度图的平均差,dv为推理出的深度图在输入深度图有效像素点v的对应深度值,zv为监督深度图在输入深度图有效像素点v的对应深度值,∈为防止分母为0的较小实数。
17、进一步的,尺度不变的多尺度梯度损失具体为:
18、
19、其中,ρk为最近邻下采样函数,k为尺度因子,和为下采样后的图像分别在x方向和y方向上的索贝尔梯度,m为监督深度图的有效像素点个数。
20、具体的,步骤s3中,7层u型卷积神经网络除初始层,每层包含三个改进卷积运算块,改进卷积运算块采用基于rezero技术的无标准化层的残差卷积运算块,由lrelu激活函数与卷积堆叠而成。
21、第二方面,本发明实施例提供了一种可泛化的通用单目深度图推理系统,包括:
22、数据模块,获取包含输入数据和监督数据的训练数据集;
23、函数模块,构建用于通用单目深度图推理的强泛化损失函数;
24、网络模块,构建由改进卷积运算块堆叠的7层u型卷积神经网络;
25、推理模块,基于数据模块得到的训练数据集和函数模块确定的强泛化损失函数,采用梯度下降方法对网络模块构建的7层u型卷积神经网络进行训练,利用训练好的u型卷积神经网络推理得到同视点的深度图。
26、第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述可泛化的通用单目深度图推理方法的步骤。
27、第四方面,本发明实施例提供了一种计算机可读存储介质,包括计算机程序,所述计算机程序被处理器执行时实现上述可泛化的通用单目深度图推理方法的步骤。
28、与现有技术相比,本发明至少具有以下有益效果:
29、一种可泛化的通用单目深度图推理方法,从单视点传感器所获取的视觉图像与可选的原始深度图来推理高质量的深度图;能够适应传感器与应用场景的变化,具有较好的通用性与较强的泛化性;以多样化的大规模训练数据、强泛化损失函数、基于改进卷积块的神经网络来实现。
30、进一步的,训练数据获取流程为卷积神经网络提供了超大规模的多样化数据集,使得训练好的卷积神经网络能够适应未见过的应用场景和未见过的传感器数据内容。
31、进一步的,采用人工退化方法获取可选的原始深度图可以解决现有的公开数据集中原始深度图缺乏的问题,扩充了训练数据的获取渠道,为超大规模训练数据的获取提供保证。
32、进一步的,强泛化损失函数为卷积神经网络提供了可泛化的通用单目深度图推理的任务目标,使得卷积神经网络能够专注于学习如何适应多种工作条件,包括传感器的变化与应用场景的变化。
33、进一步的,尺度自适应损失为输出深度图提供尺度约束,使得本方法能够根据不同的传感器数据输入自动地调整输出深度图的尺度,从而保证本方法能够适应传感器与应用场景变化。
34、进一步的,尺度不变的多尺度梯度损失为输出深度图提供平滑性约束,保证了深度图的平滑性与结构的精细程度,从而提升推理深度图的质量。
35、进一步的,改进的卷积神经网络为强泛化损失函数的拟合与训练数据的拟合提供了更好的网络结构与运算单元,提升了卷积神经网络在多种工作条件上的收敛性能。
36、可以理解的是,上述第二方面至第四方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
37、综上所述,本发明能够适应传感器与应用场景的变化,且能够处理未见过的应用场景,具有较好的通用性与较强的泛化性。
38、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。