1.本发明涉及人工智能技术领域,具体地涉及基于单目相机的深度图生成装置及方法。
背景技术:2.随着人工智能应用领域的不断发展,结合图像深度和rgb信息的应用越来越广泛,相较于rgb信息,深度信息引入了目标到相机的距离,增加了一个空间维度,能够更好地理解场景,显著提高检测或识别精度。含有深度信息的图像就是深度图。
3.现有技术对于深度图的生成方法有如下几种:
4.1.常规的硬件获取法:
5.这是一种较为方便的深度图生成技术,简单来说就是直接运用激光雷达、kinect和realsense这一类硬件来直接获取图像的深度信息,然后得到深度图;这三种设备的优缺点如下:
6.激光雷达:
7.优点:精度较高;
8.缺点:获取的是三维点云信息,缺乏rgb图像,即丢失了纹理信息;
9.kinect/realsense:
10.优点:可以同时得到rgb图像和深度图,且价格低廉,容易推广;
11.缺点:其rgb图像分辨率较低,对比度不高,视场范围受限。
12.2.基于图像处理的方法,如较为主流的双目或多目立体匹配法:
13.这类做法的原理都是标定好相机后,通过特征点匹配、全局匹配、局部匹配来得到深度图;这类做法的优缺点如下:
14.优点:可以生成精度较高的深度图,也保留了较好的rgb图像信息;
15.缺点:这类方法需要对相机进行复杂的标定,一旦完成标定,相机相对位置不可以移动,灵活性较差;此外这类技术方案所用的硬件需要定制,成本不低。
16.3.基于单目的深度估计方法:
17.这类技术方案是通过传统机器学习或深度学习的方法来获取深度图;这类技术方案的优缺点如下:
18.优点:硬件成本低;
19.缺点:需要先进行学习和建模,所以需要大量的数据集和复杂的运算过程,导致不适宜于推广。
技术实现要素:20.本发明针对上述问题,提供基于单目相机的深度图生成装置及方法,其目的在于实现以在保留单目相机的rgb图的高精度、视场都不变的前提下,拟合出深度图;无需对硬件进行标定,也无需对场景进行学习和建模,更不需要大量的先验知识;降低应用成本。
21.为解决上述问题,本发明提供的技术方案为:
22.一种基于单目相机的深度图生成装置,包含单目相机和realsense相机;其中:
23.所述单目相机安装在第一云台的快装板上;所述第一云台的底座固定安装在云台固定板上;
24.所述realsense相机安装在第二云台的快装板上;所述第二云台的底座固定安装在云台固定板上;
25.所述单目相机与所述realsense相机紧密配合;所述单目相机的光轴与所述realsense相机的光轴平行。
26.优选地,所述单目相机与所述realsense相机在水平方向上紧密配合。
27.优选地,所述单目相机与所述realsense相机在竖直方向上紧密配合。
28.优选地,其特征在于:所述单目相机通过由韧性材料制成的用于缓冲抗震的转换架安装在第一云台的快装板上;所述realsense相机通过由韧性材料制成的用于缓冲抗震的转换架安装在第二云台的快装板上。
29.优选地,所述单目相机的上、下、左、右四个方向均安装有散热片。
30.一种利用深度图生成装置的基于单目相机的深度图生成方法,包含以下步骤:
31.s100.将所述单目相机的光轴与所述realsense相机的光轴同时对准图像采集目标;
32.s200.用所述单目相机对所述图像采集目标采集1张单目相机rgb图像;用所述realsense相机对所述图像采集目标采集1张realsense相机rgb图像和1张realsense相机深度图;
33.所述realsense相机rgb图像中的像素点与所述realsense相机深度图中的像素点为一一对应关系;
34.s300.通过将所述单目相机rgb图像向下采样,使所述单目相机rgb图像的分辨率降至与所述realsense相机rgb图像的分辨率相同,得到向下采样单目相机rgb图像;
35.s400.对所述向下采样单目相机rgb图像进行超像素分割操作,得到分割单目相机rgb图像;
36.s500.将所述向下采样单目相机rgb图像与所述realsense相机rgb图像进行特征点匹配操作,得到匹配深度图;
37.s600.根据所述分割单目相机rgb图像对所述匹配深度图进行区域分割,得到分区深度图;所述分区深度图由多个分割区域组成;
38.s700.逐一统计每个所述分割区域中的所有像素点的深度值的平均值,然后将所述平均值作为对应的分割区域的深度值,对所述对应的分割区域进行填充,得到填充深度图;
39.s800.通过将所述填充深度图向上采样,使所述填充深度图的分辨率升至与所述单目相机rgb图像的分辨率相同,得到单目相机深度图;然后将所述单目相机深度图作为所述深度图生成方法的结果输出。
40.优选地,s500中的所述特征点匹配操作具体包含以下操作:
41.s510.逐一对所述向下采样单目相机rgb图像中的像素点在所述realsense相机rgb图像搜索能匹配的像素点;
42.s520.根据搜索结果做出如下操作:
43.如果所述向下采样单目相机rgb图像中的像素点在所述realsense相机rgb图像具有能匹配的像素点,则将所述向下采样单目相机rgb图像中的像素点赋予对应的所述realsense相机rgb图像中的能匹配的像素点在所述realsense相机深度图中对应的像素点的深度值;
44.否则,将所述向下采样单目相机rgb图像中的像素点的灰度值设为0。
45.本发明与现有技术对比,具有以下优点:
46.1.由于本发明采用将单目相机和一台realsense相机紧密连接在一起,且光轴近似重合,使realsense相机获取的rgb图与单目相机获取的高精度rgb图可以进行特征点匹配,从而可以在保留单目相机的rgb图的高精度、视场都不变的前提下,拟合出深度图,克服了激光雷达技术方案的丢失了纹理信息的缺点;
47.2.由于本发明没有使用定制设备,从而克服了基于图像处理的方法技术方案的成本高的缺点;
48.3.由于本发明的深度图的获取不是通过多相机图像坐标计算三维坐标,从而克服了基于单目的深度估计方法技术方案的缺点,无需对硬件进行标定,也无需对场景进行学习和建模,更不需要大量的先验知识,进一步来说也适宜于推广应用。
附图说明
49.图1为本发明具体实施例的基于单目相机的深度图生成装置的正视示意图;
50.图2为本发明具体实施例的装置正视照片;
51.图3为本发明具体实施例的基于单目相机的深度图生成方法的流程示意图;
52.图4为本发明具体实施例的i
rgb
的图像;
53.图5为本发明具体实施例的r
rgb
的图像;
54.图6为本发明具体实施例的r
d
的图像;
55.图7为本发明具体实施例的i
rgb
的特征点检测结果的图像;
56.图8为本发明具体实施例的r
rgb
的特征点检测结果的图像;
57.图9为本发明具体实施例的特征点匹配结果的图像;
58.图10为本发明具体实施例的经过超像素分割操作后得到的s
rgb
的图像;
59.图11为本发明具体实施例的i
d
的图像;
60.图12为本发明具体实施例的各图像根据算法流程的变化示意图。
61.其中:1.单目相机,2.realsense相机,3.第一云台,4.第二云台,5.云台固定板,6.转换架,7.散热片,8.三脚架。
具体实施方式
62.下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
63.如图1所示(正视图),一种基于单目相机的深度图生成装置,包含单目相机1和realsense相机2。
64.本具体实施例中,单目相机1为工业相机,具体来说采用微视rs
‑
a14k
‑
gc8工业相机。
65.本具体实施例中,realsense相机2采用intel realsense d415深度相机;此外,realsense相机2还可以采用intel realsense d435深度相机。
66.其中:
67.单目相机1安装在第一云台3的快装板上;第一云台3的底座固定安装在云台固定板5上。
68.本具体实施例中,单目相机1通过由韧性材料制成的用于缓冲抗震的转换架6安装在第一云台3的快装板上。
69.realsense相机2安装在第二云台4的快装板上;第二云台4的底座固定安装在云台固定板5上。
70.本具体实施例中,realsense相机2通过由韧性材料制成的用于缓冲抗震的转换架6安装在第二云台4的快装板上。
71.单目相机1的光轴与realsense相机2的光轴平行。单目相机1与realsense相机2在水平方向上紧密配合,或在竖直方向上紧密配合。
72.这样做的目的在于:使两相机采集的同一场景具有相同的深度,这样才能用realsense相机深度图来拟合并最终得到单目相机深度图。
73.本具体实施例中,单目相机1与realsense相机2在水平方向上紧密配合。
74.本具体实施例中,云台固定板5下方安装有三脚架8,通过调整三脚架8的姿态,使单目相机1的光轴与realsense相机2的光轴都保持水平姿态。
75.对于单目相机1而言,生成的绝对深度会存在极小的误差,原因是单目相机1与realsense相机2这两个相机的像平面并不完全重合,但是场景中不同目标的相对深度不会受影响。
76.本具体实施例中,单目相机1的上、下、左、右四个方向均安装有散热片7。这是因为工业相机在使用时功耗较大容易产生热量,一定需要进行散热。
77.如图2所示,为本具体实施例的装置正视照片。
78.如图3所示,一种利用深度图生成装置的基于单目相机的深度图生成方法,包含以下步骤:
79.s100.将单目相机1的光轴与realsense相机2的光轴同时对准图像采集目标。
80.s200.用单目相机1对图像采集目标采集1张单目相机rgb图像,以下为了方便表述,将单目相机rgb图像记为i
rgb
;用realsense相机2对图像采集目标采集1张realsense相机rgb图像和1张realsense相机深度图;以下为了方便表述,将realsense相机rgb图像记为r
rgb
,将realsense相机深度图记为r
d
。
81.本具体实施例中,i
rgb
如图4所示;r
rgb
如图5所示;r
d
如图6所示。
82.对比图4和图5可以很清晰的看到,虽然工业相机和realsense相机2的光轴不完全共线,但由于二者安装在很接近的位置,所以图像场景十分接近。
83.对比图5和图6可以看到,r
rgb
与r
d
中的点是一一对应,且重合的。
84.r
rgb
中的像素点与r
d
中的像素点为一一对应关系。
85.s300.通过将i
rgb
向下采样,使i
rgb
的分辨率降至与r
rgb
的分辨率相同,得到向下采
样单目相机rgb图像;以下为了方便表述,将向下采样单目相机rgb图像记为i
rgb
。
86.这一步的原因是:本具体实施例中的工业相机的分辨率为4384
×
3288,而realsense相机2的分辨率有多种;出于算法的要求考虑,realsense相机2的分辨率需要选择长宽比与工业相机保持一致的分辨率。
87.本具体实施例中:realsense相机2的选型为intel realsense d415,或换成intel realsense d435也能达到相同的效果;但无论intel realsense d415还是intel realsense d435,所能输出的深度图最大分辨率为1280
×
720;显然对比工业相机的分辨率差了很多;同时如上所述,为了realsense相机2的分辨率需要选择长宽比与工业相机保持一致的分辨率,realsense相机2的分辨率在本具体实施例中只能选择为640
×
480,也就是本具体实施例中的r
rgb
的画质。
88.但另一方面,工业应用中对图像的清晰度和对比度要求都较高,所以r
rgb
的画质是不能使用的,只能用i
rgb
;可是i
rgb
又缺少与之对应的深度图;这样矛盾就显现出来了;而这个矛盾就是本发明需要解决的根本问题;简单来说,本发明的目的就是生成与i
rgb
点对点的深度图i
d
。
89.所以,s300这一步骤的实际含义,就是通过对i
rgb
进行向下采样,转变成与r
rgb
分辨率相同的新图,亦即i
rgb
。
90.s400.对i
rgb
进行超像素分割操作,得到分割单目相机rgb图像;以下为了方便表述,将分割单目相机rgb图像记为s
rgb
。
91.本具体实施例中,超像素分割操作是按照待分析场景进行区域划分的。
92.超像素分割操作是把具有相似纹理、颜色、亮度等特征的相邻像素构成的有一定视觉意义的不规则像素块。
93.s500.将i
rgb
与r
rgb
进行特征点匹配操作,得到匹配深度图;以下为了方便表述,将匹配深度图记为i
dp
;具体包含以下操作:
94.s510.逐一对r
d
中的像素点在r
rgb
搜索能匹配的像素点;
95.s520.根据搜索结果做出如下操作:
96.如果i
rgb
中的像素点在r
rgb
具有能匹配的像素点,表示匹配成功,则将i
rgb
中的像素点赋予对应的r
rgb
中的能匹配的像素点在r
d
中对应的像素点的深度值;成功配对的两个像素点都称为特征点
97.否则,表示匹配不成功,于是将i
rgb
中的像素点的灰度值设为0。
98.在s500的步骤中,特征点匹配操作的作用在于剔除误差较大的点,保留好的匹配点。这是由于:工业相机和realsense相机2的型号差异较大,视场角度会不同,视场角较大的相机采集的图像两侧会有较多的不重合区域。但由于工业相机和realsense相机2二者是紧密相连安装的,故视场中间重合部分图像相似程度会很高,可以降低匹配难度,所以该区域通常会产生较多的匹配点对。
99.例如,有一对匹配点,其中在i
rgb
中的像素点的图像坐标为(m,n),在r
rgb
中的坐标为(m’,n’)。由于两个相机型号不同,这两个坐标一般是不同的,但两个相机左右或者上下紧密相连安装,前后位置保持一致,故对于同一副场景,绝对深度是相似的,相对深度是相同的。由于r
rgb
与r
d
中的像素点是一一对应的,我们用r
d
中坐标(m’,n’)处像素点的深度值作为i
rgb
图像中坐标(m,n)处的深度值。根据此对应关系,就可以以此类推,生成所有匹配点位
置的深度值,构成新的图像,亦即i
dp
。
100.本具体实施例中,图7为i
rgb
的特征点检测结果,图8为r
rgb
的特征点检测结果,图9为特征点匹配结果,虽然r
rgb
受分辨率影响,图像质量较差,但对特征点的影响较小,检出的特征点与高分辨率的工业相机基本一致,匹配结果也较好。
101.本具体实施例中,图10为经过超像素分割操作后得到的s
rgb
。
102.s600.根据s
rgb
对i
dp
进行区域分割,得到分区深度图;以下为了方便表述,将分区深度图记为i
dpa
;i
dpa
由多个分割区域组成。
103.这一步就是将s400中进行超像素分割后得到的不规则像素块进行填充;填充的时候,以每个不规则像素块作为一个单位,用同样的深度值进行填充;因此,这一步的意义就是把i
dp
中散列分布的特征点处的深度值按照s
rgb
的结果进行分区,生成i
dpa
,而i
dpa
也就是分区的结果。
104.s700.逐一统计每个分割区域中的所有像素点的深度值的平均值,然后将平均值作为对应的分割区域的深度值,对对应的分割区域进行填充,得到填充深度图;以下为了方便表述,将填充深度图记为i
d
。
105.需要特别说明的是,实际操作中发现,对于特征点稀少的场景,会存在一些区域没有特征点的现象,这时就用背景灰度值0进行填充。
106.s800.通过将i
d
向上采样,使i
d
的分辨率升至与i
rgb
的分辨率相同,得到单目相机深度图;以下为了方便表述,将单目相机深度图记为i
d
;然后将i
d
作为深度图生成方法的结果输出。
107.需要特别说明的是,i
d
中除了未检测到特征点的部分区域和外侧realsense相机2可能采集不到图像的区域外,其他点的深度值与i
rgb
一一对应。
108.本具体实施例中,i
d
图11所示。
109.图6和图11中的黑色区域均为深度缺失区域。
110.对比图6和图11,可以得到:realsense相机2自动生成的r
d
较为完整,只有图像两侧很小的区域深度缺失;而本发明虽然造成缺失的深度区域较多,但也是主要分布在图像四周。
111.造成本算法深度缺失的主要原因有两个:
112.1.虽然工业相机与realsense相机2紧密相连安装,但光轴毕竟不完全一致,从而导致拍摄画面并不完全重合,就会导致四周有深度缺失。
113.2.部分区域较为光滑,缺少特征点,这个问题在图像中间和四周位置都有可能出现。从图7到图11来看,除了部分深度缺失区域,其他有深度的区域结果还是较好的。
114.因此可以得出结论:本发明能很好的解决现有技术的不足,显著提高工业检测或识别的精度。
115.最后需要补充说明的是:如图12所示,为本发明中各图像根据算法流程的变化示意图,其中:i
dp
的背景表示为白色是为了更清楚地表达图像i
dp
的特征,实际算法中还是如s520中所述一样,将没有匹配成功的像素点的灰度值设置为0;在图12中,i
dpa
中的区域分割线是为了更清楚表达算法意义才画出的,实际算法中还是如s600中所述一样,并没有区域分割线。
116.在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不
应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
117.为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
118.上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或”是要表示“非排它性的或者”。
119.以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。