在成对的立体图像中检测物体的方法
【技术领域】
[0001] 本发明涉及计算机视觉,更具体地讲,涉及在立体图像中检测物体。
【背景技术】
[0002] 许多计算机视觉应用使用通过立体相机获取的立体图像来检测物体。立体相机通 常具有多个镜头和传感器。通常,镜头之间的轴内距离约与眼睛之间的距离相同以提供交 叠视野。
[0003] 图1示出用于基于立体的物体检测的传统系统。立体相机101获取立体图像102。 检测方法可包括以下步骤:立体成像100、成本体积(cost volume)确定110、深度/视差图 估计120和物体检测130。
[0004] 基于立体的物体检测的大多数传统方法依赖于交叠区域120中的每像素深度信 息。此步骤通常被称作深度/范围图估计。此步骤可通过确定视差值(即,两个图像中的 对应像素的平移)、确定深度图来实现。然后深度图可用于物体检测130,例如,深度图的梯 度方向直方图(HoG)用于物体描述。一种方法估计子图像区域中的主要视差,并且使用相 对视差值的共现直方图来进行物体检测。
[0005] 深度/范围/视差图估计是具有挑战的问题。局部方法存在深度确定不准确的问 题,而全局方法需要可观的计算资源并且不适合于实时应用。
[0006] 多种方法通过使用关注区域生成的立体提示(stereo cue)来避免深度图确定步 骤。例如,一种方法确定标记潜在物体位置的stixel图。各个stixel由相对于相机的3D 位置来定义,并且垂直地竖立在地平面上。然后将基于彩色图像内容的检测器应用于所述 位置以检测物体。
[0007] 美国公布20130177237使用范围图来确定关注区域,并且使用基于强度直方图的 分类器来检测物体。
[0008] 关注区域方法无法直接应用于物体检测。关注区域方法必须与其它物体检测器结 合应用。另外,当关注区域没有覆盖物体时,无疑会缺失检测。
【发明内容】
[0009] 本发明的实施方式提供一种在立体图像中检测物体的方法。从图像计算成本体 积。然后,直接对从成本体积获得的特征应用物体检测。所述检测使用从训练特征学习的 T个决策树分类器(Adaboost)。
[0010] 本发明避免了现有技术的易于发生错误并且计算上复杂的深度图估计步骤,得到 准确且高效的物体检测器。所述方法更加适合于嵌入式系统,因为它不需要为获得良好的 深度图所需的复杂的优化模块。另外,所述方法搜索输入图像中的所有子图像以检测物体。 这避免了存在于关注区域生成技术中的缺失检测问题。
[0011] 所述检测准确,因为所述方法可借助大量的训练数据并且利用机器学习过程。其 在检测准确度方面胜过关注区域生成技术。
【附图说明】
[0012] 图1是传统的基于立体的物体检测系统的框图;
[0013] 图2是根据本发明的实施方式的基于立体的物体检测系统的框图;
[0014] 图3是图2的基于立体的物体检测系统的物体检测模块的框图;
[0015] 图4是根据本发明的实施方式的学习基于立体的物体检测器的方法的框图。
[0016] 图5是根据本发明的实施方式的成本体积确定的示意图;
[0017] 图6是根据本发明的实施方式的学习的特征的示意图;以及
[0018] 图7是占据子图像的大部分和小部分的物体的示意图。
【具体实施方式】
[0019] 图2示出根据本发明的实施方式的在一对立体图像200中检测物体201的方法和 系统。从这一对立体图像生成(210)成本体积211。然后选择并提取(215)特征向量216。 然后,将物体检测器220应用于特征向量体积以检测物体。物体检测器使用从训练图像特 征231学习的分类器230。在检测到物体之后,可对物体进行定位,即,可确定物体在图像中 的位置。如本领域中已知的,所述方法可在连接到存储器和输入/输出接口的处理器250 中执行。
[0020] 本发明基于这样的认识:深度图中可用的深度信息在成本体积中也可用,因为深 度图是从成本体积获得的。
[0021] 本发明的直接使用成本体积的检测器220理论上能够基于深度图使任何检测器 的性能匹配。此外,成本体积是比传统深度图更丰富的表示。深度图仅提供各个像素的深 度,而成本体积提供立体图像中的各个像素可具有的潜在深度范围(包括真实深度)的匹 配成本。因此,检测器使用从成本体积直接获得的特征可访问更多的深度信息,并且实现更 好的性能。
[0022] 如图3所示,本发明的一个实施方式包括成本体积生成210、特征提取310、物体检 测和定位320、学习的区别特征330以及学习的物体分类模型340。定位确定在哪里检测物 体。
[0023] 图4示出用于学习区别特征的机器学习过程以及学习的物体分类模型。从包括成 对的训练立体图像的训练数据400选择并学习(410)特征。
[0024] 成本体积生成
[0025] 图5示出成本体积C 211的生成。成本体积C: XX YX D是存储在存储器中的三维 数据结构,其中X和Y表示图像X和y轴,D表示一组视差值(是两个立体图像L 501和Ir 502中的对应像素之间的平移)。假设IJP IR被调整,这意味着图像被变换为使得镜头畸 变效果被补偿,并且一个图像的一行中的像素被映射至另一图像的同一行中的像素。然后 可通过使成对的立体图像^和I的像素外观匹配来确定成本体积。
[0026] 确定成本体积的一个方式是对于任何(X,y, d) e XXYXD,应用由C(x, y, d)= I Il (X, y) -Ir (x-d, y) I 12+ λ I I grad (IL (X, y)) -grad (IR (x-d, y)) I 12给出的映射。
[0027] 其中I I I |2表示欧几里德范数,IJx,y)是指込图像的(x,y)位置的像素颜色值, IR(x,y)是指Ir图像的(x,y)位置的像素颜色值,grad(IL(x, y))是指Il图像的(x,y)位 置的梯度,grad(IR(x-d,y))是指Ir图像的(x,y)位置的梯度,λ是控制梯度信息的重要 性的权重。需要注意,可应用诸如双边滤波或引导滤波的图像平滑技术,以增强成本体积。
[0028] 特征提取
[0029] 图6示出图2的特征选择和提取215。从各个子图像600提取K维特征向量以用 于确定子图像中是否存在物体。子图像可被视为例如按照多个比例针对各个像素以