一种基于机器学习的贫纹理目标物体真值数据库构建方法与流程

文档序号:22881725发布日期:2020-11-10 17:45阅读:179来源:国知局
一种基于机器学习的贫纹理目标物体真值数据库构建方法与流程

本发明涉及计算机视觉技术领域,尤其是涉及一种基于机器学习的贫纹理目标物体真值数据库构建方法。



背景技术:

随着计算机视觉技术在深度学习理论的促进下取得了巨大进步,尤其是在分类、检测以及分割等方向取得了较大的进展。近年来基于视觉的位姿估计也日益兴起,尤其是基于深度学习的位姿估计方法,这类技术往往需要基于大量的数据进行,目前通过图像估计目标物体的位姿并跟踪。目前目标物体位姿数据库的获取方式有两大类:一类是通过人工测量的方法计算得到物体的真实位姿,该方法往往配合传感器使用,需要较大的人力和物力,且得到的位姿与真实位姿存在一定的差异,尤其是工业场景下贫纹理目标物体,该类物体往往是金属质地,难以通过提取特征点进行追踪,而张贴图纸协助定位的方式极大地限制了工作空间,且计算得到的精度较低难以满足需求,例如中国专利cn109558902a中公开了一种快速目标检测方法,该方法即使用提取目标物体特征来进行识别,但是用上述方法对贫纹理目标物体识别时,精度和准确度都较低;另一类是利用计算机图形学的方式通过3d软件渲染目标物体来得到其对应的位姿等真值,该方法得到的位姿较为精确,但虚拟场景下的物体与真实场景的物体存在差异,难以模仿真实的应用场景,所以该方法的实现比较困难。因此,对真实场景下贫纹理目标物体进行精确且快速的真值数据库制作十分必要。



技术实现要素:

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种精度高、速度快、目标物体数据更加全面、目标数据库制作更加灵活的基于机器学习的贫纹理目标物体真值数据库构建方法。

本发明的目的可以通过以下技术方案来实现:

一种基于机器学习的贫纹理目标物体真值数据库构建方法,包括:

步骤1:获取贫纹理目标物体的图像数据集以及目标物体的三维模型;

步骤2:提取图像数据集中各图像的图像边缘以及三维模型中的边缘光栅点;

步骤3:计算图像数据集中各图像的dcm张量,并构建方向倒角距离误差函数;

步骤4:获得粗分类初始位姿;

步骤5:使用目标追踪子方法获得优化后的初始位姿;

步骤6:使用优化后的初始位姿以及相机投影模型,使用目标追踪子方法获得图像数据集中各图像的优化位姿;

步骤7:获取目标物体的真值;

步骤8:使用目标物体的真值构建真值数据库。

优选地,所述步骤1中目标物体的图像数据集具体为:

在由工业相机采集的目标物体视频中和获取每一帧包含目标物体的灰度图像,构成图像数据集,该数据集包括目标物体所有姿态下的灰度图像。

优选地,所述的步骤3中方向倒角距离误差函数具体为:

其中,m={mi},i=1,2,3,…,|m|为目标物体三维模型中的边缘点经过离散采样光栅化后映射于图像坐标系中的点;n={nj},j=1,2,3,…,|n|为图像中的边缘点;λ为方向误差权重;ω为目标物体三维模型中的边缘点数量,即ω=|m|;φ(·)为图像中的方向运算符,即φ(mi)为三维模型中边缘点mi在相机成像平面中对应的模型边缘方向,φ(nj)为图像边缘点nj对应的边缘方向;

然后使用双向动态规划算法,首先将所有角度的方向倒角距离初始化为图像二维距离,根据前向递推以及后向递推计算各点对应的距离最小值:

其中,||·||π为边缘方向差的绝对值。

更加优选地,所述的离散采样具体为:按照一定角度间隔ε对边缘方向进行离散化处理。

更加优选地,所述的步骤4具体为:

使用随机森林分类检测器检测目标物体在图像中的位置信息,首先将dcm张量图作为特征图输入,使用归一化像素差特征进行特征提取,训练随机森林分类器,最后通过滑动窗口检测获取目标物体在图像中的位置;

对匹配最近图进行特征提取,采用归一化特征描述图像中所有像素点间的差异性;

完成目标检测之后,使用回归的方法得到物体坐标系相对于相机坐标系的平移向量,通过目标在图像中的二维坐标以及模型信息确定其相对于相机坐标系的平移向量,用目标物体的初始位姿信息作为回归树的特征进行训练,平移向量t作为回归树的输出;

最后获取目标物体相对于相机坐标系的旋转关系r=[rx,ry.rz],其中rx、ry和rz分别为绕相机坐标系x轴、y轴和z轴旋转的欧拉角。

更加优选地,所述的像素点间差异性的差异函数具体为:

其中,x和y为图像中任意两个像素的像素值。

更加优选地,所述的目标物体在图像中的初始位姿信息包括目标物图在图像中的边界框左顶点像素坐标、边界框中心点像素坐标以及随机森林分类检测器的粗分类结果。

优选地,所述的目标追踪子方法具体为:

使用dcm张量构造目标函数,目标函数具体为:

其中,oi为目标物体三维模型的边缘光栅点;π(·)为相机投影模型;表示目标物体相对于相机的三维空间位姿变换关系;

在对目标函数进行优化后,通过优化目标函数获得当前帧图像中目标物体相对于相机的精确位姿变换关系,并将该帧的位姿关系作为下一帧图像的初始位姿,实现姿态跟踪。

更加优选地,所述的优化目标函数的具体方法为:

采用自适应权重优化算法对目标函数进行优化,优化权重为:

将优化权重加入目标函数,得到新的优化目标函数,具体为:

将图像坐标点xi转换为三维空间点oi,得到:

优选地,所述的目标物体的真值包括:目标物体的位置、目标物体的姿态、目标物体的mask、目标物体的二维边界框和目标物体的三维边界框。

与现有技术相比,本发明具有以下优点:

一、精度高,速度快:本发明中的真值获取方法使用dcm张量构造目标函数求解目标物体各帧图像的位姿,求解出的位姿精度较高,角度误差在2°内,平移向量误差在1mm内;使用双向动态规划算法来求解各像素点之间对应的最小距离,加快了真值获取的速度,速度可到10帧/秒;同时,由于使用了自适应权重优化,使得目标追踪的鲁棒性更强。

二、目标物体数据更加全面,目标数据库制作更加灵活:本发明中的真实获取方法最终可以获得的目标物体真值包括:目标物体的位置、目标物体的姿态、目标物体的mask、目标物体的二维边界框和目标物体的三维边界框等信息,有关目标物体的数据更为全面,制作目标数据库更加灵活。

附图说明

图1为本发明中目标物体真值获取方法的流程示意图;

图2为本发明实施例中三维模型的示意图;

图3为本发明实施例中目标物体的第一mask示意图;

图4为本发明实施例中目标物体的第二mask示意图;

图5为本发明实施例中生成的数据库的第一效果示意图;

图6为本发明实施例中生成的数据库的第二效果示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

一种基于机器学习的贫纹理目标物体真值数据库构建方法,其流程如图1所示,包括:

步骤1:获取贫纹理目标物体的图像数据集以及目标物体的三维模型;

图像数据集的获取方法为:

在由工业相机采集的目标物体视频中和获取每一帧包含目标物体的灰度图像,构成图像数据集,该数据集包括目标物体所有姿态下的灰度图像;

目标物体的三维模型是由3dmax软件事先制作好的三维模型。

步骤2:提取图像数据集中各图像的图像边缘以及三维模型中的边缘光栅点;

步骤3:计算图像数据集中各图像的dcm张量,并构建方向倒角距离误差函数,获得dcm张量图;

方向倒角距离误差函数具体为:

其中,m={mi},i=1,2,3,…,|m|为目标物体三维模型中的边缘点经过离散采样光栅化后映射于图像坐标系中的点;n={nj},j=1,2,3,…,|n|为图像中的边缘点;λ为方向误差权重;ω为目标物体三维模型中的边缘点数量,即ω=|m|;φ(·)为图像中的方向运算符,即φ(mi)为三维模型中边缘点mi在相机成像平面中对应的模型边缘方向,φ(nj)为图像边缘点nj对应的边缘方向。实验证明基于dcm的匹配方法正确率更高并且在有遮挡以及其他复杂背景情况下鲁棒性更强。

为加速dcm张量的方向误差计算,本实施例在场景边缘图像中,按一定角度间隔ε对边缘方向进行离散化处理,使得个角度范围内的边缘单独成图。

然后使用双向动态规划算法,首先将所有角度的方向倒角距离初始化为图像二维距离,根据前向递推以及后向递推计算各点对应的距离最小值:

其中,||·||π为边缘方向差的绝对值。

该方法计算速度快,能够在最多1.5次前向与后向循环之后得到各角度边缘图像中所有像素点对应的时间福再度控制在o(q)内,其中q表示图像的像素个数。

步骤4:获得粗分类初始位姿,具体方法为:

使用随机森林分类检测器检测目标物体在图像中的位置信息,首先将dcm张量图作为特征图输入,使用归一化像素差特征进行特征提取,训练随机森林分类器,最后通过滑动窗口检测获取目标物体在图像中的位置;

对匹配最近图进行特征提取,采用归一化特征描述图像中所有像素点间的差异性;

完成目标检测之后,使用回归的方法得到物体坐标系相对于相机坐标系的平移向量,通过目标在图像中的二维坐标以及模型信息确定其相对于相机坐标系的平移向量,用目标物体的初始位姿信息作为回归树的特征进行训练,平移向量t作为回归树的输出;

最后获取目标物体相对于相机坐标系的旋转关系r=[rx,ry.rz],其中rx、ry和rz分别为绕相机坐标系x轴、y轴和z轴旋转的欧拉角。

目标物体在图像中的初始位姿信息包括目标物图在图像中的边界框左顶点像素坐标、边界框中心点像素坐标以及随机森林分类检测器的粗分类结果。

对匹配最近图进行特征提取,采用归一化特征描述图像中所有像素点间的差异性,像素点间差异性的差异函数具体为:

其中,x和y为图像中任意两个像素的像素值。

步骤5:使用目标追踪子方法获得优化后的初始位姿;

步骤6:使用优化后的初始位姿以及相机投影模型,使用目标追踪子方法获得图像数据集中各图像的优化位姿;

步骤7:获取目标物体的真值;

本实施例中的目标物体的真值包括:目标物体的位置、目标物体的姿态、目标物体的mask、目标物体的二维边界框和目标物体的三维边界框等信息。使用目标追踪子方法获取每一帧图像中目标物体的位姿,通过该位姿信息以及目标物体三维模型,能够将模型光栅点映射于图像平面。遍历所有光栅点图像坐标(xi,yi),通过光栅点坐标的最值点xmin、ymin、xmax和ymax来确定目标物体的二维边界框,同时由目标物体的三维模型信息可以将物体三维空间点的坐标利用位姿投影到二维图像,进而得到物体的三维边界框;利用位姿信息可以得到目标物体在图像上对应的mask。此外,还可以获得负样本数据,在获得每帧图像中目标物体的图像范围后,使用随机的方法在当前图像的其他区域,截取相同大小的图像作为负样本保存。

目标追踪子方法具体为:

使用dcm张量构造目标函数,目标函数具体为:

其中,oi为目标物体三维模型的边缘光栅点;π(·)为相机投影模型;表示目标物体相对于相机的三维空间位姿变换关系;

通过优化目标函数获得当前帧图像中目标物体相对于相机的精确位姿变换关系,并将该帧的位姿关系作为下一帧图像的初始位姿,实现姿态跟踪。

目标函数的优化方法为:

为了提高追踪的鲁棒性,采用自适应权重优化算法对目标函数进行优化。当梯度大小大于设定阈值后,证明该匹配点已匹配到场景图像的边缘,但模型边缘点与场景边缘的匹配正确与否以及匹配的精度需要使用模型边缘的方向以及场景梯度方向进一步确定。通过计算边缘方向与梯度方向之差的正弦值作为该光栅点的优化权值,使得两者方向垂直情况下的权重更高,由此可得:

将优化权重加入目标函数,得到新的优化目标函数,具体为:

将图像坐标点xi转换为三维空间点oi,得到:

使用上述方法不仅能够降低图像噪音以及边缘提取误差对系统带来的扰动,而且在复杂背景中也能够及时降低干扰点对于整体寻优的影响,保证系统的鲁棒性。

步骤8:使用目标物体的真值构建贫纹理目标物体真值数据库,本实施例中构建的数据库的效果图如图5和图6所示。

本实施例中的目标物体三维模型的示意图如图2所示,最终生成的目标物体的mask如图3和图4所示,最终获得的目标物体的位姿以及目标物体在图像中的位置分别如表1和表2所示。

表1目标物体的位姿

表2目标物体在图像中的位置

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1