一种基于pointpillars的多平面编码点云特征深度学习模型的构建方法与流程

文档序号：22086920发布日期：2020-09-01 20:10阅读：1082来源：国知局

本发明属于计算机视觉技术领域，具体涉及一种基于pointpillars的多平面编码点云特征深度学习模型的构建方法。

背景技术：

目标检测是计算机视觉的一项重要的任务，目的旨在是识别目标的种类，以及定位该目标的位置，对于传统的二维目标检测，目前计算机视觉领域已经做的非常成熟了，而由于二维目标检测针对的是图像层面，只包含物体的平面信息，随着自动驾驶行业的快速发展，目标检测越来越关注物体的三维信息，所以基于深度学习的三维目标检测技术也得到了快速发展，目前三维目标检测技术主要依赖图像和激光雷达点云进行环境感知。基于这两种数据可以提取出物体的空间结构的信息，包括物体的姿态，尺寸，运动方向、形状等。从激光雷达点云数据中识别物体是目前三维目标检测的核心问题，而点云数据稀疏、无序、非结构化，在极端环境下识别难度大，所以用激光雷达点云数据做三维目标检测任然是个开放性问题。

近年来，国内外学者提出了多种三维目标检测算法，应用于无人驾驶场景下主要还是使用激光雷达传感器采集的点云方法，包括bird’sview和2dimage图像分别用2dcnn操作后融合，例如avod；再如将三维场景体素化，将点云转化为标准的3dvoxels；运用三维卷积对特征进行学习，但是存在计算量过大，速度缓慢的问题。有一篇文章pointpillars提出来一种新颖的的编码方式，利用pointnet去学习点云的垂直柱体表示方法pillars，通过编码特征可以运用成熟的2d卷积框架学习，速度更快，计算力更小，速度可达到62hz,快速版本可达到105hz。

mv3d也是学者们提出的一个多视角(multi-view)的3d物体识别网络，采用多模态的数据作为输入和预测3d空间的目标，使用rgb图像、雷达鸟瞰图、雷达前视图这种方法作为网络的输入：实现精确的汽车的识别和3d框回归。

基于单目、双目和深度相机视觉也是学者们提出的三维目标检测方法。针对室内场景的检测，首先室内场景尺度小，不会出现室外场景中远距离目标，种类上更加多样化，所以需要更加丰富的输入信息，因而基于双目/深度相机的方法更加合适，多了depthmap通道，指的是视点的场景对象表面的距离有关的信息的图像或图像通道，像素值是传感器距离物体的实际距离，对图像纹理特征和深度特征等多特征进行融合的方法，例如depthrcnn、ad3d、2d-driven等算法，但是检测效果的提升在于2d目标检测的模型的有效性。而且室内场景复杂，小目标多，有很多物体遮挡，往往会影响检测精度。2012年，fidler等人将dpm扩展到单目视觉下的三维目标检测，将每一个目标类表示为一个可变形的三维长方体，通过物体部件与三维检测框表面之间的变换关系，有效地实现了部分形状特征明显的室内目标的三维检测，例如床、桌子等明显长方体特征目标。为了提高室内场景下多目标的检测精度，zhuo等人提出了深度估计网络和3drpn结合的端到端的基于单目视觉的三维目标检测网络。

针对室外场景的三维目标检测，也可以基于单目视觉传感器，将结合先验信息融合、几何特征、三维模型匹配、单目视觉下的深度估计网络等方法来回归目标的三维几何信息。chen等人在2016年提出了mono3d目标检测方法，但是利用复杂的先验信息提取3d检测框时，在能量损失计算中存在误差累积的问题，所以在检测性能上并不突出。与2d检测器相比存在一定差距，无法端对端的训练。mousavian等人利用2d目标检测器网络的学习经验，提出了deep3dbbox的3d目标检测方法。该方法扩展了2d目标检测器网络，利用回归的方法获取目标的三维尺寸以及航向角。计算力大大减少，提高了运算速度。但在检测精度上没有大幅度提高因为缺少了深度信息。该方法针对尺寸小、遮挡目标等定位精度大大降低对于单目视觉的三维目标检测算法来说，深度信息的估计偏差是导致检测精度较低的主要原因，尤其是对远距离和遮挡目标的定位。双目/深度相机依赖其准确的深度信息的优势，在三维空间的视觉算法应用中，尤其针对目标检测和定位任务，相对于单目视觉算法具有明显的检测精度的提升。

近几年来，随着深度学习、人工智能的发展，越来越多的人将其运用到各个领域。无人驾驶等领域应用场景的复杂多变，对于传统的二维目标检测算法已经有明显的局限性，为了提高检测的准确精度，保障驾驶人的安全，所以对于三维目标检测的精度和速度有很大的挑战，但是无人驾驶场景空旷，且激光雷达采集点云的时候不是均匀的，采集的远处点非常稀疏，而且空间点云运用深度学习的方法需要包含完整的空间信息。

技术实现要素：

针对现有技术存在的问题和不足，本发明的目的旨在提供一种基于pointpillars的多平面编码点云特征深度学习模型的构建方法。

为实现发明目的，本发明采用的技术方案如下：

本发明首先提供了一种基于pointpillars的多平面编码点云特征深度学习模型的构建方法，所述构建方法为：获取训练样本，所述训练样本包括包含检测目标的点云数据和与点云数据对应的标注信息，标注信息用于指示点云数据中检测目标的边界框坐标和边界框坐标中检测目标的分类标签；采用训练样本对多平面编码点云特征深度学习模型进行训练，使得将训练样本中的点云数据输入训练后的多平面编码点云特征深度学习模型得到的识别结果为点云数据中检测目标的位置边界框坐标及边界框坐标中目标的存在概率。

根据上述的构建方法，优选地，所述多平面编码点云特征深度学习模型是基于pointpillars算法的改进，具体改进之处为：采用多平面融合特征编码网络代替pointpillars算法中的特征编码器网络；所述多平面编码点云特征深度学习模型由多平面融合特征编码网络、backbone网络和detectionhead网络组成，backbone网络、detectionhead网络均为pointpillars算法中的原有的backbone网络和detectionhead网络，网络结构不变。其中，多平面融合特征编码网络的输入为点云数据，输出为点云的融合特征转化成的稀疏伪图像；backbone网络的输入为稀疏伪图像，输出为稀疏伪图像的卷积特征图；detectionhead网络的输入为backbone网络输出的卷积特征图，输出为点云数据中检测目标的预测边界框坐标以及预测边界框中存在目标的概率。

根据上述的构建方法，优选地，采用训练样本对多平面编码点云特征深度学习模型进行训练的具体步骤为：

(1)将训练样本输入多平面融合特征编码网络，多平面融合特征编码网络对训练样本中点云数据x-y平面、x-z平面和y-z平面的特征进行融合编码，得到x-y平面点云的融合特征，并将点云的融合特征转化为稀疏伪图像；

(2)将稀疏伪图像输入backbone网络进行特征提取，得到稀疏伪图像的卷积特征图；

(3)将稀疏伪图像的卷积特征图输入detectionhead网络，得到点云数据中检测目标的预测边界框坐标以及预测边界框中存在目标的概率；

(4)以步骤(3)得到的预测边界框坐标为预测结果，以训练样本中标注的边界框坐标为真实结果，根据预测结果和真实结果构造损失函数，损失函数采用平方差损失函数，通过随机梯度下降算法优化多平面编码点云特征深度学习模型的网络参数，降低损失函数数值，不断迭代此过程优化网络参数，直至损失函数停止下降，多平面编码点云特征深度学习模型训练过程结束，得到训练后的多平面编码点云特征深度学习模型。

根据上述的构建方法，优选地，步骤(1)的具体操作为：

(1a)将训练样本中的点云数据离散在x-y平面上均匀间隔的网格上，z方向上不加限制，创建x-y平面上的一系列支柱，每个支柱中包含的点云用r,xc,yc,zc,xp,yp特征扩充，得到扩充后的点云特征(x,y,z,r,xc,yc,zc,xp,yp)，扩充后的点云特征维度d＝9；其中，x,y,z表示点云的初始坐标值；r表示点云反射率；xc,yc,zc表示该支柱中所有点云坐标求算术平均值得到的坐标值；xp,yp表示在当前平面的坐标系下支柱中所有点云相对于坐标中心位置的偏差；

(1b)在x-y平面上，将所有非空支柱中包含的点云数量调整一致，然后根据平面上非空支柱数量、非空支柱中包含的点云数量及非空支柱中点云的特征创建一个密集张量(d,p,n)，即得到x-y平面每个非空支柱的特征(d,p,n)，其中，d表示非空支柱中点云的特征维度，p表示x-y平面上非空支柱的数量，n表示非空支柱中包含的点云数量；

(1c)采用pointnet网络对x-y平面上非空支柱的特征(d,p,n)进行特征学习，学习后得到x-y平面每个非空支柱中点云最终特征(c,p,n)；其中，c表示点云经过pointnet网络学习后得到的新的特征维度，p表示x-y平面上非空支柱的数量，n表示非空支柱中包含的点云数量；

(1d)将训练样本中的点云数据分别离散在x-z平面上均匀间隔的网格上，y方向上不加限制，创建x-z平面上的一系列支柱，每个支柱中包含的点云用r,xc,yc,zc,xp,zp特征扩充，得到扩充后的点云特征(x,y,z,r,xc,yc,zc,xp,zp)；其中，x,y,z表示点云的初始坐标值；r表示点云反射率；xc,yc,zc表示该支柱中所有点云坐标求算术平均值得到的坐标值；xp,zp表示在当前平面的坐标系下支柱中所有点云相对于坐标中心位置的偏差；然后按照上述步骤(1b)～(1c)的操作，得到x-z平面每个非空支柱的点云最终特征(c,p,n)；

(1e)将训练样本中的点云数据分别离散在y-z平面上均匀间隔的网格上，x方向上不加限制，创建y-z平面上的一系列支柱，每个支柱中包含的点云用r,xc,yc,zc,yp,zp特征扩充，得到扩充后的点云特征(x,y,z,r,xc,yc,zc,yp,zp)；其中，x,y,z表示点云的初始坐标值；r表示点云反射率；xc,yc,zc表示该支柱中所有点云坐标求算术平均值得到的坐标值；yp,zp表示在当前平面的坐标系下支柱中所有点云相对于坐标中心位置的偏差；然后按照上述步骤(1b)～(1c)的操作，得到y-z平面每个非空支柱的点云最终特征(c,p,n)；

(1f)将x-z平面、y-z平面每个非空支柱的点云最终特征与x-y平面每个非空支柱中点云最终特征进行叠加，得到x-y平面点云的融合特征(3c,p,n)，采用最大池化操作对融合特征(3c,p,n)进行处理，得到张量(3c,p)，然后根据张量(3c,p)创建稀疏伪图像(3c，h，w)，其中，h表示稀疏伪图像的高，w表示稀疏伪图像的宽。

根据上述的构建方法，优选地，x-z平面、y-z平面的大小与x-y平面相同。

根据上述的构建方法，优选地，步骤(2)中采用backbone网络对稀疏伪图像进行特征提取，卷积核按照从左至右、从上至下的顺序遍历整幅稀疏伪图像，输入的稀疏伪图像经过每一层卷积后输出的特征图维度为：

w2＝(w1-f+2p)/s+1(i)

h2＝(h1-f+2p)/s+1(ii)

d2＝k(iii)

其中，w1,h1为输入卷积层之前特征图的宽度、高度和深度；w2,h2，d2分别为经过卷积后的输出特征图的宽度、高度和深度；k为卷积核的数量；f为该层卷积层的卷积核大小；p为卷积层输入特征图的零填充数量；s为步长。

根据上述的构建方法，优选地，步骤(3)的具体操作为：

(3a)将稀疏伪图像的卷积特征图输入detectionhead网络，根据感受野的映射关系找到卷积特征图每个位置特征在x-y采样平面上中的中心坐标；根据x-y采样平面上中的中心坐标设置3d预设框，每个中心坐标设置两个不同角度的3d预设框，3d预设框的大小与训练样本中标注的检测目标边界框平均大小相同，然后将3d预设框、标注的检测目标边界框在x-y平面投影后计算iou，将计算得到的iou与设定阈值进行对比，从3d预设框中筛选出3d候选框；其中，iou大于设定阈值，则该3d预设框为3d候选框，3d候选框的初始位置坐标为(gx,gy,gz，gw,gh,gl,gθ)；

(3b)将步骤(3a)筛选得到的3d候选框进行边框回归，得到3d候选框的坐标修正偏移量(dx,dy,dz,dw,dh,dl,dθ)，根据3d候选框的初始位置坐标和边框回归得到的候选框的坐标修正偏移量进行计算，得到检测目标的预测边界框的位置坐标(rx,ry,rz,rw,rh,rl,rθ)并输出，同时输出预测边界框中存在检测目标的概率。

根据上述的构建方法，优选地，步骤(3a)中每个中心坐标设置的两个3d预设框的角度分别为0度、90度。

根据上述的构建方法，优选地，步骤(3c)中检测目标的预测边界框的位置坐标的具体计算过程作为：根据3d候选框的初始位置坐标和边框回归网络输出的候选框的坐标修正偏移量，按照公式(ⅳ)～(ⅹ)计算预测边界框的位置坐标；

rx＝gx×dx+gx(ⅳ)

ry＝gy×dy+gy(ⅴ)

rz＝gz×dz+gy(ⅵ)

rw＝gw×e^dw(ⅶ)

rh＝gh×e^dh(ⅷ)

rl＝gl×e^dl(ⅸ)

rθ＝gθ×dθ+gθ(ⅹ)

其中，gx为3d候选框中心位置的横坐标，gy为3d候选框中心位置的纵坐标，gz为3d候选框中心位置的z坐标，gw为3d候选框的宽，gh为3d候选框的高，gl为3d候选框的长，gθ为3d候选框的角度；dx为3d候选框中心位置横坐标的偏移量，dy为3d候选框中心位置纵坐标的偏移量，dz为3d候选框中心位置z坐标的偏移量；dw为3d候选框宽的偏移量，dh为3d候选框高的偏移量；dl为3d候选框长的偏移量，dθ为3d候选框角度的偏移量；rx为预测边界框中心位置的横坐标，ry为预测边界框中心位置的纵坐标，rz为预测边界框中心位置的纵坐标，rw为预测边界框的宽，rh为预测边界框的高，rl为3d预测边界框的长，rθ为预测边界框的高。

根据上述的构建方法，优选地，获取训练样本的具体操作为：采集包含检测目标的点云数据，采用标注工具框出点云数据中所有检测目标的边界框，并标注每个边界框在空间中的位置坐标(x,y,z,w,l,h,θ)和每个边界框中检测目标的分类标签，然后将标注后的点云数据作为训练样本；其中，x为边界框中心的x轴坐标，y为边界框中心的y轴坐标，z为边界框中心的z轴坐标，w为边界框的宽，l表示边界框的长，h为边界框的高，θ为边界框投影到x-y平面的角度。更加优选地，所述检测目标为车辆、行人或自行车中的任意一种。

本发明还提供了一种利用上述构建方法构建的多平面编码点云特征深度学习模型进行点云数据目标检测的方法。

与现有技术相比，本发明取得的积极有益效果为：

现有的点云数据目标检测方法中，在对空间点云数据进行pillars采样时，仅在x-y平面上对空间点云数据进行采样，仅在x-y平面上采样得到的支柱不包含点云数据的完整空间信息，后续对x-y平面上采样得到的支柱进行检测分析时，造成点云空间信息的缺失，导致目标检测的准确度和精确度均较低。本发明构建了一种新的基于pointpillars的多平面编码点云特征深度学习模型，该模型能够分别对空间点云数据进行x-y平面、x-z平面以及y-z平面采样，得到三个平面支柱内点云的特征，并通过pointnet对三个平面支柱内点云的特征进行学习，学习后将三个平面支柱内的点云特征进行融合，然后采用融合后的点云特征进行分析检测。因此，本发明构建的基于pointpillars的多平面编码点云特征深度学习模型能够实现对点云数据三维空间采样，并将采样得到三个平面内支柱点云特征进行学习融合，解决了现有点云采样空间信息损失的问题，也增强了在整个空间的多个方向上对于点云特征信息的获取，更好的还原了点云在空间中各个方向上角度不同带来的检测精度的损失，通过提取三个平面上支柱内点云特征的融合更好的获取物体在不同方向的形状和位置特征，提高了检测模型的鲁棒性和检测准确性。

附图说明

图1为本发明基于pointpillars的多平面编码点云特征深度学习模型训练过程的流程图。

图2为backbone网络的结构示意图。

具体实施方式

以下结合具体实施例对本发明作进一步详细说明，但并不限制本发明的范围。

实施例1：

一种基于pointpillars的多平面编码点云特征深度学习模型的构建方法，包括以下步骤：

步骤一：获取训练样本，所述训练样本包括包含检测目标的点云数据和与点云数据对应的标注信息，标注信息用于指示点云数据中检测目标的边界框坐标和边界框坐标中检测目标的分类标签。

步骤二：采用训练样本对多平面编码点云特征深度学习模型进行训练，使得将训练样本中的点云数据输入训练后的多平面编码点云特征深度学习模型得到的识别结果为点云数据中检测目标的位置边界框坐标及边界框坐标中目标的存在概率。

其中，步骤一中获取训练样本的具体操作为：

采集包含检测目标的点云数据，检测目标为车辆，采用标注工具框出点云数据中所有检测目标的边界框，并标注每个边界框在空间中的位置坐标(x,y,z,w,l,h,θ)和每个边界框中检测目标的分类标签，然后将标注后的点云数据作为训练样本；其中，x为边界框中心的x轴坐标，y为边界框中心的y轴坐标，z为边界框中心的z轴坐标，w为边界框的宽，l表示边界框的长，h为边界框的高，θ为边界框投影到x-y平面的角度。

步骤二中多平面编码点云特征深度学习模型是基于pointpillars算法的改进，具体改进之处为：采用多平面融合特征编码网络代替pointpillars算法中的特征编码器网络；所述多平面编码点云特征深度学习模型由多平面融合特征编码网络、backbone网络和detectionhead网络组成，backbone网络、detectionhead网络均为pointpillars算法中的原有的backbone网络和detectionhead网络，网络结构不变。其中，多平面融合特征编码网络的输入为点云数据，输出为点云的融合特征转化成的稀疏伪图像；backbone网络的输入为稀疏伪图像，输出为稀疏伪图像的卷积特征图；detectionhead网络的输入为backbone网络输出的卷积特征图，输出为点云数据中检测目标的预测边界框坐标以及预测边界框中存在目标的概率。

步骤二中采用训练样本对多平面编码点云特征深度学习模型进行训练的具体步骤为(如图1所示)：

(1)将训练样本输入多平面融合特征编码网络，多平面融合特征编码网络对训练样本中点云数据x-y平面、x-z平面和y-z平面的特征进行融合编码，得到x-y平面点云的融合特征，并将点云的融合特征转化为稀疏伪图像。

步骤(1)的具体操作如下：

(1d)将训练样本中的点云数据分别离散在x-z平面上均匀间隔的网格上，y方向上不加限制，x-z平面的大小与x-y平面相同，创建x-z平面上的一系列支柱，每个支柱中包含的点云用r,xc,yc,zc,xp,zp特征扩充，得到扩充后的点云特征(x,y,z,r,xc,yc,zc,xp,zp)，扩充后的点云特征维度d＝9；其中，x,y,z表示点云的初始坐标值；r表示点云反射率；xc,yc,zc表示该支柱中所有点云坐标求算术平均值得到的坐标值；xp,zp表示在当前平面的坐标系下支柱中所有点云相对于坐标中心位置的偏差；然后按照上述步骤(1b)～(1c)的操作，得到x-z平面每个非空支柱的点云最终特征(c,p,n)；

(1e)将训练样本中的点云数据分别离散在y-z平面上均匀间隔的网格上，x方向上不加限制，y-z平面的大小与x-y平面相同，创建y-z平面上的一系列支柱，每个支柱中包含的点云用r,xc,yc,zc,yp,zp特征扩充，得到扩充后的点云特征(x,y,z,r,xc,yc,zc,yp,zp)，扩充后的点云特征维度d＝9；其中，x,y,z表示点云的初始坐标值；r表示点云反射率；xc,yc,zc表示该支柱中所有点云坐标求算术平均值得到的坐标值；yp,zp表示在当前平面的坐标系下支柱中所有点云相对于坐标中心位置的偏差；然后按照上述步骤(1b)～(1c)的操作，得到y-z平面每个非空支柱的点云最终特征(c,p,n)；

(2)将稀疏伪图像输入backbone网络进行特征提取，得到稀疏伪图像的卷积特征图。其中，backbone网络为pointpillars算法中的原有的backbone网络，backbone网络(如图2所示)为本领域技术人员公知的网络结构。

步骤(2)中采用backbone网络对稀疏伪图像进行特征提取，卷积核按照从左至右、从上至下的顺序遍历整幅稀疏伪图像，输入的稀疏伪图像经过每一层卷积后输出的特征图维度为：

w2＝(w1-f+2p)/s+1(i)

h2＝(h1-f+2p)/s+1(ii)

d2＝k(iii)

(3)将稀疏伪图像的卷积特征图输入detectionhead网络，得到点云数据中检测目标的预测边界框坐标以及预测边界框中存在目标的概率。其中，detectionhead网络为pointpillars算法中的原有的detectionhead网络，detectionhead网络为本领域技术人员公知的网络结构。

步骤(3)的具体操作如下：

(3a)将稀疏伪图像的卷积特征图输入detectionhead网络，根据感受野的映射关系找到卷积特征图每个位置特征在x-y采样平面上中的中心坐标。根据x-y采样平面上中的中心坐标设置3d预设框，每个中心坐标分别设置0度和90度两个不同角度的3d预设框，3d预设框的大小与训练样本中标注的检测目标边界框平均大小相同。然后将3d预设框、标注的检测目标边界框在x-y平面投影后计算iou，将计算得到的iou与设定阈值进行对比，从3d预设框中筛选出3d候选框；其中，iou大于设定阈值，则该3d预设框为3d候选框。

(3b)将步骤(3a)筛选得到的3d候选框进行边框回归，得到3d候选框的坐标修正偏移量(dx,dy,dz,dw,dh,dl,dθ)，根据3d候选框的初始位置坐标和边框回归得到的候选框的坐标修正偏移量按照公式(ⅳ)～(ⅹ)进行计算，得到检测目标的预测边界框的位置坐标(rx,ry,rz,rw,rh,rl,rθ)并输出，同时输出预测边界框中存在检测目标的概率。

rx＝gx×dx+gx(ⅳ)

ry＝gy×dy+gy(ⅴ)

rz＝gz×dz+gy(ⅵ)

rw＝gw×e^dw(ⅶ)

rh＝gh×e^dh(ⅷ)

rl＝gl×e^dl(ⅸ)

rθ＝gθ×dθ+gθ(ⅹ)

(4)以步骤(3)得到的预测边界框坐标为预测结果，以训练样本中标注的边界框坐标为真实结果，根据预测结果和真实结果构造损失函数，损失函数采用交叉熵损失函数(交叉熵损失函数为本领域公知)，通过随机梯度下降算法优化多平面编码点云特征深度学习模型的网络参数，降低损失函数数值，不断迭代此过程优化网络参数，直至损失函数停止下降，多平面编码点云特征深度学习模型训练过程结束，得到训练后的多平面编码点云特征深度学习模型。

实施例2：

一种利用实施例1构建的基于pointpillars的多平面编码点云特征深度学习模型进行点云数据目标检测的方法，该方法是将采集的点云数据输入多平面编码点云特征深度学习模型进行计算，多平面编码点云特征深度学习模型最终输出点云数据的检测目标的边界框坐标和边界框坐标中存在检测目标的概率。

以上所述仅为本发明的较佳实施例而已，但不仅限于上述实例，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周洋;吕精灵;李小毛;彭艳;蒲华燕;谢少荣;罗均
技术所有人：上海大学
我是此专利的发明人

上一篇：油气开采用开关滑套装置、油气开采工具以及开关方法与流程
上一篇：一种管件扣压装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。