目标检测方法和装置及智能驾驶方法、设备和存储介质与流程

文档序号:23339639发布日期:2020-12-18 16:34阅读:124来源:国知局
目标检测方法和装置及智能驾驶方法、设备和存储介质与流程

本公开涉及目标检测技术,尤其涉及一种目标检测方法、智能驾驶方法、目标检测装置、电子设备和计算机存储介质。



背景技术:

在自动驾驶或机器人等领域,一个核心问题是如何感知周围物体;在相关技术中,可以将采集的点云数据投影到俯视图,利用二维(2d)检测技术得到俯视图的框;这样,会在量化时损失了点云的原始信息,而从2d图像上检测时很难检测到被遮挡的物体。



技术实现要素:

本公开实施例期望提供目标检测的技术方案。

本公开实施例提供了一种目标检测方法,所述方法包括:

获取三维(3d)点云数据;

根据所述3d点云数据,确定所述3d点云数据对应的点云语义特征;

基于所述点云语义特征,确定前景点的部位位置信息;所述前景点表示所述点云数据中属于目标的点云数据,所述前景点的部位位置信息用于表征所述前景点在目标内的相对位置;

基于所述点云数据提取出至少一个初始3d框;

根据所述点云数据对应的点云语义特征、所述前景点的部位位置信息和所述至少一个初始3d框,确定目标的3d检测框,所述检测框内的区域中存在目标。

可选地,所述根据所述点云数据对应的点云语义特征、所述前景点的部位位置信息和所述至少一个初始3d框,确定目标的3d检测框,包括:

针对每个初始3d框,进行前景点的部位位置信息和点云语义特征的池化操作,得到池化后的每个初始3d框的部位位置信息和点云语义特征;

根据池化后的每个初始3d框的部位位置信息和点云语义特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度,以确定所述目标的3d检测框。

可选地,所述针对每个初始3d框,进行前景点的部位位置信息和点云语义特征的池化操作,得到池化后的每个初始3d框的部位位置信息和点云语义特征,包括:

将所述每个初始3d框均匀地划分为多个网格,针对每个网格进行前景点的部位位置信息和点云语义特征的池化操作,得到池化后的每个初始3d框的部位位置信息和点云语义特征。

可选地,所述针对每个网格进行前景点的部位位置信息和点云语义特征的池化操作,包括:

响应于一个网格中不包含前景点的情况,将所述网格的部位位置信息标记为空,得到所述网格池化后的前景点的部位位置信息,并将所述网格的点云语义特征设置为零,得到所述网格池化后的点云语义特征;

响应于一个网格中包含前景点的情况,将所述网格的前景点的部位位置信息进行均匀池化处理,得到所述网格池化后的前景点的部位位置信息,并将所述网格的前景点的点云语义特征进行最大化池化处理,得到所述网格池化后的点云语义特征。

可选地,所述根据池化后的每个初始3d框的部位位置信息和点云语义特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度,包括:

将所述池化后的每个初始3d框的部位位置信息和点云语义特征进行合并,根据合并后的特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度。

可选地,所述根据合并后的特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度,包括:

将所述合并后的特征矢量化为特征向量,根据所述特征向量,对每个初始3d框进行修正和/或确定每个初始3d框的置信度;

或者,针对所述合并后的特征,通过进行稀疏卷积操作,得到稀疏卷积操作后的特征映射;根据所述稀疏卷积操作后的特征映射,对每个初始3d框进行修正和/或确定每个初始3d框的置信度;

或者,针对所述合并后的特征,通过进行稀疏卷积操作,得到稀疏卷积操作后的特征映射;对所述稀疏卷积操作后的特征映射进行降采样,根据降采样后的特征映射,对每个初始3d框进行修正和/或确定每个初始3d框的置信度。

可选地,所述对所述稀疏卷积操作后的特征映射进行降采样,包括:

通过对所述稀疏卷积操作后的特征映射进行池化操作,实现对所述稀疏卷积操作后的特征映射降采样的处理。

可选地,所述根据所述3d点云数据,确定所述3d点云数据对应的点云语义特征,包括:

将所述3d点云数据进行3d网格化处理,得到3d网格;在所述3d网格的非空网格中提取出所述3d点云数据对应的点云语义特征。

可选地,所述基于所述点云语义特征,确定前景点的部位位置信息,包括:

根据所述点云语义特征针对所述点云数据进行前景和背景的分割,以确定出前景点;所述前景点为所述点云数据中的属于前景的点云数据;

利用用于预测前景点的部位位置信息的神经网络对确定出的前景点进行处理,得到前景点的部位位置信息;

其中,所述神经网络采用包括有3d框的标注信息的训练数据集训练得到,所述3d框的标注信息至少包括所述训练数据集的点云数据的前景点的部位位置信息。

本公开实施例还提出了一种智能驾驶方法,应用于智能驾驶设备中,所述智能驾驶方法包括:

根据上述任意一种目标检测方法得出所述智能驾驶设备周围的所述目标的3d检测框;

根据所述目标的3d检测框,生成驾驶策略。

本公开实施例还提出了一种目标检测装置,所述装置包括获取模块、第一处理模块和第二处理模块,其中,

获取模块,用于获取3d点云数据;根据所述3d点云数据,确定所述3d点云数据对应的点云语义特征;

第一处理模块,用于基于所述点云语义特征,确定前景点的部位位置信息;所述前景点表示所述点云数据中属于目标的点云数据,所述前景点的部位位置信息用于表征所述前景点在目标内的相对位置;基于所述点云数据提取出至少一个初始3d框;

第二处理模块,用于根据所述点云数据对应的点云语义特征、所述前景点的部位位置信息和所述至少一个初始3d框,确定目标的3d检测框,所述检测框内的区域中存在目标。

可选地,所述第二处理模块,用于针对每个初始3d框,进行前景点的部位位置信息和点云语义特征的池化操作,得到池化后的每个初始3d框的部位位置信息和点云语义特征;根据池化后的每个初始3d框的部位位置信息和点云语义特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度,以确定所述目标的3d检测框。

可选地,所述第二处理模块,用于将所述每个初始3d框均匀地划分为多个网格,针对每个网格进行前景点的部位位置信息和点云语义特征的池化操作,得到池化后的每个初始3d框的部位位置信息和点云语义特征;根据池化后的每个初始3d框的部位位置信息和点云语义特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度,以确定所述目标的3d检测框。

可选地,所述第二处理模块在针对每个网格进行前景点的部位位置信息和点云语义特征的池化操作的情况下,用于:

响应于一个网格中不包含前景点的情况,将所述网格的部位位置信息标记为空,得到所述网格池化后的前景点的部位位置信息,并将所述网格的点云语义特征设置为零,得到所述网格池化后的点云语义特征;响应于一个网格中包含前景点的情况,将所述网格的前景点的部位位置信息进行均匀池化处理,得到所述网格池化后的前景点的部位位置信息,并将所述网格的前景点的点云语义特征进行最大化池化处理,得到所述网格池化后的点云语义特征。

可选地,所述第二处理模块,用于:

针对每个初始3d框,进行前景点的部位位置信息和点云语义特征的池化操作,得到池化后的每个初始3d框的部位位置信息和点云语义特征;将所述池化后的每个初始3d框的部位位置信息和点云语义特征进行合并,根据合并后的特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度。

可选地,所述第二处理模块在根据合并后的特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度的情况下,用于:

将所述合并后的特征矢量化为特征向量,根据所述特征向量,对每个初始3d框进行修正和/或确定每个初始3d框的置信度;

或者,针对所述合并后的特征,通过进行稀疏卷积操作,得到稀疏卷积操作后的特征映射;根据所述稀疏卷积操作后的特征映射,对每个初始3d框进行修正和/或确定每个初始3d框的置信度;

或者,针对所述合并后的特征,通过进行稀疏卷积操作,得到稀疏卷积操作后的特征映射;对所述稀疏卷积操作后的特征映射进行降采样,根据降采样后的特征映射,对每个初始3d框进行修正和/或确定每个初始3d框的置信度。

可选地,所述第二处理模块在对所述稀疏卷积操作后的特征映射进行降采样的情况下,用于:

通过对所述稀疏卷积操作后的特征映射进行池化操作,实现对所述稀疏卷积操作后的特征映射降采样的处理。

可选地,所述获取模块,用于获取3d点云数据,将所述3d点云数据进行3d网格化处理,得到3d网格;在所述3d网格的非空网格中提取出所述3d点云数据对应的点云语义特征。

可选地,所述第一处理模块在基于所述点云语义特征,确定前景点的部位位置信息的情况下,用于:

根据所述点云语义特征针对所述点云数据进行前景和背景的分割,以确定出前景点;所述前景点为所述点云数据中的属于前景的点云数据;利用用于预测前景点的部位位置信息的神经网络对确定出的前景点进行处理,得到前景点的部位位置信息;其中,所述神经网络采用包括有3d框的标注信息的训练数据集训练得到,所述3d框的标注信息至少包括所述训练数据集的点云数据的前景点的部位位置信息。

本公开实施例还提出了一种电子设备,包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,

所述处理器用于运行所述计算机程序时,执行上述任意一种目标检测方法。

本公开实施例还提出了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任意一种目标检测方法。

本公开实施例提出的目标检测方法、智能驾驶方法、目标检测装置、电子设备和计算机存储介质中,获取3d点云数据;根据所述3d点云数据,确定所述3d点云数据对应的点云语义特征;基于所述点云语义特征,确定前景点的部位位置信息;所述前景点表示所述点云数据中属于目标的点云数据,所述前景点的部位位置信息用于表征所述前景点在目标内的相对位置;基于所述点云数据提取出至少一个初始3d框;根据所述点云数据对应的点云语义特征、所述前景点的部位位置信息和所述至少一个初始3d框,确定目标的3d检测框,所述检测框内的区域中存在目标。因此,本公开实施例提供的目标检测方法可以直接从3d点云数据中获得点云语义特征,以确定前景点的部位位置信息,进而根据点云语义特征、前景点的部位位置信息和至少一个3d框确定出目标的3d检测框,而无需将3d点云数据投影到俯视图,利用2d检测技术得到俯视图的框,避免了量化时损失点云的原始信息,也避免了投影到俯视图上时导致的被遮挡物体难以检测的缺陷。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。

图1为本公开实施例的目标检测方法的流程图;

图2为本公开应用实施例中3d部位感知和聚合神经网络的综合框架示意图;

图3为本公开应用实施例中稀疏上采样和特征修正的模块框图;

图4为本公开应用实施例中针对不同难度级别的kitti数据集的val分割集得出的目标部位位置的详细误差统计图;

图5为本公开实施例的目标检测装置的组成结构示意图;

图6为本公开实施例的电子设备的硬件结构示意图。

具体实施方式

以下结合附图及实施例,对本公开进行进一步详细说明。应当理解,此处所提供的实施例仅仅用以解释本公开,并不用于限定本公开。另外,以下所提供的实施例是用于实施本公开的部分实施例,而非提供实施本公开的全部实施例,在不冲突的情况下,本公开实施例记载的技术方案可以任意组合的方式实施。

需要说明的是,在本公开实施例中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法或者装置不仅包括所明确记载的要素,而且还包括没有明确列出的其他要素,或者是还包括为实施方法或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的方法或者装置中还存在另外的相关要素(例如方法中的步骤或者装置中的单元,例如的单元可以是部分电路、部分处理器、部分程序或软件等等)。

例如,本公开实施例提供的目标检测方法或智能驾驶方法包含了一系列的步骤,但是本公开实施例提供的目标检测方法或智能驾驶方法不限于所记载的步骤,同样地,本公开实施例提供的目标检测装置包括了一系列模块,但是本公开实施例提供的装置不限于包括所明确记载的模块,还可以包括为获取相关信息、或基于信息进行处理时所需要设置的模块。

本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括a、b、c中的至少一种,可以表示包括从a、b和c构成的集合中选择的任意一个或多个元素。

本公开实施例可以应用于终端和服务器组成的计算机系统中,并可以与众多其它通用或专用计算系统环境或配置一起操作。这里,终端可以是瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统,等等,服务器可以是服务器计算机系统小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。

终端、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

在相关技术中,随着自动驾驶和机器人技术的飞速发展,基于点云数据的3d目标检测技术,越来越受到人们的关注,其中,点云数据可以基于雷达传感器获取;尽管从图像中进行2d目标检测已经取得了重大成就,但是,直接将上述2d目标检测方法应用于基于点云的三维(3d)目标检测,仍然存在一些困难,这主要是因为基于激光雷达(lidar)传感器产生的点云数据稀疏不规则,如何从不规则点中提取识别点云语义特征,并根据提取到的特征进行前景和背景的分割,以进行3d检测框的确定,仍然是一个具有挑战性的问题。

而在自动驾驶和机器人等领域,3d目标检测是一个非常重要的研究方向;例如,通过3d目标检测,可以确定出周围车辆和行人在3d空间的具体位置、形状太小、移动方向等等重要信息,从而帮助自动驾驶车辆或者机器人进行动作的决策。

目前相关的3d目标检测方案中,往往将点云投影到俯视图上,利用2d检测技术去得到俯视图的框,或者直接利用2d图像先出候选框,再在特定区域的点云上去回归对应的3d框。这里,利用2d检测技术得到的俯视图的框为2d框,2d框表示用于标识目标的点云数据的二维平面的框,2d框可以是长方形或其他二维平面形状的框。

可以看出,投影到俯视图上在量化时损失了点云的原始信息,而从2d图像上检测时很难检测到被遮挡的目标。另外,在采用上述方案检测3d框时,并没有单独的去考虑目标的部位信息,如对于汽车来说,车头、车尾、车轮等部位的位置信息有助于对目标的3d检测。

针对上述技术问题,在本公开的一些实施例中,提出了一种目标检测方法,本公开实施例可以在自动驾驶、机器人导航等场景实施。

图1为本公开实施例的目标检测方法的流程图,如图1所示,该流程可以包括:

步骤101:获取3d点云数据。

在实际应用中,可以基于雷达传感器等采集点云数据。

步骤102:根据3d点云数据,确定3d点云数据对应的点云语义特征。

针对点云数据,为了分割前景和背景并预测前景点的3d目标部位位置信息,需要从点云数据中学习区别性的逐点特征;对于得到点云数据对应的点云语义特征的实现方式,示例性地,可以将整个点云进行3d网格化处理,得到3d网格;在3d网格的非空网格中提取出所述3d点云数据对应的点云语义特征;3d点云数据对应的点云语义特征可以表示3d点云数据的坐标信息等。

在实际实施时,可以将每个网格的中心当做一个新的点,则得到一个近似等价于初始点云的网格化点云;上述网格化点云通常是稀疏的,在得到上述网格化点云之后,可以基于稀疏卷积操作提取上述网格化点云的逐点特征,这里的网格化点云的逐点特征是网格化后点云的每个点的语义特征,可以作为上述点云数据对应的点云语义特征;也就是说,可以将整个3d空间作为标准化网格进行网格化处理,然后基于稀疏卷积从非空网格中提取点云语义特征。

在3d目标检测中,针对点云数据,可以通过前景和背景的分割,得到前景点和背景点;前景点表示属于目标的点云数据,背景点表示不属于目标的点云数据;目标可以是车辆、人体等需要识别出的物体;例如,前景和背景的分割方法包括但不限于基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。

在上述3d网格中的非空网格表示包含点云数据的网格,上述3d网格中的空网格表示不包含点云数据的网格。

对于将整个点云数据进行3d稀疏网格化的实现方式,在一个具体的示例中,整个3d空间的尺寸为70m*80m*4m,每个网格的尺寸为5cm*5cm*10cm;对于kitti数据集上的每个3d场景,一般有16000个非空网格。

步骤103:基于所述点云语义特征,确定前景点的部位位置信息;所述前景点表示所述点云数据中属于目标的点云数据,所述前景点的部位位置信息用于表征所述前景点在目标内的相对位置。

对于预测前景点的部位位置信息的实现方式,示例性地,可以根据上述点云语义特征针对上述点云数据进行前景和背景的分割,以确定出前景点;前景点为所述点云数据中的属于目标的点云数据;

利用用于预测前景点的部位位置信息的神经网络对确定出的前景点进行处理,得到前景点的部位位置信息;

其中,上述神经网络采用包括有3d框的标注信息的训练数据集训练得到,3d框的标注信息至少包括所述训练数据集的点云数据的前景点的部位位置信息。

本公开实施例中,并不对前景和背景的分割方法进行限制,例如,可以采用焦点损失(focalloss)方法等来实现前景和背景的分割。

在实际应用中,训练数据集可以是预先获取的数据集,例如,针对需要进行目标检测的场景,可以预先利用雷达传感器等获取点云数据,然后,针对点云数据进行前景点分割并划分出3d框,并在3d框中添加标注信息,以得到训练数据集,该标注信息可以表示前景点在3d框内的部位位置信息。这里,训练数据集中3d框可以记为真值(ground-truth)框。

这里,3d框表示一个用于标识目标的点云数据的立体框,3d框可以是长方体或其他形状的立体框。

示例性地,在得到训练数据集后,可以基于训练数据集的3d框的标注信息,并利用二元交叉熵损失作为部位回归损失,来预测前景点的部位位置信息。可选地,ground-truth框内或外的所有点都作为正负样本进行训练。

在实际应用中,上述3d框的标注信息包括准确的部位位置信息,具有信息丰富的特点,并且可以免费获得;也就是说,本公开实施例的技术方案,可以基于上述3d候选框的标注信息推断出的免费监督信息,预测前景点的目标内部位位置信息。

可以看出,本公开实施例中,可以基于稀疏卷积操作直接提取原始点云数据的信息,将其用于前景和背景的分割并预测每个前景点的部位位置信息(即在目标3d框中的位置信息),进而可以量化表征每个点属于目标哪个部位的信息。这避免了相关技术中将点云投影到俯视图时引起的量化损失以及2d图像检测的遮挡问题,使得点云语义特征提取过程可以更自然且高效。

步骤104:基于点云数据提取出至少一个初始3d框。

对于基于点云数据提取出至少一个初始3d框的实现方式,示例性地,可以利用区域候选网络(regionproposalnetwork,rpn)提取出至少一个3d候选框,每个3d候选框为一个初始3d框。需要说明的是,以上仅仅是对提取初始3d框的方式进行了举例说明,本公开实施例并不局限于此。

本公开实施例中,可以通过聚合初始3d框的各个点的部位位置信息,来帮助最终的3d框的生成;也就是说,预测的每个前景点的部位位置信息可以帮助最终3d框生成。

步骤105:根据点云数据对应的点云语义特征、前景点的部位位置信息和上述至少一个初始3d框,确定目标的3d检测框,所述检测框内的区域中存在目标。

对于本步骤的实现方式,示例性地,可以针对每个初始3d框,进行前景点的部位位置信息和点云语义特征的池化操作,得到池化后的每个初始3d框的部位位置信息和点云语义特征;根据池化后的每个初始3d框的部位位置信息和点云语义特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度,以确定所述目标的3d检测框。

这里,在对每个初始3d框进行修正后,可以得到最终的3d框,用于实现对目标的检测;而初始3d框的置信度可以用于表示初始3d框内前景点的部位位置信息的置信度,进而,确定初始3d框的置信度有利于对初始3d框进行修正,以得到最终的3d检测框。

这里,目标的3d检测框可以表示用于目标检测的3d框,示例性地,在确定出目标的3d检测框后,可以根据目标的3d检测框确定出目标在图像中的信息,例如可以根据目标的3d检测框确定出目标在图像中位置、尺寸等信息。

本公开实施例中,对于每个初始3d框中前景点的部位位置信息和点云语义特征,需要通过聚合同一初始3d框中所有点的部位位置信息来进行3d框的置信度打分和/或修正。

在第一个示例中,可以直接获取并聚合初始3d框内的所有点的特征,用于进行3d框的置信度打分和修正;也就是说,可以直接对初始3d框的部位位置信息和点云语义特征进行池化处理,进而实现对初始3d框的置信度打分和/或修正;由于点云的稀疏性,上述第一个示例的方法,并不能从池化后的特征恢复初始3d框的形状,损失了初始3d框的信息。

在第二个示例中,可以将上述每个初始3d框均匀地划分为多个网格,针对每个网格进行前景点的部位位置信息和点云语义特征的池化操作,得到池化后的每个初始3d框的部位位置信息和点云语义特征。

可以看出,对于不同大小的初始3d框,将产生固定分辨率的3d网格化特征。可选地,可以在3d空间上根据设定的分辨率对每个初始3d框进行均匀的网格化处理,设定的分辨率记为池化分辨率。

可选地,当上述多个网格中任意一个网格不包含前景点时,任意一个网格为空网格,此时,可以将所述任意一个网格的部位位置信息标记为空,得到上述网格池化后的前景点的部位位置信息,并将所述网格的点云语义特征设置为零,得到所述网格池化后的点云语义特征。

当上述多个网格中任意一个网格包含前景点时,可以将所述网格的前景点的部位位置信息进行均匀池化处理,得到上述网格池化后的前景点的部位位置信息,并将所述网格的前景点的点云语义特征进行最大化池化处理,得到所述网格池化后的点云语义特征。这里,均匀池化可以是指:取邻域内前景点的部位位置信息的平均值作为该网格池化后的前景点的部位位置信息;最大化池化可以是指:取邻域内前景点的部位位置信息的最大值作为该网格池化后的前景点的部位位置信息。

可以看出,对前景点的部位位置信息进行均匀池化处理后,池化后的部位位置信息可以近似表征每个网格的中心位置信息。

本公开实施例中,在得到上述网格池化后的前景点的部位位置信息和上述网格池化后的点云语义特征后,可以得出池化后的每个初始3d框的部位位置信息和点云语义特征;这里,池化后的每个初始3d框的部位位置信息包括对应初始3d框的各个网格池化后的前景点的部位位置信息,池化后的每个初始3d框的点云语义特征包括对应初始3d框的各个网格池化后的点云语义特征。

在对每个网格进行前景点的部位位置信息和点云语义特征的池化操作时,还对空网格进行了相应处理,因而,这样得出的池化后的每个初始3d框的部位位置信息和点云语义特征可以更好地编码3d初始框的几何信息,进而,可以认为本公开实施例提出了对初始3d框敏感的池化操作。

本公开实施例提出的对初始3d框敏感的池化操作,可以从不同大小的初始3d框得到相同分辨率的池化后特征,并且可以从池化后的特征恢复3d初始框的形状;另外,池化后的特征可以便于进行初始3d框内部位位置信息的整合,进而,有利于初始3d框的置信度打分和初始3d框的修正。

对于根据池化后的每个初始3d框的部位位置信息和点云语义特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度的实现方式,示例性地,可以将上述池化后的每个初始3d框的部位位置信息和点云语义特征进行合并,根据合并后的特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度。

本公开实施例中,可以将池化后的每个初始3d框的部位位置信息和点云语义特征转换为相同的特征维度,然后,将相同的特征维度的部位位置信息和点云语义特征连接,实现相同的特征维度的部位位置信息和点云语义特征的合并。

在实际应用中,池化后的每个初始3d框的部位位置信息和点云语义特征均可以通过特征映射(featuremap)表示,这样,可以将池化后得到的特征映射转换至的相同的特征维度,然后,将这两个特征映射进行合并。

本公开实施例中,合并后的特征可以是m*n*k的矩阵,m、n和k均为正整数;合并后的特征可以用于后续的3d框内的部位位置信息的整合,进而,可以基于初始3d框内部位位置信息整合,进行3d框内的部位位置信息的置信度预测与3d框的修正。

相关技术中,通常在得到初始3d框的点云数据后,直接使用pointnet进行点云的信息整合,由于点云的稀疏性,该操作损失了初始3d框的信息,不利于3d部位位置信息的整合。

而在本公开实施例中,对于根据合并后的特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度的过程,示例性地,可以采用如下几种方式实现。

第一种方式

可以将所述合并后的特征矢量化为特征向量,根据所述特征向量,对每个初始3d框进行修正和/或确定每个初始3d框的置信度。在具体实现时,在将合并后的特征矢量化为特征向量后,然后再加上几个全连接层(fully-connectedlayers,fclayers),以对每个初始3d框进行修正和/或确定每个初始3d框的置信度;这里,全连接层属于神经网络中的一种基础单元,可以整合卷积层或者池化层中具有类别区分性的局部信息。

第二种方式

可以针对合并后的特征,通过进行稀疏卷积操作,得到稀疏卷积操作后的特征映射;根据所述稀疏卷积操作后的特征映射,对每个初始3d框进行修正和/或确定每个初始3d框的置信度。可选地,在得到稀疏卷积操作后的特征映射,可以再通过卷积操作,逐步将局部尺度到全局尺度的特征进行聚合,以实现对每个初始3d框进行修正和/或确定每个初始3d框的置信度。在一个具体的示例中,在池化分辨率较低时,可以采用第二种方式来对每个初始3d框进行修正和/或确定每个初始3d框的置信度。

第三种方式

针对合并后的特征,通过进行稀疏卷积操作,得到稀疏卷积操作后的特征映射;对所述稀疏卷积操作后的特征映射进行降采样,根据降采样后的特征映射,对每个初始3d框进行修正和/或确定每个初始3d框的置信度。这里通过对稀疏卷积操作后的特征映射进行降采样处理,可以更有效地对每个初始3d框进行修正和/或确定每个初始3d框的置信度,并且可以节省计算资源。

可选地,在得到稀疏卷积操作后的特征映射后,可以通过池化操作,对稀疏卷积操作后的特征映射进行降采样;例如,这里的针对稀疏卷积操作后的特征映射的池化操作为稀疏最大化池化(sparsemax-pooling)操作。

可选地,通过对稀疏卷积操作后的特征映射进行降采样,得到一个特征向量,以用于部位位置信息的整合。

也就是说,本公开实施例中,可以在池化后的每个初始3d框的部位位置信息和点云语义特征的基础上,将网格化后的特征逐渐降采样成一个编码后的特征向量,用于3d部位位置信息的整合;然后,可以利用这个编码后的特征向量,对每个初始3d框进行修正和/或确定每个初始3d框的置信度。

综上,本公开实施例提出了基于稀疏卷积操作的3d部位位置信息的整合操作,可以逐层编码每个初始3d框内池化后特征的3d部位位置信息;该操作与对初始3d框敏感的池化操作结合,可以更好地聚合3d部位位置信息,用于最终的初始3d框的置信度预测和/或初始3d框的修正,以得出目标的3d检测框。

在实际应用中,步骤101至步骤103可以基于电子设备的处理器实现,上述处理器可以为特定用途集成电路(applicationspecificintegratedcircuit,asic)、数字信号处理器(digitalsignalprocessor,dsp)、数字信号处理装置(digitalsignalprocessingdevice,dspd)、可编程逻辑装置(programmablelogicdevice,pld)、现场可编程门阵列(fieldprogrammablegatearray,fpga)、中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的电子设备,用于实现上述处理器功能的电子器件还可以为其它,本公开实施例不作具体限定。

可以看出,本公开实施例提供的目标检测方法可以直接从3d点云数据中获得点云语义特征,以确定前景点的部位位置信息,进而根据点云语义特征、前景点的部位位置信息和至少一个3d框确定出目标的3d检测框,而无需将3d点云数据投影到俯视图,利用2d检测技术得到俯视图的框,避免了量化时损失点云的原始信息,也避免了投影到俯视图上时导致的被遮挡物体难以检测的缺陷。

基于前述记载的目标检测方法,本公开实施例还提出了一种智能驾驶方法,应用于智能驾驶设备中,该智能驾驶方法包括:根据上述任意一种目标检测方法得出所述智能驾驶设备周围的所述目标的3d检测框;根据所述目标的3d检测框,生成驾驶策略。

在一个示例中,智能驾驶设备包括自动驾驶的车辆、机器人、导盲设备等,此时,智能驾驶设备可以根据生成的驾驶策略对其进行驾驶控制;在另一个示例中,智能驾驶设备包括安装辅助驾驶系统的车辆,此时,生成的驾驶策略可以用于指导驾驶员来进行车辆的驾驶控制。

下面通过一个具体的应用实施例对本公开进行进一步说明。

在该应用实施例的方案中,提出了从原始点云进行目标检测的3d部位感知和聚合神经网络(可以命名为part-a2网络),该网络的框架是一种新的基于点云的三维目标检测的两阶段框架,可以由如下两个阶段组成,其中,第一个阶段为部位感知阶段,第二个阶段为部位聚合阶段。

首先,在部位感知阶段,可以根据3d框的标注信息推断出免费的监督信息,同时预测初始3d框和准确的部位位置(intra-objectpartlocations)信息;然后,可以对相同框内前景点的部位位置信息进行聚合,从而实现对3d框特征的编码有效表示。在部位聚合阶段,考虑通过整合池化后的部位位置信息的空间关系,用于对3d框重新评分(置信度打分)和修正位置;在kitti数据集上进行了大量实验,证明预测的前景点的部位位置信息,有利于3d目标检测,并且,上述基于3d部位感知和聚合神经网络的目标检测方法,优于相关技术中通过将点云作为输入馈送的目标检测方法。

在本公开的一些实施例中,不同于从鸟瞰图或2d图像中进行目标检测的方案,提出了通过对前景点进行分割,来直接从原始点云生成初始3d框(即3d候选框)的方案,其中,分割标签直接根据训练数据集中3d框的标注信息得出;然而3d框的标注信息不仅提供了分割掩模,而且还提供了3d框内所有点的精确框内部位位置。这与2d图像中的框标注信息完全不同,因为2d图像中的部分对象可能被遮挡;使用二维ground-truth框进行目标检测时,会为目标内的每一个像素产生不准确和带有噪声的框内部位位置;相对地,上述3d框内部位位置准确且信息丰富,并且可以免费获得,但在3d目标检测中从未被使用过。

基于这个重要发现,在一些实施例中提出了上述part-a2网络;具体地,在首先进行的部位感知阶段,该网络通过学习,估计所有前景点的目标部位位置信息,其中,部位位置的标注信息和分割掩模可以直接从人工标注的真实信息生成,这里,人工标注的真实信息可以记为ground-truth,例如,人工标注的真实信息可以是人工标注的三维框,在实际实施时,可以通过将整个三维空间划分为小网格,并采用基于稀疏卷积的三维unet-like神经网络(u型网络结构)来学习点特征;可以在u型网络结构添加一个rpn头部,以生成初始的3d候选框,进而,可以对这些部位进行聚合,以便进入部位聚合阶段。

部位聚合阶段的动机是,给定一组3d候选框中的点,上述part-a2网络应能够评估该候选框的质量,并通过学习所有这些点的预测的目标部位位置的空间关系来优化该候选框。因此,为了对同一3d框内的点进行分组,可以提出一种新颖的感知点云池化模块,可以记为roi感知点云池化模块;roi感知点云池化模块可以通过新的池化操作,消除在点云上进行区域池化时的模糊性;与相关技术中池化操作方案中在所有点云或非空体素上进行池化操作不同,roi感知点云池化模块是在3d框中的所有网格(包括非空网格和空网格)进行池化操作,这是生成3d框评分和位置修正的有效表示的关键,因为空网格也对3d框信息进行编码。在池化操作后,上述网络可以使用稀疏卷积和池化操作聚合部位位置信息;实验结果表明,聚合部位特征能够显著提高候选框质量,在三维检测基准上达到了最先进的性能。

不同于上述通基于从多个传感器获取的数据进行3d目标检测,本公开应用实施例中,3d部位感知和聚合神经网络只使用点云数据作为输入,就可以获得与相关技术类似甚至更好的3d检测结果;进一步地,上述3d部位感知和聚合神经网络的框架中,进一步探索了3d框的标注信息提供的丰富信息,并学习预测精确的目标部位位置信息,以提高3d目标检测的性能;进一步地,本公开应用实施例提出了一个u型网络结构的主干网,可以利用稀疏卷积和反卷积提取识别点云特征,用于预测目标部位位置信息和三维目标检测。

图2为本公开应用实施例中3d部位感知和聚合神经网络的综合框架示意图,如图2所示,该3d部位感知和聚合神经网络的框架包括部位感知阶段和部位聚合阶段,其中,在部位感知阶段,通过将原始点云数据输入至新设计的u型网络结构的主干网,可以精确估计目标部位位置并生成3d候选框;在部位聚合阶段,进行了提出的基于roi感知点云池化模块的池化操作,具体地,将每个3d候选框内部位信息进行分组,然后利用部位聚合网络来考虑各个部位之间的空间关系,以便对3d框进行评分和位置修正。

可以理解的是,由于三维空间中的对象是自然分离的,因此3d目标检测的ground-truth框自动为每个3d点提供精确的目标部部位位置和分割掩膜;这与2d目标检测非常不同,2d目标框可能由于遮挡仅包含目标的一部分,因此不能为每个2d像素提供准确的目标部位位置。

本公开实施例的目标监测方法可以应用于多种场景中,在第一个示例中,可以利用上述目标检测方法进行自动驾驶场景的3d目标监测,通过检测周围目标的位置、大小、移动方向等信息帮助自动驾驶决策;在第二个示例中,可以利用上述目标检测方法实现3d目标的跟踪,具体地,可以在每个时刻利用上述目标检测方法实现3d目标检测,检测结果可以作为3d目标跟踪的依据;在第三个示例中,可以利用上述目标检测方法进行3d框内点云的池化操作,具体地,可以将不同3d框的内稀疏点云池化为一个拥有固定分辨率的3d框的特征。

基于这一重要的发现,本公开应用实施例中提出了上述part-a2网络,用于从点云进行3d目标检测。具体来说,我们引入3d部位位置标签和分割标签作为额外的监督信息,以利于3d候选框的生成;在部位聚合阶段,对每个3d候选框内的预测的3d目标部位位置信息进行聚合,以对该候选框进行评分并修正位置。

下面具体说明本公开应用实施例的流程。

首先可以学习估计3d点的目标部位位置信息。具体地说,如图2所示,本公开应用实施例设计了一个u型网络结构,可以通过在获得的稀疏网格上进行稀疏卷积和稀疏反卷积,来学习前景点的逐点特征表示;图2中,可以对点云数据执行3次步长为2稀疏卷积操作,如此可以将点云数据的空间分辨率通过降采样降低至初始空间分辨率的1/8,每次稀疏卷积操作都有几个子流形稀疏卷积;这里,稀疏卷积操作的步长可以根据点云数据需要达到的空间分辨率进行确定,例如,点云数据需要达到的空间分辨率越低,则稀疏卷积操作的步长需要设置得越长;在对点云数据执行3次稀疏卷积操作后,对3次稀疏卷积操作后得到的特征执行稀疏上采样和特征修正;本公开实施例中,基于稀疏操作的上采样块(用于执行稀疏上采样操作),可以用于修正融合特征和并节省计算资源。

稀疏上采样和特征修正可以基于稀疏上采样和特征修正模块实现,图3为本公开应用实施例中稀疏上采样和特征修正的模块框图,该模块应用于基于稀疏卷积的u型网络结构主干网的解码器中;参照图3,通过稀疏卷积对横向特征和底部特征首先进行融合,然后,通过稀疏反卷积对融合后的特征进行特征上采样,图3中,稀疏卷积3×3×3表示卷积核大小为3×3×3的稀疏卷积,通道连接(contcat)表示特征向量在通道方向上的连接,通道缩减(channelreduction)表示特征向量在通道方向上的缩减,表示按照特征向量在通道方向进行相加;可以看出,参照图3,可以针对横向特征和底部特征,进行了稀疏卷积、通道连接、通道缩减、稀疏反卷积等操作,实现了对横向特征和底部特征的特征修正。

参照图2,在对3次稀疏卷积操作后得到的特征执行稀疏上采样和特征修正后,还可以针对执行稀疏上采样和特征修正后的特征,进行语义分割和目标部位位置预测。

在利用神经网络识别和检测目标时,目标内部位位置信息是必不可少的;例如,车辆的侧面也是一个垂直于地面的平面,两个车轮总是靠近地面。通过学习估计每个点的前景分割掩模和目标部位位置,神经网络发展了推断物体的形状和姿势的能力,这有利于3d目标检测。

在具体实施时,可以在上述稀疏卷积的u型网络结构主干网的基础上,附加两个分支,分别用于分割前景点和预测它们的物体部位位置;在预测前景点的物体部位位置时,可以基于训练数据集的3d框的标注信息进行预测,在训练数据集中,ground-truth框内或外的所有点都作为正负样本进行训练。

3dground-truth框自动提供3d部位位置标签;前景点的部位标签(px,py,pz)是已知参数,这里,可以将(px,py,pz)转换为部位位置标签(ox,oy,oz),以表示其在相应目标中的相对位置;3d框由(cx,cy,cz,h,w,l,θ)表示,其中,(cx,cy,cz)表示3d框的中心位置,(h,w,l)表示3d框对应的鸟瞰图的尺寸大小,θ表示3d框在对应的的鸟瞰图中的方向,即3d框在对应的的鸟瞰图中的朝向与鸟瞰图的x轴方向的夹角。部位位置标签(ox,oy,oz)可以通过式(1)计算得出。

其中,ox,oy,oz∈[0,1],目标中心的部位位置为(0.5,0.5,0.5);这里,式(1)涉及的坐标都以kitti的激光雷达坐标系表示,其中,z方向垂直于地面,x和y方向在水平面上。

这里,可以利用二元交叉熵损失作为部位回归损失来学习前景点部位沿3维的位置,其表达式如下:

lpart(pu)=-(oulog(pu)+(1-ou)log(1-pu)),u∈{x,y,z}(2)

其中,pu表示在s形层(sigmoidlayer)之后的预测的目标内部位位置,lpart(pu)表示预测的3d点的部位位置信息,这里,可以只对前景点进行部位位置预测。

本公开应用实施例中,还可以生成3d候选框。具体地说,为了聚合3d目标检测的预测的目标内部位位置,需要生成3d候选框,将来自同一目标的估计前景点的目标部位信息聚合起来;在实际实施时,如图2所示,在稀疏卷积编码器生成的特征映射(即对点云数据通过3次稀疏卷积操作后得到的特征映射)附加相同的rpn头;为了生成3d候选框时,特征映射被将采样8倍,并且聚合相同鸟瞰位置的不同高度处的特征,以生成用于3d候选框生成的2d鸟瞰特征映射。

参照图2,针对提取出的3d候选框,可以在部位聚合阶段执行池化操作,对于池化操作的实现方式,在一些实施例中,提出了点云区域池化操作,可以将3d候选框中的逐点特征进行池化操作,然后,基于池化操作后的特征映射,对3d候选框进行修正;但是,这种池化操作会丢失3d候选框信息,因为3d候选框中的点并非规则分布,并且存在从池化后点中恢复3d框的模糊性。

图4为本公开应用实施例中点云池化操作的示意图,如图4所示,先前的点云池化操作表示上述记载的点云区域池化操作,圆圈表示池化后点,可以看出,如果采用上述记载的点云区域池化操作,则不同的3d候选框将会导致相同的池化后点,也就是说,上述记载的点云区域池化操作具有模糊性,导致无法使用先前的点云池化方法恢复初始3d候选框形状,这会对后续的候选框修正产生负面影响。

对于池化操作的实现方式,在另一些实施例中,提出了roi感知点云池化操作,roi感知点云池化操作的具体过程为:将所述每个3d候选框均匀地划分为多个网格,当所述多个网格中任意一个网格不包含前景点时,所述任意一个网格为空网格,此时,可以将所述任意一个网格的部位位置信息标记为空,并将所述任意一个网格的点云语义特征设置为零;将所述每个网格的前景点的部位位置信息进行均匀池化处理,并对所述每个网格的前景点的点云语义特征进行最大化池化处理,得到池化后的每个3d候选框的部位位置信息和点云语义特征。

可以理解的是,结合图4,roi感知点云池化操作可以通过保留空网格来对3d候选框的形状进行编码,而稀疏卷积可以有效地对候选框的形状(空网格)进行处理。

也就是说,对于roi感知点云池化操作的具体实现方式,可以将3d候选框均匀地划分为具有固定空间形状(h*w*l)的规则网格,其中,h、w和l分别表示池化分辨率在每个维度的高度、宽度和长度超参数,并与3d候选框的大小无关。通过聚合(例如,最大化池化或均匀池化)每个网格内的点特征来计算每个网格的特征;可以看出,基于roi感知点云池化操作,可以将不同的3d候选框规范化为相同的局部空间坐标,其中每个网格对3d候选框中相应固定位置的特征进行编码,这对3d候选框编码更有意义,并有利于后续的3d候选框评分和位置修正。

在得到池化后的3d候选框的部位位置信息和点云语义特征之后,还可以执行用于3d候选框修正的部位位置聚合。

具体地说,通过考虑一个3d候选框中所有3d点的预测的目标部位位置的空间分布,可以认为通过聚合部位位置来评价该3d候选框的质量是合理的;可以将部位位置的聚合的问题表示为优化问题,并通过拟合相应3d候选框中所有点的预测部位位置来直接求解3d边界框的参数。然而,这种数学方法对异常值和预测的部位偏移量的质量很敏感。

为了解决这一问题,在本公开应用实施例中,提出了一种基于学习的方法,可以可靠地聚合部位位置信息,以用于进行3d候选框评分(即置信度)和位置修正。对于每个3d候选框,我们分别在3d候选框的部位位置信息和点云语义特征应用提出的roi感知点云池化操作,从而生成两个尺寸为(14*14*14*4)和(14*14*14*c)的特征映射,其中,预测的部位位置信息对应4维映射,其中,3个维度表示xyz维度,用于表示部位位置,1个维度表示前景分割分数,c表示部位感知阶段得出的逐点特征的特征尺寸。

在池化操作之后,如图2所示,在部位聚合阶段,可以通过分层方式从预测的目标部位位置的空间分布中学习。具体来说,我们首先使用内核大小为3*3*3的稀疏卷积层将两个池化后特征映射(包括池化后的3d候选框的部位位置信息和点云语义特征)转换为相同的特征维度;然后,将这两个相同特征维度的特征映射连接起来;针对连接后的特征映射,可以使用四个内核大小为3*3*3的稀疏卷积层堆叠起来进行稀疏卷积操作,随着接收域的增加,可以逐渐聚合部位信息。在实际实施时,可以在池化后的特征映射转换为相同特征维度的特征映射之后,可以应用内核大小为2*2*2且步长为2*2*2的稀疏最大化池池化操作,以将特征映射的分辨率降采样到7*7*7,以节约计算资源和参数。在应用四个内核大小为3*3*3的稀疏卷积层堆叠起来进行稀疏卷积操作后,还可以将稀疏卷积操作得出的特征映射进行矢量化(对应图2中的fc),得到一个特征向量;在得到特征向量后,可以附加两个分支进行最后的3d候选框评分和3d候选框位置修正;示例性地,3d候选框评分表示3d候选框的置信度评分,3d候选框的置信度评分至少表示3d候选框内前景点的部位位置信息的评分。

与直接将池化的三维特征图矢量化为特征向量的方法相比,本公开应用实施例提出的部位聚合阶段的执行过程,可以有效地从局部到全局的尺度上聚合特征,从而可以学习预测部位位置的空间分布。通过使用稀疏卷积,它还节省了大量的计算资源和参数,因为池化后的网格是非常稀疏的;而相关技术并不能忽略它(即不能采用稀疏卷积来进行部位位置聚合),这是因为,相关技术中,需要将每个网格编码为3d候选框中一个特定位置的特征。

可以理解的是,参照图2,在对3d候选框进行位置修正后,可以得到位置修正后的3d框,即,得到最终的3d框,可以用于实现3d目标检测。

本公开应用实施例中,可以将两个分支附加到从预测的部位信息聚合的矢量化特征向量。对于3d候选框评分(即置信度)分支,可以使用3d候选框与其对应的ground-truth框之间的3d交并比(intersectionoverunion,iou)作为3d候选框质量评估的软标签,也可以根据公式(2)利用二元交叉熵损失,来学习到3d候选框评分。

对于3d候选框的生成和位置修正,我们可以采用回归目标方案,并使用平滑-l1(smooth-l1)损失对归一化框参数进行回归,具体实现过程如式(3)所示。

其中,δx、δy和δz分别表示3d框中心位置的偏移量,δh、δw和δl分别表示3d框对应的鸟瞰图的尺寸大小偏移量,δθ表示3d框对应的鸟瞰图的方向偏移量,da表示标准化鸟瞰图中的中心偏移量,xa、ya和za表示3d锚点/候选框的中心位置,ha、wa和la表示3d锚点/候选框对应的鸟瞰图的尺寸大小,θa表示3d锚点/候选框对应的鸟瞰图的方向;xg、yg和zg表示对应的ground-truth框的中心位置,hg、wg和lg表示该ground-truth框对应的鸟瞰图的尺寸大小,θg表示该ground-truth框对应的鸟瞰图的方向。

在相关技术中对候选框的修正方法不同的是,本公开应用实施例中对于3d候选框的位置修正,可以直接根据3d候选框的参数回归相对偏移量或大小比率,因为上述roi感知点云池化模块已经对3d候选框的全部共享信息进行编码,并将不同的3d候选框传输到相同的标准化空间坐标系。

可以看出,在具有相等损失权重1的部位感知阶段,存在三个损失,包括前景点分割的焦点损失、目标内部位位置的回归的二元交叉熵损失和3d候选框生成的平滑-l1损失;对于部位聚合阶段,也有两个损失,损失权重相同,包括iou回归的二元交叉熵损失和位置修正的平滑l1损失。

综上,本公开应用实施例提出了一种新的3d目标检测方法,即利用上述part-a2网络,从点云检测三维目标;在部位感知阶段,通过使用来自3d框的位置标签来学习估计准确的目标部位位置;通过新的roi感知点云池化模块对每个目标的预测的部位位置进行分组。因此,在部位聚合阶段可以考虑预测的目标内部位位置的空间关系,以对3d候选框进行评分并修正它们的位置。实验表明,该公开应用实施例的目标检测方法在具有挑战性的kitti三维检测基准上达到了最先进的性能,证明了该方法的有效性。

本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定

在前述实施例提出的目标检测方法的基础上,本公开实施例提出了一种目标检测装置。

图5为本公开实施例的目标检测装置的组成结构示意图,如图5所示,所述装置位于电子设备中,所述装置包括:获取模块601、第一处理模块602和第二处理模块603,其中,

获取模块601,用于获取3d点云数据;根据所述3d点云数据,确定所述3d点云数据对应的点云语义特征;

第一处理模块602,用于基于所述点云语义特征,确定前景点的部位位置信息;所述前景点表示所述点云数据中属于目标的点云数据,所述前景点的部位位置信息用于表征所述前景点在目标内的相对位置;基于所述点云数据提取出至少一个初始3d框;

第二处理模块603,用于根据所述点云数据对应的点云语义特征、所述前景点的部位位置信息和所述至少一个初始3d框,确定目标的3d检测框,所述检测框内的区域中存在目标。

在一实施方式中,所述第二处理模块603,用于针对每个初始3d框,进行前景点的部位位置信息和点云语义特征的池化操作,得到池化后的每个初始3d框的部位位置信息和点云语义特征;根据池化后的每个初始3d框的部位位置信息和点云语义特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度,以确定所述目标的3d检测框。

在一实施方式中,所述第二处理模块603,用于将所述每个初始3d框均匀地划分为多个网格,针对每个网格进行前景点的部位位置信息和点云语义特征的池化操作,得到池化后的每个初始3d框的部位位置信息和点云语义特征;根据池化后的每个初始3d框的部位位置信息和点云语义特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度,以确定所述目标的3d检测框。

在一实施方式中,所述第二处理模块603在针对每个网格进行前景点的部位位置信息和点云语义特征的池化操作的情况下,用于响应于一个网格中不包含前景点的情况,将所述网格的部位位置信息标记为空,得到所述网格池化后的前景点的部位位置信息,并将所述网格的点云语义特征设置为零,得到所述网格池化后的点云语义特征;响应于一个网格中包含前景点的情况,将所述网格的前景点的部位位置信息进行均匀池化处理,得到所述网格池化后的前景点的部位位置信息,并将所述网格的前景点的点云语义特征进行最大化池化处理,得到所述网格池化后的点云语义特征。

在一实施方式中,所述第二处理模块603,用于针对每个初始3d框,进行前景点的部位位置信息和点云语义特征的池化操作,得到池化后的每个初始3d框的部位位置信息和点云语义特征;将所述池化后的每个初始3d框的部位位置信息和点云语义特征进行合并,根据合并后的特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度。

在一实施方式中,所述第二处理模块603在根据合并后的特征,对每个初始3d框进行修正和/或确定每个初始3d框的置信度的情况下,用于:

将所述合并后的特征矢量化为特征向量,根据所述特征向量,对每个初始3d框进行修正和/或确定每个初始3d框的置信度;

或者,针对所述合并后的特征,通过进行稀疏卷积操作,得到稀疏卷积操作后的特征映射;根据所述稀疏卷积操作后的特征映射,对每个初始3d框进行修正和/或确定每个初始3d框的置信度;

或者,针对所述合并后的特征,通过进行稀疏卷积操作,得到稀疏卷积操作后的特征映射;对所述稀疏卷积操作后的特征映射进行降采样,根据降采样后的特征映射,对每个初始3d框进行修正和/或确定每个初始3d框的置信度。

在一实施方式中,所述第二处理模块603在对所述稀疏卷积操作后的特征映射进行降采样的情况下,用于通过对所述稀疏卷积操作后的特征映射进行池化操作,实现对所述稀疏卷积操作后的特征映射降采样的处理。

在一实施方式中,所述获取模块601,用于获取3d点云数据,将所述3d点云数据进行3d网格化处理,得到3d网格;在所述3d网格的非空网格中提取出所述3d点云数据对应的点云语义特征。

在一实施方式中,所述第一处理模块602在基于所述点云语义特征,确定前景点的部位位置信息的情况下,用于根据所述点云语义特征针对所述点云数据进行前景和背景的分割,以确定出前景点;所述前景点为所述点云数据中的属于前景的点云数据;利用用于预测前景点的部位位置信息的神经网络对确定出的前景点进行处理,得到前景点的部位位置信息;其中,所述神经网络采用包括有3d框的标注信息的训练数据集训练得到,所述3d框的标注信息至少包括所述训练数据集的点云数据的前景点的部位位置信息。

另外,在本实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。

所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(readonlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。

具体来讲,本实施例中的任意一种目标检测方法或智能驾驶方法对应的计算机程序指令可以被存储在光盘,硬盘,u盘等存储介质上,当存储介质中的与任意一种目标检测方法或智能驾驶方法对应的计算机程序指令被一电子设备读取或被执行时,实现前述实施例的任意一种目标检测方法或智能驾驶方法。

基于前述实施例相同的技术构思,参见图6,其示出了本公开实施例提供的一种电子设备70,可以包括:存储器71和处理器72;其中,

所述存储器71,用于存储计算机程序和数据;

所述处理器72,用于执行所述存储器中存储的计算机程序,以实现前述实施例的任意一种目标检测方法或智能驾驶方法。

在实际应用中,上述存储器71可以是易失性存储器(volatilememory),例如ram;或者非易失性存储器(non-volatilememory),例如rom,快闪存储器(flashmemory),硬盘(harddiskdrive,hdd)或固态硬盘(solid-statedrive,ssd);或者上述种类的存储器的组合,并向处理器72提供指令和数据。

上述处理器72可以为asic、dsp、dspd、pld、fpga、cpu、控制器、微控制器、微处理器中的至少一种。可以理解地,对于不同的设备,用于实现上述处理器功能的电子器件还可以为其它,本公开实施例不作具体限定。

在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述

本申请所提供的各方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。

本申请所提供的各产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。

本申请所提供的各方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本公开各个实施例所述的方法。

上面结合附图对本公开的实施例进行了描述,但是本公开并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本公开的启示下,在不脱离本公开宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本公开的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1