一种多模态BEV环视感知方法、装置、设备及存储介质与流程

文档序号:36775532发布日期:2024-01-23 11:45阅读:15来源:国知局
一种多模态BEV环视感知方法、装置、设备及存储介质与流程

本发明涉及智能驾驶,具体涉及一种多模态bev环视感知方法、装置、设备及存储介质。


背景技术:

1、智能驾驶是指在汽车上搭载先进的传感器等装置,运用人工智能等新技术,使汽车具备智能驾驶的能力,旨在辅助驾驶员安全、便捷地完成驾驶任务。目前量产的智能驾驶系统主要采用模块化设计,主要分为感知、规划、决策、控制、定位等环节。感知系统在自动驾驶中起着至关重要的作用,它能够实时感知车辆周围的环境和道路信息,为自动驾驶系统提供必要的数据和反馈,为自动驾驶汽车的规划、决策等环节提供依据。

2、为了更好地表征驾驶环境物理信息,bev环视感知是研究的重要方向。bev环视感知在三维或鸟瞰图视角下输出感知信息,能够省去复杂且依靠人工经验的后融合系统,并且为后续决策、规划等模块提供更加贴近真实世界的感知信息。

3、bev感知算法中,对于纯视觉感知,有lss、bevdet、bevformer、petr等模型;对于纯点云感知,有pointnet、voxelnet、pointpillars等模型;对于多模态(视觉、激光点云、毫米波雷达等),有transfusion、bevfusion等模型。针对目标检测这一任务,bev感知算法目前的主要缺点是泛化性没有2d检测模型优秀,容易出现误检、漏检等情况;bev模型的有监督训练需要大量昂贵的3d标注数据;对于实际部署在车端的bev模型来说自动驾驶芯片性能和定制化设计要求也更高。


技术实现思路

1、有鉴于此,本技术实施例提供一种多模态bev环视感知方法、装置、设备及存储介质,旨在提出一种bev范式下的3d自动标注算法,以达到提高感知检测精度及多场景下的泛化性的目的。

2、本技术实施例提供以下技术方案:一种多模态bev环视感知方法,包括:

3、采集车辆周边环境的纯视觉的多目图像,对所述多目图像进行预处理,使用transformer-based架构作为骨干网络,采用transformer-based骨干网络提取预处理后的所述多目图像的图像特征;将所述图像特征转换至鸟瞰视角bev空间中,获得所述多目图像对应的bev特征;

4、采集激光雷达原始点云数据,对所述激光雷达原始点云数据进行时序前融合,再通过3d稀疏卷积的点云特征提取骨干网络进行特征提取,获得所述激光雷达原始点云数据对应的bev特征;

5、采集毫米波雷达原始点云数据,对所述毫米波雷达原始点云数据进行时序前融合,再通过3d稀疏卷积的点云特征提取骨干网络进行特征提取,获得所述毫米波雷达原始点云数据对应的bev特征;

6、将所述多目图像对应的bev特征、所述激光雷达原始点云数据对应的bev特征以及所述毫米波雷达原始点云数据对应的bev特征进行特征融合,分别获得当前t时刻的bev特征、t-1时刻的bev特征以及t-2时刻的bev特征;

7、将所述当前t时刻的bev特征、t-1时刻的bev特征以及t-2时刻的bev特征进行特征融合,获得融合多帧特征后的时序bev特征,对所述时序bev特征进行3d目标检测,输出3d目标检测结果。

8、根据本技术一种实施例,将所述图像特征转换至鸟瞰视角bev空间中,获得所述多目图像对应的bev特征,包括:

9、通过深度预测网络对所述图像特征中的每个特征像素点进行深度预测,获得深度概率分布;

10、根据所述深度概率分布将所述图像特征投影至鸟瞰视角bev空间,获得所述多目图像对应的bev特征。

11、根据本技术一种实施例,根据所述深度概率分布将所述图像特征投影至鸟瞰视角bev空间,获得所述多目图像对应的bev特征,包括:

12、根据所述深度概率分布将所述图像特征投影至鸟瞰视角bev空间,获得对应的视觉伪点云特征;

13、根据预设的bev空间栅格尺寸和相机的内外参数将所述视觉伪点云特征进行坐标对齐,对落在同一栅格中的特征进行池化,获得所述多目图像对应的bev特征。

14、根据本技术一种实施例,采集激光雷达原始点云数据,对所述激光雷达原始点云数据进行时序前融合,再通过3d稀疏卷积的点云特征提取骨干网络进行特征提取,获得所述激光雷达原始点云数据对应的bev特征,包括:

15、基于自车在世界坐标系中的定位信息,对所述激光雷达原始点云数据进行时序前融合,获得融合激光点云数据;

16、对所述融合激光点云数据对应的点云进行体素化操作,得到激光点云体素化数据;

17、通过3d稀疏卷积的点云特征提取骨干网络对所述激光点云体素化数据的体素特征进行提取,获得所述激光雷达原始点云数据对应的bev特征。

18、根据本技术一种实施例,采集毫米波雷达原始点云数据,对所述毫米波雷达原始点云数据进行时序前融合,再通过3d稀疏卷积的点云特征提取骨干网络进行特征提取,获得所述毫米波雷达原始点云数据对应的bev特征,包括:

19、基于自车在世界坐标系中的定位信息,对所述毫米波雷达原始点云数据进行时序前融合,获得融合毫米波点云数据;

20、对所述融合毫米波点云数据对应的点云进行体素化操作,得到毫米波点云体素化数据;

21、通过3d稀疏卷积的点云特征提取骨干网络对所述毫米波点云体素化数据的体素特征进行提取,获得所述毫米波雷达原始点云数据对应的bev特征。

22、根据本技术一种实施例,将所述当前t时刻的bev特征、t-1时刻的bev特征以及t-2时刻的bev特征进行特征融合,获得融合多帧特征后的时序bev特征,对所述时序bev特征进行3d目标检测,获得3d目标检测结果,包括:

23、通过局部交叉注意力机制,将所述当前t时刻的bev特征、t-1时刻的bev特征以及t-2时刻的bev特征进行特征融合,获得融合多帧特征后的时序bev特征;

24、通过detr-based检测头对所述时序bev特征进行3d目标检测,获得所述3d目标检测结果。

25、根据本技术一种实施例,采集激光雷达原始点云数据,还包括:

26、将所述激光雷达原始点云数据生成每个点云数据均具有标签的标记点云数据和每个点云数据均无标签的无标记点云数据;

27、采用所述标记点云数据和所述无标记点云数据以半监督方式训练所述transformer-based骨干网络。

28、本技术还提供一种多模态bev环视感知装置,包括:

29、第一bev特征提取模块,用于采集车辆周边环境的纯视觉的多目图像,对所述多目图像进行预处理,使用transformer-based架构作为骨干网络,采用transformer-based骨干网络提取预处理后的所述多目图像的图像特征;将所述图像特征转换至鸟瞰视角bev空间中,获得所述多目图像对应的bev特征;

30、第二bev特征提取模块,用于采集激光雷达原始点云数据,对所述激光雷达原始点云数据进行时序前融合,再通过3d稀疏卷积的点云特征提取骨干网络进行特征提取,获得所述激光雷达原始点云数据对应的bev特征;

31、第三bev特征提取模块,用于采集毫米波雷达原始点云数据,对所述毫米波雷达原始点云数据进行时序前融合,再通过3d稀疏卷积的点云特征提取骨干网络进行特征提取,获得所述毫米波雷达原始点云数据对应的bev特征;

32、多模态特征融合模块,用于将所述多目图像对应的bev特征、所述激光雷达原始点云数据对应的bev特征以及所述毫米波雷达原始点云数据对应的bev特征进行特征融合,分别获得当前t时刻的bev特征、t-1时刻的bev特征以及t-2时刻的bev特征;

33、bev特征时序融合模块,用于将所述当前t时刻的bev特征、t-1时刻的bev特征以及t-2时刻的bev特征进行特征融合,获得融合多帧特征后的时序bev特征,对所述时序bev特征进行3d目标检测,输出3d目标检测结果。

34、本技术还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的多模态bev环视感知方法。

35、本技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述的多模态bev环视感知方法的计算机程序。

36、本发明使用多模态特征融合、时序融合、半监督、自监督等技术得到了一个性能优秀的bev目标检测大模型。与纯视觉模态的lss、bevdet等bev算法相比,本发明涉及的bev目标检测大模型通过融合点云信息,提升模型对于目标物位置、大小及速度等信息的检测精度。与纯点云检测的pointnet、voxelnet、pointpillars等算法相比,本发明涉及的bev目标检测大模型通过融合视觉信息,提高模型对于目标物类别等信息的检测精度。与传统的transfusion、bevfusion等融合感知算法相比,本发明涉及的bev目标检测大模型利用点云时序前融合及bev特征时序中融合等策略,外加半监督及自监督的训练策略,进一步提升了检测性能。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1