自动驾驶视觉联合感知方法、装置及介质

文档序号：37614850发布日期：2024-04-18 17:29阅读：54来源：国知局

本发明属于自动驾驶，更具体地，涉及一种自动驾驶视觉联合感知方法、装置及介质。

背景技术：

1、自动驾驶技术可有效辅助城市交通综合治理，实现车辆管理的安全化、智能化与网联化，为相关产业的可持续发展及社会的和谐稳定提供有力支撑。作为自动驾驶系统关键组成部分，视觉感知技术可捕获交通场景中车辆周围环境信息，为控制系统反馈充足精确的先验信息，辅助驾驶车辆作出安全决策，在智能车联网等领域具有重要应用价值。

2、自动驾驶视觉感知技术主要包括目标检测、可行驶区域分割、车道线检测等不同任务。得益于深度学习技术在视觉驾驶感知方面的广泛应用，目标检测、可行驶区域分割及车道线检测算法均取得一定进展，为后续车辆决策发挥了至关重要的作用。从场景理解目标来看，目标检测技术主要提供驾驶场景中的行人、车辆等交通目标的相对位置信息；可行驶区域分割及车道线检测技术主要提供驾驶环境中的车道具体划分方式及可行驶判断信息，通常可建模为语义分割任务。三项任务相互独立，但又存在极强的特征关联性。采用多个复杂单任务模型对各项场景任务进行推理，虽然可满足不同任务所关注的特征需求，但也会耗费大量时间及计算资源。在真实多变的交通环境中，驾驶车辆需快速作出安全准确的行车决策，而移动端车载系统的有限计算资源及内存，在一定程度上限制了自动驾驶视觉感知模型的算法复杂度，因此自动驾驶视觉感知系统需实现算法实时性与准确性的有效权衡。

3、在此背景下，多任务学习为性能与效率的有效权衡提供可能。相较于单任务算法，多任务学习算法可根据多个任务间互补性，在网络分支间共享编码特征，同时完成两项及以上任务，从而在有限计算资源下辅助车辆进行实时决策。文献《teichmann m,weber m,zoellner m,et al.multinet:real-time joint semantic reasoning for autonomousdriving[c].2018ieee intelligent vehicles symposium,changshu,suzhou,china:ieee,2018:1013-1020.》将端到端多任务编解码结构应用于图像分类、目标检测及语义分割三项任务组成的联合驾驶感知系统。在引入少量参数的情况下，超越了大部分单任务算法性能，但在获取上下文信息的同时损失了较多细节特征。为进一步提升细节表征能力，文献《qian y,dolan j m,yang m.dlt-net:joint detection of drivable areas,lanelines,and traffic objects[j].ieee transactions on intelligent transportationsystems,2019,21(11):4670-4679.》提出基于多任务学习的可行驶区域分割、车道线检测及目标检测联合感知算法，采用特征金字塔(feature pyramid network,fpn)融合不同尺度的高级抽象语义及纹理细节，通过交互信息流在解码端共享参数，同时实现自动驾驶场景中目标检测、可行驶区域分割及车道线检测，但实时应用不够成熟。在此基础上，文献《wud,liao mw,zhang w t,et al.yolop:you only look once for panoptic drivingperception[j].machine intelligence research,2022:550-562.》提出yolop算法，对编解码结构进行简化，相较主流算法，在实时性等方面取得较好表现。然而现有多任务视觉联合感知算法在解码预测过程中仍存在各任务内特征需求冲突问题。在目标检测任务中，现有算法多采用耦合解码网络进行检测，未考虑目标检测任务内分类与定位子任务的不同空间粒度特征预测需求及内部竞争。在可行驶区域分割及车道线检测任务中，现有算法忽略了具有语义一致性的主体区域及具有语义跳变性的边缘像素间的语义特征差异。因此在检测和分割过程中仍存在分类置信度与回归分数间的预测冲突及边缘分割结果粗糙的问题。

技术实现思路

1、提供了本发明以解决现有技术中存在的上述问题。因此，需要一种自动驾驶视觉联合感知方法、装置及介质，以同时实现目标检测、可行驶区域分割及车道线检测。针对目标检测中存在的分类与定位任务需求差异及冲突问题，根据任务解耦思想建立分类与定位分支，基于共享特征输入，采用不同特征编码方式，分别对两类任务预测输入进行特异性设计，缓解任务间特征粒度冲突。同时在定位部分增加辅助交并比(intersection overunion，iou)感知预测分支，加强两类任务间关联，并提高定位子任务的贡献比重，从而提升定位精度。针对可行驶区域分割及车道线检测任务中像素掩码分割粗糙问题，采用特征解耦思想进行空间特征分离重构，对预测目标的低频主体部分及高频边缘部分分解建模，通过边缘损失函数引导前景目标局部训练学习，从而提升整体预测性能。

2、根据本发明的第一方案，提供了一种自动驾驶视觉联合感知方法，所述方法包括：

3、根据交通道路图像获得不同层次骨干特征，将不同层次骨干特征进行聚合，得到多尺度特征，基于动态卷积自适应所得到的各级特征加权系数，对所述多尺度特征进行加权求和，得到多尺度融合编码特征；

4、构建目标检测解码网络，所述目标检测解码网络包括分类分支和定位分支，所述目标检测解码网络以所述多尺度融合编码特征作为输入，并基于所述多尺度融合编码特征生成上下文编码特征和多层级空间纹理细节编码特征，将所述上下文编码特征和多层级空间纹理细节编码特征分别输入至所述分类分支和定位分支进行预测以得到分类特征和定位特征，并采用iou感知预测分支进行辅助学习；

5、构建双分支语义分割解码网络，所述双分支语义分割解码网络利用所述多尺度融合编码特征中的低分辨率特征与高分辨率特征作为输入，并分别送入至低分辨率分支与高分辨率分支中，通过所述低分辨率分支与高分辨率分支分别获取低频主体特征以及高频边缘特征，将所述低频主体特征和高频边缘特征进行融合，得到目标特征，采用边缘损失函数及整体分割损失函数引导所述双分支语义分割解码网络进行训练学习。

6、进一步地，通过如下方法生成所述上下文编码特征：

7、获取多尺度融合编码特征fl、fl+1，l表示融合特征所处特征层级，其中fl为原图分辨率1/16的融合特征，fl+1为原图分辨率1/32的融合特征；

8、对fl+1进行下采样得到下采样特征fl+2，其中fl+2为原图分辨率1/64的融合特征；

9、将fl、fl+1、fl+2作为多尺度特征输入，实现l+n金字塔层级的语义上下文特征编码，得到上下文编码特征f'l+n：

10、

11、其中，n＝[0,1,2]，cbs表示由步长为1的1×1卷积层、批量归一化层及激活函数层组成的卷积归一化激活函数组合模块进行处理的过程，fdown表示步长为2的1×1卷积下采样层。

12、进一步地，通过如下方法得到分类特征：

13、采用由2个卷积层组成的分类分支fcls(·)对分类分数进行预测，经过特征重组，得到尺寸为b×h×w×c的分类特征，其中b为批处理数，h、w分别为特征图高度与宽度尺寸，c为类别数量。

14、进一步地，通过如下方法生成所述多层级空间纹理细节编码特征：

15、获取多尺度融合编码特征fl-1、fl、fl+1，l表示融合特征所处特征层级，其中fl-1为原图分辨率1/8的融合特征，fl为原图分辨率1/16的融合特征，fl+1为原图分辨率1/32的融合特征；

16、通过如下公式计算得到多层级空间纹理细节编码特征f'l+m：

17、

18、其中，m＝[-1,0,1]，concat表示特征拼接操作，cbs表示由步长为1的1×1卷积层、批量归一化层及激活函数层组成的卷积归一化激活函数组合模块进行处理的过程，fdown表示步长为2的1×1卷积下采样层，fup为上采样倍数为2的双线性插值上采样算子。

19、进一步地，所述定位分支包括回归分支freg(·)、目标置信度分支fobj(·)及iou感知预测分支fiou(·)，通过如下方法得到定位特征：

20、将所述多层级空间纹理细节编码特征输入至定位分支对目标边界框进行预测，经过特征重组，分别得到尺寸为b×h×w×4的坐标预测、b×h×w×1的置信度预测及b×h×w×1的交并比iou分数预测，其中b为批处理数，h、w分别为特征图高度与宽度尺寸。

21、进一步地，所述采用iou感知预测分支进行辅助学习，包括：

22、训练阶段，iou感知预测分支采用二元交叉熵(binary cross-entropy,bce)函数计算预测正样本损失liou：

23、

24、

25、其中，n为正样本数量，s为任意正样本，pos为正样本集合，bce(·)为二元交叉熵函数，对于每个正样本，iou感知预测分支得到预测iou分数表示为为对应的预测框与真实框间iou分数真值，由overlap(·)函数计算得到；

26、模型推理阶段，将原始分类分数、目标置信度与iou感知预测分数相乘得到最终置信分数sfin：

27、

28、其中，对于每个正样本s，对应分类分数、目标置信度分数、iou感知预测分支预测分数分别为clss、objs、ious，超参数λ取值范围为(0,1)。

29、进一步地，利用所述多尺度融合编码特征中的低分辨率特征与高分辨率特征作为输入，并分别送入至低分辨率分支与高分辨率分支中，通过所述低分辨率分支与高分辨率分支分别获取低频主体特征以及高频边缘特征，将所述低频主体特征和高频边缘特征进行融合，得到目标特征，包括：

30、对低分辨率特征与高分辨率特征分别进行卷积、双线性插值上采样处理得到中间特征图，将低分辨率特征与高分辨率特征与中间特征图进行拼接得到图像帧序列，利用光流场偏移算子对所述图像帧序列进行处理得到每个像素的运动偏移量，根据所述运动偏移量确定光流应变特征图，所述光流应变特征图中各像素点像素值为原始像素与其运动偏移量对应像素值之和的一半；

31、将所述光流应变特征图与低分辨率特征和高分辨率特征分别进行特征拼接，通过光流场扭曲算子对特征拼接结果周围多个邻域像素进行可微分双线性插值，并对多个相邻像素对应像素值进行加权求和，得到低频主体特征，所述低频主体特征包括低分辨率低频主体特征和高分辨率低频主体特征；

32、所述高频边缘特征包括低分辨率高频边缘特征和高分辨率高频边缘特征，将低分辨率特征、高分辨率特征与对应的低分辨率低频主体特征、高分辨率低频主体特征进行逐像素相减，得到低分辨率高频边缘特征和高分辨率高频边缘特征；

33、在高分辨率分支到低分辨率分支方向上，采用两个卷积算子对高分辨率高频边缘特征进行下采样，与低分辨率高频边缘特征进行相加后，采用双线性插值上采样操作，对相加结果进行上采样，得到对应方向上的下采样匹配特征输出，在低分辨率分支到高分辨率分支方向上，采用双线性插值上采样操作对低分辨率高频边缘特征进行上采样，经激活函数得到特征权重图，与高分辨率高频边缘特征加权相乘，得到对应方向上的上采样匹配特征输出，采用特征拼接方式将下采样匹配特征输出及上采样匹配特征输出进行融合，经连续上采样操作后，得到最终高频边缘特征；

34、在高分辨率分支到低分辨率分支方向上，采用两个卷积算子对高分辨率低频主体特征进行下采样，与低分辨率低频主体特征进行相加后，采用双线性插值上采样操作，对相加结果进行上采样，得到对应方向上的下采样匹配特征输出，在低分辨率分支到高分辨率分支方向上，采用双线性插值上采样操作对低分辨率低频主体特征进行上采样，经激活函数得到特征权重图，与高分辨率低频主体特征加权相乘，得到对应方向上的上采样匹配特征输出，采用特征拼接方式将下采样匹配特征输出及上采样匹配特征输出进行融合，经连续上采样操作后，得到最终低频主体特征；

35、将最终高频边缘特征和最终低频主体特征，进行逐像素相加，得到目标特征。

36、进一步地，采用边缘损失函数及整体分割损失函数引导所述双分支语义分割解码网络进行训练学习，包括：

37、损失函数表示为：

38、

39、其中，ltotal、lfull、ledge分别为总损失函数、整体分割损失函数及边缘损失函数，整体分割损失函数采用二元交叉熵函数，f'full表示目标特征，为对应的完整真值标签图，f'edge表示最终高频边缘特征，为对应的边缘真值标签图，通过如下公式计算：

40、

41、其中，p为边缘标签矩阵上任意像素值，为完整真值标签图边缘近邻点集，为像素值与完整真值标签图边缘近邻点集的欧式距离，δ为设定阈值，欧式距离不大于δ时，将对应位置像素p的数值置为1，欧式距离小于δ时，将对应位置像素p的数值置为0；

42、边缘损失函数ledge计算公式如下：

43、

44、其中i代表图像输入，pi代表像素i的边缘真值标签，qi表示像素i的边缘预测结果。

45、根据本发明的第二技术方案，提供一种自动驾驶视觉联合感知装置，所述装置包括：

46、融合特征计算模块，被配置为根据交通道路图像获得不同层次骨干特征，将不同层次骨干特征进行聚合，得到多尺度特征，基于动态卷积自适应所得到的各级特征加权系数，对所述多尺度特征进行加权求和，得到多尺度融合编码特征；

47、目标类别位置识别模块，被配置为构建目标检测解码网络，所述目标检测解码网络包括分类分支和定位分支，所述目标检测解码网络以所述多尺度融合编码特征作为输入，并基于所述多尺度融合编码特征生成上下文编码特征和多层级空间纹理细节编码特征，将所述上下文编码特征和多层级空间纹理细节编码特征分别输入至所述分类分支和定位分支进行预测以得到分类特征和定位特征，并采用iou感知预测分支进行辅助学习；

48、可行驶区域及车道线识别模块，被配置为构建双分支语义分割解码网络，所述双分支语义分割解码网络利用所述多尺度融合编码特征中的低分辨率特征与高分辨率特征作为输入，并分别送入至低分辨率分支与高分辨率分支中，通过所述低分辨率分支与高分辨率分支分别获取低频主体特征以及高频边缘特征，将所述低频主体特征和高频边缘特征进行融合，得到目标特征，采用边缘损失函数及整体分割损失函数引导所述双分支语义分割解码网络进行训练学习。

49、根据本发明的第三技术方案，提供一种可读存储介质，所述可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的方法。

50、本发明至少具有以下有益效果：

51、1、本发明采用任务解耦思想，对自动驾驶视觉联合感知解码预测网络进行针对性设计；

52、2、在目标检测任务中，分类与定位两项子任务对特征粒度的需求有所差异，分类任务需要获取更多上下文信息实现目标类别判定。边框回归则期望获取更多边缘纹理信息实现目标边界准确定位。然而现有算法多采用耦合检测头，通过共享卷积层参数方式，实现目标类别及边界框预测的联合优化，未考虑不同任务所需特征区域的空间错位问题，在一定程度上限制了检测器的性能提升。基于此，本发明综合考虑分类与定位的不同特征粒度需求，构建逐级语义增强模块及空间信息细化模块进行分离特征编码，分别生成与目标类别强相关的高级语义特征和与目标边界相关的高分辨率密集编码特征。通过聚合不同语义层次特征映射，减少分类与定位任务间任务冲突，缓解因语义显著线索淡化导致的前景区域过度预测以及因特征提取下采样造成的目标结构不完整问题。在此基础上，为进一步加强分类与定位两解耦分支间关联，在定位部分设计iou感知预测模块，加强分类置信度与边框回归分数关联性，并提高边框回归子任务的贡献比重，从而提升定位精度；

53、3、在高分辨率自动驾驶交通场景中，背景结构信息与行驶车辆目标关系复杂多变，同时受到不同拍摄条件及气候变化影响，车道边缘易出现阴影及车辆遮挡情况，可行驶区域分割及车道线检测任务存在一定预测难度。从前景目标空间结构来看，车道线及可行驶区域均可分解为内部主体区域及边界区域。受到周围背景信息干扰，车道边界区域呈现出语义跳变，而内部主体像素则保持相近的语义运动趋势，两者存在明显语义差异。而现有算法未考虑两者语义差异，导致边界区域分割结果不够准确，像素掩码的边界区域有时存在“不规则图斑”和分割边缘不准确问题。针对预测像素掩码分割粗糙问题，本发明构建双分辨率解耦分支网络，基于光流场偏移思想，将交通场景图像中的前景目标特征进行分解建模，根据运动语义信息将目标特征划分为低频主体区域及高频边界区域。在整体分割损失函数基础上引入边缘损失，引导前景目标实现从局部到整体的训练学习，实现预测目标主体及边缘部分的逐步优化，改善分割像素掩膜内部的不规则图斑及边缘分割不准确问题，提升整体检测及分割性能；

54、4、本发明方案根据各感知任务的不同特征需求进行任务特征解耦设计，具有一定的泛化性，可以适用于大部分基于编解码结构的自动驾驶视觉联合感知模型；

55、5、将本发明应用于真实驾驶场景中，可有效捕获道路场景中驾驶车辆周围环境信息，有效平衡视觉感知系统的精确性与实时性，实现高质高效的视觉联合感知，有效节省移动端驾驶系统计算资源及内存占用，便于实际部署应用。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王越,庞彦伟,曹家乐,孙学斌,王建
技术所有人：天津大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。