一种基于语义分割的交通场景障碍物检测方法

文档序号:31340628发布日期:2022-08-31 10:05阅读:208来源:国知局
一种基于语义分割的交通场景障碍物检测方法

1.本发明属于计算机视觉领域,尤其涉及一种基于语义分割的交通场景障碍物检测方法。


背景技术:

2.进入二十一世纪以来,社会经济飞速发展,汽车成为人们出行必不可少的方式,极大的便利了生活。但同时所带来的交通安全,空气污染,交通拥堵等问题也与日俱增。在缓解和治理交通问题上的投入不断加大,同时随着科技发展,智能交通系统(intelligent transportation system,its)被提出用于解决交通问题,智能交通系统是将先进的计算机技术、通信技术、传感与控制技术等应用于交通运输管理体系,充分利用信息技术的智能化为交通运输保驾护航,同时还可以缓解交通拥堵,提高协同运输效率。智能交通系统一经提出便成为全球科研界的关注热点,经过多年的研究和发展,its己经应用到了交通领域的方方面面,如智能监控系统,高级驾驶辅助系统(advanced driving assistant system,adas)等。
3.自动驾驶是汽车领域的研究热点之一,提高自动驾驶系统智能化程度的关键技术之一是具备对交通场景准确有效的认知。随着深层卷积神经网络的发展,语义分割技术在自动驾驶环境感知领域特别是障碍物检测的应用越来越广泛。基于卷积神经网络的语义分割技术可以对这些障碍物进行像素级的检测识别,可以为自动驾驶车辆的决策、规划及控制提供环境信息。目前,比较成熟的交通场景分类主要针对环境中的特定目标进行识别,多数属于二分类范畴,如路面识别、车辆识别、行人识别等,用到的方法主要为浅层学习方法,如支持向量机、adaboost等。近几年,深度学习的研究取得了突破性进展,并被广泛应用于图像领域。使用深度学习方法能够较好地解决多分类问题,特别适用于复杂的自然数据,包括交通场景图像数据。随着gpu并行计算的发展,使用深度学习方法造成计算量大的问题得到解决,从而使面向复杂交通环境的像素级别场景分割成为可能。
4.基于卷积神经网络的语义分割主体框架主要有vggnet和resnet两种框架,基于vggnet的语义分割模型有fcn、segnet、u-net、deeplab等,基于resnet的语义分割模型有pspnet、icnet、deeplab v3++等。鉴于resnet网络的结构特点,基于resnet框架的语义分割网络层数较多,网络结构复杂,对硬件设施的性能要求较高。基于vggnet框架的语义分割网络相比基于resnet框架的语义分割网络要简单得多,但往往还是达不到实时性的要求。对于自动驾驶汽车来说,系统的实时性至关重要,同时还要兼顾分割结果的准确性。虽然这些网络的预测非常准确,但当遇到交通场景中的异常障碍物(即网络训练分布之外的实例)时,还是无法准确的识别出目标。


技术实现要素:

5.本发明的技术目的是提供一种基于语义分割的交通场景障碍物检测方法,以解决现有技术中难以识别异常障碍物的技术问题。
6.为解决上述问题,本发明的技术方案为:
7.一种基于语义分割的交通场景障碍物检测方法,包括如下步骤
8.s1:获取复杂道路场景数据定义为输入图像,对输入图像进行分割,得到一个语义分割图和两个不确定性图;
9.s2:基于不确定性图对语义分割图进行改进再合成,得到生成图像;
10.s3:通过比较生成图像和输入图像的特征以计算感知差异并通过加固重合成得到合成图像;
11.s4:对输入图像和合成图像进行障碍物预测,使用经过训练的相异网络来输入图像和合成图像的区别,从而检测并突出交通场景中的障碍物。
12.具体地,在步骤s1中,输入图像输入至预设的分割网络中,得到语义映射图。
13.其中,对输入图像在预设的deeplabv3网络中的提取注意力机制,以此得到语义分割图和不确定性图。
14.其中,在步骤s2中,计算两个离散度来量化语义分割图预测中的不确定性,进而得到不确定性图,两个离散度计算公式为
[0015][0016]dx
=1-max
c∈classes
p(c)+max
c,∈classes/(argmaxcp(c))
p(c’)
[0017]
其中,p(c)为c类的softmax概率。
[0018]
进一步地,在步骤s2中,根据语义映射图生成具有像素到像素对应关系的关联图像,基于关联图像训练得到条件生成对抗网络,运用条件生成对抗网络基于不确定性图对语义分割图进行改进再合成,得到生成图像。
[0019]
其中,在步骤s3中,通过预设的特征提取器对生成图像和输入图像提取差异像素,针对差异像素进行感知差异计算,计算公式如下
[0020][0021]
其中,x为输入图像的像素,r为生成图像的像素,f(i)为特征提取器的第i层,n为特征提取器的总层数,mi为特征提取器中元素数量。
[0022]
具体地,步骤s4包括如下步骤
[0023]
s41:对输入图像和合成图像提取特征,并通过预设的deeplabv3网络进行预测标签的独热处理;
[0024]
s42:将输入图像、合成图像和语义映射图连接,并进行卷积处理使得图像与标签的特征进行融合;
[0025]
s43:计算输入图像与合成图像之间点对点的特征的关联,生成特征图并与不确定性图进行逐点相关,解码得到最终的差异分数;
[0026]
s44:基于差异分数获得异常分割预测,得到障碍物差异图,从而检测并突出交通场景中的障碍物。
[0027]
本发明由于采用以上技术方案,使其与现有技术相比具有以下的优点和积极效
果:本发明提供一种基于语义分割的交通场景障碍物检测方法,相较于现有技术,能在行驶过程中精确迅速的检测出前方道路目标,当遇到交通场景中的异常障碍物(即网络训练分布之外的实例)时,依旧能准确的识别出目标,提升识别准确性、实时性和效率。
附图说明
[0028]
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。
[0029]
图1为本发明的一种基于语义分割的交通场景障碍物检测方法的流程图;
[0030]
图2为本发明提供的图像分割流程图;
[0031]
图3为本发明提供的重合成图像流程图;
[0032]
图4为本发明提供的相异网络流程图;
[0033]
图5为本发明提供的分割网络的结构图。
具体实施方式
[0034]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
[0035]
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
[0036]
以下结合附图和具体实施例对本发明提出的一种基于语义分割的交通场景障碍物检测方法作进一步详细说明。根据下面说明和权利要求书,本发明的优点和特征将更清楚。
[0037]
实施例
[0038]
参看图1至图4,本实施例提供一种基于语义分割的交通场景障碍物检测方法。参看图1和图2,首先在步骤s1中,从cityscapes数据集中获取复杂道路场景数据定义为输入图像,对输入图像输入至预设的分割网络deeplabv3中进行分割,得到语义映射图。另外,在分割网络deeplabv3中结合了全局上下文网络(global context network)提取注意力机制,旨在全局对象层提取上下文信息,引导网络关注更多信息区域和更合适的图像特征尺度,以此得到语义分割图和不确定性图。
[0039]
参看图3,在步骤s2中利用到合成模块,合成模块会根据语义映射图生成具有像素到像素对应关系的关联图像,并将关联图像训练成一个条件生成对抗网络,运用条件生成对抗网络基于不确定性图对语义分割图进行改进再合成,得到生成图像即逼真的图像。其中,在步骤s2中还需要计算两个离散度来量化语义分割图预测中的不确定性,进而得到不确定性图,两个离散度计算公式为
[0040][0041]dx
=1-max
c∈classes
p(c)+max
c,∈classes/(argmaxcp(c))
p(c’)
[0042]
其中,p(c)为c类的softmax概率,softmax为激活函数用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类,classes为数据集分类,argmax是对函数求参数(集合)的函数。
[0043]
接着,进入步骤s3,由于经过合成模块训练可以生成逼真的图像,但语义映射会忽略了像颜色或者外观这样的基本信息,从而会对每像值进行直接比较,因此需要计算输入图像和生成图像之间的实际差异v。使用imagenet预先训练的resnet50作为特征提取器,找到具有不同表示特征的像素,并且得到的差异像素能够根据对象的图像内容和空间结构来进行比较,而不是基于颜色或纹理等低级特征去进行比较。通过比较生成图像和输入图像的特征以计算感知差异并通过加固重合成得到合成图像。其中,通过预设的特征提取器对生成图像和输入图像提取差异像素,针对差异像素进行感知差异计算,计算公式如下
[0044][0045]
其中,x为输入图像的像素,r为生成图像的像素,f(i)为特征提取器的第i层,n为特征提取器的总层数,mi为特征提取器中元素数量。
[0046]
最后参看图4和图5,步骤s4包括如下步骤。首先从输入图像和合成图像中提取特征,使用预先训练的resnet50网络,并使用deeplabv3进行预测标签的独热处理。接着,在特征金字塔的每一层,把各网络被串联在一起,将上一系统的输出作为下一系统的输入,串联将两个系统的输出相加,对特征进行连接,使得所有的特征流都被连接起来并通过aspp模块来减少通道的数量,输入图像、合成图像和语义映射图被连接起来,然后使用卷积对图像和标签特征进行融合,并通过卷积将它们传递。然后,在平行的列下,通过训练网络来区分输入图像和生成的图像,计算了真实图像和重新合成图像之间点对点的特征的关联,生成的特征图与不确定性特征图进行逐点相关,然后每个特征图被解码并连接到金字塔中相应的更高层次,并将其与减少的串联特征一起传递到上卷积金字塔中,返回最终的差异分数。最后,基于差异分数获得异常分割预测,得到障碍物差异图,从而检测并突出交通场景中的障碍物。
[0047]
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式。即使对本发明作出各种变化,倘若这些变化属于本发明权利要求及其等同技术的范围之内,则仍落入在本发明的保护范围之中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1