1.本发明属于目标检测技术领域,尤其是面向室内道路障碍物检测的低准确性、低实时性以及在动态物体识别的低检测性和硬件易实现的图像识别方法及装置。
背景技术:2.随着智能设备的广泛普及和互联网应用的快速发展,图像的分类检测压力日益增大,室内道路障碍物在可检测性、准确性、实时性等方面已无法满足用户的需求。因此传统的目标检测任务逐渐向具有分类和定位任务的目标检测方向转变,配备有这些检测系统的设备不仅可以对道路图像中的每个目标进行识别、分类,还可以通过在该目标周围绘制适当大小的边界框来对其进行定位,并判断出识别出来的物体类别,从而躲避障碍规划行走路径做出相应的工作。
3.目前,一般的目标检测算法主要可以分为两类。一类是基于区域建议的目标检测方法,即两阶段检测方法。检测过程大致可以分为区域建议阶段和边界框的分类与回归阶段,其中最具代表性的两阶段区域建议方法是r-cnn。r-cnn使用选择性搜索来产生大量的感兴趣区域(roi),基于交集的联合(iou)分数的低置信建议会被舍弃掉,然后保留下来的建议会被送入检测网络进行特征提取,最后进行分类。fast r-cnn是在基于r-cnn的区域建议特征提取过程上改进的,即通过对所有roi进行特征提取,来提高cnn的利用效率,从而加快了检测步骤。目前有速度更快的一个方法被称为faster r-cnn,它主要是基于fast r-cnn的改进,以前的选择性搜索方法被区域建议网络rpn所代替,因此也可以与检测网络共享完整的图像特征。另一类是基于回归的目标检测方法,即单阶段(one stage)检测方法,和两阶段检测算法不同的是不需要区域建议阶段。它仅仅通过一次检测,就可以得到给定图像的具体位置信息和目标类别,所以它的检测速度通常比两阶段检测方法更快。一般来说,单级检测算法在速度上有优势,而两级检测算法在精度上有优势。
4.近年来,为了解决目标检测的实时性和准确性互相掣肘的困难处境。业界提出了基于faster r-cnn的高实时性方案,该方案基于faster r-cnn方法调整了特征提取部分即加入了fpn网络结构,在基本不增加原有方法模型计算量的情况下,通过简单的连接fpn网络可以解决目标检测中的物体多尺度问题,进而能够提升道路小目标的可检测性与准确性。该方案通过faster r-cnn方法实现了道路障碍物体检测的高精度,但是当大量图像数据需要同时进行识别时,大量的faster r-cnn运算将显著提升运算复杂度。即便添加了fpn网络,使得特征提取部分更加准确,但是其涉及的大量运算也不可避免,进而导致存在时延即实时性较低。因此,该方案具有较大的运算量、较长的处理时延以及硬件难以实现等问题,难以满足未来道路障碍物目标识别系统对于低时延、低复杂度以及低成本的要求。
技术实现要素:5.有鉴于此,本发明的目的在于提出一种面向室内道路障碍物检测的高准确性、低实时性以及在动态物体识别的高检测性方法及装置,能够满足未来道路障碍物目标识别系
统对低运算复杂度、低时延和低成本的需求。
6.为了实现上述目标,本发明采用的技术方案是:一种面向室内道路障碍物检测的方法及装置,包括特征提取部分和图像输入层的残差注意力机制(attention mechanism)。
7.一种面向室内道路障碍物检测的方法,其特征在于,是依据注意力对象的重要程度重新进行权重分配的一种机制,而不是对权重进行平均分配,其中较重要的单位被多分配一点权重,不重要或者不好的单位则被少分配一些权重。其中,引入的注意力机制是基本的软注意力加掩码(mask)机制,这种注意力机制的mask借鉴了残差网络(res net)的构建思路,提出了残差注意力学习(residual attention learning)。它不仅仅依据当前网络层的信息加上mask作为下一层的输入,为了使得到的特征信息更为丰富,从而能够更好地注意关键特征,还把mask之前的特征张量信息往下继续传递,这样就避免了mask之后的信息量过少而产生不能堆叠很深网络层数的问题。
8.在残差注意中机制中的核心部分是掩码分支,它包含了快速的前馈扫描和自上而下的反馈两个步骤。前馈扫描可以快速地采集整幅图像的全局信息,后者则将全局信息与原始特征图相结合,这两个步骤在卷积神经网络中分别为自下而上、自上而下的全卷积结构。
9.进一步地,输入中的最大池化操作在少量的残差单位后可以快速地增加感受域,全局信息在达到最低分辨率后通过对称的自上而下架构来指导每个位置的输入特征并进行扩展。为了保持输出的大小与输入要素图相同,双线性插值在残差单元后向上采样输出与最大池化相同数量的单元。然后,sigmoid激活层对输出进行连续的两个1*1卷积层归一化,范围为[0,1]。其中,我们还在自下而上和自上而下的结构中添加了跳跃连接,即可以从不同的比例捕获信息。
[0010]
进一步地,注意力模块的输出为h
i,c
(x)=(1+m
i,c
(x)*f
i,c
(x))。在残差网络res net中,学习公式为h
i,c
(x)=x+f
i,c
(x)。其f
i,c
(x)近似于残差函数。在注意力模块的公式中,f
i,c
(x)表示由深度卷积网络生成的上一层的图片张量的特征;m(x)表示能够增强好的特征并抑制来自主干特征的噪声,即充当特征选择器的掩膜分支。m(x)的范围是从[0,1]开始,m(x)趋近于0时,h(x)将趋近于原来未加注意力模块生成的特征f(x),这种方法被称为注意力残差学习。m和f组合构成了残差注意力模块,即能将原始的图片特征和增强注意力之后的特征一起输入到下一模块中。
[0011]
进一步地,在特征提取部分,fpn的结构设计为top-down和横向连接的结构,即主干网络中的某个卷积层输出的特征图,而fpn是在rpn网络中增加了roi pooling于生成建议框,因此能够生成融合了不同尺度的特征图并作为faster r-cnn中rpn网络的输入。
[0012]
本发明的优点及有益效果如下:
[0013]
(1)与基于faster r-cnn运算实现室内道路障碍物检测方法相比,简单的残差注意力输入/输出运算和图像特征提取fpn网络,从而显著提高计算的准确度和降低图片检测的时延;
[0014]
(2)本发明可以根据检测图像的种类设计预训练模型的次数和迭代次数,并将训练的模型移植存储于现场可编程门阵列fpga的内部逻辑寄存器中,从而降低训练后的算法模型计算量的硬件设计与开发对嵌入式芯片计算能力的要求;
[0015]
(3)本发明涉及的嵌入式处理功能均可采用当前技术成熟且商用的功能模块实
现。因此,搭建基于本发明的方法模型的室内道路机器人构建简单,硬件易实现。
附图说明
[0016]
图1.基于本发明的图像检测系统示意图。
[0017]
图2.基于本发明的残差注意力输入/输出运算装置示意图。
[0018]
图3.基于本发明的图像特征提取fpn网络装置示意图。
[0019]
图4.基于本发明的多尺度连接模块装置示意图。
具体实施方式
[0020]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述,所描述的实施例仅是本发明的一部分实施例。
[0021]
针对现有技术存在的较大的运算量、较长的处理时延以及硬件难以实现等问题,本发明提供一种面向高效移动前传的信道聚合分离方法及装置。该方法能够降低前传链路的计算复杂度与信号时延,从而为新一代移动前传链路提供新的技术备选方案。
[0022]
本发明旨在实现图1中proposal的图像检测及分类。特征图进入rpn后,大致结构为:一个自底向上的线路,即进行卷积核计算的神经网络的前向传播过程;一个自顶向下的线路,即把语义信息更强、更抽象的深层特征图进行上采样;一个横向连接线路,即融合自底向上产生的相同尺寸的特征图和自顶向下的上采样的结果。引入的残差注意力机制不仅仅依据当前网络层的信息加上mask作为下一层的输入,还把mask之前的特征张量信息往下继续传递,使得到的特征信息更为丰富,从而能够更好地注意关键特征,对图像进行检测分类。
[0023]
为使本发明所要解决的技术问题、技术方案和优点更加清楚,下面结合说明书附图以及具体的实施例对本发明的技术方案进行详细说明。
[0024]
基于本发明的残差注意力输入/输出运算装置示意图如图2所示。整体结构上,该注意力网络采用三阶注意力模块构成整个注意力框架。每一阶注意力模块可以分成两个分支,主分支和软掩码分支。主分支是在网络结构的上面,可以看是基本的残差网络的结构,而软掩码分支是在网络结构的下面,残差注意力学习机制的主要部分就包含在其中。整体结构由下采样和上采样,以及残差模块构成。
[0025]
进一步地,残差注意模块中的核心部分是掩码分支,它包含了快速的前馈扫描和自上而下的反馈两个步骤。前馈扫描可以快速地采集整幅图像的全局信息,后者则将全局信息与原始特征图相结合,这两个步骤在卷积神经网络中分别为自下而上、自上而下的全卷积结构。输入中的最大池化操作在少量的残差单位后可以快速地增加感受域,全局信息在达到最低分辨率后通过对称的自上而下架构来指导每个位置的输入特征并进行扩展。为了保持输出的大小与输入要素图相同,双线性插值在残差单元后向上采样输出与最大池化相同数量的单元。然后,sigmoid激活层对输出进行连续的两个1
×
1卷积层归一化,范围为[0,1]。其中,我们还在自下而上和自上而下的结构中添加了跳跃连接,即可以从不同的比例捕获信息。
[0026]
进一步地,软掩膜残差单元和对应主干分支中的通道数量是相同的。其中,注意力模块的输出为h
i,c
(x)=(1+m
i,c
(x)*f
i,c
(x))。在残差网络res net中,学习公式为h
i,c
(x)=x
+f
i,c
(x)。其f
i,c
(x)近似于残差函数。在注意力模块的公式中,f
i,c
(x)表示由深度卷积网络生成的上一层的图片张量的特征;m(x)表示能够增强好的特征并抑制来自主干特征的噪声,即充当特征选择器的掩膜分支。m(x)的范围是从[0,1]开始,m(x)趋近于0时,h(x)将趋近于原来未加注意力模块生成的特征f(x)。m和f组合构成了残差注意力模块,即能将原始的图片特征和增强注意力之后的特征一起输入到下一模块中。
[0027]
基于本发明的图像特征提取fpn网络装置示意图如图3所示。fpn只是一个简单的特征金字塔网络,并不是一个完整的目标检测网络。faster r-cnn算法加入了构建fpn网络结构的思想,则本质上就是调整了特征提取部分。该算法中的rpn网络的输入仅仅为一个尺度上的特征图,即主干网络中的某个卷积层输出的特征图,而fpn是在rpn网络中增加了roi pooling(roi池化层)用于生成建议框,因此能够生成融合了不同尺度的特征图并作为rpn网络的输入。
[0028]
进一步地,多尺度连接模块如图4所示。金字塔中的各层级的特征信息表达能力不同,最深层的表达能力最强,因此卷积层采用每级的最后一个输出,记为{c1,c2,c3,c4,c5}。其中,{c2,c3,c4,c5}作为fpn网络的特征输入层,表示conv2,conv3,conv4和conv5的输出层,分别对应于输入图片的下采样倍数为{4,8,16,32}。因为conv1所包含的语义信息较少,同时还会占用较多的内存,所以可忽略不计。同时,为了迭代并生成具有较低的分辨率图,则在c5上附加一个1
×
1卷积层。最后,产生一个和{p2,p3,p4,p5}具有相同尺寸的且分别对应于{c2,c3,c4,c5}的特征映射集。
[0029]
特征图进入rpn后,大致结构如下:一个自底向上的线路,即进行卷积核计算的神经网络的前向传播过程;一个自顶向下的线路,即把语义信息更强、更抽象的深层特征图进行上采样;一个横向连接(lateral connection)线路,即融合自底向上产生的相同尺寸的特征图和自顶向下的上采样的结果。如图所示,图中放大的区域连接线路就是横向连接,其中1*1的卷积核的主要作用是减少卷积核的个数,即减少了特征图的个数,并不改变特征图的尺寸大小。其中使具有低分辨率的特征图2倍上采样,然后融合上采样映射得到的结果和相应的自底向上的映射结果,得到最终的分辨率图。
[0030]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
[0031]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0032]
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。