[0001]
本发明属于目标检测技术领域,具体涉及一种基于改进型级联神经网络的小尺寸目标检测方法与装置。
背景技术:[0002]
级联神经网络是基于神经单元组合构建复杂的神经网络的思想。而基于卷积改进的级联神经网络是结合了卷积神经网络中卷积模型参数相对高效和级联网络中级联结构对多种深度特征进行利用的算法,实现在生成包含深层次语义特征的低分辨率(low-resolution,lr)特征图像时,也生成包含小尺寸目标语义特征的高分辨率(high-resolution,hr)特征图。改进型级联神经网络能够增强小尺寸物体的特征强度,降低在深度语义特征里小尺寸目标因为深度卷积的系统性缺陷而造成的特征不足,在无人机视觉、太空安全、农业计数、驾驶辅助等应用中发挥了重要的作用。
[0003]
最广为人知的目标尺寸分类标准源自于ms-coco数据集的评价指标,在其中,面积小于32x32的目标被视作小尺寸目标。自ross b.girshick提出fast r-cnn以来,各种深度学习的方法在各个公开数据集中不断地刷新排行榜分数。feature pyramid network(fpn)将深层次语义特征上采样回较高清特征图进行融合来为浅层特征图提供更丰富的语义信息,you only look twice(yolt)尝试通过图像切片来规避图像在输入时的尺寸归一化,scale normalization for image pyramids with efficient resampling(sniper)通过chip策略来生成包含小、中尺寸目标的区域再进行二次检测,hybrid cascade r-cnn通过在检测时融合语义分割的特征来强化目标的表征能力。但是这些方法在计算代价和模型能力的取舍中都难以令人满意。
技术实现要素:[0004]
本发明的目的在于,提供一种基于改进型级联神经网络的小尺寸目标检测方法与装置,能够有效提升卷积网络对小尺寸目标的特征表达性能。
[0005]
为解决上述技术问题,本发明的技术方案为:基于改进型级联神经网络的小尺寸目标检测方法,包括以下步骤:
[0006]
s1、读入待测图像;
[0007]
s2、通过预处理增强待测图像,获得增强图像;所述预处理包括尺寸填充、尺寸缩放、随机翻转、灰度值正则化;
[0008]
s3、基于高分辨率表示网络根据增强图像生成由高分辨率到低分辨率若干个特征图组成的多分辨率特征图f1;
[0009]
s4、基于半稠密特征金字塔对f1在各个分辨率上进行特征融合后组合得到增强后的特征图f2;
[0010]
s5、使用后卷积p
i
对f2中的层级i进行异化,得到异化特征图f
3,i
;
[0011]
s6、对于每一个分辨率层级i,基于特征选择免锚框目标检测头根据f
3,i
生成该层
级的检测结果;
[0012]
s7、将检测结果汇总,通过去除重叠的算法对检测结果进行筛选,得到最终检测结果并输出。
[0013]
进一步地,所述s2中预处理过程具体为:
[0014]
s2.1、将图像的宽、高填充到与32的倍数最接近的尺寸上;
[0015]
s2.2、图像在缩放时,保持图像内容的宽高比例不变;
[0016]
s2.3、基于应用场景中目标的特性进行图像翻转;
[0017]
s2.4、对场景进行数值统计,求得图像灰度值的平均值和方差,对输入图像进行灰度值正则化。
[0018]
进一步地,所述s3具体为:
[0019]
s3.1、利用kknnsspp卷积块、若干n1→
n2瓶颈块,对增强图像进行卷积操作和特征图融合,得到第一阶段特征图f
s1
;
[0020]
s3.2、对各个分辨率层级特征图f
si
或第一阶段特征图f
s1
进行交叉融合;
[0021]
s3.3、对于第i大的分辨率层级,利用若干串联的基础块得到同分辨率的特征图,并在最小的分辨率层级上利用w
i
→
w
j
转移块增加一个较低分辨率层级的特征图;
[0022]
s3.4、如果分辨率层级数量没有达到m,则返回至s3.2;
[0023]
s3.5、输出m个分辨率层级的特征图,组成多分辨率特征图f1。
[0024]
进一步地,所述s4中得到若干不同分辨率层级上的增强特征图的具体方法为,根据下式计算:
[0025]
i
j
=concatenate[{c
i
→
j
|1≤i≤m}]
[0026]
式中,i为特征图c的源层级,j为目标层级,c
i
→
j
为将c的分辨率从层级i调整到层级j得到的特征图,i
j
为层级j上各个子图级联成的增强特征图f2。
[0027]
更进一步地,所述卷积块为kknnsspp卷积块,其中kknnsspp卷积块的形成过程为,先利用核尺寸为k、卷积层数为n、步长为s、填充宽度为p的卷积层进行特征提取,当s>1时,也对特征图的分辨率进行调整;再利用一层batchnorm层进行特征激活值的分布调整。
[0028]
更进一步地,所述n1→
n2瓶颈块的形成过程为,
[0029]
利用一层即核尺寸为1、卷积层数为步长为1、填充宽度为0的卷积块进行通道下降;
[0030]
利用一层即核尺寸为3、卷积层数为步长为1、填充宽度为1的卷积层进行特征提取;
[0031]
利用一层k1nn2s1p0,即核尺寸为1、卷积层数为n2、步长为1、填充宽度为0倒置的卷积块进行通道上升;
[0032]
将瓶颈块的输入特征图按特征像素对位相加到输出特征图上,如果n1≠n2,利用一层k1nn2s1p0,即核尺寸为1、卷积层数为n2、步长为1、填充宽度为0的卷积层对输入特征图进行通道调整;
[0033]
所述倒置的卷积块的形成过程为,先利用一层batchnorm层进行特征激活值的分布调整;再利用核尺寸为k、卷积层数为n、步长为s、填充宽度为p的卷积层进行特征提取,当
s>1时,也对特征图的分辨率进行调整。
[0034]
更进一步地,所述基础块的形成过程为,
[0035]
利用两层k3nns1p1,即核尺寸为3、卷积层数为n、步长为1、填充宽度为1的卷积层进行特征提取;
[0036]
将输入特征图按特征像素对位相加到输出特征图上。
[0037]
进一步地,在所述s7中,
[0038]
所述结果汇总,是将各个层级检测到的建议框添加到一个总的集合中;
[0039]
所述去除重叠算法,是根据建议框的两两之间的交并比关系,以保留较高置信度为标准,去除交并比大于阈值而置信度较低的那个建议框;
[0040]
所述建议框,指的是由检测头从特征图当中计算生成的,包含各类的分类置信度和关于空间坐标、框体宽高信息的信息集合体;
[0041]
所述交并比,指的是两个图形之间,以交集面积除以并集面积得到的实数,当两个图形完全重合时,该值为1;当两个图形完全分离时,该值为0。
[0042]
一种用于实现上述的基于改进型级联神经网络的小尺寸目标检测方法的装置,包括输入模块,增强模块,多分辨率模块和输出模块;其中,
[0043]
所述输入模块,用于读入待测图像;
[0044]
所述增强模块,用于通过预处理增强待测图像,获得增强图像;所述预处理包括尺寸填充、尺寸缩放、随机翻转、灰度值正则化;基于高分辨率表示网络根据增强图像生成由高分辨率到低分辨率若干个特征图;基于半稠密特征金字塔对特征图进行多分辨率融合,得到若干不同分辨率层级上的增强特征图;
[0045]
所述多分辨率模块,用于使用后卷积对不同分辨率层级上的增强特征图进行异化;对于每一个分辨率层级,基于特征选择免锚框目标检测头根据增强特征图生成该层级的检测结果;将检测结果汇总,通过去除重叠的算法对检测结果进行筛选,得到最终检测结果;
[0046]
所述输出模块,用于输出最终检测结果。
[0047]
一种计算机存储介质,所述计算机存储介质包括:至少一个指令,在所述指令被执行时实现上述的方法步骤。
[0048]
与现有技术相比,本发明的有益效果为:
[0049]
通过较小的显卡存储空间占用,提升了特征图中小尺寸目标的表达能力。
附图说明
[0050]
图1为本发明实施例提供的一种方法流程示意图;
[0051]
图2为本发明实施例提供的一种网络宏观结构图;
[0052]
图3为本发明实施例提供的一种卷积块网络单元结构图;
[0053]
图4为本发明实施例提供的一种瓶颈块网络单元结构图;
[0054]
图5为本发明实施例提供的一种基础块网络单元结构图;
[0055]
图6为本发明实施例中提供的方法与对比方法在visdrone校验集上实验的结果对比表;
[0056]
图7为本发明实施例中提供的方法与对比方法在wider-face校验集上实验的结果
对比表。
具体实施方式
[0057]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0058]
本发明提供基于改进型级联神经网络的小尺寸目标检测方法,如图1所示,包括以下步骤:
[0059]
s1、读入待测图像。
[0060]
图像应当为rgb三通道图,如果输入的是单色图、argb四通道图或bgr三通道图,则应当在读入后进行通道转化,变为rgb三通道图。
[0061]
s2、通过包括但不限于尺寸填充、尺寸缩放、随机翻转、灰度值正则化等预处理方法,进行图像增强。在本发明实施例中,s2步骤可以通过以下方法实现:
[0062]
s2.1、图像的宽、高将被填充到与32的倍数最接近的尺寸上,即原尺寸为(w0,h0)时,图像将被填充到新尺寸填充颜色没有限制;
[0063]
s2.2、图像在缩放时,保持图像内容的宽高比例不变;
[0064]
s2.3、基于应用场景中目标的特性进行考虑,一些场景只进行水平方向的翻转,一些场景只进行竖直方向的翻转,而一些场景同时进行两个方向的翻转。在考虑翻转时,在实数区间[0,1]之内生成随机因子,当随机因子大于0.5时,进行翻转;
[0065]
s2.4、对场景进行数值统计,求得图像灰度值的平均值和方差,对图像进行灰度值正则化,将各个像素点的值减去这个平均值,并缩放到[0,1]区间中。
[0066]
s3、基于高分辨率表示网络从增强后的图像生成由高分辨率到低分辨率若干个特征图;
[0067]
s3.1、利用1个k3n64s2p1的卷积块、1个64
→
256瓶颈块和3个串联256
→
256的瓶颈块,对增强图像进行卷积操作和特征图融合,得到第一阶段特征图f
s1
;
[0068]
s3.2、对各个分辨率层级的特征图或第一阶段特征图进行交叉融合;
[0069]
s3.3、对于第i大的分辨率层级,利用4个串联的基础块得到同分辨率的特征图,并在最小的分辨率层级上利用w
i
→
w
j
转移块增加一个较低分辨率层级的特征图;
[0070]
s3.4、如果分辨率层级数量没有达到m,则从s3.2开始重复;
[0071]
s3.5、最终输出m个分辨率层级的特征图,组成多分辨率特征图f1。
[0072]
s4、基于半稠密特征金字塔对特征图进行多分辨率融合,得到不同分辨率上增强若干特征图;
[0073]
s5、使用后卷积对不同分辨率层级上的特征图进行异化;
[0074]
s6、对于每一个分辨率层级i,基于特征选择免锚框目标检测头根据特征图f
3,i
生成该层级的检测结果;
[0075]
s7、将各分辨率层级的检测结果汇总,通过去除重叠的算法对检测结果进行筛选,得到最终检测结果并输出。
[0076]
如图3所示,所述kknnsspp卷积块的形成过程为,先利用核尺寸为k、卷积层数为n、步长为s、填充宽度为p的卷积层进行特征提取,当s>1时,也对特征图的分辨率进行调整,卷积层在caffe、tensorflow、pytorch等基础框架中已有实现;再利用一层batchnorm层进行特征激活值的分布调整,batchnorm在caffe、tensorflow、pytorch等基础框架中已有实现。
[0077]
如图4所示,所述n1→
n2瓶颈块的形成过程为,
[0078]
利用一层的卷积块进行通道下降;
[0079]
利用一层的卷积层进行特征提取;
[0080]
利用一层k1nn2s1p0的倒置的卷积块进行通道上升;
[0081]
将瓶颈块的输入特征图按特征像素对位相加到输出特征图上,如果n1≠n2,利用一层k1nn2s1p0的卷积层对输入特征图进行通道调整;
[0082]
所述倒置的卷积块的形成过程为,先利用一层batchnorm层进行特征激活值的分布调整;再利用核尺寸为k、卷积层数为n、步长为s、填充宽度为p的卷积层进行特征提取,当s>1时,也对特征图的分辨率进行调整。
[0083]
如图5所示,所述基础块的形成过程为,
[0084]
利用两层k3nns1p1的卷积层进行特征提取;
[0085]
将输入特征图按特征像素对位相加到输出特征图上。
[0086]
所述结果汇总,其是将各个层级检测到的建议框添加到一个总的集合中;
[0087]
所述去除重叠算法,是根据建议框的两两之间的交并比关系,以保留较高置信度为标准,去除交并比大于阈值而置信度较低的那个建议框;
[0088]
所述建议框,指的是由检测头从特征图当中计算生成的,包含各类的分类置信度和关于空间坐标、框体宽高信息的信息集合体;
[0089]
所述交并比,指的是两个图形之间,以交集面积除以并集面积得到的实数。当两个图形完全重合时,该值为1;当两个图形完全分离时,该值为0。
[0090]
检测结果有图像和文档两种形式,视实施的部署情况来确定。
[0091]
测试实施例:测试环节使用无人机视觉数据库(visdrone-det2020)。在visdrone数据集7019张图像中,实验使用6471张作为训练样本,另548张作为校验样本。使用wider-face数据集仅作为验证鲁棒性的数据集,其中训练集包含12880张图像,校验集包含3226张图像。测试在网络的每次迭代训练中使用sgd算法进行优化,网络在第8次和第11次迭代后,学习率衰减为原来的0.1倍。通过平均精度(average precise,ap)来证明本发明中算法的有效性和优越性。以下提供实验对比结果说明本方法的有效性和优越性。如图6和7所示,与其他方法相比,本发明方法的ap
小
值高于其他对比方法。
[0092]
基于上述基于改进型级联神经网络的小尺寸目标检测方法,本发明还提供一种装置,如图2所示,包括输入模块,增强模块,多分辨率模块和输出模块;其中,
[0093]
所述输入模块,用于读入待测图像;
[0094]
所述增强模块,用于通过预处理增强待测图像,获得增强图像;所述预处理包括尺寸填充、尺寸缩放、随机翻转、灰度值正则化;基于高分辨率表示网络根据增强图像生成由高分辨率到低分辨率若干个特征图;基于半稠密特征金字塔对特征图进行多分辨率融合,
得到若干不同分辨率层级上的增强特征图;
[0095]
所述多分辨率模块,用于使用后卷积对不同分辨率层级上的增强特征图进行异化;对于每一个分辨率层级,基于特征选择免锚框目标检测头根据增强特征图生成该层级的检测结果;将检测结果汇总,通过去除重叠的算法对检测结果进行筛选,得到最终检测结果;
[0096]
所述输出模块,用于输出最终检测结果。
[0097]
基于上述基于改进型级联神经网络的小尺寸目标检测方法,本发明还提供一种计算机存储介质。
[0098]
上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如cd-rom、ram、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如asic或fpga)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,ram、rom、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的基于分层多尺度残差融合网络的人脸超分辨率方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
[0099]
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
[0100]
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。