本发明属于深度学技术领域,提供了一种基于关键点的区域建议生成方法。
背景技术:
图像中一般目标的检测是一个复杂问题,其中的一个难点是需要对不同的目标分配一个准确的矩形定位框,如zhaoweicaiandnunovasconcelos,cascader-cnn:delvingintohighqualityobjectdetection,ieeeconferenceoncomputervisionandpatternrecognition(cvpr)2018,pp.6154-6162。过去二十年,基于卷积神经网络的方法在目标检测问题上取得了令人瞩目的成绩。通常基于卷积神经网络的目标检测方法可以分为两类:一是基于区域建议的二阶段方法;二是不需要区域建议的一阶段方法。基于区域建议的方法包括fastr-cnn(rossgirshick,fastr-cnn,ieeeinternationalconferenceoncomputervision(iccv),(2015),pp.1440-1448)、fasterr-cnn(shaoqingren,kaiminghe,rossgirshick,andjiansun,fasterr-cnn:towardsreal-timeobjectdetectionwithregionproposalnetworks,ieeetransactionsonpatternanalysisandmachineintelligence,2017,39:1137-1149)、r-fcn(jifengdai,yili,kaiminghe,jiansun,r-fcn:objectdetectionviaregion-basedfullyconvolutionalnetworks,30thconferenceonneuralinformationprocessingsystems,2016,pp.379-387)等,其中fastr-cnn通过选择性搜索产生区域建议,fasterr-cnn和r-fcn都通过rpn网络,在整个图像上直接产生固定大小和宽高比的矩形框用于区域建议的产生。
与选择性搜索相比,直接生成矩形框的方法速度较快,但是直接生成的方法忽略了图像本身的角点、边缘等局部属性,具有一定的盲目性,其“吸附”目标的智能性有待提高。
技术实现要素:
本发明实施例提供了一种基于关键点的区域建议生成方法,针对二阶段目标识别方法,通过局部关键点诱导卷积特征,用于提高区域建议产生的智能性。
本发明是这样实现的,一种基于关键点的区域建议生成方法,所述方法具体包括如下步骤:
s1、对关键点集d进行二样本抽样并生成矩形框;
s2、建立各矩形框的正负标签及回归值数组;
s3、基于面积大小对矩形框进行分组,基于组别数来构建表示正负标签的特征立方体,称为标签特征;
s4、基于4倍组别数来构建表示回归变量的特征立方体,称为回归特征;
s5、将矩形框的正负标签映射到标签特征上;
s6、将矩形框的回归值数组映射到回归特征上;
s7、将完成相关映射的标签特征和回归特征代入已知的卷积网络训练,生成区域建议。
进一步的,矩形框的构建方法具体如下:
在关键点集d中任意抽取两个关键点pi和pj,以关键点pi和pj作为矩形框对角线上的两端点,来构建矩形框aij。
进一步的,矩形框的分组方法具体如下:
基于面积大小对矩形框进行分组,分成c个组别,其中
进一步的,矩形框的正负标签的建立方法如下:
计算矩形框与标注区域的交集与并集的比值;
若比值大于设定值,则矩形框的标签设为正标签1,否则矩形框的标签设为负标签0。
进一步的,矩形框的回归值数组建立方法如下:
对于标签为正标签1的矩形框,回归值数组为矩形框与标注区域之间中心点的横坐标差、中心点的纵坐标差、宽度差、高度差所组成的四元数组。
进一步的,正负标签的特征立方体的构建方法具体如下:
正负标签特征立方体的通道数设置为c,宽和高分别为w=[w/shrank]和h=[h/shrank],其中,w和h为设输入图像的宽和高,shrank为卷积网络中池化操作所产生的缩减倍数。
进一步的,回归变量特征立方体的构建方法具体如下:
回归变量特征立方体的通道数设置为4c,宽和高分别为w=[w/shrank]和h=[h/shrank],其中,w和h为设输入图像的宽和高,shrank为卷积网络中池化操作所产生的缩减倍数。
进一步的,回归值数组到回归特征的映射方法具体如下:
针对矩形框aij,(1)若矩形框面积s(aij)大于16,将图像的最大面积smax除以矩形框面积s(aij),若smax/s(aij)的比值落在(2k,2k+1]的区间内,则将矩形框aij的正标签或负标签映射到特征的第k个通道上的[ctij/shrank]坐标点处,其中k=0,1,2,…,c-2;(2)若矩形框面积s(aij)小于等于16,则将矩形框aij的正标签或负标签映射到特征的第c-1个通道上的[ctij/shrank]坐标点处,其中,ctij为矩形框aij中心点坐标。
进一步的,所述步骤s5具体如下:
对于标签为正标签1的矩形框aij,若矩形框aij属于第k个组别,则将矩形框aij的回归值数组依次映射到第4k到4k+3个通道的[ctij/shrank]坐标点处。
本发明提供的基于关键点的区域建议生成方法具如下益效果:
1.提供了一种基于关键点的区域建议生成方法,将目标的局部属性应用于区域建议,提高了区域建议的智能性、针对性。
2.该方法首先提取图像中的关键点;其次生成训练矩形框;再次,构建表示正负标签和回归变量的特征立方体;然后建立矩形框到正负标签特征和回归特征的映射;最后,将标签特征和回归特征用于深度神经网络的训练,生成区域建议,以便实现区域建议的智能化。
附图说明
图1为本发明实施例提供的基于关键点的区域建议生成方法流程图;
图2是本发明的具体实施方式的由关键点生成矩形框的示意图。
图3是本发明的具体实施方式的矩形面积框分组的示意图。
图4是本发明的具体实施方式的标签特征的构造示意图。
图5是本发明的具体实施方式的回归变量特征的构造示意图。
图6是本发明的具体实施方式的矩形框到标签特征的映射的示意图。
图7是本发明的具体实施方式的矩形框到标签特征的映射的示意图。
图8是本发明的具体实施方式的从关键点到卷积特征的构造方法示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明是通过关键点诱导适用于密度不均匀和大小不规范的异质矩形框的卷积特征,用于区域建议的训练,其中密度不均匀是指矩形框在图像中的分布密度不均匀,如集中分布在左上角,大小不规范是指矩形框的尺寸不统一;矩形框卷积特征该构造方法的梗概如图2-图7所示。首先,通过检测到的关键点,生成矩形框集合,如图2所示;其次将矩形框按照面积大小进行分组,如图3所示;再次,根据组别数设计标签特征的尺寸,如图4所示;然后,根据组别数的4倍设计回归特征的尺寸,如图5所示;再将矩形框的标签映射到标签特征上,如图6所示,然后,将矩形框的回归值映射到回归特征上,如图7所示;最后,将标签特征和回归特征代入卷积网络训练生成区域建议,如图8所示。
图1为本发明实施例提供的基于关键点的候选目标生成方法流程图,该方法具体包括如下步骤:
s1、对关键点集d进行二样本抽样并生成矩形框;
本发明所要解决的问题是由关键点集d诱导用于深度学习的特征,以便训练出吸附于关键点这一局部属性的区域建议,使区域建议具有一定的智能性、针对性。在本发明实施例中,关键点集d已基于图像处理技术提取出来,如基于harris角点检测图像中的关键点坐标,形成关键点集d,基于关键点集d来生成矩形框,假定关键点集中有n个关键点,可以形成n(n-1)/2个矩形框,即在关键点集d中任意抽取两个样本关键点pi和pj,以样本关键点pi和pj作为矩形框对角线上的两端点,来构建矩形框。假定样本关键点pi和pj的坐标分别为(xi,yi)、(xj,yj),构成矩形框的四个端点坐标依次为(xi,yi)、(xj,yi)、(xj,yj)及(xi,yj);
s2、建立各矩形框的正负标签及回归值数组;
矩形框的正负标签的建立方法如下:根据训练数据集,计算矩形框与标注区域的交集与并集的比值,根据比值对矩形框进行0标签或1标签的映射,若比值大于设定值,则矩形框的标签设为正标签1,否则矩形框的标签设为负标签0;
其中标注区域是数据集自带的,是指已经在图像上标识了目标的位置和类别。
矩形框的回归值数组建立方法如下:对于标签为正标签1的矩形框,回归值数组为矩形框与标注区域之间中心点的横坐标差、中心点的纵坐标差、宽度差、高度差所组成的四元数组;
正样本为目标样本,负样本不是目标样本,因此不需要回归坐标位置。
s3、基于面积大小对矩形框进行分组,基于组别数来构建表示正负标签的特征立方体,称为标签特征;
在本发明实施例中,步骤s3具体包括如下步骤:
s31、基于面积大小对矩形框进行分组,分成c个组别,其中
s32、正负标签特征立方体的通道数设置为c,宽和高分别为w=[w/shrank]和h=[h/shrank],标签特征立方体的宽和高由卷积网络的池化操作确定,设输入图像的宽和高分别为w和h,卷积网络中池化操作所产生的缩减倍数为shrank,则标签特征立方体的宽和高分别为w=[w/shrank]和h=[h/shrank]
在本发明实施例中,步骤s31具体包括如下步骤:
设d={pi=(xi,yi)|i=0,1,…,n}是检测到的关键点集合,矩形框集合a={aij=(xi,yi,xj,yj)},其中xi≤xj,yi≤yj,(xi,yi),(xj,yj)∈d;设数据集中所有图像的最大尺寸为smax,则a的分组为:a=a0∪a1∪…∪ac-1(如图3所示),其中第0组矩形框,aij∈a0满足s(aij)>smax/2,其中第k(k=1,…,c-2)组矩形框,aij∈a1满足smax/2k+1<s(aij)≤smax/2k,第c-1组aij∈ac-1满足s(aij)≤16,s(●)表示●的面积;
获取数据集中所有图像的最大尺寸面积,其尺寸为smax,从最大尺寸smax开始重复模2,直到结果小于等于16,设总共除了c次,其中c=[ln(smax/16)/ln(2)]+1,正负标签特征立方体的通道数设置为c(正负标签的特征立方体长度),标签特征立方体的宽和高由卷积网络的池化操作确定,设输入图像的宽和高分别为w和h,卷积网络中池化操作所产生的缩减倍数为shrank,则标签特征立方体的宽和高分别为w=[w/shrank]和h=[h/shrank],通道数设置为c。
s4、基于4倍组别数来构建表示回归变量的特征立方体,称为回归特征;
设输入图像的宽和高分别为w和h,则回归特征的宽和高分别为:w=[w/shrank]和h=[h/shrank],通道数设置为4c。
s5、将矩形框的正负标签映射到标签特征上;
若矩形框共分为c个组别,则标签特征上设有c个通道,对于任一待映射矩形框,若矩形框aij=(xi,yi,xj,yj)∈ak,矩形框aij的中心点坐标为:ctij=((xi+xj)/2,(yi+yj)/2),则将aij的正负标签映射到第k个通道上的[ctij/shrank]坐标点处,其映射过程具体如下:
(1)针对矩形框aij,若该矩形框面积s(aij)大于16,将图像的最大面积smax除以该矩形框面积s(aij),若sxam/s(aij)的比值落在[2k,2k+1)的区间内,则将矩形框aij的正标签或负标签映射到特征的第k个通道上的[ctij/shrank]坐标点处,其中k=0,1,2,…,c-2;(2)该矩形框面积s(aij)小于等于16,则将矩形框aij的正标签或负标签映射到特征的第c-1个通道上的[ctij/shrank]坐标点处,其中c=[ln(smax/16)/ln(2)]+1,[●]表示●的整数部分,其具体实现方法如下:
对于任意一个待映射矩形,(1)当该矩形框面积大于16时,若该矩形框面积大于smax/2,则将该矩形映射到第0个通道上;若该矩形框面积小于等于smax/2大于smax/4,则将该矩形映射到第1个通道上;以此类推,直到倒数第二个通道映射完毕;(2)若该矩形框面积小于等于16,则将该矩形的正标签或负标签映射到特征的最后一个通道上的某个位置,其中所述的某个位置为图像中待映射矩形的中心点位置经卷积网络卷积所得到的坐标位置。
s6、将矩形框的回归值数组映射到回归特征上;
对于标签为正标签1的矩形框aij,若aij=(xi,yi,xj,yj)∈ak,即最大尺寸矩形框面积smax除以矩形面积s(aij),若smax/s(aij)的比值落在[2k,2k+1)的区间内,即矩形框aij∈ak,其中心点坐标为:ctij=((xi+xj)/2,(yi+yj)/2),则将aij的回归值四元数组依次映射到第4k到4k+3个通道的[ctij/shrank]坐标点处。
s7、将完成相关映射的标签特征和回归特征代入已知的卷积网络训练,生成区域建议。
在本发明实施例中,完成相关映射的标签特征和回归特征分别是指:完成正负标签映射的标签特征及完成回归值数组映射的回归特征,此外,训练区域建议的神经网络采用现有的。
本发明提供的基于关键点的区域建议生成方法具如下益效果:
1.提供了一种基于关键点的区域建议生成方法,将目标的局部属性应用于区域建议,提高了区域建议的智能性、针对性。
2.该方法首先提取图像中的关键点;其次生成训练矩形框;再次,构建表示正负标签和回归变量的特征立方体;然后建立矩形框到正负标签特征和回归特征的映射;最后,将标签特征和回归特征用于深度神经网络的训练,生成区域建议,以便实现区域建议的智能化。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。