本发明涉及一种基于深度学习级联神经网络的行人检测识别方法,属于目标检测、身份识别等领域。
背景技术:
随着目标检测技术的发展,把目标检测应用于视频监控系统来简化人的操作,为人类提供便利已成为目前的研究热点。虽然目标检测在物体的类别检测上已经取得了一定的进展,但是对于相同类别物体之间的差异并不敏感,例如:当应用到行人身份识别时,如果直接将原始的视频图像序列送入神经网络,对目标行人的身份进行识别,神经网络对图像的预处理(如尺度缩放)会降低行人的分辨率,损失行人的部分特征信息,导致行人检测识别的效果较差。
中国专利文献cn108629360a公开了一种基于深度学习的针织物基本组织结构自动识别方法,该方法包括:采集织物样本图像;基于深度卷积神经网络算法,结合学习迁移策略,针对织物样本集训练出可识别针织物基本组织的网络模型;输入待测织物组织图片并进行预处理,加载训练好的网络模型对待测织物组织图片进行识别,最终输出识别结果。第一,织物样本图像是直接使用电子显微镜获取的,可以根据实验需求得到想要的织物样本数据集,而行人图像则需要从不同分辨率的摄像头中采集原始数据,并通过定位行人在图像中的位置,裁剪行人所在区域的图像构建行人数据集,两者有本质不同;第二,该专利使用的alexnet属于深度学习早期使用的网络,结构比较简单,在提取图像中的复杂特征时效果并不好。
技术实现要素:
针对现有技术的不足,本发明提供了一种基于深度学习级联神经网络的行人检测识别方法;
本发明提出的基于深度学习级联神经网络的行人检测识别方法,对视频监控系统中的行人检测识别进行了优化。首先,将经过预处理的视频图像序列送入第一级神经网络,进行目标行人的检测,获取行人在图像中的位置信息;然后,根据行人的位置信息分割图像中行人的局部图像并归一化处理,构建行人识别数据集;最后,将行人识别数据集送入第二级神经网络,提取行人的特征信息,实现对行人的身份识别。
术语解释:
sterr-cnn,一种基于深度学习卷积神经网络的目标检测方法,发展于r-cnn、fastr-cnn系列的目标检测方法,fasterr-cnn相比fastr-cnn,增加了一个用于感兴趣区域提取的rpn网络,不仅提高了感兴趣区域的质量,而且极大提升了网络的速度。图1为基于resnet-50的fasterr-cnn的网络结构图;左下角head是resnet-50的网络结构,作用等同于alex,但是对于目标检测、身份识别等复杂的分类任务,resnet-50能提取到图像更深层次的特征,分类效果更好。左上角即为fasterr-cnn相比fastr-cnn增加的rpn网络,将head网络提取到的特征经过两个分支(分类、目标定位),提高了感兴趣区域的精度。右下角是网络最终的分类层,实现图像中目标的分类。
本发明的技术方案为:
一种基于深度学习级联神经网络的行人检测识别方法,包括步骤如下:
(1)下载有关行人的图像数据集,并将此数据集送入第一级神经网络进行训练,得到一个用于行人检测的模型;
(2)采集摄像头拍摄的视频图像序列,并进行预处理,之后送入通过步骤(1)中训练得到的用于行人检测的模型,对图像中的行人进行检测,获取图像中行人的位置信息;
(3)根据步骤(2)中检测得到的行人位置信息,对行人的图像进行分割,并缩放到同一尺寸,作归一化处理,对得到的图像集进行标注,标注信息包括:图像名称及行人身份类别,构建用于行人身份识别的数据集;用于行人身份识别的数据集包括分割后的行人图像及行人的身份标签;
根据本发明优选的,所述步骤(3)中,将对行人的图像进行分割,并缩放到同一尺寸,确保每一张行人的图像宽度与高度比值的取值范围为0.3~0.5。对行人感兴趣区域的宽高比进行限制,以适用检测到的行人的框图,保证网络能够得到行人较好的特征信息;
(4)将用于行人身份识别的数据集送入第二级神经网络,提取行人的特征信息,实现对行人的身份识别。
根据本发明优选的,所述步骤(4)中,所述第二级神经网络依次包括若干卷积层、全连接层、softmax分类器;
向所述第二级神经网络输入用于行人身份识别的数据集,经过若干卷积层提取特征图,根据行人身份的类别数量,确定全连接层的神经元个数,通过softmax分类器得到分类结果。
根据本发明优选的,所述步骤(1),包括步骤如下:
a、从图像数据库imagenet中下载有关行人的图像数据集,并将此图像数据集中的图像送入第一级神经网络fasterr-cnn;
b、第一级神经网络fasterr-cnn对图像数据集中的行人提取行人特征信息;
c、第一级神经网络fasterr-cnn对图像数据集中的图像中的行人的位置信息进行预测;行人的位置信息是指行人的坐标;行人的位置就是神经网络预测得到的感兴趣区域在图像中的位置,此过程的输出就是目标的两个坐标点。
d、比较预测的行人类别与身份标签的差别,对网络参数进行训练,使预测的行人类别与身份标签保持一致,生成用于行人检测的模型,网络参数是指第一级神经网络fasterr-cnn中卷积运算的卷积核的权重,预测的行人类别,是根据第一级神经网络fasterr-cnn初始化的权重,通过卷积运算直接得到的。
根据本发明优选的,所述步骤(2),包括步骤如下:
e、采集摄像头拍摄的视频图像序列,并进行预处理,预处理是指依次从原始视频图像序列中截取有行人信息的视频段、裁剪掉视频图像序列中的冗余信息,冗余信息包括视频图像序列中的时间、地点;
f、利用步骤(1)训练好的用于行人检测的模型,对步骤e处理后的视频图像序列中的行人进行检测,提取行人的感兴趣区域,并将矩形的感兴趣区域用两个对角点的坐标标注出来,设定两个对角点p1、p2的坐标分别为(x1,y1)、(x2,y2);
g、由步骤f确定感兴趣区域的高度为hi=|y1-y2|,感兴趣区域的宽度为wi=|x1-x2|;假设行人的宽高比n=wi:hi,根据行人自身的特点(一般情况下n<1),对感兴趣区域的宽高比进行限制,使得n1<n<n2,n1=0.3、n2=0.3。n1、n2是对行人宽高比的限制参数,通过对图像中行人区域的信息进行统计,确定n1=0.3、n2=0.5时能满足大多数情况下行人的宽高比,并且在一定程度上可以排除不相关目标的影响。
本发明的有益效果为:
1、本发明基于深度学习级联神经网络的行人检测识别方法,解决了图像中目标定位不准确、行人分辨率较低、行人身份识别准确率不高等问题,可以得到目标行人相对较好的图像信息,实现对行人的检测与身份识别。
2、本发明利用基于深度学习的级联神经网络,通过第一级卷积神经网络从经过预处理的视频图像序列中划分出行人的感兴趣区域,并对目标区域进行自适应归一化处理构建行人识别数据集,再经过第二级神经网络提取不同类别行人的特征信息,实现对行人身份的识别,极大地提高了行人检测识别的准确率。
3、本发明方法实践效果较好,运行速度较快,可以实时、快速、准确的实现对目标行人的检测与身份识别,适用于视频监控、智能小区、特定场所监管等众多领域。
4、本发明使用的resnet,特征提取的效果很好,能极大提高行人检测识别的准确率,同时,resnet自身的网络结构决定了该网络相比同种深度的一般网络,学习的参数更少,能显著降低计算复杂度。
附图说明
图1为基于resnet-50的fasterr-cnn的网络结构示意图;
图2为用于训练的第一级神经网络流程图;
图3为用于检测的第一级神经网络流程图;
图4为第二级神经网络实现行人身份识别流程图;
图5为本发明基于深度学习级联神经网络的行人检测识别方法的流程示意图;
图6为对行人的图像进行分割并缩放到同一尺寸得到的效果图;
图7为本发明第二级神经网络的结构框图;
图8为第一级神经网络fasterr-cnn对图像数据集中的行人提取行人特征信息的举例示意图;
图9为行人的坐标所在坐标系的举例示意图;
图10(a)为采用本发明基于深度学习级联神经网络的行人检测识别方法得到的效果图示一;
图10(b)为采用本发明基于深度学习级联神经网络的行人检测识别方法得到的效果图示二;
图11为采用现有技术得到的效果图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例1
一种基于深度学习级联神经网络的行人检测识别方法,如图5所示,包括步骤如下:
(1)如图2所示,下载有关行人的图像数据集,并将此数据集送入第一级神经网络进行训练,得到一个用于行人检测的模型;包括步骤如下:
a、从图像数据库imagenet中下载有关行人的图像数据集,并将此图像数据集中的图像送入第一级神经网络fasterr-cnn;
b、第一级神经网络fasterr-cnn对图像数据集中的行人提取行人特征信息;如图8所示,神经网络的特征提取就是对图像进行卷积运算。假设左图是一幅5x5的原始图像(稍大的数字为原始图像的像素值),深色部分是一个3x3的卷积核(稍小的数字为卷积核的参数),右图即为卷积之后的特征。
c、第一级神经网络fasterr-cnn对图像数据集中的图像中的行人的位置信息进行预测;行人的位置信息是指行人的坐标;行人的位置就是神经网络预测得到的感兴趣区域在图像中的位置,此过程的输出就是目标的两个坐标点。例如,关于坐标所在的坐标系,如图9所示,假设图像大小为300x600,图像中一个目标的两个坐标(左上和右下)分别为(100,200)、(200,400)即可确定此目标的具体位置。
d、比较预测的行人类别与身份标签的差别,对网络参数进行训练,使预测的行人类别与身份标签保持一致,生成用于行人检测的模型,网络参数是指第一级神经网络fasterr-cnn中卷积运算的卷积核的权重,预测的行人类别,是根据第一级神经网络fasterr-cnn初始化的权重,通过卷积运算直接得到的。
(2)如图3所示,采集摄像头拍摄的视频图像序列,并进行预处理,之后送入通过步骤(1)中训练得到的用于行人检测的模型,对图像中的行人进行检测,获取图像中行人的位置信息;包括步骤如下:
e、采集摄像头拍摄的视频图像序列,并进行预处理,预处理是指依次从原始视频图像序列中截取有行人信息的视频段、裁剪掉视频图像序列中的冗余信息,冗余信息包括视频图像序列中的时间、地点;
f、利用步骤(1)训练好的用于行人检测的模型,对步骤e处理后的视频图像序列中的行人进行检测,提取行人的感兴趣区域,并将矩形的感兴趣区域用两个对角点的坐标标注出来,设定两个对角点p1、p2的坐标分别为(x1,y1)、(x2,y2);
g、由步骤f确定感兴趣区域的高度为hi=|y1-y2|,感兴趣区域的宽度为wi=|x1-x2|;假设行人的宽高比n=wi:hi,根据行人自身的特点(一般情况下n<1),对感兴趣区域的宽高比进行限制,使得n1<n<n2,n1=0.3、n2=0.3。n1、n2是对行人宽高比的限制参数,通过对图像中行人区域的信息进行统计(图7),确定n1=0.3、n2=0.5时能满足大多数情况下行人的宽高比,并且在一定程度上可以排除不相关目标的影响。
(3)根据步骤(2)中检测得到的行人位置信息,对行人的图像进行分割,并缩放到同一尺寸,作归一化处理,如图6所示,对得到的图像集进行标注,标注信息包括:图像名称及行人身份类别,构建用于行人身份识别的数据集;用于行人身份识别的数据集包括分割后的行人图像及行人的身份标签;
步骤(3)中,将对行人的图像进行分割,并缩放到同一尺寸,确保每一张行人的图像宽度与高度比值的取值范围为0.3~0.5。对行人感兴趣区域的宽高比进行限制,以适用检测到的行人的框图,保证网络能够得到行人较好的特征信息;
(4)如图4所示,将用于行人身份识别的数据集送入第二级神经网络,提取行人的特征信息,实现对行人的身份识别。
步骤(4)中,如图7所示,第二级神经网络依次包括若干卷积层、全连接层、softmax分类器;
向第二级神经网络输入用于行人身份识别的数据集,经过若干卷积层提取特征图,根据行人身份的类别数量,确定全连接层的神经元个数,通过softmax分类器得到分类结果。
图10(a)为采用本发明基于深度学习级联神经网络的行人检测识别方法得到的效果图示一;图10(b)为采用本发明基于深度学习级联神经网络的行人检测识别方法得到的效果图示二;图11为采用现有技术得到的效果图;对比可知,本发明基检测识别方法将两种身份的行人正确定位及识别出来,而采用现有技术,会有漏检和误检的情况发生,而且定位不够精确。