一种基于自适应特征通道的行人检测方法与流程

文档序号:17697676发布日期:2019-05-17 21:47阅读:186来源:国知局
一种基于自适应特征通道的行人检测方法与流程

本发明涉及卷积神经网络和行人检测技术,尤其涉及基于卷积神经网络的自适应特征通道的行人检测方法。



背景技术:

行人检测是计算机视觉中重要的研究课题之一,其研究结果对于其它的视觉任务有着重要的影响作用。行人检测目前已广泛应用于车辆辅助驾驶、智能视频监控以及人机交互系统,但在某些复杂的场景中,还存在检测性能低下的问题。行人属于柔性物体,其不同的姿势和扮相都会在一定程度上造成行人间差距变大,使得行人难以检测。

随着深度学习和机器学习的稳步发展,利用卷积神经网络学习目标特征受到了研究者们的极大追捧,同时行人检测技术也得到了大的突破。目前基于卷积神经网络的行人检测方法分为单阶段网络和两阶段网络,单阶段网络中比较经典的算法包括:yolo系列算法、ssd网络以及rpn网络等,而两阶段网络包括:rcnn系列算法以及基于rcnn改进的算法等。行人检测方法研究的难点在于如何消除行人的类内差距,并学习有效的分类与回归特征。



技术实现要素:

本发明为解决真实场景中行人的检测与识别问题,为行人检测的后续操作提供了重要的技术支持,可应用于车辆辅助驾驶、智能视频监控以及人机交互系统。

本发明采用的技术方案是:一种基于自适应特征通道的行人检测方法,包括以下步骤:

1)、获取caltech行人数据帧,基于该数据帧捕获训练集图像和验证集图像,用于检测模型的训练与评估;

2)、将训练集图像和验证集图像大小均缩放至m×n,m和n分别为缩放后图像的宽和高,并根据缩放系数更新对应的行人位置数据;

3)、以减去imagenet数据集的rgb通道均值形式对训练集图像和验证集图像进行标准化,标准化的数据作为模型的输入数据;

4)、基于caffe开源深度学习框架设计卷积神经网络,输出图像包含行人与否的信息、行人的位置信息以及该位置存在行人的可能性;

5)、计算模型输出信息与对应标注信息的损失,优化并训练检测模型;

6)、利用优化后的模型参数,检测真实场景图像中是否存在行人,得到相应的行人检测框。

具体地,步骤1)所述训练集图像和验证集图像的获取,在数据帧中以每6帧捕获一帧的形式获取训练图像,以每120帧捕获一帧的形式获取验证图像,同时处理对应的行人位置数据标签,分别构成训练集图像和验证集图像。

步骤2)所述更新对应的行人位置数据为:

行人在图像中表示为中心坐标(x,y),行人的宽为w,高为h,更新后的行人中心坐标可表示为宽和高分别为λww和λhh,λw为宽方向缩放系数,λh为高方向缩放系数,其中m和n分别为原始图片的宽和高。

步骤4)所述卷积神经网络包括:

基础网络模块,采用5个卷积层+修正线性单元+池化层组成,用于生成图像的浅层细节特征通道和深层语义特征通道;

特征通道连接模块,用于连接浅层细节特征通道和深层语义特征通道,生成特征多样化的新特征映射m1;

特征通道适应模块,包括全局平均池化层、三个全连接层、修正线性单元函数、sigmoid函数以及通道适应层,其中,全局平均池化层提取m1中每一特征通道的全局信息,全连接层拟合通道之间的关系以及生成图像包含行人与否的信息,修正线性单元函数和sigmoid函数将线性结果做非线性映射,通道适应层根据sigmoid函数值s以及m1选择并更新强辨识力特征通道,生成新的映射m2;

候选框生成模块,用于生成行人的位置信息以及该位置存在行人的可能性。

进一步,所述修正线性单元函数和sigmoid函数的公式分别为:

relu(x)=max(0,x),

其中x为网络层的输出值,relu(x)和sigmoid(x)为x的非线性映射。

步骤5)所述计算模型输出信息与对应标注信息的损失,优化并训练检测模型,具体包括:

(1)将步骤3)中标准化的数据输入步骤4)所述卷积神经网络进行优化训练;

(2)训练优化的损失主要由三部分组成:图像分类损失、区域候选框回归损失以及区域候选框分类损失;其中图像分类损失与区域候选框分类损失的计算选择交叉熵损失,分别记为loss1和loss2;区域候选框分类损失的计算选用smoothl1损失,记为loss3;

loss1=-logcr

loss2=-logpu

其中cr为图像存在行人的可能性,pu为区域候选框存在行人的概率,和vi分别为真实行人的位置坐标和预测行人的位置坐标。

(3)训练优化的损失函数为:

loss=λ1loss1+λ2loss2+λ3loss3

其中λ1,λ2,λ3为不同任务损失占总损失的比重。

本发明的有益效果如下:

本发明基于卷积神经网络,连接浅层细节特征通道和深层语义特征通道,使得特征映射中的特征信息更加多样化,继而提高后续行人定位与分类的准确率;添加通道选择模块,学习不同特征通道对行人定位与回归影响权重,进一步的更新上流网络形成的特征映射,以此实现更具辨识度的行人特征;使用多任务联合学习技术,增加不同任务之间相互促进的影响作用;该模型具有稳定的检测性能,对不同真实场景中的行人具有很好的鲁棒性。

附图说明

图1是本发明的流程图;

图2是relu激活函数图像;

图3是sigmoid激活函数图像;

图4是smoothl1函数图;

图5是真实场景图片行人检测结果样例。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明提供一种基于自适应特征通道的行人检测方法,其流程示意图如图1所示,具体包含以下步骤:

步骤一,获取caltech行人数据帧,基于该数据帧捕获训练集和验证集,用于检测模型的训练与评估;

步骤二,将训练集图像和验证集图像大小均缩放至m×n,m和n为缩放后图像的宽和高,并根据缩放系数更新对应的行人位置数据;

步骤三,以减去imagenet数据集的rgb通道均值形式对训练图像和验证图像进行标准化,标准化的数据作为模型的输入数据;

步骤四,基于caffe开源深度学习框架设计卷积神经网络,输出图像包含行人与否的信息、行人的位置信息以及该位置存在行人的可能性;

步骤五,计算模型输出信息与对应标注信息的损失,优化并训练检测模型;

步骤六,利用优化后的模型参数,检测真实场景图像中存在的行人,得到相应的行人检测框。

所述的一种基于自适应特征通道的行人检测方法,其中步骤一,包括:

下载公开的行人数据帧caltech,基于该数据帧,以每6帧捕获一帧的形式获取训练图像,以每120帧捕获一帧的形式获取验证图像,共计21391张训练图像和1046张验证图像,分别构成训练集和验证集,同时处理捕获图像对应的行人位置标签数据,得到用于训练的监督信息。

所述的一种基于自适应特征通道的行人检测方法,其中步骤二,包括:

将训练集图像和验证集图像大小均缩放至m×n,并根据缩放系数更新对应的行人位置数据,其中m设置为896,n设置为672,缩放系数内容具体如下:

缩放系数可分为宽方向系数λw和高方向系数λh,其定义为:

其中m和n为原始图片的宽和高,即m=480,n=640。假设行人在图像中表示为中心坐标(x,y),行人的宽为w,高为h,那么更新后的行人中心坐标可表示为宽和高分别为λww和λhh。

所述的一种基于自适应特征通道的行人检测方法,其中步骤四,包括:

卷积神经网络(convolutionalneuralnetwork,cnn)是一种前馈神经网络,最大的特征使局部连接性和权值共享性,通过卷积和池化操作能够自动的提取图像的特征,不同的卷积核提取不同的特征,同时利用网络输出的非线性映射与真实标签做损失计算完成卷积核参数的优化更新,提高模型的取征性能。本发明步骤四所述的卷积神经网络由四个模块组成,具体为:

(1)基础网络模块:由5个conv+relu+pooling操作组合组成,其结构采用conv的卷积核大小均为3×3,数量分别为{32,64,128,256,512},padding均设置为same,保证卷积层输入映射的宽高与输出映射的宽高大小一致,池化层pooling操作的核大小和步长均为2。该模块主要作用是生成图像的浅层细节特征映射和深层语义特征映射;

(2)特征通道融合模块:该模块的核心是concat操作,主要用于连接(1)中浅层细节特征映射和深层语义特征映射,生成特征多样化的特征映射m1;

(3)特征通道适应模块:包括全局平均池化层、三个全连接层、修正线性单元函数、sigmoid函数以及通道选择层,全局平均池化层提取m1中每一特征通道的全局信息,全连接层拟合通道之间的关系以及生成图像包含行人与否的信息,修正线性单元函数和sigmoid函数将线性结果做非线性映射,通道选择层根据sigmoid函数值s以及m1选择强辨识力特征通道,生成新的映射m2,如上所述的修正线性单元函数和sigmoid函数其公式如下:

relu(x)=max(0,x),

图2展示了relu函数图像,图3展示了sigmoid函数图像。对于通道适应层,其具体定义为:假设s=(s1,s2,...,si),i=1,2,...,n,其中si为m1中第i个特征通道对特征映射m1的影响程度,m1={m1,m2,...,mn},其中mi为m1的第i个特征通道,那么通道适应层的输出m2={x∈m1|x≥t},其中t为预设的阈值。

(4)候选框生成模块,用于生成行人的位置信息以及该位置存在行人的可能性。

所述的一种基于自适应特征通道的行人检测方法,其中步骤五,包括:

计算模型输出信息与对应标注信息的损失,优化并训练检测模型,具体包括:

(1)根据步骤3)中的模型输入数据和步骤4)中设计的卷积神经网络,将数据分别放入卷积神经网络并优化训练。其中具体的超参数设置为:优化算法使用sgd,学习率为0.001,动量系数0.9,以每批1张图片和120张区域候选框迭代,iou设置为0.5;

(2)训练优化的损失主要由三部分组成:图像分类损失、区域候选框回归损失以及区域候选框分类损失。其中图像分类损失与区域候选框分类损失的计算选择交叉熵损失,分别记为loss1和loss2;区域候选框分类损失的计算选用smoothl1损失,记为loss3。假设步骤5)模型输出中,对于图像分类输出的离散型概率分布c=(c0,c1),其中c0为非行人图像的概率,c1为行人图像的概率;对于区域候选框分类输出的离散型概率分布p=(p0,p1),其中p0为背景的概率,p1为行人的概率;对于区域候选框回归输出的位移t=(tx,ty,tw,th),其中tx,ty是相对于anchor(即预定义的区域候选框)的平移,tw,th是对数空间中相对于anchor的高与宽,那么loss1、loss2和loss3的具体定义如下:

loss1=-logcr

loss2=-logpu

其中r表示图像类别的标签,u表示区域候选框类别的标签,smoothl1函数图像如图4所示。

(3)根据如上损失函数的定义,本发明中模型的目标优化损失函数可定义为:

loss=λ1loss1+λ2loss2+λ3loss3

其中λ1,λ2,λ3为不同任务损失占总损失的比重,本发明中λ1=λ2=1,λ3=5。

(4)根据以上设置,迭代训练设计的卷积神经网络模型,完成模型框架参数的优化与更新,实现自适应特征通道行人检测器。

所述的一种基于自适应特征通道的行人检测方法,其中步骤六,包括:

利用优化后的模型,选择验证集图像测试已训练模型的检测性能,即通过前向传播,计算行人位置以及行人得分,最后标注出相应的行人检测框。图5真实场景图片上行人检测的测试结果样例。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1