一种基于深度学习人头检测的密集人流量统计方法与流程

文档序号:14656667发布日期:2018-06-12 05:23阅读:6218来源:国知局

本发明涉及计算机视觉技术领域,具体涉及一种基于深度学习人头检测的密集人流量统计方法。



背景技术:

近来年,随着社会对安全保障需求的日益提高,火车站、地铁站、机场等客流密集场所,摄像头部署量大幅提高。在当前众多的监控场景中,人流量的统计工作通常由人工观察的方式完成。由于摄像机的部署量大,导致了人工观察的工作量同样巨大,从而使得充分利用更多的影像资料变得极其困难。

最近,包括 “一种在垂直视角下基于深度学习的客流计数方法”在内的大量基于深度学习的人形检测技术被用于客流量统计任务,但仍无法有效解决如下问题:

1 当人流量密集时,行人间存在严重的相互遮挡,以及背包等物品的遮挡而导致对人的漏检问题。

2 实际场景的背景十分复杂,存在大量的非人移动物体。如上下行的电梯,进站的地铁,播放各种广告的银幕等,这些复杂的移动物体经常导致误检。

3部分监控摄像头本身分辨率不足,当行人距离较远时,其成像并不清晰,进而导致漏检。



技术实现要素:

为了克服传统的图像处理和已有的深度学习技术在监控录像中高密度人群计数的缺点与不足,本发明提出了利用深度残差卷积神经网络进行人头检测,使用人工标注好的数据对网络进行训练,使神经网络自动学习图片中人头的特征,从而预测图片中不同尺度人头的准确位置。在实际场景使用中,将视频流的每一帧图像输入该网络,网络将预测出每一帧中所有人头的位置,同时利用卡尔曼滤波剔除那些已经被计数的人头,再经过加总得到人流量统计。这里,相比于通过头肩,人形的计数方案,可以更好的避免由于密集人流的相互遮挡而带来的漏检。

本发明是通过如下技术方案实现的:

一种基于深度学习人头检测的密集人流量统计方法,包括如下步骤:

步骤一)人工收集监控场景的监控录像,在监控录像中用人头框标注场景人头数据,利用深度学习框架建立人头检测的深度残差卷积神经网络,并且对神经网络进行训练;

对神经网络进行训练的方法为:先对图像数据做数据增强,再将增强后的图像数据输入神经网络,迭代训练神经网络;

步骤二)将监控录像逐帧实时输入训练好的深度残差卷积神经网络,得到监控视频每帧中的所有人头框;

步骤三)对于当前帧图片,判断图片中每个人头框是否已被统计过,若当前帧没有人头框则转至S2;

步骤四)将步骤三)中判断为未统计过的人头框进行逐帧跟踪判断,若确认为有效的人头则加总至人头总数,否则舍弃该人头框。

进一步地,所述步骤一)中,深度残差卷积神经网络包括15层主干网络和三个输出支路:主干网络包含15个卷积层,卷积核大小均为3×3,分别在第1层、第2层和第11层卷积层步长为2,其余卷积层步长为1;按残差结构要求,每两个步长为1的卷积层添加一个跳连结构;每层卷积后使用线性修正单元ReLU函数进行激活;3个输出支路各自含有3个卷积层,分别连接在主干网络第10层、第13层、第15层,卷积核大小均为1×1,步长为1;除最后一层外,每层卷积后使用线性修正单元ReLU函数进行激活。

进一步地,所述步骤一)中,对神经网络进行训练的方法具体为:

1)对图像数据做数据增强:神经网络根据人工标注信息,选取某个人头所对应的框,其高和宽分别记为H和W;选取一个20至150间的随机数x,并把原图按照比例x/max(H,W)进行放缩;再对图像中每个像素乘以一个0.5至2之间的随机数,并与255取小。

2)将所获得的增强后的图片图像数据拷贝至一个全0三通道图片,使所选人头框的中心对准该全0彩色图片中心,并舍去原图其余的部分,再将图片传入网络。

S133、迭代、训练神经网络。

3)根据人工标注信息计算定位损失的L2范数和置信度损失的L2范数,利用梯度反向传播方法迭代优化网络参数,直至迭代1000000次。

进一步地,所述步骤二)中包括如下步骤:

1)将监控当前帧图片送入网路,由三个支路分别输出5张特征图片,包括一张含置信度的特征图片和四张含坐标信息的特征图片,特征图片含有原图中尺度20~150个像素的人头特征。

2)将监控当前帧压缩7.5倍送入网络,由三个支路再输出5张特征图片,包括一张含置信度的特征图片和四张含坐标信息的特征图片,特征图片含有原图中尺度150~1125个像素的人头特征。

3)根据特征图片的数据,选取置信度超过0.7的数据,并根据其对应的坐标信息,输出预测的人头框。

进一步地,所述步骤三)中,先建立人头框跟踪列表和用于步骤四)判断的临时列表,将当前帧检测到的人头框与跟踪列表里的人头框用卡尔曼滤波进行匹配更新;如果当前图片没有检测到人头,则转至步骤二);若所有框都已经加总统计过,则转至步骤二);若存在未被计数的人头框,将这些人头框置于临时列表送入步骤四)。

进一步地,所述步骤四)临时列表判中的人头框用卡尔曼滤波跟踪10帧,如果超过5帧该人头都可以被检测到则将其加总至人流计数,否则就忽略该框,同时将其从临时列表里清除。

与现有技术相比,本发明具有以下优点:

1.本发明所使用的神经网络是一个深度残差卷积神经网络,它在目标检测的应用中有泛化能力强,对小物体敏感的特点。适合应对密集人流、复杂背景等困难。

2.本发明设计了一个多尺度的残差卷积神经网络,通过该网络可以获得不同尺度人头的位置信息,满足了对变化的人头的有效特征提取,使网络的泛化能力更强,鲁棒性更好。

3.本发明对人的定位采用了人头,相比于基于人形检测或者头肩检测的方法,它在高密度人流统计中有很好的抗遮挡性,能更精确的定位监控摄像中的人。

附图说明

图1为实施例1流程示意图。

具体实施方式

实施例1

如图1所示的一种基于深度学习人头检测的密集人流量统计方法,包括如下步骤:

S1、人工收集和标注场景人头数据,利用现有深度学习框架建立人头检测的深度残差卷积神经网络,并且对网络进行训练。

S2、将监控录像实时输入上述训练好的深度残差卷积神经网络,得到监控视频每帧中的所有人头框;

S3、对于当前帧图片,判断图片中每个人头框是否已被统计过并做相应的处理,若当前帧没有人头框则转至S2;

S4、将上一步中判断为未统计过的人头框进行确认,若通过则加总至人头总数,否则舍弃该人头框。

其中步骤S1包括如下的步骤:

S11、人工收集密集人流场景的人头数据并标注。这里,我们需要事先收集大量人流密集时段摄像头的监控录像,尤其是该监控场景下的密集人流录像,并将监控录像中所有可以分辨的人头做人工标注。

S12、用深度学习框架建立深度残差卷积神经网络。

作为优选的技术方案,步骤S12中,所述深度残差卷积神经网络包括15层主干网络和三个输出支路:

主干网络包含15个卷积层,卷积核大小均为3×3,分别在第1层、第2层和第11层卷积层步长为2,其余卷积层步长为1。按照残差结构的要求,每两个步长为1的卷积层添加一个跳连结构,丰富网络信息的流向。每层卷积后使用线性修正单元ReLU函数进行激活,减少参数相互依赖以缓解过拟合问题的发生,增加网络的非线性;

3个输出支路各自含有3个卷积层,分别接在主干网络第10层、第13层、第15层,卷积核大小均为1×1,步长为1。除最后一层外,每层卷积后使用线性修正单元ReLU函数进行激活;

S13、训练用于人头检测的深度残差卷积神经网络。

作为优选的技术方案,步骤S13具体为:

S131、对图片数据做数据增强。

更进一步,根据人工标注信息,选取某个人头所对应的框,其高和宽分别记为H和W。接着,选取一个20至150间的随机数x,并把原图按照比例x/max(H,W)进行放缩。同时,对图像中每个像素乘以一个0.5至2之间的随机数,并与255取小。

S132、将图片送入神经网络。

更进一步,把S131所获得的图片拷贝至一个全0三通道图片且满足 S21 所选人头框的中心对准该全 0 彩色图片中心,并舍去原图其余的部分。进而将该图片传入网络。

S133、迭代、训练神经网络。

根据人工标注信息计算定位损失的L2范数和置信度损失的L2范数,利用梯度反向传播方法迭代优化网络参数,直至迭代1000000 次。

其中步骤S2包括如下的步骤:

S21、将监控当前帧图片送入网路,由三个支路分别输出5张特征图片,包括一张含置信度的特征图片和四张含坐标信息的特征图片。这里的特征图片含有原图中尺度20~150个像素的人头特征。

S22、将监控当前帧压缩7.5倍送入网络,由三个支路同样输出5张特征图片。这里的特征图片含有原图中尺度150~1125个像素的人头特征。

S23、综合上述两步的特征数据,选取置信度超过0.7的数据,并根据其对应的坐标信息,输出预测的人头框。

进一步地,所述步骤S3中将当前帧检测到的人头框与跟踪列表里的人头框用卡尔曼滤波进行匹配更新。分为三种情况,如果当前图片没有检测到人头,则转至S2;根据卡尔曼滤波对当前帧所有人头框做判断,若所有框都已经加总至流量计数,则转至S2;若存在未被计数的人头框,将这些框至于待定的临时列表送入S4。

进一步地,所述步骤S4中将上一步中判断为未统计过的框用卡尔曼滤波跟踪10帧,如果超过5帧该人头都可以被检测到则将其加总至人流计数,否则就忽略该框,同时将其从S3的临时列表里清除。

以上实施例仅用于说明本发明,但不用来限制本发明的范围,凡是依据本发明的技术实质对以下实例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1