本发明属于人工智能视觉识别及图像处理领域,具体说是一种人群安全异常事件识别方法。
背景技术:
1、随着经济的快速发展,在商场、体育场、车站等公共场所中常常存在人流高峰,而这些拥挤的人群对公共安全带来了极大的隐患。如果能够对人群进行监测,及时发现人群异常的行为,就可以及时采取相应的解决方案,避免重大意外事件的发生。因此,为了保障人群安全,维护公共秩序,越来越多的视频监控系统被投入使用。但大多数传统的监控系统都需要专门的人员对监控视频进行人工判断,需要耗费大量的人力,而且人长时间专注于一件事情,可能会疏忽某些异常情况,从而带来严重后果。
2、人群异常事件检测方式主要有两种:传统方式和基于深度学习方式。传统方式主要从光流、梯度方面进行特征提取,然后利用svm进行分类。用传统方式进行人群异常事件检测,由于自身算法的特性,只能获得一些简单和基本的特征,无法对图像进行深层次的表达。
技术实现思路
1、本发明目的是提供一种基于深度学习方式进行人群异常事件检测方法,提出对抗网络来使生成网络能更准确的预测未来帧,使预测误差更能反映出人群异常。
2、本发明为实现上述目的所采用的技术方案是:一种人群安全异常事件识别方法,包括以下步骤:
3、1)通过相机获取连续t帧图像,通过yolo-v4目标检测算法对连续t帧图像进行目标检测,获取每帧图像的所有行人位置,并排除非人群区域,获取到t副包含所有的人群区域的人群图像;
4、2)对人群图像进行人群运动区域选择,获取连续t帧所有行人运动区域的mask图像,再根据mask图像计算t帧的人群运动区域真实图像,作为预测网络模型的输入;
5、3)建立预测网络模型,将生成的t帧的人群运动区域真实图像输入至预测网络模型中,生成下一帧预测图像;
6、4)将待检测图像的真实图像与生成的预测图像进行异常预测,获取其峰值信噪比,并根据图像的峰值信噪比,设定其动态阈值,进而实现对图像进行判定。
7、所述步骤2),具体为:
8、2-1)选择连续t帧图像信息作为输入,提取人群图像中所有人目标位置,生成人群位置为1和背景位置为0的mask图,取连续t帧mask图的并集,获得人在连续帧的运动区域mask图;
9、2-2)获取原始图像上对应mask位置的原始信息,原始图像mask位置之外的背景图像设定为黑色,生成连续t帧行人运动区域图像,并输入至预测网络模型中。
10、所述建立预测网络模型,包括以下步骤:
11、(1)通过u-net网络建立预测网络模型的生成网络,通过逐渐降低空间分辨率来提取图像特征,建立编码器;添加通过增加空间分辨率逐渐恢复帧,建立解码器;
12、(2)采用pixel2pixel结构形成的生成对抗网络;
13、(3)在生成对抗网络中建立相应的损失函数并对损失函数进行训练,以使预测图像更接近于真实图像;
14、(4)在生成网络中,建立光流估计模型raft,并对光流值进行估计;
15、(5)训练生成对抗网络,完成预测网络模型的建立;
16、(6)将生成的t帧的人群运动区域真实图像输入至预测网络模型的生成器中,生成下一帧预测图像
17、步骤(1)中,所述编码器,包括:每一次编码都要经过2个3*3的卷积、一个relu激活函数和一个步长为2的下采样,最终通过生成器生成特征图;
18、所述解码器,包括:每一次解码都由特征图的上采样、2*2上卷积和两个3*3卷积组成,其中2*2上卷积将特征通道的数量减半,2*2上卷积与编码中相应裁剪的特征图相连,每个卷积后面都设置一个relu激活函数;在最后一层,使用1x1卷积将每个64个组成要素向量映射到所需的类别数,最终生成预测图。
19、所述步骤(3),具体为:
20、通过梯度惩罚锐化生成器生成的图像,在强度空间中最小化的预测帧与真实帧i之间的l2距离,lint表示强度损失,则强度损失函数为:
21、
22、为保证生成图像梯度和原始图像梯度一致,设计了梯度损失,对于数字图像,相当于是二维离散函数求梯度,使用差分来近似导数,x方向梯度为|ii,j-ii-1,j|,y方向梯度为|ii,j-ii,j-1|,分别计算预测帧梯度和真实帧梯度,并用预测帧和真实帧梯度差作为梯度损失lgd,即为:
23、
24、步骤(4)中,所述建立光流估计模型,具体为:
25、通过真实下一帧图像it+1和当前帧图像it的光流值f(it+1,it)与预测下一帧与当前真实帧it的光流值得差作为光流损失,其中f代表raft光流生成算法,raft光流模型需要提前训练完成,具体公式如下,用lop表示光流损失,即:
26、
27、所述步骤(5),具体为:
28、生成对抗网络包含一个对抗网络d和一个生成网络g,引入对抗网络加入判别器,用于区分出预测帧和真实帧,对于生成器,用于欺骗判别器;
29、训练生成网络时,固定判别网络参数,优化对抗损失,增加判别器的真假判别能力,并采用均方误差损失计算判别器损失,即:
30、
31、其中,y为实际值,取值为{0,1},为预测值,取值范围为y∈[0,1];
32、当训练判别器时,对于真实帧it+1,判别器d需要判定为1,对于预测帧使判别器d判定为0,其中,1代表为真,0代表为假,因此对抗损失表示为:
33、
34、其中,为预测帧,i为真实帧,lmse()为均方误差损失计算,d(i)i,j为判别器中的实际帧,为判别器中的预测帧;
35、对于生成器,即生成网络u-net,增加一个对抗损失,使生成帧为1更接近真实值,采用均方误差损失mes计算对抗损失
36、
37、根据生成损失和对抗损失得到以下目标函数,包含生成器的目标函数lg和判别器的目标函数ld,并交替训练这两个损失,即:
38、
39、
40、其中,α,β,γ,δ为权重系数,分别取1.0,2.0,0.1和0.5,为预测下一帧,it+1为实际下一帧;
41、获取到包含生成器的目标函数lg和判别器的目标函数ld,完成生成对抗网络的训练。
42、所述步骤4),具体为:
43、4-1)利用预测帧与其真实帧i之间的差异进行异常预测,根据峰值信噪比,即:
44、
45、其中,i表示待检测图像,表示生成图像,表示生成图像中图像像素点颜色的最大数值,psnr越大,表示待检测图像i没有发生异常情况的可能性越大;
46、4-2)将psnr归一化,表示为score(t),即:
47、
48、4-3)对上述得到的score(t),计算roc,auc曲线,根据获取阈值threshold与score(t)对比大小,如果score(t)>阈值threshold则为人群正常图像,反之,则为发生人群异常事件情况的图像。
49、所述获取阈值threshold,具体为:
50、a.统计部分历史数据的psnr值,计算上四分位数q3,即组数据排序后处于75%位置上的值,下四分位数q1,即组数据排序后处于25%位置上的值,再计算四分位距iqr=q3-q1,确定内限的最小值q1-1.5iqr和外限的最小值q1-3iqr,从而确定两个最低阈值点;
51、b.根据相机实际安装场景确定选择内限或外限值作为计算的阈值,如果新一帧图像的psnr值高于阈值,判断这帧图像为正常,并把这帧图像的psnr值更新到历史值中,如果新一帧图像psnr值低于阈值,判断这帧图像为异常,同时该帧图像的psnr值不参与历史数据的更新,通过不断循环更新历史psnr值数据,获取最新历史数据的阈值,从而实现获取动态阈值。
52、本发明具有以下有益效果及优点:
53、1.本发明使用视频预测框架内解决异常检测问题,提出使用生成对抗网络来对人群运动区域进行预测,除了常用的外观(空间)约束强度和梯度,本项目还引入运动(时间)之间的视频预测执行光流约束预测生成帧。
54、2.本发明提出对抗网络来使生成网络能更准确的预测未来帧,使预测误差更能反映出人群异常。
55、3.本发明创新得提出基于ai算法的动态阈值异常检测。通过计算各场景下的实时psnr值,建立历史数据库,实时更新动态阈值,更好的适用在不同场景中。