监控视角下的轻型人群定位方法

文档序号:33325724发布日期:2023-03-03 23:06阅读:29来源:国知局
监控视角下的轻型人群定位方法

1.本发明属于计算机视觉,图像处理技术领域,具体涉及一种监控视角下的轻型人群定位算法。


背景技术:

2.人群分析是公共安全领域的一项重要任务,包括人群计数、人群定位、目标人群追踪、客流控制、人群异常事件检测、人群分割、群体检测等任务。而人群定位是人群场景安全预警的一项基础任务。快速而准确的实现监控视角下的人群定位是人群分析领域的一项重要任务。
3.文献“j.gao,t.han,y.yuan,and q.wang,learning independent instance maps for crowd localization.arxiv preprint,arxiv:2012.04164,2020”提出了一种基于独立实例图的人群定位方法。该方法首先通过hrnet或vgg16作为骨干网络预测人群场景中的人头区域的置信度,然后利用二值化分割模块输出图像的二值化分割实例图。二值化分割模块由一个阈值编码器和一个二值化层组成。前者对图像的特征图进行编码,生成单个值或相应的映射图。后者利用这个值或映射对置信图进行二值化,并输出实例映射。在训练阶段,二值化分割模块持续对阈值进行优化。而在测试阶段,阈值则是固定的,根据阈值进行二值化分割,检测二值化实例图中元素的连通性,输出人群定位的边界框。然而,为了提取到足够多的细节特征,在预测人头区域的置信度时往往需要使用较大体积的特征提取网络,这导致算法的开销非常大,需要占用大量的内存资源,严重限制了算法的应用范围。


技术实现要素:

4.要解决的技术问题
5.为了避免现有技术的不足之处,本发明提供一种新的监控视角下的轻型人群定位方法。
6.技术方案
7.一种监控视角下的轻型人群定位方法,其特征在于包括三个模块:编码器模块、解码器模块和定位模块;
8.所述的编码器模块:
9.输入监控图像,将其转化为矩阵,对其进行初始化下采样操作,即对输入矩阵同时进行卷积与全局池化操作后,然后在通道维度上对二者的输出矩阵进行拼接操作得到初始图像矩阵c;
10.将初始图像矩阵c输入依次输入编码器第一部分、编码器第二部分、编码器第三部分进行特征提取,得到特征矩阵f;所述的编码器第一部分包括一个下采样瓶颈块和4个常规瓶颈块;所述的编码器第二部分由一个下采样瓶颈块、第一常规瓶颈块、2倍膨胀瓶颈块、第一非对称瓶颈块、4倍膨胀瓶颈块、第二常规瓶颈块、8倍膨胀瓶颈块、第二非对称瓶颈块、16倍膨胀瓶颈块串联组成;所述的编码器第三部分由第一常规瓶颈块、2倍膨胀瓶颈块、第
一非对称瓶颈块、4倍膨胀瓶颈块、第二常规瓶颈块、8倍膨胀瓶颈块、第二非对称瓶颈块、16倍膨胀瓶颈块串联组成;所述的下采样瓶颈块是将常规瓶颈块中的池化操作步长设置为2,并将卷积操作的步长设置为2组成的;所述的膨胀瓶颈块用膨胀卷积代替常规瓶颈块中的卷积操作构成的,所述的非对称瓶颈块是将普通卷积分解成两个非对称卷积组成的;
11.所述的解码器模块:
12.将特征矩阵f输入串联的第一轻量化解码器、第二轻量化解码器,得到置信矩阵p;对置信矩阵p进行阈值分割操作,得到预测实例图p1;
13.所述的第一轻量化解码器由一个2倍上采样瓶颈块、一个常规瓶颈块、一个轻量化注意力瓶颈块串联组成;所述上采样瓶颈块是用转置卷积替换普通卷积形成的,2倍上采样瓶颈块即转置卷积的步长为2,4倍上采样瓶颈块即转置卷积的步长为4;所述轻量化注意力瓶颈块是用置换注意力卷积替换常规瓶颈块中的卷积操作得来的;
14.所述的第二轻量化解码器由一个4倍上采样瓶颈块、一个常规瓶颈块、一个轻量化注意力瓶颈块串联组成;
15.所述定位模块:
16.检测预测实例图p1每一像素与周围像素的连通性,即可获得对人头中心点及人头区域的预测;根据上述预测,在输入图像中绘制出人头框,输出人群定位的结果,并可基于上述预测,获取人群计数的结果。
17.本发明进一步的技术方案:所述的常规瓶颈块结构方式为:输入矩阵m分为两个通道,其中一个通过最大池化与填充得到m1,另一个通道m依次通过降维、卷积、升维、正则化生成矩阵m2,将m1与m2在通道上进行拼接并使用prelu激活函数得到最终的矩阵n。
18.本发明进一步的技术方案:对置信矩阵p进行阈值分割操作,得到预测实例图p1具体为:将第二轻量化解码器得到的特征矩阵f2按照0.5的阈值进行分割,大于0.5的像素设置为1,小于等于0.5的像素设置为0,得到预测实例图p1。
19.一种计算机系统,其特征在于包括:一个或多个处理器,计算机可读存储介质,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的方法。
20.一种计算机可读存储介质,其特征在于存储有计算机可执行指令,所述指令在被执行时用于实现上述的方法。
21.有益效果
22.本发明提供的一种监控视角下的轻型人群定位方法,具体来说面向复杂人群场景,该方法通过使用轻量化卷积模块与轻量化注意力机制构建模型,从而有效的压缩了模型体积。由于全部采用轻量化模块构建网络,并采用了提前下采样、将relu替换为prelu等策略,最终在高效压缩模型体积的同时,维持了较高的人群定位性能。
23.与目前的基于深度学习的人群定位方法相比,该方法的模型体积不足目前主流的人群定位算法的1/10,在有效的压缩模型体积的同时,达到了与目前最优模型相当的定位与计数性能。本发明方法高效的压缩了人群定位模型的体积,并达到了相当高的人群定位与计数性能。
附图说明
24.附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
25.图1展示了本发明的具体流程图。其中左侧为本发明中编码器模块的流程图,中间为本发明中解码器模块的流程图,右侧的部分为本发明中定位模块的流程图。
26.图2展示了本发明在shanghaitech part b数据集中的一个示例,通过圆圈画出算法定位到的人头位置。
27.图3常规瓶颈块的组成。
具体实施方式
28.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
29.本发明提出了一种监控视角下的轻量化人群定位方法,可以在有限的模型体积限制下有效的从监控场景图像中提取特征。它被命名为“置换注意力高效网络”(简称saenet),本发明提出的saenet框架包含三个模块:编码器、解码器和定位模块。
30.编码器模块:
31.1.输入图像矩阵,对其进行初始化下采样操作,即对输入矩阵同时进行卷积与全局池化操作后,然后在通道维度上对二者的输出矩阵进行拼接操作得到矩阵c。
32.2.瓶颈块是构建本算法的基本单元,其实现过程是对输入矩阵池化操作和先通道降维再卷积然后通道升维操作拼接。编码器第一部分包括1个下采样瓶颈块和4个常规瓶颈块。将矩阵c依次通过编码器第一部分、第二部分、第三部分进行特征提取,
33.最终得到特征矩阵f。
34.解码器模块:
35.1.将特征矩阵f输入串联的第一轻量化解码器、第二轻量化解码器,得到置信矩阵p。
36.2.对置信矩阵p进行阈值分割操作,得到预测实例图p1。
37.定位模块:
38.1.预测实例图p1每一像素与周围像素的连通性,即可获得对人头中心点及人头区域的预测。
39.2.根据上述预测,在输入图像中绘制出人头框,输出人群定位的结果,并可基于上述预测,获取人群计数的结果。
40.下面将详细的介绍具体的实现过程:
41.参照图1左,本发明的编码器模块的实现步骤如下:
42.步骤1,首先,将输入图像转化为矩阵,假设原图像尺寸为为3*h*w,对这一矩阵进行步长为2的3*3卷积操作,得到61*(h/2)*(w/2)的矩阵,同时对这一矩阵做步长为2的非重叠池化,得到一个3*(h/2)*(w/2)的矩阵。将两个矩阵在通道维度上拼接,进行批归一化,形成一个64*(h/2)*(w/2)矩阵c1。在矩阵c1上使用relu激活函数,生成初始图像矩阵c。
multi-column convolutional neural network,’in proceedings of ieee conference on computer vision and pattern recognition,pp.589

597,2016.”中提出。shanghaitech part b共包含716张图片,其中训练集包括400张图片,测试集包括316张图片。
57.2.实验内容
58.首先,选用shanghaitech part b dataset中的训练集作为训练数据,利用训练数据训练好saenet模型;然后,利用联合模型对测试集进行测试,并计算出不同类别的分类精度。在实验中,我们分别衡量了每一算法的准确率。
59.为了证明算法的有效性,通过仿真实验比较了几种人群定位模型的性能,如iim(vgg)、iim(hrnet)、raz。其中,iim在文献“j.gao,t.han,y.yuan,and q.wang,learning independent instance maps for crowd localization.arxiv preprint,arxiv:2012.04164,2020.”中有详细说明,iim分别提供了以vgg16以和hrnet为骨干网络的两种模型;raz是由liu等人在文献“chenchen liu,xinyu weng,yadong mu;proceedings of the ieee/cvf conference on computer vision and pattern recognition,2019,pp.1217-1226.”中提出的。我们用准确率、查全率、f值衡量模型的定位性能,同时用平均绝对误差、均衡误差来衡量模型在人群计数任务上的性能。对比结果如表1所示:
60.表1:算法效果对比
61.方法oursiim(vgg)iim(hrnet)raz准确率0.8220.8020.8620.710查全率0.9060.8490.9070.831f值0.7490.7600.8210.766平均绝对误差20.431.6313.513.5均方误差46.6131.928.125.4模型体积5.17mb77.7mb263mb155.3mb
62.从表1可以看出,与shanghaitech part b数据集上的最优方法hrnet相比,saenet框架在定位性能上与其相当,在人群计数方面略差一些,但其模型体积仅有使用hrnet为骨干网络的iim算法模型的1/30,这证明了我们提出的方法在模型轻量化方面的有效性。同时,尽管我们提出的方法模型体积很小,在定位与计数两方面的性能都接近了使用vgg16作为骨干网络的iim算法,这表明我们的算法维持了较高的特征提取能力。
63.以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明公开的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1