一种行人结构化方法、装置、设备和存储介质与流程

文档序号:25216186发布日期:2021-05-28 14:14阅读:150来源:国知局
一种行人结构化方法、装置、设备和存储介质与流程

本申请实施例涉及人工智能技术领域,尤其涉及一种行人结构化方法、装置、设备和存储介质。



背景技术:

近些年来,随着智能识别技术的不断发展,智能视频监控在安防、智能交通等很多领域发挥着越来越重要的作用。相机可以不间断的记录视野范围内的一切信息,但是相机产生的视频是一种非结构化的数据,其中的目标只能直观观看,不能直接被计算机读取和识别。

行人是视频监控系统的重点关注对象,行人结构化是指从视频内容中提取出行人的相关信息,将其转化为机器可理解的信息,并进一步转化为情报,实现视频数据向信息、情报的转化。行人相关的描述信息可以包括行人位置、面部位置、面部特征、行人的性别、年龄范围和运动轨迹等。

目前监控的视频数据越来越多,海量数据带来的是巨大的计算量和复杂多变的场景,这对行人结构化系统的鲁棒性和性能有了越来越高的要求。目前的行人结构化系统大多采用独立模型对系统的各个模块进行分析和识别,例如检测部分采用检测模型、属性分析采用分类模型和轨迹跟踪采用跟踪模型;相同模块也会采用不同模型分析不同的子任务,例如分别采用行人检测模型和人脸检测模型进行定位。直观上不同的分析任务采用不同的模型会更好的适应各自任务的独特性质,从而带来更高的准确率。但是,上述识别方式忽略了不同任务之间的共性,可能会导致巨大的资源开销和性能瓶颈,使得行人数据的识别不能满足实时性和准确性的需求。



技术实现要素:

本申请实施例提供一种行人结构化方法、装置、设备和存储介质,以优化行人结构化方案,在保证准确率的同时提高识别效率,保证识别实时性。

第一方面,本申请实施例提供了一种行人结构化方法,包括:

获取目标图像数据,所述目标图像数据包括至少一个视频图像帧;

对所述目标图像数据通过预设的目标检测模型进行人脸和人形的检测,确定目标检测信息,所述目标检测模型为同时检测人形和人脸的深度检测模型;

基于所述目标检测信息分别进行轨迹追踪和属性分析,确定行人追踪轨迹信息和行人属性信息。

第二方面,本申请实施例还提供了一种行人结构化装置,包括:

数据获取模块,用于获取目标图像数据,所述目标图像数据包括至少一个视频图像帧;

行人检测模块,用于对所述目标图像数据通过预设的目标检测模型进行人脸和人形的检测,确定目标检测信息,所述目标检测模型为同时检测人形和人脸的深度检测模型;

轨迹追踪和属性分析模块,用于基于所述目标检测信息分别进行轨迹追踪和属性分析,确定行人追踪轨迹信息和行人属性信息。

进一步的,所述数据获取模块具体用于:

获取原始视频数据,并对所述原始视频数据进行解码处理,得到所述目标图像数据。

进一步的,所述行人检测模块包括:

特征提取单元,用于对所述目标图像数据进行特征提取,得到目标特征图;

检测单元,用于通过目标锚点框对所述目标特征图进行分类和定位,确定所述目标检测信息,所述目标锚点框的尺寸基于人脸人形位置关系进行自适应调整。

进一步的,所述行人检测模块还包括:

特征融合单元,用于对所述目标图像数据进行特征提取,得到目标特征图之后,通过特征金字塔对所述目标特征图进行特征融合,确定特征融合图。

进一步的,所述检测单元具体用于:

将所述目标特征图或所述特征融合图转换为三通道热图;

通过所述目标锚点框对所述三通道热图进行分类和定位,确定所述目标检测信息。

进一步的,所述轨迹追踪和属性分析模块包括:

轨迹追踪单元,用于对所述目标检测信息和所述目标特征图融合颜色特征之后,基于广义交并比算法进行轨迹追踪,确定所述行人追踪轨迹信息。

进一步的,所述轨迹追踪和属性分析模块包括:

属性分析单元,用于基于所述目标检测信息确定目标图像;对所述目标图像进行背景过滤之后,通过属性分析模型进行识别和回归操作,确定所述行人属性信息。

第三方面,本申请实施例还提供了一种设备,所述设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的行人结构化方法。

第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的行人结构化方法。

本申请实施例通过获取目标图像数据,目标图像数据包括至少一个视频图像帧;对目标图像数据通过预设的目标检测模型进行人脸和人形的检测,确定目标检测信息,目标检测模型为同时检测人形和人脸的深度检测模型;基于目标检测信息分别进行轨迹追踪和属性分析,确定行人追踪轨迹信息和行人属性信息。本申请实施例的技术方案,通过预先构建的深度检测模型可以同时检测人形和人脸,避免调用多个检测模型造成的资源消耗和运算耗时,降低了检测时间和资源,并基于人脸和人形的检测结果直接进行轨迹追踪和属性分析,进一步减少带宽和资源消耗,在保证准确率的同时提高识别效率,保证识别实时性。

附图说明

图1为本申请实施例中提供的一种行人结构化方法的流程图;

图2为本申请实施例中提供的另一种行人结构化方法的流程图;

图3为本申请实施例中提供的再一种行人结构化方法的流程图;

图4为本申请实施例中提供的一种行人结构化装置的结构示意图;

图5为本申请实施例中提供的一种设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。

图1为本申请实施例中提供的一种行人结构化方法的流程图,本实施例可适用于对视频数据中行人数据进行结构化处理的情况,该方法可以由行人结构化装置执行,该装置可以采用软件和/或硬件的方式实现,该装置可配置于电子设备中,例如服务器或终端设备,典型的终端设备包括移动终端,具体包括手机、电脑或平板电脑等。如图1所示,该方法具体可以包括:

s110、获取目标图像数据,目标图像数据包括至少一个视频图像帧。

其中,目标图像数据为对各个安防场景的监控设备中的视频数据进行处理之后得到的待识别的图像数据。目标图像数据的数量随着实际应用中视频数据中的增长而增长,本实施例对目标图像数据中包括的视频图像帧的数量不作限定,目前数量可以达到太字节(tb),例如每秒产生66tb数据。

具体的,获取目标图像数据,可以包括:获取原始视频数据,并对原始视频数据进行解码处理,得到目标图像数据。其中原始视频数据即为实际的安防场景中获取的视频数据。获取原始视频数据之后,可以采用图形处理器(graphicsprocessingunit,gpu)对原始视频数据进行解码处理,得到多个视频图像帧,即目标图像数据。本实施例中对解码方式不作限定,例如可以采用硬解码。

s120、对目标图像数据通过预设的目标检测模型进行人脸和人形的检测,确定目标检测信息,目标检测模型为同时检测人形和人脸的深度检测模型。

其中,目标检测模型可以为基于神经网络的深度检测模型,用于同时进行人形和人脸的检测。

本实施例中,通过预先对初始深度检测网络进行训练,可以得到训练好的目标检测模型。具体训练过程可以包括:获取样本图像数据,将样本图像数据输入初始深度检测网络中进行训练,得到目标检测模型。

其中,获取样本图像数据,可以包括:基于原始视频数据获取多个视频图像帧,对视频图像帧进行数据清洗和数据标注,得到样本图像数据。其中样本图像数据中包括大量标注之后的视频图像帧,具体数量本实施例中不作限定,可以根据实际情况进行设定。数据清洗是指删掉无目标或目标模糊的视频图像帧,由于这些图像帧将严重影响训练模型的效果,所以要对这些图像帧进行清洗去除,得到干净的图像帧集合。数据标注是指对数据清洗之后的干净的视频图像帧进行标注,本实施例中需要同时标注人脸和人形两类目标,生成包括目标包围坐标框左上顶点坐标和、宽高和类别信息的标注文件,每个视频图像帧对应一个标注文件,从而生成样本图像数据。

具体的,对目标图像数据通过预设的目标检测模型进行人脸和人形的检测,确定目标检测信息,可以包括:对目标图像数据进行特征提取,得到目标特征图;通过目标锚点框对目标特征图进行分类和定位,确定目标检测信息,目标锚点框的尺寸基于人脸人形位置关系进行自适应调整。其中,目标检测信息可以包括检测出人脸和/或人形的检测框等信息。

获取到目标图像数据之后,可以先将该目标图像数据缩放到设定尺度,便于后续处理,该设定尺度可以根据实际情况进行设置。然后将缩放之后的目标图像数据输入目标检测模型中的卷积神经网络中进行特征提取,共得到一系列的特征图,各个特征图的尺寸逐渐减少。例如,对目标图像数据特征提取可以得到6个特征图{f1,f2,f3,f4,f5,f6},f1的尺度是目标图像数据尺寸的1/4,f2为目标图像数据尺寸的1/8,以此类推,f6是目标图像数据尺寸的1/128。

可选地,对目标图像数据进行特征提取,得到目标特征图之后,还可以包括:通过特征金字塔对目标特征图进行特征融合,确定特征融合图。不同的目标特征图利用特征金字塔池化进行融合。示例性的,针对6个目标特征图{f1,f2,f3,f4,f5,f6},从f4开始向下进行相邻尺度特征融合,f4与f3融合可以产生p3,具体操作为,首先将f4小尺度特征输入卷积网络,然后对其进行基于双线性差值的上采样,然后将上采样后的特征与同样经过卷积的f3浅层大尺度特征进行点乘,浅层度特征和经过上采样后的高层特征尺度相同,点乘后即可得到两个特征融合的结果。同理,p3与f2融合产生p2,p2与f1融合产生p1,f4、f5和f6经过卷积可以产生p4、p5和p6,最终产生与原始特征集合尺寸通道数相同的特征金字塔集合{p1,p2,p3,p4,p5,p6},即特征融合图。

本实施例中可以直接对上述目标特征图进行分类和定位,也可以将该目标特征图通过特征金字塔进行特征融合之后,对得到的融合特征图进行分类和定位。通过添加特征金字塔进行特征融合的步骤,可以有效降低人形和人脸尺度差异造成的影响。

进一步的,通过目标锚点框对目标特征图进行分类和定位,确定目标检测信息,可以包括:将目标特征图或特征融合图转换为三通道热图;通过目标锚点框对三通道热图进行分类和定位,确定目标检测信息。其中三通道热图即为类别热度图,包括背景、人形和人脸三种类别,用于对每个点进行分类,判断出含有目标的像素点。具体的,通过卷积和激活函数将上述目标特征图或特征融合图转换为三通道热图;将该三通道热图通过卷积和激活函数,初步确定目标可能存在的区域,然后通过另一个卷积网络确定各个位置目标的尺寸,由于长度和宽度尺度变化范围大,因此可以将其压缩到[-1,1];根据得到的位置信息以及预测的目标尺寸,拟合每个像素点可能出现的目标锚点框的长度和宽度,实现目标锚点框的自适应,从而实现人脸和人形的检测。

本实施例中的目标检测模型为采用基于人形人脸位置关系、特征金字塔和锚点框尺寸自适应的深度检测模型,可以同时检测人形和人脸,也可以分别检测人形或人脸,即当视频图像帧中存在人形和人脸时,可以同时检测到人形和人脸,而当视频图像帧中仅存在人脸或人形时,也可以分别检测到人脸或人形。利用人脸人形的位置关系,可以很好地自适应调整锚点框的比例和尺寸。另外,因为卷积神经网络的中高层特征带有高级语义信息和较大的感受野,适合检测大目标,浅层特征带有低级的细节语义信息和较小的感受野,适合检测小目标,所以本实施例中通过特征金字塔融合中高层和浅层特征,增加了浅层特征语义性,有效降低人形和人脸尺度差异造成的影响。传统基于锚点框的检测算法严重依赖锚点框设置的合理性,不同数据集、不同算法都需要单独调试锚点框的尺度、长宽比、密集度等。为了同时适应人形和人脸两种尺度差异大、长宽比差异大的目标,本实施例中的目标锚点框的尺寸可以自动学习并调整位置、长度和宽度等参数,解决了锚点框必须预先设定的问题。

s130、基于目标检测信息分别进行轨迹追踪和属性分析,确定行人追踪轨迹信息和行人属性信息。

其中目标检测信息可以包括检测出人脸或人形的检测框等信息。

具体的,将目标检测信息中的检测框作为轨迹追踪的候选框,并且提取人脸和人形的检测过程中对目标图像数据进行特征提取得到的目标特征图,基于上述候选框和目标特征图进行轨迹追踪,得到行人追踪轨迹信息。

通过目标检测信息中的检测框可以从视频图像帧中切割出对应的图像,用于行人结构化中的属性分析。具体对目标检测信息中检测框对应的图像进行识别和回归处理,得到行人属性信息。本实施例中对行人属性信息中的信息类型不作限定,例如行人属性信息中可以包括人脸特征、性别、年龄和行人重识别等。

本实施例中的行人结构化方法,可以实现对公共场所的行人进行定位识别、属性分析、轨迹跟踪等视觉分析,进而可以快速实现嫌犯追踪、越界告警和人群聚集告警等功能。

本实施例的技术方案,通过获取目标图像数据,目标图像数据包括至少一个视频图像帧;对目标图像数据通过预设的目标检测模型进行人脸和人形的检测,确定目标检测信息,目标检测模型为同时检测人形和人脸的深度检测模型;基于目标检测信息分别进行轨迹追踪和属性分析,确定行人追踪轨迹信息和行人属性信息。本申请实施例的技术方案,通过预先构建的深度检测模型可以同时检测人形和人脸,避免调用多个检测模型造成的资源消耗和运算耗时,降低了检测时间和资源,并基于人脸和人形的检测结果直接进行轨迹追踪和属性分析,进一步减少带宽和资源消耗,在保证准确率的同时提高识别效率,保证识别实时性。

图2为本申请实施例中提供的另一种行人结构化方法的流程图。本实施例在上述实施例的基础上,进一步优化了上述行人结构化方法。相应的,如图2所示,本实施例的方法具体包括:

s210、获取目标图像数据。

其中,目标图像数据可以包括至少一个视频图像帧。具体的,获取目标图像数据,可以包括:获取原始视频数据,并对原始视频数据进行解码处理,得到目标图像数据。

s220、对目标图像数据通过预设的目标检测模型进行人脸和人形的检测,确定目标检测信息。

其中,目标检测模型为同时检测人形和人脸的深度检测模型。

具体的,对目标图像数据通过预设的目标检测模型进行人脸和人形的检测,确定目标检测信息,可以包括:对目标图像数据进行特征提取,得到目标特征图;通过目标锚点框对目标特征图进行分类和定位,确定目标检测信息,目标锚点框的尺寸基于人脸人形位置关系进行自适应调整。

可选地,对目标图像数据进行特征提取,得到目标特征图之后,还可以包括:通过特征金字塔对目标特征图进行特征融合,确定特征融合图。

进一步的,通过目标锚点框对目标特征图进行识别,确定目标检测信息,可以包括:将目标特征图或特征融合图转换为三通道热图;通过目标锚点框对三通道热图进行分类和定位,确定目标检测信息。

s220之后,可以同时执行s230和s240,也可以按照先后顺序依次执行s230和s240,具体顺序不作限定,可以先执行s230再执行s240,也可以先执行s240再执行s230。

s230、基于目标检测信息进行轨迹追踪,确定行人追踪轨迹信息。

其中目标检测信息可以包括检测出人脸或人形的检测框等信息。

具体的,基于目标检测信息进行轨迹追踪,确定行人追踪轨迹信息,可以包括:对目标检测信息和目标特征图融合颜色特征之后,基于广义交并比算法进行轨迹追踪,确定行人追踪轨迹信息。将目标检测信息中的检测框作为轨迹追踪的候选框,并且提取人脸和人形的检测过程中对目标图像数据进行特征提取得到的目标特征图。

首先,利用颜色特征提取算法计算各个候选框区域的颜色特征,将该颜色特征与目标特征图组成目标表观特征的特征向量,并计算本帧各个候选框与上一帧各个追踪目标间的特征向量的距离,得到各个候选框与上一帧追踪目标间的表观特征相似度矩阵a。然后,计算本帧各个检测框与上一帧各个追踪目标间的特征向量的广义交并比,得到广义交并比相似度矩阵i。接下来,通过系数α融合两个矩阵a和i,得到最终相似度矩阵s。最后,通过匹配算法处理相似度矩阵s,完成各个候选框与上一帧各个追踪目标的指派,得到匹配上的追踪目标集合、未匹配上的追踪目标集合以及未匹配上的候选框集合。本实施例中对上述匹配算法不作限定,例如匹配算法可以为匈牙利算法或图匹配算法等。上述追踪目标可以为人脸或人形,一般采用人形。

其中匹配上的追踪目标集合可以指候选框中存在并且追踪上轨迹的目标的集合,对于该集合中的目标进行轨迹信息的更新,轨迹信息可以包括目标的左上角横纵坐标、目标的尺寸、目标的表观特征和目标当前的状态等。未匹配上的候选框集合可以指候选框中存在但是并没有追踪上轨迹的目标的集合,说明该追踪目标还没有开始进行追踪,可以将该集合中的候选框看作为新生的目标,建立新的追踪轨迹,初始化新生目标的id信息、位置信息和尺度信息等。未匹配上的追踪目标集合可以指初始候选框中存在但是中途没有匹配的候选框的目标的集合,即由于遮挡等原因,不能追踪上轨迹,对该集合中的目标进行未匹配追踪时间是否大于时间阈值的判断,将未匹配追踪时间大时间于阈值的目标进行删除,将未匹配追踪时间小于或等于时间阈值的追踪目标进行保留。上述三个集合处理之后得到轨迹追踪的结果,包括目标的id、轨迹长度和轨迹各帧位置等信息,保存该轨迹追踪的结果。

s240、基于目标检测信息进行属性分析,确定行人属性信息。

具体的,基于目标检测信息进行属性分析,确定行人属性信息,可以包括:基于目标检测信息确定目标图像;对目标图像进行背景过滤之后,通过属性分析模型进行识别和回归操作,确定行人属性信息。其中,目标图像为目标检测信息中的检测框所对应的图像,即通过检测框在视频图像帧中截取的图像。

其中属性分析模型为用于对行人属性信息进行分析的深度神经网络模型,本实施例中的属性分析模型也为预先训练好的。具体训练过程可以包括:获取样本图像数据,将样本图像数据输入初始属性分析网络中进行训练,得到属性分析模型。其中,获取样本图像数据,可以包括:基于原始视频数据获取多个视频图像帧,对视频图像帧进行数据清洗和数据标注,得到样本图像数据。其中样本图像数据中包括大量标注之后的视频图像帧,具体数量本实施例中不作限定,可以根据实际情况进行设定。数据清洗是指删掉无目标或目标模糊的视频图像帧,得到干净的图像帧集合。数据标注是指对数据清洗之后的干净的视频图像帧进行标注,通过检测标注坐标框从原始图像中切割出对应图像块,然后标注图像块的性别、年龄等分析任务需要属性信息,其中检测标注坐标框为人工确定的目标的检测框。

对目标检测信息中的检测框所对应的图像利用注意力机制进行背景过滤,能够有效去除图像块中的背景噪声。具体背景过滤过程为:首先,将输入的图像块进行卷积变换,得到h*w*c的特征,其中h为特征图的高度,w为特征图的宽度,c为通道数。然后对得到特征进行全局池化,实现特征的压缩。接下来,对压缩后的特征连接全连接层以衡量特征通道间的相关性,得到特征相应的权重,并利用归一化函数对权重进行归一化。最后,通过缩放(scale)操作将得到的权重加权到各个通道特征上,即实现了特征的重新标定,完成了背景过滤。

将目标检测信息中的检测框所对应的图像进行背景过滤后的特征,通过属性分析模型进行识别和回归操作,得到行人属性信息。本实施例中对行人属性信息中的信息类型不作限定,例如行人属性信息中可以包括人脸特征、性别、年龄和行人重识别等。

在上述实施例的基础上,基于图3对本实施例中行人结构化方法进行具体说明。图3为本申请实施例中提供的再一种行人结构化方法的流程图,具体包括:s20、数据采集。监控设备(例如摄像机)不断采集监控区域的原始视频数据。s21、视频解码。对采集到的原始视频数据利用图形处理器进行硬解码,得到目标图像数据,目标图像数据中包括至少一个视频图像帧。s22、是否存在模型。判断是否已经存在训练好的人脸人形的目标检测模型和属性分析模型,如果已经存在,则执行s23;否则,执行s31-s34,启动训练阶段进行模型的训练。s23、模型初始化。配置输出尺寸、批次大小、等各个功能模块的相关参数,为后续分析做准备。s24、目标检测。接收s21产生的目标图像数据,启动目标检测模型,对目标图像数据通过目标检测模型进行人脸和人形的检测,确定目标检测信息。s24之后,可以基于目标检测信息分别执行s25-s26和s27-s28,具体执行顺序不作限定。s25、背景过滤。对目标检测信息中检测框对应的图像进行注意力机制的背景过滤。s26、属性分析。对目标检测信息中检测框对应的图像进行背景过滤后的特征,进行识别和回归操作,得到行人属性信息。之后,执行s29。s27、特征提取。提取目标检测过程中对目标图像数据进行特征提取得到的目标特征图,并将目标检测信息中的检测框作为轨迹追踪的候选框,提取各个候选框区域的颜色特征。s28、轨迹跟踪。对于目标特征图和颜色特征,基于广义交并比算法进行轨迹追踪,确定行人追踪轨迹信息。之后,执行s29。s29、数据存储。存储上述包括人脸和人形的目标检测信息、行人属性信息和行人追踪轨迹信息。上述s24-s29为行人数据的推理阶段。

训练阶段的样本图像数据也来自于s21,可以先获取一部分原始视频数据,将原始视频数据硬解码之后的视频图像帧作为样本图像数据进行目标检测模型和属性分析模型的训练。训练阶段可以包括s31-s34,具体的,s31、数据清洗。s32、数据标注。s33、模型训练。s34、模型输出。

本实施例极大地减少了调用多个检测模型造成的资源消耗和运算耗时,利用本实施例方法可以同时精确定位人形和人脸,无需分别进行检测,降低了检测时间和资源。本实施例极大地减少带宽消耗和特征提取模型运行次数,轨迹追踪部分利用目标检测之后得到的检测框,避免了传输原图带来的带宽消耗,并且,轨迹追踪部分所用特征图为目标检测过程中已经得到的特征图,减少了多次调用模型提取特征的次数,进而降低了资源消耗。本实施例极大地提高了属性分析的精度,本实施例提出的注意力机制的过滤模块能够有效去除图像块中的背景噪声,突出目标像素,进而提高识别和回归的精度。本实施例能够在保证准确率的同时提高速度,保证行人结构化系统的实时性,目标检测部分由于自适应锚点框的设计以及特征金字塔结构有效保证了人脸人形的检测精度,轨迹追踪和属性分析分别利用了目标检测部分的结果,有效提高了处理速度。

本申请实施例通过获取目标图像数据,目标图像数据包括至少一个视频图像帧;对目标图像数据通过预设的目标检测模型进行人脸和人形的检测,确定目标检测信息;基于目标检测信息进行轨迹追踪,确定行人追踪轨迹信息;基于目标检测信息进行属性分析,确定行人属性信息。本实施例的技术方案,通过预先构建的深度检测模型可以同时检测人形和人脸,避免调用多个检测模型造成的资源消耗和运算耗时,降低了检测时间和资源,在保证准确率的同时提高识别效率,保证识别实时性;并且可以基于目标检测信息进行轨迹追踪和属性分析,极大地减少带宽和资源消耗,进一步提高了处理速度。

图4为本申请实施例中提供的一种行人结构化装置的结构示意图,本实施例可适用于对视频数据中行人数据进行结构化处理的情况。本申请实施例所提供的行人结构化装置可执行本申请任意实施例所提供的行人结构化方法,具备执行方法相应的功能模块和有益效果。

该装置具体包括数据获取模块310、行人检测模块320和轨迹追踪和属性分析模块330,其中:

数据获取模块310,用于获取目标图像数据,目标图像数据包括至少一个视频图像帧;

行人检测模块320,用于对目标图像数据通过预设的目标检测模型进行人脸和人形的检测,确定目标检测信息,目标检测模型为同时检测人形和人脸的深度检测模型;

轨迹追踪和属性分析模块330,用于基于目标检测信息分别进行轨迹追踪和属性分析,确定行人追踪轨迹信息和行人属性信息。

本申请实施例通过获取目标图像数据,目标图像数据包括至少一个视频图像帧;对目标图像数据通过预设的目标检测模型进行人脸和人形的检测,确定目标检测信息,目标检测模型为同时检测人形和人脸的深度检测模型;基于目标检测信息分别进行轨迹追踪和属性分析,确定行人追踪轨迹信息和行人属性信息。本申请实施例的技术方案,通过预先构建的深度检测模型可以同时检测人形和人脸,避免调用多个检测模型造成的资源消耗和运算耗时,降低了检测时间和资源,并基于人脸和人形的检测结果直接进行轨迹追踪和属性分析,进一步减少带宽和资源消耗,在保证准确率的同时提高识别效率,保证识别实时性。

进一步的,数据获取模块310具体用于:

获取原始视频数据,并对原始视频数据进行解码处理,得到目标图像数据。

进一步的,行人检测模块320包括:

特征提取单元,用于对目标图像数据进行特征提取,得到目标特征图;

检测单元,用于通过目标锚点框对目标特征图进行分类和定位,确定目标检测信息,目标锚点框的尺寸基于人脸人形位置关系进行自适应调整。

进一步的,行人检测模块320还包括:

特征融合单元,用于对目标图像数据进行特征提取,得到目标特征图之后,通过特征金字塔对目标特征图进行特征融合,确定特征融合图。

进一步的,检测单元具体用于:

将目标特征图或特征融合图转换为三通道热图;

通过目标锚点框对三通道热图进行分类和定位,确定目标检测信息。

进一步的,轨迹追踪和属性分析模块330包括:

轨迹追踪单元,用于对目标检测信息和目标特征图融合颜色特征之后,基于广义交并比算法进行轨迹追踪,确定行人追踪轨迹信息。

进一步的,轨迹追踪和属性分析模块330包括:

属性分析单元,用于基于目标检测信息确定目标图像;对目标图像进行背景过滤之后,通过属性分析模型进行识别和回归操作,确定行人属性信息。

本申请实施例所提供的行人结构化装置可执行本申请任意实施例所提供的行人结构化方法,具备执行方法相应的功能模块和有益效果。

图5为本申请实施例中提供的一种设备的结构示意图。图5示出了适于用来实现本申请实施方式的示例性设备412的框图。图5显示的设备412仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示,设备412以通用设备的形式表现。设备412的组件可以包括但不限于:一个或者多个处理器416,存储装置428,连接不同系统组件(包括存储装置428和处理器416)的总线418。

总线418表示几类总线结构中的一种或多种,包括存储装置总线或者存储装置控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(industrysubversivealliance,isa)总线,微通道体系结构(microchannelarchitecture,mac)总线,增强型isa总线、视频电子标准协会(videoelectronicsstandardsassociation,vesa)局域总线以及外围组件互连(peripheralcomponentinterconnect,pci)总线。

设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。

存储装置428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(randomaccessmemory,ram)430和/或高速缓存存储器432。设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘,例如只读光盘(compactdiscread-onlymemory,cd-rom),数字视盘(digitalvideodisc-readonlymemory,dvd-rom)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储装置428中,这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本申请所描述的实施例中的功能和/或方法。

设备412也可以与一个或多个外部设备414(例如键盘、指向终端、显示器424等)通信,还可与一个或者多个使得用户能与该设备412交互的终端通信,和/或与使得该设备412能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口422进行。并且,设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(localareanetwork,lan),广域网(wideareanetwork,wan)和/或公共网络,例如因特网)通信。如图5所示,网络适配器420通过总线418与设备412的其它模块通信。应当明白,尽管图中未示出,可以结合设备412使用其它硬件和/或软件模块,包括但不限于:微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(redundantarraysofindependentdisks,raid)系统、磁带驱动器以及数据备份存储系统等。

处理器416通过运行存储在存储装置428中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例所提供的行人结构化方法,该方法包括:

获取目标图像数据,目标图像数据包括至少一个视频图像帧;

对目标图像数据通过预设的目标检测模型进行人脸和人形的检测,确定目标检测信息,目标检测模型为同时检测人形和人脸的深度检测模型;

基于目标检测信息分别进行轨迹追踪和属性分析,确定行人追踪轨迹信息和行人属性信息。

本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所提供的行人结构化方法,该方法包括:

获取目标图像数据,目标图像数据包括至少一个视频图像帧;

对目标图像数据通过预设的目标检测模型进行人脸和人形的检测,确定目标检测信息,目标检测模型为同时检测人形和人脸的深度检测模型;

基于目标检测信息分别进行轨迹追踪和属性分析,确定行人追踪轨迹信息和行人属性信息。

本申请实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c++,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1