基于姿态指导的行人重识别方法、设备及存储介质与流程

文档序号:29791210发布日期:2022-04-23 17:41阅读:262来源:国知局
基于姿态指导的行人重识别方法、设备及存储介质与流程

1.本发明涉及数据分析领域,尤其涉及一种基于姿态指导的行人重识别方法、设备及存储介质。


背景技术:

2.目前,行人重识别(person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题,相当于给定一个监控行人图像,然后检索跨设备下的该行人图像,主要用于弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。
3.由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性,外观易受穿着、尺度、遮挡、姿态和视角等影响,而行人重识别主要应用于机场,车站等人流密集场所,这些场所经常出现行人被其他人或其他物体遮挡的情况下,现有的行人重识别技术难以对行人进行区分。


技术实现要素:

4.以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
5.本发明实施例的主要目的在于提出一种基于姿态指导的行人重识别方法,能够识别到遮挡场景中的行人,有效避免遮挡物对于行人识别的影响。
6.第一方面,本发明实施例提供了一种基于姿态指导的行人重识别方法,包括:
7.对目标行人图像进行人体姿态识别,得到多个身体部位的坐标和置信度;
8.将所述坐标和所述置信度进行转化处理,得到热图信息;
9.通过骨干网络对目标行人图像进行提取处理,得到第一三维特征;
10.将所述热图信息和所述第一三维特征进行计算处理,生成多个身体部位的局部特征;
11.将多个所述局部特征输入至行人身体注意力模块进行训练,生成注意力掩膜;
12.将所述注意力掩膜和所述第一三维特征进行计算处理,得到第二三维特征;
13.将所述第二三维特征输入至二阶信息注意力模块进行计算处理,得到二维矩阵的协方差矩阵;
14.将所述协方差矩阵进行注意力计算得到识别行人结果,所述识别行人结果为二阶矩阵的输出结果。
15.在一实施例中,所述将多个所述局部特征输入至行人身体注意力模块进行训练,生成注意力掩膜的步骤通过数学公式表示为:
[0016][0017]
其中,pavg代表通过位置注意力获得的局部信息,cavg代表通过通道注意力获得
的局部信息,relu为激活函数,a
mask
为注意力掩膜。
[0018]
在一实施例中,所述将所述attention mask和所述第一三维特征进行计算处理,得到第二三维特征的步骤通过数学公式表示为:
[0019][0020]
其中,公式等号右侧的f为第一三维特征,公式等号左侧的f为所述行人身体注意力模块的输出的第二三维特征。
[0021]
在一实施例中,所述将所述第二三维特征输入至二阶信息注意力模块进行计算处理,得到二维矩阵的协方差矩阵的步骤通过数学公式表示为:
[0022][0023]
其中,i表示单位矩阵,f'表示为f的二维矩阵,(f')
t
表示将f'进行转置。
[0024]
在一实施例中,所述将所述协方差矩阵进行attention计算得到识别行人结果,所述识别行人结果为二阶矩阵的输出结果包括:
[0025]
将所述协方差矩阵进行归一化处理,得到归一化处理之后的协方差矩阵a
second

[0026]
将a
second
和f'进行相乘,并进行卷积处理,得到识别行人结果,所述识别行人结果为二阶矩阵的输出结果。
[0027]
在一实施例中,所述将所述协方差矩阵进行归一化处理,得到归一化处理之后的协方差矩阵a
second
的步骤通过数学公式表示为:
[0028]asecond
=softmax(∑)
[0029]
其中,softmax()表示归一化操作函数。
[0030]
在一实施例中,所述将a
second
和f'进行相乘,并进行卷积处理,得到识别行人结果,所述识别行人结果为二阶矩阵的输出结果的步骤通过数学公式表示为:
[0031]
z=a
secondf′
wz[0032]
其中,wz为卷积层的参数。
[0033]
第二方面,本发明实施例提供了一种基于姿态指导的行人重识别方法装置,包括:
[0034]
识别模块,用于对目标行人图像进行人体姿态识别,得到多个身体部位的坐标和置信度;
[0035]
转化模块,用于将所述坐标和所述置信度进行转化处理,得到热图信息;
[0036]
提取模块,用于通过骨干网络对目标行人图像进行提取处理,得到第一三维特征;
[0037]
生成模块,用于将所述热图信息和所述第一三维特征进行计算处理,生成多个身体部位的局部特征;
[0038]
训练模块,用于将多个所述局部特征输入至行人身体注意力模块进行训练,生成注意力掩膜;
[0039]
相乘模块,用于将所述注意力掩膜和所述第一三维特征进行计算处理,得到第二三维特征;
[0040]
计算模块,用于将所述第二三维特征输入至二阶信息注意力模块进行计算处理,得到二维矩阵的协方差矩阵;
[0041]
结果模块,用于将所述协方差矩阵进行注意力计算得到识别行人结果,所述识别行人结果为二阶矩阵的输出结果。
[0042]
在一实施例中,所述将多个所述局部特征输入至行人身体注意力模块进行训练,生成注意力掩膜的步骤通过数学公式表示为:
[0043][0044]
其中,pavg代表通过位置注意力获得的局部信息,cavg代表通过通道注意力获得的局部信息,relu为激活函数,a
mask
为注意力掩膜。
[0045]
在一实施例中,所述将所述注意力掩膜和所述第一三维特征进行计算处理,得到第二三维特征的步骤通过数学公式表示为:
[0046][0047]
其中,公式等号右侧的f为第一三维特征,公式等号左侧的f为所述行人身体注意力模块的输出的第二三维特征。
[0048]
在一实施例中,所述将所述第二三维特征输入至二阶信息注意力模块进行计算处理,得到二维矩阵的协方差矩阵的步骤通过数学公式表示为:
[0049][0050]
其中,i表示单位矩阵,f'表示为f的二维矩阵,(f')
t
表示将f'进行转置。
[0051]
在一实施例中,结果模块还用于将所述协方差矩阵进行归一化处理,得到归一化处理之后的协方差矩阵a
second
;将a
second
和f'进行相乘,并进行卷积处理,得到识别行人结果,所述识别行人结果为二阶矩阵的输出结果。
[0052]
在一实施例中,所述将所述协方差矩阵进行归一化处理,得到归一化处理之后的协方差矩阵a
second
的步骤通过数学公式表示为:
[0053]asecond
=softmax(∑)
[0054]
其中,softmax()表示归一化操作函数。
[0055]
在一实施例中,所述将a
second
和f'进行相乘,并进行卷积处理,得到识别行人结果,所述识别行人结果为二阶矩阵的输出结果的步骤通过数学公式表示为:
[0056]
z=a
secondf′
wz[0057]
其中,wz为卷积层的参数。
[0058]
第三方面,本发明实施例提供了一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的基于姿态指导的行人重识别方法。
[0059]
第四方面,一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行第一方面所述的基于姿态指导的行人重识别方法。
[0060]
本发明实施例包括:基于姿态指导的行人重识别方法包括以下步骤:对目标行人图像进行人体姿态识别,得到多个身体部位的坐标和置信度;将坐标和置信度进行转化处理,得到热图信息;通过骨干网络对目标行人图像进行提取处理,得到第一三维特征;将热图信息和第一三维特征进行计算处理,生成多个身体部位的局部特征;将多个局部特征输入至行人身体注意力模块进行训练,生成注意力掩膜;将注意力掩膜和第一三维特征进行计算处理,得到第二三维特征;将第二三维特征输入至二阶信息注意力模块进行计算处理,得到二维矩阵的协方差矩阵;将协方差矩阵进行注意力计算得到识别行人结果,识别行人结果为二阶矩阵的输出结果。在本实施例的技术方案中,通过行人身体注意力模块确定每
个身体部位,避免遮挡物对于行人识别的影响,并且通过二阶信息模块加强各部分之间的关联程度,由于人体部位之间的关联程度是大于人体和背景的关联程度,并大于人体和遮挡物的关联程度,因此通过二阶信息模块训练能够强调人体的信息表达,从而抑制背景和遮挡物的信息表达。
[0061]
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0062]
图1是本发明一个实施例提供的用于执行基于姿态指导的行人重识别方法的系统架构平台的示意图;
[0063]
图2是本发明一个实施例提供的基于姿态指导的行人重识别方法的流程图;
[0064]
图3是本发明一个实施例提供的基于姿态指导的行人重识别方法中第二次attention计算的流程图;
[0065]
图4是本发明另一个实施例提供的基于姿态指导的行人重识别方法的流程图;
[0066]
图5是本发明一个实施例提供的基于姿态指导的行人重识别装置的示意图。
具体实施方式
[0067]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
[0068]
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
[0069]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0070]
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0071]
目前,行人重识别(person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题,相当于给定一个监控行人图像,然后检索跨设备下的该行人图像,主要用于弥补固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。
[0072]
由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性,外观易受穿着、
尺度、遮挡、姿态和视角等影响,而行人重识别主要应用于机场,车站等人流密集场所,这些场所经常出现行人被其他人或其他物体遮挡的情况下,现有的行人重识别技术难以对行人进行区分。
[0073]
为解决以上存在的问题,本发明实施例提供了一种基于姿态指导的行人重识别方法,该行人重识别方法包括以下步骤:对目标行人图像进行人体姿态识别,得到多个身体部位的坐标和置信度;将坐标和置信度进行转化处理,得到热图信息;通过骨干网络对目标行人图像进行提取处理,得到第一三维特征;将热图信息和第一三维特征进行计算处理,生成多个身体部位的局部特征;将多个局部特征输入至行人身体注意力模块进行训练,生成注意力掩膜;将注意力掩膜和第一三维特征进行计算处理,得到第二三维特征;将第二三维特征输入至二阶信息注意力模块进行计算处理,得到二维矩阵的协方差矩阵;将协方差矩阵进行注意力计算得到识别行人结果,识别行人结果为二阶矩阵的输出结果。在本实施例的技术方案中,通过行人身体注意力模块确定每个身体部位,避免遮挡物对于行人识别的影响,并且通过二阶信息模块加强各部分之间的关联程度,由于人体部位之间的关联程度是大于人体和背景的关联程度,并大于人体和遮挡物的关联程度,因此通过二阶信息模块训练能够强调人体的信息表达,从而抑制背景和遮挡物的信息表达。
[0074]
首先,对本技术中涉及的若干名词进行解释:
[0075]
alphapose采用自顶向下的方法,提出了rmpe(区域多人姿态检测)框架。该框架主要包括symmetric spatial transformer network(sstn)、parametric pose non-maximum-suppression(nms)和pose-guided proposals generator(pgpg)。并且使用symmetric spatial transformer network(sstn)、deep proposalsgenerator(dpg)、parametric pose nonmaximum suppression(p-nms)三个技术来解决野外场景下多人姿态估计问题。在sppe结构上添加sstn,能够在不精准的区域框中提取到高质量的人体区域。并行的sppe分支(sstn)来优化自身网络。使用parametric pose nms来解决冗余检测问题,在该结构中,使用了自创的姿态距离度量方案比较姿态之间的相似度。用数据驱动的方法优化姿态距离参数。最后使用pgpg来强化训练数据,通过学习输出结果中不同姿态的描述信息,来模仿人体区域框的生成过程,进一步产生一个更大的训练集。
[0076]
热图heatmap作为目前最常见的一种可视化手段,热图因其丰富的色彩变化和生动饱满的信息表达被广泛应用于各种大数据分析场景。同时,专用于大数据统计分析、绘图和可视化等场景的r语言,在可视化方面也提供了一系列功能强大、覆盖全面的函数库和工具包。因此,对相关从业者而言,用r语言绘制热图就成了一项最通用的必备技能。绘制热图的软件或方法有很多,如excel、r语言、hemi、python、matlab等,各具特点或优势。excel最简单,界面操作容易上手,不过功能没有可操作性强的r语言、python等强大;r、python、matlab有更多参数可根据需要进行设置,效果优于excel;hemi功能介于excel和r之间。本期就先介绍使用excel实现热图绘制。
[0077]
resnet是残差网络(residual network)的缩写,该系列网络广泛用于目标分类等领域以及作为计算机视觉任务主干经典神经网络的一部分,典型的网络有resnet50,resnet101等。resnet50网络结构,首先对输入做卷积操作,之后包含4个残差块(residualblock),最后进行全连接操作以便于进行分类任务,resnet50网络构成包含50个conv2d操作。
[0078]
softmax函数,softmax用于多分类过程中,将多个输入,映射到(0,1)区间内,可以看成概率来理解,从而来进行多分类。softmax函数用一个自然底数e先拉大了输入值之间的差异,然后使用一个配分将其归一化为一个概率分布。在分类问题中,希望模型分配给正确的类别的概率接近1,其他的概率接近0,如果使用线性的归一化方法,难以达到这种效果,而softmax有一个先拉开差异再归一化的战略,因此在分类问题中存在的优势显著。
[0079]
下面结合附图,对本发明实施例作进一步阐述。
[0080]
如图1所示,图1是本发明一个实施例提供的用于执行基于姿态指导的行人重识别方法的系统架构平台100的示意图。
[0081]
在图1的示例中,该系统架构平台100设置有处理器110和存储器120,其中,处理器110和存储器120可以通过总线或者其他方式连接,图1中以通过总线连接为例。
[0082]
存储器120作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器120可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至该系统架构平台。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0083]
本领域技术人员可以理解的是,该系统架构平台可以应用于5g通信网络系统以及后续演进的移动通信网络系统等,本实施例对此并不作具体限定。
[0084]
本领域技术人员可以理解的是,图1中示出的系统架构平台并不构成对本发明实施例的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0085]
系统架构平台100可以是独立的系统架构平台,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云系统架构平台100。
[0086]
基于上述系统架构平台,下面提出本发明的基于姿态指导的行人重识别方法的各个实施例。
[0087]
如图2所示,图2是本发明一个实施例提供的基于姿态指导的行人重识别方法的流程图,该基于姿态指导的行人重识别方法应用于上述架构平台,并且该基于姿态指导的行人重识别方法包括但不限于有步骤s100、步骤s200、步骤s300、步骤s400、步骤s500、步骤s600、步骤s700和步骤s800。
[0088]
步骤s100,对目标行人图像进行人体姿态识别,得到多个身体部位的坐标和置信度;
[0089]
步骤s200,将坐标和置信度进行转化处理,得到热图信息;
[0090]
步骤s300,通过骨干网络resnet50提取处理,得到第一三维特征;
[0091]
步骤s400,将热图信息和第一三维特征进行相乘处理,生成多个身体部位的局部特征;
[0092]
步骤s500,将多个局部特征输入至行人身体注意力模块进行训练,生成注意力掩膜attention mask;
[0093]
步骤s600,将attention mask和第一三维特征进行相乘处理,得到第二三维特征;
[0094]
步骤s700,将第二三维特征输入至二阶信息注意力模块进行计算处理,得到二维矩阵的协方差矩阵;
[0095]
步骤s800,将协方差矩阵进行attention计算得到识别行人结果,识别行人结果为二阶矩阵的输出结果。
[0096]
在一实施例中,对目标行人图像进行人体姿态识别,得到多个身体部位的坐标和置信度;将坐标和置信度进行转化处理,得到热图信息;通过骨干网络对目标行人图像进行提取处理,得到第一三维特征;将热图信息和第一三维特征进行计算处理,生成多个身体部位的局部特征;将多个局部特征输入至行人身体注意力模块进行训练,生成注意力掩膜;将注意力掩膜和第一三维特征进行计算处理,得到第二三维特征;将第二三维特征输入至二阶信息注意力模块进行计算处理,得到二维矩阵的协方差矩阵;将协方差矩阵进行注意力计算得到识别行人结果,识别行人结果为二阶矩阵的输出结果。在本实施例的技术方案中,通过行人身体注意力模块确定每个身体部位,避免遮挡物对于行人识别的影响,并且通过二阶信息模块加强各部分之间的关联程度,由于人体部位之间的关联程度是大于人体和背景的关联程度,并大于人体和遮挡物的关联程度,因此通过二阶信息模块训练能够强调人体的信息表达,从而抑制背景和遮挡物的信息表达。
[0097]
需要说明的是,目标行人图像可以是一张面对目标人群的图像,可以是面对目标人群的多个角度同一时刻的多个行人图像,也可以是面对目标人群的多个角度相近时刻的多个行人图像,本实施例对其不作具体限定。
[0098]
需要说明的是,可以利用骨干网络resnet50对图像数据进行特征提取得到三维特征,也可以利用其它模型对图像数据中的三维特征进行提取,本实施例对其不作唯一限定。
[0099]
需要说明的是,该网络可以预测出身体各个部位的位置坐标及其置信度,采用高斯模糊可以把坐标及置信度转化为heatmap,本实施例对转化为heatmap的技术不作具体限定。
[0100]
在一实施例中,行人身体注意力模块的计算方法是将身体的每个部位都分别进行通道注意力和位置注意力,然后将这些身体部位生成一张整体的attention mask,利用这个attention mask和最初的骨干网络相乘,获得此部位的输出三维特征。而二阶信息注意力模块接收行人身体注意力模块输出的三维特征,然后通过统计特征值之间的高阶关系来处理三维特征,首先将三维特征二维化,然后计算二维矩阵的协方差矩阵,将协方差矩阵预处理后进行归一化操作,与二维矩阵相乘后再进行一次卷积操作从而完成网络学习得到二阶矩阵的输出结果。即通过行人身体注意力模块确定每个身体部位,避免遮挡物对于行人识别的影响,并且通过二阶信息模块加强各部分之间的关联程度,由于人体部位之间的关联程度是大于人体和背景的关联程度,并大于人体和遮挡物的关联程度,因此通过二阶信息模块训练能够强调人体的信息表达,从而抑制背景和遮挡物的信息表达。
[0101]
参照图3,在一实施例中,步骤s800包括但不限于步骤s310和步骤s320。
[0102]
步骤s310,将协方差矩阵进行归一化处理,得到归一化处理之后的协方差矩阵a
second

[0103]
步骤s320,将a
second
和f'进行相乘,并进行卷积处理,得到识别行人结果,识别行人结果为二阶矩阵的输出结果。
[0104]
具体地,通过行人身体注意力模块之后,将输出结果送入二阶信息注意力模块中,二阶信息注意力模块是通过统计特征值之间的高阶关系来处理信息。首先二阶信息注意力模块将三维特征二维化,然后计算二维矩阵的协方差矩阵,对协方差矩阵进行归一化处理得到a
second
,然后将a
second
进行第二次attention计算,即将归一化处理的协方差矩阵a
second
和二维矩阵f'相乘之后再进行一次卷积处理,得到二阶矩阵的输出结果。
[0105]
如图4所示,图4是本发明的另一个实施例提供的基于姿态指导的行人重识别方法的流程图,从图中可以看出,本实施例用于实现行人重识别方法的计算模块主要包括行人身体注意力模块和二阶信息注意力模块。对于一张输入的行人图片的预处理步骤包括:在第一条线,首先通过姿态提取alpha pose,得到n个身体部位的坐标和置信度,然后将坐标和置信度转化为heatmap。在第二条线,通过骨干网络resnet50提取图片中的第一三维特征。然后两条线路的信息提取后,将heatmap和第一三维特征这两个信息进行相乘处理,获得n个身体部位的局部特征feature。
[0106]
获得局部特征feature后,将局部特征feature输入至行人身体注意力模块进行处理。在行人身体注意力模块中,首先将身体的每个部位的局部特征feature分别进行通道注意力和位置注意力处理,然后将这些身体部位生成一张整体的attention mask,利用这个attention mask和最初的骨干网络相乘,获得此部位的输出。公式表示为:
[0107][0108]
其中,pavg代表通过位置注意力获得的局部信息,cavg代表通过通道注意力获得的局部信息,pavg和cavg两个信息相乘之后,通过一个卷积层(其中wa代表卷积层的参数,wa为通过学习获得的参数),再经过一个激活函数relu(),得到注意力掩膜amask(attention mask)。
[0109][0110]
将amask与骨干网络的输出第一三维特征f相乘,获得新的第二三维特征f,第二三维特征f是整个行人身体注意力模块的输出。
[0111]
通过行人身体注意力模块之后,将输出结果第二三维特征f送入二阶信息注意力模块中,通过统计特征值之间的高阶关系对信息进行处理。
[0112]
首先将第一三维特征f进行二维化处理得到二维矩阵f',然后计算二维矩阵f'的协方差矩阵。公式如下:
[0113][0114]
i代表单位矩阵,(f')
t
表示将目标矩阵进行一个转置,计算结果为目标矩阵f'的协方差矩阵(covariance matrix),对协方差矩阵进行归一化操作,然后再进行第二次attention计算:
[0115]asecond
=softmax(∑)
[0116]
z=a
secondf′
wz[0117]
公式中softmax()表示归一化操作函数得到a
second
,将a
second
和f'相乘之后再进行一次卷积操作(其中卷积层的参数为wz,wz为通过网络学习获得的参数),得到二阶矩阵的输出结果z。
[0118]
通过行人身体注意力模块确定每个身体部位,避免遮挡物对于行人识别的影响,
并且通过二阶信息模块加强各部分之间的关联程度,由于人体部位之间的关联程度是大于人体和背景的关联程度,并大于人体和遮挡物的关联程度,因此通过二阶信息模块训练能够强调人体的信息表达,从而抑制背景和遮挡物的信息表达。
[0119]
基于上述基于姿态指导的行人重识别方法,下面分别提出本发明的基于姿态指导的行人重识别方法装置、控制器和计算机可读存储介质的各个实施例。
[0120]
参照图5,本发明的一个实施例还提供了基于姿态指导的行人重识别装置,包括:
[0121]
识别模块510,用于对目标行人图像进行人体姿态识别,得到多个身体部位的坐标和置信度;
[0122]
转化模块520,用于将坐标和置信度进行转化处理,得到热图信息;
[0123]
提取模块530,用于通过骨干网络对目标行人图像进行提取处理,得到第一三维特征;
[0124]
生成模块540,用于将热图信息和第一三维特征进行相乘处理,生成多个身体部位的局部特征;
[0125]
训练模块550,用于将多个所述局部特征输入至行人身体注意力模块进行训练,生成注意力掩膜;
[0126]
相乘模块560,用于将所述注意力掩膜和所述第一三维特征进行计算处理,得到第二三维特征;
[0127]
计算模块570,用于将第二三维特征输入至二阶信息注意力模块进行计算处理,得到二维矩阵的协方差矩阵;
[0128]
结果模块580,用于将所述协方差矩阵进行注意力计算得到识别行人结果,所述识别行人结果为二阶矩阵的输出结果。
[0129]
在一实施例中,将多个局部特征输入至行人身体注意力模块进行训练,生成注意力掩膜attention mask的步骤通过数学公式表示为:
[0130][0131]
其中,pavg代表通过位置注意力获得的局部信息,cavg代表通过通道注意力获得的局部信息,relu为激活函数,a
mask
为attention mask。
[0132]
在一实施例中,将attention mask和第一三维特征进行相乘处理,得到第二三维特征的步骤通过数学公式表示为:
[0133][0134]
其中,公式等号右侧的f为第一三维特征,公式等号左侧的f为行人身体注意力模块的输出的第二三维特征。
[0135]
在一实施例中,将第二三维特征输入至二阶信息注意力模块进行计算处理,得到二维矩阵的协方差矩阵的步骤通过数学公式表示为:
[0136][0137]
其中,i表示单位矩阵,f'表示为f的二维矩阵,(f')
t
表示将f'进行转置。
[0138]
在一实施例中,结果模块800还用于将协方差矩阵进行归一化处理,得到归一化处理之后的协方差矩阵a
second
;将a
second
和f'进行相乘,并进行卷积处理,得到识别行人结果,识别行人结果为二阶矩阵的输出结果。
[0139]
在一实施例中,将协方差矩阵进行归一化处理,得到归一化处理之后的协方差矩阵a
second
的步骤通过数学公式表示为:
[0140]asecond
=softmax(∑)
[0141]
其中,softmax()表示归一化操作函数。
[0142]
在一实施例中,将a
second
和f'进行相乘,并进行卷积处理,得到识别行人结果,识别行人结果为二阶矩阵的输出结果的步骤通过数学公式表示为:
[0143]
z=a
secondf′
wz[0144]
其中,wz为卷积层的参数。
[0145]
需要说明的是,上述基于姿态指导的行人重识别装置的各个实施例与基于姿态指导的行人重识别方法的实施例中所使用的技术手段、解决的技术问题以及达到的技术效果一致,此处不作具体赘述,详见基于姿态指导的行人重识别方法的实施例。
[0146]
另外,本发明的一个实施例提供了一种计算机设备,该计算机设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。
[0147]
处理器和存储器可以通过总线或者其他方式连接。
[0148]
需要说明的是,本实施例中的计算机设备,可以对应为包括有如图1所示实施例中的存储器和处理器,能够构成图1所示实施例中的系统架构平台的一部分,两者属于相同的发明构思,因此两者具有相同的实现原理以及有益效果,此处不再详述。
[0149]
实现上述实施例的设备侧的基于姿态指导的行人重识别方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例的基于姿态指导的行人重识别方法,例如,执行以上描述的图2中的方法步骤s100至s800、图3中的方法步骤s310至s320。
[0150]
设备可以是计算机设备,计算机设备包括:射频(radio frequency,简称rf)电路、存储器、输入单元、显示单元、传感器、音频电路、无线保真(wireless fidelity,简称wifi)模块、处理器、以及电源等部件。本领域技术人员可以理解,本实施例不对计算机设备的结构进行唯一限定,可以包括比本实施例更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0151]
rf电路可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器处理;另外,将设计上行的数据发送给基站。通常,rf电路包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier,简称lna)、双工器等。此外,rf电路还可以通过无线通信与网络和其他装置通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(global system of mobile communication,简称gsm)、通用分组无线服务(general packet radio service,简称gprs)、码分多址(code division multiple access,简称cdma)、宽带码分多址(wideband code division multiple access,简称wcdma)、长期演进(long term evolution,简称lte)、电子邮件、短消息服务(short messaging service,简称sms)等。
[0152]
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行计算机设备的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的
数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0153]
输入单元可用于接收输入的数字或字符信息,以及产生与计算机设备的设置以及功能控制有关的键信号输入。具体地,输入单元可包括触控面板以及其他输入装置。触控面板,也称为触摸屏,可收集在其上或附近的触摸操作(比如使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器,并能接收处理器发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类别实现触控面板。除了触控面板,输入单元还可以包括其他输入装置。具体地,其他输入装置可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0154]
显示单元可用于显示输入的信息或提供的信息以及计算机设备的各种菜单。显示单元可包括显示面板,可选的,可以采用液晶显示器(liquid crystaldisplay,简称lcd)、有机发光二极管(organic light-emitting diode,简称oled)等形式来配置显示面板。进一步的,触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器以确定触摸事件的类别,随后处理器根据触摸事件的类别在显示面板上提供相应的视觉输出。虽然触控面板与显示面板是作为两个独立的部件来实现计算机设备的输入和输入功能,但是在某些实施例中,可以将触控面板与显示面板集成而实现计算机设备的输入和输出功能。
[0155]
计算机设备还可包括至少一种传感器,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在计算机设备移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别计算机设备姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于计算机设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
[0156]
音频电路、扬声器、传声器可提供音频接口。音频电路可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路接收后转换为音频数据,再将音频数据输出处理器处理后,经rf电路以发送给比如另一计算机设备,或者将音频数据输出至存储器以便进一步处理。
[0157]
wifi属于短距离无线传输技术,计算机设备通过wifi模块可以收发电子邮件、浏览网页和访问流式媒体等,它提供了无线的宽带互联网访问。wifi模块并不属于计算机设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
[0158]
处理器是计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内
的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器可包括一个或多个处理单元;优选的,处理器可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、操作界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器中。
[0159]
计算机设备还包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理系统与处理器逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0160]
尽管未示出,计算机设备还可以包括摄像头、蓝牙模块等,在此不再赘述。
[0161]
在本实施例中,该终端装置所包括的处理器能够执行前面实施例的行人重识别方法。
[0162]
此外,本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,当计算机可执行指令用于执行上述终端侧的基于姿态指导的行人重识别方法,例如,执行以上描述的图2中的方法步骤s100至s800、图3中的方法步骤s310至s320。
[0163]
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0164]
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1