一种基于骨架时空联合特征交互增强的跨视角步态识别方法

文档序号:39020029发布日期:2024-08-16 15:46阅读:19来源:国知局
一种基于骨架时空联合特征交互增强的跨视角步态识别方法

本发明涉及一种基于骨架时空联合特征交互增强的跨视角步态识别方法,属于深度学习和模式识别。


背景技术:

1、步态识别技术通过分析个体的行走动作特性来识别身份,与成熟的生物识别技术如面部和指纹识别相比,它具备多种优势。例如,它能够利用现有的监控系统进行远距离识别,无需额外设备或被识别者的配合,并且难以被伪装。这些特性使得步态识别在多个领域,包括安全监控和日常考勤中,展现出广泛的应用潜力。然而,步态识别也面临着由于采集环境自由度高而引入的挑战,如视角、服饰和携带物品等因素的干扰。其中视角变化会显著影响识别准确性,因为不同视角下同一人的步态差异往往会超过同一视角下不同人之间的差异。因此,跨视角步态识别的研究对于步态识别技术的实际应用至关重要。

2、跨视角步态识别的方法主要分为两种:基于模型和基于外观。基于外观的方法通常使用行人的轮廓图像作为输入,关注步态的视觉特征。轮廓图像是通过检测、分割、裁剪和二值化处理原始视频得到的。这些方法根据是否在特征提取前对轮廓进行时间压缩,又可分为基于模板和基于轮廓集合的方法。基于模板的方法通过整合轮廓图像到单一图像中来简化模型和计算,但这样会丢失时间信息。而基于轮廓集合的方法则保留了轮廓帧的时间信息,在特征空间中处理这些信息。

3、基于模型的方法则着重于分析人体的物理结构和运动,构建明确的人体模型。骨架序列是一种常用的模型,它通过估计视频中的人体关键点坐标来表示步态,这种紧凑的数据格式对视角和其他变量具有较强的鲁棒性。liao等人使用openpose估计骨架坐标,同时结合三种基于先验知识的人工特征,整合每帧特征向量形成特征矩阵,然后输入cnn中进行识别。rao等人则提出了一种自监督步态编码方法,通过使用基于lstm自编码器重建骨架序列来学习步态表示。与常用的帧级时间特征提取不同,rashmi等人将一个步态骨架周期细分为从最初接触到最后摆动的8个事件,并通过lstm从步态事件中提取特征。以上方法往往借助于中间向量处理骨架这种非欧几里得空间的图结构数据,图卷积网络(gcn)的发展使得直接从骨架序列中提取步态特征成为可能。许多基于骨架的跨视角步态识别方法利用时空图卷积网络(st-gcn)从骨架中提取步态特征,时空图卷积网络由用于聚合帧内相邻关键点间特征的空间图卷积和用于建模序列时间特征的一维时间卷积组成。teepe等人提出的gaitgraph采用了一种resgcn结构,在st-gcn块中添加了残差连接,并使用瓶颈层来减少特征大小。他们在gaitgraph2中添加了包含速度和骨骼信息的多分支输入,进一步提高了模型性能。wang等人则提出了一种帧级细化网络ftr-gc,以自适应地学习不同帧中的特定拓扑结构,并通过自注意力捕捉帧间的长程依赖关系。

4、然而,以上方法仍存在一些问题需要解决:首先,骨架的时间和空间特征是通过不同的方式分别提取的,这忽略了人体关键点间的时空相关性,即不同帧的不同关键点间的联系。在步行过程中,短程连续帧中不同关键点间的相关性是十分重要的。例如在抬腿时,上一帧膝关节的运动会带动下一帧踝关节的运动。忽略这种相关性会削弱模型的表示能力。其次,在使用多分支网络结构的模型中,不同分支是相互独立的,并且只使用每个分支最后一层的输出特征来进行识别。这在一方面会造成不同分支特征间互动不足,导致模型无法利用不同特征的融合信息;另一方面网络多层级的特征也没有得到充分利用,浅层网络中丰富的局部信息会随着网络的加深而丢失。最后,在对局部空间特征进行提取时,身体部位需要根据关键点语义人工划分,因此对于不同的关键点形式需要设计不同的划分策略,这不仅费时费力,而且不利于模型推广。

5、因此,如何提取到具有视角不变性的骨架步态特征,高效利用步态骨架中的长程全局时空特征和短程时空相关性信息,是提高基于骨架的跨视角步态识别准确率的关键。


技术实现思路

1、针对现有技术的不足,本发明提供一种基于骨架时空联合特征交互增强的跨视角步态识别方法。

2、发明概述:

3、一种基于骨架时空联合特征交互增强的跨视角步态识别方法,包括骨架数据预处理、全局时空特征提取网络构建、微时空联合特征提取网络构建、分层特征交互增强融合模块构建、整体框架训练及跨视角步态识别。

4、为了获得丰富的步态骨架表示,设计了骨架数据预处理模块。为了建模关键点间的全局空间关系和长程时间关系,设计了基于多头自注意力图卷积的全局时空特征提取网络。为了建模关键点间的局部短程时空依赖,构建基于时空联合图卷积的微时空联合特征提取网络。为了加强两种网络提取的特征间的交互,设计了分层特征交互增强融合模块,使两种网络不同层级的特征相互增强、充分融合。为了提高整个框架结构的判别能力,采用三元组损失对整个模型进行训练。最终利用训练好的模型进行跨视角步态识别。

5、本发明的技术方案如下:

6、一种基于多尺度骨架时空特征提取的跨视角步态识别方法,包括步骤如下:

7、a、骨架数据预处理

8、对步态骨架序列数据进行预处理,包括骨架数据增强、骨架描述符计算;

9、b、全局时空特征提取网络构建

10、全局时空特征提取网络用于提取关键点间的全局空间关系和长程时间关系,全局时空特征包括全局空间关系和长程时间关系;对于经步骤a预处理后得到的骨架序列数据,计算自注意力邻接矩阵用于提取全局空间关系,然后通过大核时间卷积建模长程时间关系;

11、c、微时空联合特征提取网络构建

12、微时空联合特征提取网络用于建模关键点间的短程时空依赖即微时空联合特征;对于经步骤a预处理后得到的骨架序列数据,将几帧骨架图聚合为一个时空图,通过时空联合图卷积捕捉关键点间微小的短程动态特征;

13、d、分层特征交互增强融合模块构建

14、分层特征交互增强融合模块用于融合全局时空特征提取网络和微时空联合特征提取网络提取的不同特征;对于经步骤b和步骤c得到的不同层级的全局时空特征和微时空联合特征,分别按通道维拼接,通过两组通道维度调整网络和多维度注意力增强融合模块对全局时空特征和微时空联合特征进行充分融合;

15、e、整体框架训练

16、整体框架包括全局时空特征提取网络、微时空联合特征提取网络和分层特征交互增强融合模块,全局时空特征提取网络堆叠提取全局时空特征后,经过输出层作为最后的全局时空特征;微时空联合特征提取网络堆叠提取微时空联合特征后,经过输出层作为最后的微时空联合特征;分层特征交互增强融合模块对全局时空特征和微时空联合特征进行充分融合,经过输出层作为最后的融合特征;

17、独立计算全局时空特征提取网络、微时空联合特征提取网络和分层特征交互增强融合模块的三元组损失,并使用全局时空特征提取网络、微时空联合特征提取网络和分层特征交互增强融合模块的损失的平均值来监督整体框架的训练过程;

18、f、跨视角步态识别

19、将注册集和查询集的步态骨架序列送入训练好的整体框架,通过比较查询样本特征与注册样本特征的相似度,实现身份的确认。

20、根据本发明优选的,步骤a中,对步态骨架序列数据即t帧人体骨架图组成的序列进行预处理,包括步骤如下:

21、a、骨架数据增强;向每个关节点坐标中添加高斯噪声,并对骨架进行左右翻转;

22、b、骨架描述符计算;对步骤a增强后的骨架图序列,计算与关节位置、运动速度和骨骼相关的三类骨架描述符,并将三类骨架描述符结合起来,形成骨架步态表示。

23、进一步优选的,对步骤a增强后的骨架图序列,计算与关节位置、运动速度和骨骼相关的三类骨架描述符,并将三类骨架描述符结合起来,形成骨架步态表示;包括:

24、人体骨架图包括节点集和边集ε,表示为其中,节点集包括n个表示人体关键点的节点;边集ε包括表示关键点间连接的边,采用邻接矩阵表示,如果vi和vj间存在连接,ai,j=1,否则ai,j=0;骨架描述符的计算以t帧人体骨架图组成的序列为输入,其节点特征集合用张量表示为其中,xt,n是t帧人体骨架图中t时刻关键点vn的c维特征向量,在原始数据中是关键点的坐标;通过x和a表示骨架序列;

25、相对关键点位置集其对应张量表示为其中rt,n由下式计算:

26、rt,n=xt,n-xt,*   (1)

27、其中,xt,*是中心关键点的坐标;

28、运动速度由相同关键点在不同帧的坐标做差得到,计算慢速运动和快速运动两种描述符,分别用张量为表示,其中:

29、

30、

31、xt+1,n、xt+3,n分别是人体骨架图序列中t+1和t+2时刻关键点vn的c维特征向量;

32、对于骨骼,计算骨骼长度和骨骼角度两种描述符;骨骼长度用关键点xt,n和与其相连接的关键点xt,adj的坐标之差来表示,骨骼长度集其对应张量表示为bt,n由下式计算:

33、bt,n=xt,n-xt,adj   (4)

34、骨骼角度集其对应张量表示为et,n,c由下式计算:

35、

36、其中,‖·‖表示向量的模;

37、最后,将三类描述符对应的张量表示x,xr,xs,xf,xb,xe按通道维拼接,得到丰富特征后的骨架步态表示fin:

38、fin=concat(x,xr,xs,xf,xb,xe)   (6)

39、其中,cin=6c,concat(·)表示按通道维拼接。

40、根据本发明优选的,步骤b中,全局时空特征提取网络构建,包括:

41、全局时空特征提取网络包括全局空间特征提取网络及长程时间特征提取网络;

42、c、全局空间特征提取网络构建;对于输入全局空间特征提取网络的第l层的输入特征ct表示输入特征的通道维数,首先将经过两个独立的线性层,然后进行矩阵间相乘,再经过归一化和softmax函数后,得到自注意力邻接矩阵

43、

44、其中,是线性层可学习的参数矩阵,ck表示线性层输出张量的通道维数;

45、计算h头自注意力

46、在得到自注意力邻接矩阵后,进行图卷积运算:

47、

48、其中,是全局空间特征提取网络的输出,cl+1表示全局空间特征提取网络输出特征的通道维数;σ(·)是mish激活函数;是可学习的参数矩阵;

49、d、长程时间特征提取网络构建;对步骤c全局空间特征提取网络的输出特征通过卷积核大小为9×1的时间卷积提取时间特征:

50、

51、其中,是全局时空特征提取网络最终的输出特征,tcn(·)是时间卷积。

52、根据本发明优选的,步骤c中,微时空联合特征提取网络构建,包括:

53、e、微时空子图构建;对于由t帧骨架图组成的人体骨架图序列首先在人体骨架图序列设置一个大小为τ的时间滑动窗口;时间滑动窗口在人体骨架图序列上以步长为1滑动,每滑动一步,都产生一个微时空子图,t时刻的微时空子图其中是窗口中τ帧骨架图的节点组成的节点集,其节点特征用张量表示为时空边用时空邻接矩阵表示,ast是由τ2个邻接矩阵组成的分块矩阵:

54、

55、其中,a是原始邻接矩阵,i是单位矩阵,i,j=0,1,…,τ-1;时空邻接矩阵将帧内关键点间的连接关系推广到时域,每个关键点都与时间滑动窗口内所有帧中的相同关键点以及其空间邻居关键点相连;

56、对骨架图其第k跳邻接矩阵表示为:

57、

58、其中,是邻接矩阵第i行第j列的元素,d(vi,vj)表示骨架图中关键点vi和vj间的最短路径长度;显然,相应的,得到第k跳时空邻接矩阵

59、

60、f、时空联合图卷积运算;在步骤e定义节点特征和k跳时空邻接矩阵后,在t时刻滑动窗口内进行时空联合图卷积运算:

61、

62、其中,中的元素是中的元素;分别为第l层微时空联合特征提取网络中时空联合图卷积运算的输入和输出特征,为可学习的参数矩阵;σ(·)为mish激活函数;初始化为0,通过与邻接矩阵相加,动态地加强和削弱任意连接;δc是δ中的元素;

63、g、窗口维度压缩;将t组滑动窗口中时空联合图卷积运算得到的输出特征拼接,得到输出的时空统一特征将其输入一个三维卷积对时间窗口进行压缩:

64、

65、其中,reshape1(·)将特征维度由t×τn×cl变换为cl×t×τ×n,conv3d(·)是三维卷积,其卷积核大小为1×τ×1,输出特征维度为cl+1×t×1×n;reshape2(·)将特征维度由cl+1×t×1×n变换为t×n×cl+1,进而得到第l层微时空联合特征提取网络最终的输出特征

66、根据本发明优选的,步骤d中,分层特征交互增强融合模块构建,包括步骤如下:

67、h、多层级特征通道维调整;对于全局时空特征提取网络的中间层特征和微时空联合特征提取网络的中间层特征分别将其按通道维连接,输入各自的通道维度调整网络,得到输出特征ffs1和ffs2:

68、

69、

70、ffs1=cdan1(fg_inner)   (18)

71、ffs2=cdan3(fm_inner)   (19)

72、其中,cinner为中间层特征通道数之和;为全局时空特征提取网络和微时空联合特征提取网络的通道维度调整网络的输出特征,cfs为转换后的特征通道数,与全局时空特征提取网络和微时空联合特征提取网络最后一层的输出通道数保持一致;concat(·)表示按通道维拼接;cdan1(·)和cdan2(·)分别全局时空特征提取网络和微时空联合特征提取网络的通道维度调整网络;对全局时空特征提取网络的中间层特征,使用微时空联合特征提取网络作为其通道维度调整网络cdan1(·);相应的,对于微时空联合特征提取网络的中间层特征,使用全局时空特征提取网络作为其通道维度调整网络cdan2(·);

73、i、多维度注意力增强融合模块构建;对于步骤h的输出特征ffs1和ffs2,多维度注意力增强融合模块用一种输入特征的时间、空间和通道维度信息增强另一种输入特征;多维度注意力增强融合模块包括三个并行的注意力分支,分别从时间、空间和通道维度提炼有效信息并生成注意力向量;以ffs1作为源特征、ffs2作为待增强的目标特征,对于源特征时间维度注意力权重αt通过以下方式计算:

74、αt=reshape2(sigmoid(conv1d(avgpools(reshape1(ffs1)))))   (20)

75、其中,reshape1(·)将特征维度由t×n×cfs转换为cfs×t×n,avgpools(·)是空间维度的平均池化函数,conv1d(·)是卷积核大小为τa的一维卷积,用于扩大时间感受野,sigmoid(·)是sigmoid激活函数;reshape2(·)将特征维度由1×t转换为t×1×1;

76、空间维度的注意力权重αs通过以下方式计算:

77、αs=reshape(sigmoid(avgpoolt(ffs1)ws))   (21)

78、其中,avgpoolt(·)是时间维度的平均池化函数,是全连接层可学习的参数矩阵,reshape(·)将特征维度由n×1变换为1×n×1;

79、通道维度的注意力权重αc通过以下方式计算:

80、αs=reshape(sigmoid(σ((avgpoolst(ffs1)wc1))wc2))   (22)

81、其中,avgpoolst(·)是时间和空间维度的平均池化函数,是两个全连接层可学习的参数矩阵,r是维度缩减因子,用于减小参数量;σ(·)是mish激活函数,reshape(·)将特征维度由1×cfs变换为1×1×cfs;

82、将时间、空间和通道维度的注意力权重进行逐元素相乘,通过广播机制得到最终的多维度注意力张量wmd:

83、wmd=sigmoid(αt⊙αs⊙αc)   (23)

84、其中,⊙表示逐元素相乘,多维度注意力张量wmd用于增强目标特征ffs2:

85、fen1=ffs2⊙wmd+ffs2   (24)

86、其中,为ffs1增强后的输出特征;

87、将ffs2作为源特征、ffs1作为待增强的目标特征,得到ffs2增强后的输出特征

88、根据本发明优选的,所述步骤e,整体框架训练,包括步骤如下:

89、j、全局时空特征提取网络和微时空联合特征提取网络最后一层特征提取网络的输出特征和分层特征交互增强融合模块的输出特征其中,cl=cfs,为输出特征的通道数;将fen1、fen2分别输入四个独立且结构相同的输出层,输出层包括时间池化层、空间池化层和全连接层;对于池化过程用公式表示为:

90、

91、

92、其中,分别表示经时间池化层和空间池化层的输出特征;maxpoolt(·)表示时间维度的最大池化;maxpools(·)和avgpools(·)分别表示空间维度的最大和平均池化;将通过一个全连接层,得到全局时空特征提取网络最终的输出特征

93、

94、其中,cout为输出特征的通道数,fc(·)表示全连接层;

95、得到微时空联合特征提取网络和分层特征交互增强融合模块最终的输出特征和

96、将输出特征和拼接作为整体框架最终的输出特征fout:

97、

98、其中,

99、进一步优选的,采用三元组损失对整体框架进行训练,独立计算每个输出特征的三元组损失,全局时空特征提取网络的三元组损失的计算方式如下公式表示:

100、

101、其中,ntri表示在一个批次中能构成的三元组的总数,为该批次中第i个三元组全局时空特征提取网络的锚样本步态特征,为与锚样本身份相同的正样本步态特征,为与锚样本身份不同的负样本步态特征,d(·)表示欧氏距离度量,m表示三元组损失的余量;

102、得到微时空联合特征提取网络和分层特征交互增强融合模块的损失函数和

103、使用所有损失的平均值作为最终损失来监督模型的训练过程:

104、

105、根据本发明优选的,所述步骤f,跨视角步态识别,包括:

106、k、将注册集送入训练好的整体框架中,将步骤j中最终的输出特征fout作为每个步态骨架序列的特征表示,用每个步态骨架序列的特征表示构建注册集的特征数据库;

107、l、将待识别的查询样本预处理后送入训练好的整体框架中,得到查询样本特征;将查询样本特征与注册集的特征数据库中的所有特征进行欧氏距离计算,最终将查询样本的身份识别为与其特征欧氏距离最小的注册集数据库中特征的标签,通过输出查询样本的身份标签,完成跨视角步态识别过程。

108、本发明的有益效果为:

109、1、本发明所涉及的全局时空特征提取网络,将基于自注意力邻接矩阵的图卷积与大核时间卷积相结合,动态建模关键点间的全局空间关系和长程时间关系。

110、2、本发明所涉及的微时空联合特征提取网络,将几帧骨架图聚合为一个时空图,通过时空联合图卷积捕捉关键点间微小的短程动态特征。

111、3、本发明所涉及的分层特征交互增强融合模块,将两种网络多层级的特征分别提取出来,形成单独的融合分支,使两分支维度相同、包含信息不同的特征相互增强,在归纳出信息量更大的互补特征的同时避免了对原始分支的负面影响。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1