一种基于尺度特征和层级特征融合的人体姿态估计方法

文档序号:37346121发布日期:2024-03-18 18:21阅读:13来源:国知局
一种基于尺度特征和层级特征融合的人体姿态估计方法

本发明涉及计算机视觉中基于深度学习的人体姿态估计,具体涉及一种基于尺度特征和层级特征融合的人体姿态估计方法。


背景技术:

1、二维人体姿态估计从图像或视频中准确地构建人体姿势,进而实现诸如人机交互、运动分析、智能监控等应用。由于图像或视频中的人体姿态复杂多样,且易出现互相遮挡和重叠等特殊情形,因此,准确地捕捉和描述人体姿态成为一项具有挑战性的任务。基于深度学习的人体姿态估计方法凭借其卓越的表达能力和优异的检测性能成为当前的主流方法。

2、基于深度学习的人体姿态估计方法根据检测流程可分为自顶向下和自底向上两种,其中自顶向下方法的检测流程为先采用目标检测算法识别出每个人的边界框,然后对每个边界框中的单个人进行姿态估计,自底向上方法首先将图像中的所有关键点检测出来,再利用匹配算法来确定不同人体的关键点关联。自顶向上方法的检测速度略低于自底向上方法,但检测精度凭借先进的目标检测算法远高于自底向上方法,因此自顶向上方法仍是目前常用的人体姿态估计算法范式。在人体姿态估计精度提升方面,常用的策略是采用特征融合增强特征表示能力使网络能够学习到更加丰富的特征表示,常见的特征融合网络有串行跳跃连接结构和并行多分支结构,其代表性网络分别为级联金字塔网络(cascadepyramid network,cpn)和高分辨率网络(high-resolution network,hrnet)。cpn网络使用特征金字塔结构融合不同层级的特征来获取更丰富的特征表示,进而提高姿态估计的精确性;hrnet网络在不同阶段使用重复的多尺度特征融合,以保持高分辨率的同时丰富多尺度信息的表示能力。但是以cpn和hrnet为代表性的研究工作仍存在一些缺陷。cpn采用级联结构逐层学习和优化特征,并通过融合不同层级的特征来提高特征的丰富性和判别性,但通过上下采样来获取和恢复特征信息会引起特征丢失问题;hrnet采用并联结构将多个尺度的特征通过并行融合和逐级融合的方式进行整合,更加关注于保持高分辨率特征的表示和多尺度特征之间的交互,但在多层级特征的挖掘和利用方面存在不足。


技术实现思路

1、为了克服以上技术问题,本发明的目的在于提供一种基于尺度特征和层级特征融合的人体姿态估计方法,该方法能够更全面地从细节到整体地捕捉人体的姿态信息,从而提高复杂情形下的人体姿态估计准确性。

2、为了实现上述目的,本发明采用的技术方案是:

3、一种基于尺度特征和层级特征融合的人体姿态估计方法,包括以下步骤;

4、步骤一,对输入图像采用高分辨率网络进行初步特征提取,获取多尺度融合后的不同层级特征;

5、步骤二,通过期望最大化注意力与加权双向特征金字塔网络组合模块对所述不同层级特征进行多层级特征提纯与聚合,得到输出特征;

6、步骤三,通过基于残差结构的关键点检测头完成输出特征的最终融合,得到人体不同关键点的热力图;

7、步骤四,将人体关键点热图进行坐标解码,得到对应关节的位置坐标,进行人体姿态估计。

8、步骤一中,所述高分辨率网络包括四个阶段,第一阶段包括一个高分辨率分支,用于处理输入图像的高分辨率特征;

9、第二、三、四阶段是并行的多分辨率分支,每个阶段都递进增加一个低分辨率分支,并且各个分支之间的特征相互交融。

10、所述第一阶段由两个步距分别为2和1的3×3卷积、及三个堆叠的瓶颈层组成,使用一个步距为2和一个步距为1的3×3卷积将图像分辨率降低为输入的1/2,通道数变为64,随后叠加三个瓶颈结构对图像进行初步特征提取,分辨率保持输入时的1/2,通道数变为256;

11、第二、三、四阶段逐阶段通过下采样递进增加一个低分辨率分支,多个分辨率并行处理,且每个分支由堆叠的四个模块堆叠而成,在阶段与阶段之间不同分支的特征进行交互,使高分辨率特征不仅在空间位置上是精准的,并且包含更多的语义信息。

12、所述步骤二,具体包括:

13、步骤2.1:选取阶段二、三、四中多尺度相互交融后的最低分辨率特征作为待融合的多个层级特征;

14、步骤2.2:设计期望最大化注意力机制由期望最大化算法和注意力机制组成,首尾各存在一个1×1的卷积,使模型聚焦于多个层级特征中与关键点相关的特征信息,忽略不相关的信息,以实现特征的提纯;

15、步骤2.3:经由步骤2.2的特征提纯后,使用加权双向特征金字塔网络来融合多个层级的特征信息,通过引入一组可学习的权重学习不同层级特征对输出特征的贡献程度实现特征之间的加权融合,并通过自上而下和自下而上两条路径将高层特征和低层特征相互传递以增强特征融合能力。

16、所述步骤2.2,具体包括:

17、步骤2.2.1:假定输入不同层级特征作为特征图(hr-stage i与ema-bifpn block之间的红色特征图,即步骤一中所提到的使用高分辨率网络进行初步特征提取后获取的多尺度融合后的不同层级特征)为x∈rn×c,基初始值为μ∈rk×c,ae估计隐变量z∈rn×c,即每个基对像素的权责,具体地,第k个基对第n个像素的权责计算为:

18、

19、其中,内核k(a,b)采用z(t)=softmax(λx(μ(t-1))t)实现,λ作为超参数控制z的分布;

20、步骤2.2.2:得到估计后的z,am通过最大化概率值更新μ,为了保证μ和x在同一表征空间内,μ被计算作x的加权平均,因此μk被更新为:

21、

22、ae和am交替执行t步,近似收敛后的μ和z被用来对x重新估计得到重新估计后得到的相对于x来说具有低秩的特性,可以在保持类别之间差异性的同时,缩小类别内部的差异,进而达到提纯特征的目的;

23、步骤2.2.3:在迭代之后,使用1×1卷积将估计得到的映射到x的残差空间中,随后使用batchnorm将数据归一化,得到经由期望最大化注意力机制处理后的特征图。

24、所述步骤2.3,具体包括:

25、步骤2.3.1:将处理后的特征图作为输入特征(ema-unit与sconv之间的特征传递)中的低分辨率特征通过两次下采样得到两个不同尺度特征,得到五个不同分辨率的特征;

26、经过hrnet的stage2、3、4会输出三个不同层级的特征图作为,ema-bifpn的输入特征,三个特征分别通过ema-unit进行特征提纯后输入至bifpn中,输入分辨率和通道分别为64×48×64、32×24×128、16×12×256,通过最低分辨率16×12经过两次棕色箭头所示的下采样操作,获得8×6和4×3的两个不同分辨率特征,与上面三个输入特征一同共有五个分辨率的特征。

27、步骤2.3.2:通过快速归一化方法学习各个特征的重要程度,而后将学习到的重要程度作为特征融合权重;

28、步骤2.3.3:对每个特征分别通过自上而下和自下而上的双向路径反复进行加权融合,实现更高级的多层级特征融合。

29、所述步骤三中,所述基于残差结构的关键点检测头,由五个并行的残差结构组成,每个分支由四个残差结构重复叠加,最终的输出特征图为融合后的最高分辨率特征,即人体不同关键点的热力图。

30、所述步骤三,具体为:采用由残差结构堆叠而成的模块对步骤二获得的每个输出特征图进行进一步的学习和融合,随后1×1的卷积用于获取最终的人体关键点热图,该输出通道个数与关键点个数保持一致,不同通道代表不同的关键点位置信息。

31、所述步骤四,具体为:假设网络输入图像尺寸为h×w,则最终获取的人体关键点热图尺寸为输入图像的1/4,即通过argmax函数求取关键点热图中坐标的最大值,即为最大响应点,继而计算出原始图像中关键点的坐标位置。

32、本发明的有益效果:

33、1、本发明引入高分辨率网络,通过不同阶段内部的多尺度交互使每个特征都包含丰富的。

34、2、本发明引入期望最大化注意力与双向加权特征金字塔网络,通过期望最大化算法调节注意力权重的分布,使网络学习输入特征序列中不同位置的重要性,并根据重要性生成输出特征序列得到优化后的多个层级特征。对于多个层级特征引入双向加权特征金字塔网络,通过自上而下和自下而上双向连接将高层和低层特征根据特征贡献度进行加权融合。

35、3、本发明提出了一种结合多尺度特征和多层级特征融合的人体姿态估计方法,突破了单一高低层特征融合和同级多尺度融合的限制,将层级特征和尺度特征交叉融合来学习互补特征,从而构建更有利于复杂环境中准确识别人体姿态的网络。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1