一种联合注意力机制的3D人体姿态识别双分支网络模型

文档序号：26791694发布日期：2021-09-28 23:36阅读：来源：国知局

技术特征：
1.一种联合注意力机制的3d人体姿态识别双分支网络模型，其特征在于，包括以下步骤：步骤一：初始阶段：接收输入的rgb图像，经过人体检测网络hdn(human detection network)进行人体检测，再通过姿态识别网络进行数据增强操作，生成单人人体图像；步骤二：骨干网阶段：(2
‑
1)利用残差网络模块对单人人体图像进行关节特征提取，得到关节特征分布f(x)；(2
‑
2)利用注意力模块学对单人人体图像进行注意力分布提取。注意力模块输出的注意力分布需要映射到[0，1]区间，因此最终的注意力分布a(x)为：a(x)＝σ(a(x))
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中，σ为sigmoid函数。(2
‑
3)最终骨干网阶段输出的特征图h(x)描述如下：其中，f(x)为关节特征分布，a(x)为注意力分布，表示按位乘法。步骤三：姿态识别阶段：(3
‑
1)姿态识别网络根节点模块：利用姿态识别网络根节点模块检测出人体关节的盆骨根节点r＝(x
r
，y
r
，z
r
)，其中，x
r
，y
r
分别是盆骨根节点的2d图像坐标，z
r
是盆骨关节点的深度信息即盆骨根节点到相机的距离。首先，根据相机小孔成像的原理，采用可以对人体关节点检测定位的相机距离感知模型来获取根节点的深度信息。在现实空间(real space)和图像空间(image space)分别以人体盆骨为坐标轴原点，分别建立起x轴和y轴直角空间坐标系。其中，d表示人体在真实空间中盆骨到相机孔的距离，单位是毫米(mm)；f表示相机的焦距，焦距以像素为单位，在x轴和y轴上即宽和高两个方向上每个像素代表的实际距离(以毫米为单位)不同，分别记为x1，y1；l表示人物的身体长度。可以发现以相机孔为交点的一对相似三角形。根据相似三角形边长成比例的性质，可以得到以下等式：以得到以下等式：类似的有，最终，可以得到：记a
real
是人物身体在真实空间下的面积，a
img
是人物在图像空间下的面积，观察等式4，可以得到：
在获得人物在图像空间下的面积之后，将融合后的特征图通过全局平均池化操作global average pooling(gap)输出一个高度抽象化的语义因子θ。该语义因子用以调节在图像空间的人物检测框的面积，使得这个相机模型拥有更加灵活健壮的人物感知能力。最终距离感知公式如等式8：其次，为了获取人体盆骨根节点的2d图像坐标x
r
，y
r
，首先是对输入的多尺度一致化特征图进行1*1卷积，生成根节点检测的2d热力图。最后，根据热力图进行根节点2d图像坐标提取，并输出得到2d图像坐标x
r
，y
r
。最后，为获取人体盆骨根节点深度信息坐标z
r
，首先是对输入的特征图进行全局平均池化操作gap，通过gap操作获取相机感知模型的语义因子。最后，依照式8进行计算得到盆骨根节点的深度信息，也就是该人物到拍摄相机的实际物理距离，并以此作为深度坐标z
r
。(3
‑
2)姿态识别网络根节点相关姿态模块。从裁剪的单人人体图像中进行根节点相关的3d人体关节检测，接收从骨干网输出的特征图，并通过1*1卷积生成关节的3d热力图。最后，根据关节的3d热力图进行除了人体盆骨根节点之外的其他各个关节的3d坐标提取，提取到的3d坐标是以根节点为参考的根节点相关关节坐标。2.根据权利要求1所述的联合注意力机制的3d人体姿态识别双分支网络模型，其特征在于：步骤一中，所述人体检测网络hdn采用mask rcnn模型。3.根据权利要求1所述的联合注意力机制的3d人体姿态识别双分支网络模型，其特征在于：步骤一中，所述数据增强为将训练图像沿着垂直轴随机旋转
±
30
°
，水平方向或者垂直方向上进行翻转，对训练图像进行色彩抖动，身体部位同步遮挡。4.根据权利要求1所述的联合注意力机制的3d人体姿态识别双分支网络模型，其特征在于：步骤(2
‑
1)中，所述残差网络模块进行关节特征提取，接收尺寸为256*256的三通道rgb图像，初始卷积层以3*3的卷积核读取输入数据，输出通道数目为64。之后，经过残差网络模块四个特征层的特征提取和转置卷积可以得到最终的关节特征分布。5.根据权利要求1所述的联合注意力机制的3d人体姿态识别双分支网络模型，其特征在于：步骤(2
‑
2)中，所述注意力模块采用沙漏式网络结构来提取注意力分布，所述注意力模块经过四次下采样操作将注意力分布图的尺寸采样到8*8，下采样采用的是卷积操作。之后，经过四次上采样操作恢复尺寸，上采样采用的是双线性插值策略，并且，上采样的过程中采用按位相加融合的方式对同样尺寸的注意力分布进行融合，实现对注意力分布的强化。6.根据权利要求1所述的联合注意力机制的3d人体姿态识别双分支网络模型，其特征在于：步骤(3
‑
1)中，所述姿态识别网络根节点模块的盆骨根节点损失函数l
r
采用l1距离损失，如式9所示。其中，r
*
表示是人体盆骨根节点的地表真实标注坐标。l
r
＝||r
‑
r
*
||1(9)姿态识别网络根节点相关姿态模块的相关节点损失函数l
rel
如式10所示。其中，表示
是人体盆骨根节点相关节点的地表真实标注坐标，i表示第i个关节，n表示除去根节点外其它的人体关节总数。。

技术总结
本发明公开了一种联合注意力机制的3D人体姿态识别双分支网络模型，该模型通过两个并行分支可以同时学习到人体各个关节的特征信息分布和注意力分布，然后通过注意力分布来强化模型对于人体关节的专注能力。其中，注意力分支采用沙漏式网络结构。最后，模型通过根节点模块来解析深度信息，通过根节点相关姿态模块来解析3D人体相关姿态。本发明提出的模型通过双分支结构并行学习人体姿态的特征表示和注意力分布，并借助注意力分布有效提高了模型对人体关节的专注能力，从而极大地降低了模型在人体姿态识别上的关节定位误差。在人体姿态识别上的关节定位误差。在人体姿态识别上的关节定位误差。

技术研发人员：张宇米思娅贺成权
受保护的技术使用者：东南大学
技术研发日：2021.07.15
技术公布日：2021/9/27

完整全部详细技术资料下载

当前第2页1 2