基于Transformer的特征聚合人体姿态估计方法

文档序号：29560293发布日期：2022-04-09 00:22阅读：来源：国知局

技术特征：
1.一种基于transformer的特征聚合人体姿态估计方法，其特征是，包括如下步骤：a、训练特征聚合transformer网络；b、采用训练好的特征聚合transformer网络对图像中人体姿态进行估计；步骤a中训练特征聚合transformer网络具体包括如下步骤：a1、采用卷积神经网络对训练样本进行特征提取得到不同层次的特征图；a2、从步骤a1中选取待融合的特征图作为候选特征图；a3、将候选特征图进行分割，每一特征图均分为若干等大的特征块，不同特征图所划分的特征块的大小相等；且在每一特征图中将分割后的特征块进行堆叠；a4、将不同特征图的特征块进行合并；a5、在合并后的特征块信息中加入位置编码，然后将其一并输出给transformer；a6、transformer提取全局注意力并生成一组包含关节点特征的假设向量；a7、通过关节点分类和坐标回归两个操作得到预测结果；a8、比较预测结果与真值，计算损失函数，根据损失函数优化特征聚合transformer网络中各参数；步骤b中采用训练好的特征聚合transformer网络对图像中人体姿态进行估计具体包括如下步骤：b1、采用卷积神经网络对待测图像进行特征提取得到不同层次的特征图；b2、从步骤b1中选取待融合的特征图作为候选特征图；b3、将候选特征图进行分割，每一特征图均分为若干等大的特征块，不同特征图所划分的特征块的大小相等；且在每一特征图中将分割后的特征块进行堆叠；b4、将不同特征图的特征块进行合并；b5、在合并后的特征块信息中加入位置编码，然后将其一并输出给transformer；b6、transformer提取全局注意力并生成一组包含关节点特征的假设向量；b7、通过关节点分类和坐标回归两个操作得到预测结果。2.根据权利要求1所述的基于transformer的特征聚合人体姿态估计方法，其特征是，步骤a2和b2中，所选取的候选特征图包括第二层特征图和第四层特征图。3.根据权利要求2所述的基于transformer的特征聚合人体姿态估计方法，其特征是，步骤a3和b3中，将第二层特征图均分为若干等大的特征块，且特征块的大小与第四层特征图的大小相同。4.根据权利要求1所述的基于transformer的特征聚合人体姿态估计方法，其特征是，步骤a8中损失函数如下：其中，y
i
表示第i个关节点真值，则是第i个关节点所对应假设向量的预测结果，j是关节点分类的数量，l
i
指第i个关节点损失，公式如下：其中，cls(i)表示第i个关节点类别，为假设向量的分类概率分布；b
i
和分别
是关节点坐标真值和对应假设向量的坐标预测值。5.根据权利要求1所述的基于transformer的特征聚合人体姿态估计方法，其特征是，步骤a8中所述特征聚合transformer网络中各参数包括transformer中编码器数量、解码器数量、多头注意力数量、假设向量个数，以及卷积神经网络中初始学习率、权重衰减学习率。6.根据权利要求1所述的基于transformer的特征聚合人体姿态估计方法，其特征是，步骤a7和b7中，采用最优二分匹配算法进行关节点分类。7.根据权利要求1所述的基于transformer的特征聚合人体姿态估计方法，其特征是，步骤a5和b5中，所述位置编码具体是二维正弦位置编码，其在x维和y维均进行编码。

技术总结
本发明提供了一种基于Transformer的特征聚合人体姿态估计方法。该方法包括：首先训练特征聚合Transformer网络；然后用训练好的特征聚合Transformer网络对图像中人体姿态进行估计。无论在训练阶段还是在测试阶段，均采用特征聚合模块对CNN输出的多维特征进行分割、合并，通过特征聚合将低维的局部特征添加到高维的全局特征中，且此操作不会为Transformer带来额外的计算成本，最后通过Transformer提取全局注意力并生成一组包含关节点特征的假设向量，再经关节点分类和坐标回归两个操作预测最终结果。通过本发明方法可以提高检测结果的准确性，对于被遮挡部分关节点的检测结果尤为明显。为明显。为明显。

技术研发人员：史青宣单北光李一行宋静雅王海剑
受保护的技术使用者：河北大学
技术研发日：2021.12.09
技术公布日：2022/4/8

完整全部详细技术资料下载

当前第2页1 2