本发明涉及人体姿态估计领域,尤其是涉及了一种采用三维卷积神经网络技术的基于时空的人体姿态估计方法。
背景技术:
信息时代科技发展突飞猛进,对计算机的视觉处理能力要求越来越高,在计算机视觉方向长期存在一个难题——从单目视频中进行人体姿态3D建模,这项任务的挑战包括姿态的巨大可变性,动作,外貌和背景,照明中的咬合和变化。近年来,在人体姿态估计领域已经研究出大量不同的实用方法,但大部分都只是应用于处理静态简单或深度图像,而且一般都是在图像平面尝试估计2D全身、上半身或单关节位置。而如果采用深度三维卷积神经网络技术,则可以预测身体关节精确定位,还可以应用于视频监控,人体动作识别,情绪识别,人机交互,视频编码,人体工程学,视频索引和检索等。
本发明引入基于2D视频帧流推断在三维空间维度下的人体关节位置问题,采用一种从视频捕获数据基于一个深度三维卷积神经网络模型估计人体姿态(即人体关节位置)的方法,仅利用一个2D单目相机捕获视频。这个方法的特征在于作为一个维度的时间能被编码为3D卷积运算的Z维(X维和Y维分别是图像的高和宽)。研究3D卷积网络对2D视频进行3D姿态估计的适用性。更根本地,本发明探究了在数据中将时间维度表示为一个卷积的额外维度的作用。
技术实现要素:
针对仅从单目视频进行人体姿态3D建模的问题,本发明的目的在于提供一种基于时空的人体姿态估计行为分析方法,应用卷积神经网络技术到RGB视频上并将它扩展为三维卷积,在视频中编码时间维度作为卷积空间中的第三维,并且在3D坐标系中直接简化为人体关节位姿回归问题。
为解决上述问题,本发明提供一种采用三维卷积神经网络技术的基于时空的人体姿态估计方法,其主要内容包括:
(一)数据输入;
(二)预处理;
(三)深度三维卷积神经网络;
(四)后处理。
其中,一种基于时空的人体姿态估计行为分析方法,只采用一个单目视觉系统,将卷积神经网络方法扩展为三维卷积并应用到RGB视频上;在没有深度信息作为卷积神经网络的输入的情况下,基于2D视频帧流推断在三维空间维度下的人体关节位置;从单目视频中进行人体姿态三维建模的挑战在于姿态的巨大可变性,动作,外貌和背景,照明中的咬合和变化。
其中,一种基于时空的人体姿态估计行为分析方法,采用一种从视频捕获经由一个深度三维卷积网络估计人体姿态(即人体关节位置)的方法,利用一个单2D单目相机捕获视频;这个方法的特征在于作为一个维度的时间能被编码为3D卷积运算的Z维(X维和Y维分别是图像的高和宽)。
其中,所述的数据输入,采用了人体姿态数据集(有360万张3D人体姿势和对应图像),由4台经校准标准化的相机捕捉10个被试者表现15个不同动作(如吃,摆等)形成的50Hz高分辨率视频序列组成;这4台相机获取的视频彼此独立且不可联合;测试基于该数据集32个可获得的关节位置中的核心的17个;
对于每一个被试者提供以下数据:三维地面实况关节位置,人体的边界框。
进一步地,所述的测试,有三个被试者的地面实况数据被保留并用于服务器上的结果评估。
其中,所述的预处理,包括数据采样,数据调整,以及对比度归一化。
进一步地,所述的数据采样,数据调整和对比度归一化,其中数据采样是对原始数据样本进行二次抽样,得到一个由5副顺序分辨率为128×128的彩色图像组成的训练数据样本;数据调整地面实况关节位置被集中到骨盆骨位置(第一个关节);对比度归一化深度神经网络需要在训练时解释,全局对比度归一化(GCN)被应用于网络的输入数据(每个颜色通道)。
其中,所述的深度三维卷积神经网络,包括该卷积神经网络的架构以及训练得到模型;该架构涉及一个离散卷积运算的数学表达式(用*表示该运算),该表达式应用于三维数据(X,m×n×l维),使用三维翻转内核(K):
步长为1,没有补零;最佳的性能是有5个卷积层,内核层大小分别是3×5×5,2×5×5,1×5×5,1×3×3和1×3×3。最大池化是在第一、第二和第五卷积层后完成,且仅在内核空间的大为2×2的图像(而不是第三时间维度);最后的输出池层是扁平的大小为9680的一维向量,然后是完全连接到大小255的输出层(5帧×17个关节×3维)。
进一步地,所述的训练,使用基于mini-batch(大小为10)的随机梯度下降法(10-5的学习速率和0.9的Nestrov动量)来训练该卷积神经网络;当卷积层的偏差被设置为0时,使用Xavier初始化方法设置初始权重;用于训练的batch的最大数值是20000,用于验证的batch的最大数值是2000,用于测试的batch的最大数值是2000(大约一半的可用数据);训练时用于最小化的成本函数作为每关节位置误差均值(MPJPE),这是关节位置的真值和预测值之间的欧几里得距离,也是一个在测试时很好的性能指标;Early Stopping技术被用来避免过度拟合,当连续15次epoch,验证集的性能没有改善时训练终止。
其中,所述的后处理,该网络模型输出包含连续5帧的三维关节位置估计值,每一帧对应五个输出;通过取重叠输出值的平均值增强鲁棒性。
附图说明
图1是本发明一种人体姿态估计行为分析方法的系统流程图。
图2是本发明一种人体姿态估计行为分析方法的人体姿态数据集。
图3是本发明一种人体姿态估计行为分析方法的预处理示意图。
图4是本发明一种人体姿态估计行为分析方法的三维卷积神经网络架构图。
图5是本发明一种人体姿态估计行为分析方法的三维人体姿态估计结果图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种人体姿态估计行为分析方法的系统流程图。主要包括数据输入;预处理;深度三维卷积神经网络;后处理。
数据输入,由4台经校准标准化的相机捕捉10个被试者表现15个不同动作(如吃,摆等)形成的50Hz高分辨率视频序列组成;这4台相机获取的视频彼此独立且不可联合;测试基于该数据集32个可获得的关节位置中的核心的17个;对于每一个被试者提供以下数据:三维地面实况关节位置,人体的边界框。
其中,所述的测试,有三个被试者的地面实况数据被保留并用于服务器上的结果评估。
其中,所述的预处理,包括数据采样,数据调整,以及对比度归一化。其中数据采样是对原始数据样本进行二次抽样,得到一个由5副顺序分辨率为128×128的彩色图像组成的训练数据样本;数据调整地面实况关节位置被集中到骨盆骨位置(第一个关节);对比度归一化深度神经网络需要在训练时解释,全局对比度归一化(GCN)被应用于网络的输入数据(每个颜色通道)。
其中,所述的深度三维卷积神经网络,包括该卷积神经网络的架构以及训练得到模型;该架构涉及一个离散卷积运算的数学表达式(用*表示该运算),该表达式应用于三维数据(X,m×n×l维),使用三维翻转内核(K):
步长为1,没有补零;最佳的性能是有5个卷积层,内核层大小分别是3×5×5,2×5×5,1×5×5,1×3×3和1×3×3。最大池化是在第一、第二和第五卷积层后完成,且仅在内核空间的大为2×2的图像(而不是第三时间维度);最后的输出池层是扁平的大小为9680的一维向量,然后是完全连接到大小255的输出层(5帧×17个关节×3维)。
其中,所述的训练,使用基于mini-batch(大小为10)的随机梯度下降法(10-5的学习速率和0.9的Nestrov动量)来训练该卷积神经网络;当卷积层的偏差被设置为0时,使用Xavier初始化方法设置初始权重;用于训练的batch的最大数值是20000,用于验证的batch的最大数值是2000,用于测试的batch的最大数值是2000(大约一半的可用数据);训练时用于最小化的成本函数作为每关节位置误差均值(MPJPE),这是关节位置的真值和预测值之间的欧几里得距离,也是一个在测试时很好的性能指标;Early Stopping技术被用来避免过度拟合,当连续15次epoch,验证集的性能没有改善时训练终止。
其中,所述的后处理,该网络模型输出包含连续5帧的三维关节位置估计值,每一帧对应五个输出;通过取重叠输出值的平均值增强鲁棒性。
图2是本发明一种人体姿态估计行为分析方法的人体姿态数据集。由4台经校准标准化的相机捕捉10个被试者表现15个不同动作(如吃,摆等)形成的50Hz高分辨率视频序列组成;这4台相机获取的视频彼此独立且不可联合;测试基于该数据集32个可获得的关节位置中的核心的17个;对于每一个被试者提供以下数据:三维地面实况关节位置,人体的边界框。
图3是本发明一种人体姿态估计行为分析方法的预处理示意图。利用边界框二元掩膜对原始人体姿态数据集视频帧进行剪裁,将其扩展成最大化正方形。裁剪图像大小为128×128分辨率(任意选择)。
图4是本发明一种人体姿态估计行为分析方法的三维卷积神经网络架构图。包括该卷积神经网络的架构以及训练得到模型;该架构涉及一个离散卷积运算的数学表达式(用*表示该运算),该表达式应用于三维数据(X,m×n×l维),使用三维翻转内核(K):
步长为1,没有补零;最佳的性能是有5个卷积层,内核层大小分别是3×5×5,2×5×5,1×5×5,1×3×3和1×3×3。最大池化是在第一、第二和第五卷积层后完成,且仅在内核空间的大为2×2的图像(而不是第三时间维度);最后的输出池层是扁平的大小为9680的一维向量,然后是完全连接到大小255的输出层(5帧×17个关节×3维)。
其中,所述的训练,使用基于mini-batch(大小为10)的随机梯度下降法(10-5的学习速率和0.9的Nestrov动量)来训练该卷积神经网络;当卷积层的偏差被设置为0时,使用Xavier初始化方法设置初始权重;用于训练的batch的最大数值是20000,用于验证的batch的最大数值是2000,用于测试的batch的最大数值是2000(大约一半的可用数据);训练时用于最小化的成本函数作为每关节位置误差均值(MPJPE),这是关节位置的真值和预测值之间的欧几里得距离,也是一个在测试时很好的性能指标;Early Stopping技术被用来避免过度拟合,当连续15次epoch,验证集的性能没有改善时训练终止。
图5是本发明一种人体姿态估计行为分析方法的三维人体姿态估计结果图。对大多数人体姿态的估计结果优于其他方法,但在人坐在椅子上或地面上这种人体被遮挡一部分的情况下,估计结果效果不好。
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。