基于多模态自编码模型的单视角视频人体姿态恢复方法

文档序号:8923285阅读:484来源:国知局
基于多模态自编码模型的单视角视频人体姿态恢复方法
【技术领域】
[0001] 本发明涉及计算机视觉领域,尤其涉及单视角视频中人体三维姿态的恢复方法。
【背景技术】
[0002] 人体姿态恢复的目的是将单视角视频中人体的三维骨架精准的提取出来。利用普 通单视角视频进行人体三维运动恢复在运动捕获、三维动画、智能视频监控以及人机交互 等方面有广泛的应用。通常可形式化地用Yc 表示姿态矢量空间,用X(=IT表示图像 特征空间,要求对任意给定xeX计算其对应的yeY。但这是很困难的,因为从X到Y的 映射非常复杂且不是一对一的。常见的恢复从X到Y的映射的方法可分为两类:生成式模 型方法和样例学习方法。虽然从X到Y的映射很复杂,但其反向映射Y-X具有完整的定 义,即给定一个姿态,总能很好的找到对应的图像。因此,生成式模型方法将姿态恢复表达 为优化问题argminyl(f(y)-x)。其中1是空间X的距离函数,即寻找一个最佳姿态,该姿态 下植染出的图像和视频图像最匹配。Deutscher等采用粒子滤波框架进行快速优化,Chen 等采用马尔科夫网络和梯度算法进行基于概率的姿态估计,Zhao等采用PCA对解空间进行 降维,并提出分层的模拟退火遗传算法进行优化搜索。生成式模型方法难以解决数值优化 的计算复杂度高,以及局部最小值问题。
[0003] 样例学习方法则假定已知一些对应的图像和姿态样本,以此训练一个从X到Y的 映射m。该映射可以是函数拟合,如神经网络、相关向量机、径向基函数、贝叶斯混合专家模 型进行拟合,也可以是关系数据库查找表。总的来说,样例学习方法主要由三个步骤组成: 1)在图像上提取视觉特征;2)利用机器学习算法建立图像特征与三维姿态之间的映射挂 系;3)依据已建立的映射关系,从图像中恢复三维姿态。当前的样例学习方法主要存在以 下两个问题:难以有效建立二维图像到三维姿态之间的映射关系,难以有效描述图像与三 维姿态的视觉特征。

【发明内容】

[0004] 本发明的目的在于针对现有技术的不足,提供一种基于多层感知器模型的三维姿 态重建方法。本发明解决其技术问题所采用的技术方案包括以下步骤:
[0005] 步骤1、在提取视觉特征的过程中,针对图像的形状、颜色、边界等多种视觉特征, 采用基于超图学习的多模态低秩矩阵表示获得的图像的统一视觉特征;
[0006] 步骤2、在内在特征提取过程中,通过训练自编码模型分别获得图像与三维姿态的 内在特征;
[0007] 步骤3、基于步骤2获得图像与三维姿态的内在特征,采用无监督流形对齐技术, 将图像与三维姿态的内在特征投影到一个共享的低维空间中,获得低维特征;
[0008] 步骤4、在训练多层感知器网络的过程中,基于步骤3已获得的图像与三维姿态的 低维特征,再训练一个神经网络模型用于学习图像与三维姿态之间的映射关系;
[0009] 步骤5、在训练多层感知器网络的过程中,利用步骤2中的自编码模型,步骤3中的 无监督流形对齐模型以及步骤4中的神经网络模型,构建五层的全新感知器网络,以图像 块作为输入,三维人体姿态作为输出,微调五层全新感知器网络的参数;
[0010] 步骤6、将步骤5得到的五层全新感知器网络做图像三维姿态重建,以图像的多种 视觉特征作为输入,得到的输出即为对应三维姿态。
[0011] 步骤1所述的通过基于超图学习的多模态低秩矩阵表示获得的图像的多种视觉 特征,具体如下:
[0012] 1-1.提取训练图像的多种模态特征x(1),X(2),…,X(m),其中m表示特征的类型和数 量。
[0013] 1-2.给定一个矩阵特征向量Xu),在该特征下的样本近邻矩阵通过求解以下目标 函数获得:
[0015] s.t.X(J)=X(J)Q〇+E〇
[0016] 其中,|卜|L表示核函数,|卜|Ui是指L21范数,参数入>0则用于平衡两部分 的影响,Xu)表示X的第j种特征。最优化得到的Q^自然的形成一个近邻矩阵。
[0017] 1-3.针对多种模态特征,采用多任务低秩近邻矩阵求解,其目标函数是:
[0019]s.t.X(J) =X(J)Q(J)+E(J),j= 1, -,m
[0020] 其中a>〇是给定的参数,Q是将多特征下的矩阵Q1,Q2,…,Qm连接起来获得
[0022] 1-4.依据得到的近邻矩阵Q,构建样本数据的流形空间,采用超图学习技术构建 出流形矩阵L,并通过特征根矩阵分解得到图像数据的统一视觉特征表示)T。
[0023] 步骤2所述的通过训练两个自编码器分别获得图像与三维姿态的内在特征,具体 如下:
[0024] 2-1.提取训练库中的姿态数据yi,y2,…,yjP对应的图像的统一视觉特征
[0025] 2-2.为了得到姿态数据的内在特征表示,采用自编码模型,假设编码层的参数为 和bf,而解码层的参数为1Wf和bf。自编码模型以原始数据ypy2,…,yn作为输 入,通过训练使得输出的结果与原始的输入数据相同,其目标函数l3D如公式4所示:
[0027] 其中
为 sigmoid函数。
[0028] 2-3?利用Feedforward和Backpropagation算法对目标函数13D进行优化,得到 目标参数^^与1)^,并计算得到hf为乃的内在特征。
[0029] 2-4.为了得到图像数据的内在特征表示,采用自编码模型,假设编码层的参 数为1WiW和bf,而解码层的参数为。自编码模型是以统一表示特征数据 x^,x%2,...,x=作为输入,其目标函数i2D如公式5所示:
[0031] 其中,表示第j个输入数据,而g表示第j个输入数据<对应的输出数据。
[0032] 2-5?利用Feedforward和Backpropagation算法对目标函数121)进行优化,得到 目标参数与bf,并计算得到hf5为&的内在特征。
[0033] 步骤3所述的采用无监督流形对齐技术,将图像与三维姿态的内在特征h2D与h3D 投影到一个共享的低维空间中,具体如下:
[0034]3-1.利用步骤2所述技术分别计算出图像与三维姿态的内在特征h2D与h3D。
[0035]3-2.假设图像与三维姿态的内在特征所对应的低维表示是t2D与t3D,则无监督流 形对齐的目标函数是:
[0037] 其中D(t2D,t3D)的第一项统计了h2D与h3D对应的低维表示在新空间中的距离,第 二项与第三项分别保留了各自空间h2D与h3D的内在近邻关系,Wg计算了图像样本X丨与 <的内在表示之间的距离,而1则计算了三维姿态样本7占 7」的内在表示之间的距离。
[0038] 3-3.采用一定的数学变换,公式(6)能表示为:Q(t) =tLtT,其中L是拉普拉斯 (laplacian)矩阵,具体计算如下:
[0040] 其中,L2D描述了图像内在特征的laplacian矩阵,L311描述了三维骨架姿态内在特 征的laplacian矩阵,V2D,V2D3D,V3D211与V311则是对角线上元素非0的矩阵,这些矩阵的计算 方式如下:
[0042] 其中V(g)用于统一表示矩阵V2D,V2D3D,V3D2D与V3D。
[0043] 3-4.采用线性投影技术和特征根分解技术,对laplacian矩阵L采用特征根分解, 分别得到内在表示h2D与h3D的低维空间投影矩阵a与0。
[0044] 步骤4所述的训练一个神经网络模型学习图像和对应三维姿态在低维空间中的 非线性映射关系,具体步骤是:
[0045] 构建一个神经网络模型,设其权重
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1