人体重建方法、人体重建装置、存储介质与电子设备与流程

文档序号:30225003发布日期:2022-06-01 00:30阅读:161来源:国知局
人体重建方法、人体重建装置、存储介质与电子设备与流程

1.本公开涉及计算机视觉技术领域,尤其涉及一种人体重建方法、人体重建装置、计算机可读存储介质与电子设备。


背景技术:

2.人体重建是指基于图像或视频重建出人体模型,其在动作捕捉、影视特效制作、虚拟现实等场景中具有广泛的应用。
3.相关技术中,人体重建的准确性通常不高,即重建出的人体模型在体型或姿态上与实际情况存在一定的差别,导致重建效果较差。
4.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域技术人员已知的现有技术的信息。


技术实现要素:

5.本公开提供一种人体重建方法、人体重建装置、计算机可读存储介质与电子设备,以至少在一定程度上提升人体重建的准确性。
6.根据本公开的第一方面,提供一种人体重建方法,包括:获取待处理图像序列,并获取所述待处理图像序列对应的待处理光流序列,所述待处理图像序列包括人体;对所述待处理图像序列提取第一时序特征,对所述待处理光流序列提取第二时序特征;根据所述第一时序特征与所述第二时序特征生成所述待处理图像序列对应的人体参数。
7.根据本公开的第二方面,提供一种人体重建装置,包括:数据获取模块,被配置为获取待处理图像序列,并获取所述待处理图像序列对应的待处理光流序列,所述待处理图像序列包括人体;特征提取模块,被配置为对所述待处理图像序列提取第一时序特征,对所述待处理光流序列提取第二时序特征;人体参数生成模块,被配置为根据所述第一时序特征与所述第二时序特征生成所述待处理图像序列对应的人体参数。
8.根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面的人体重建方法及其可能的实现方式。
9.根据本公开的第四方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述第一方面的人体重建方法及其可能的实现方式。
10.本公开的技术方案具有以下有益效果:
11.基于上述方法,一方面,本方案采用图像序列与光流序列这样的双模态信息以进行时序特征的提取,并根据两方面的时序特征实现人体重建,能够突破单一模态信息的局限性,扩展信息的特征空间,且不依赖于人体模板,因而有利于提升人体重建的准确性。另一方面,由于光流序列可以基于图像序列而得到,因此本方案基于图像或视频即可实现,无需增加其他传感器,具有较低的实现成本,能够适用于较多的场景。
12.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不
能限制本公开。
附图说明
13.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
14.图1示出本示例性实施方式中一种系统架构的示意图;
15.图2示出本示例性实施方式中一种人体重建方法的流程图;
16.图3示出本示例性实施方式中人体参数重建网络的示意性结构;
17.图4示出本示例性实施方式中提取第一时序特征的流程图;
18.图5示出本示例性实施方式中视觉编码网络的结构示意图;
19.图6示出本示例性实施方式中训练人体参数重建网络的流程图;
20.图7示出本示例性实施方式中训练人体参数重建网络的示意图;
21.图8示出本示例性实施方式中一种人体重建装置的结构示意图;。
22.图9示出本示例性实施方式中一种电子设备的结构示意图。
具体实施方式
23.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
24.此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
25.相关技术的一种方案中,采用预先配置的人体模板对图像进行人体参数拟合,从而重建出人体模型。然而,该方案依赖于人体模板的质量,使得人体重建的结果容易受到人体模板的限制,难以保证重建效果。
26.相关技术的另一种方案中,为了提升人体重建的准确性,通过增加传感器来获取除图像或视频外的其他信息,以用于辅助人体重建的过程。该方案增加了实现成本,导致在一些场景中难以适用。
27.鉴于上述问题,本公开的示例性实施方式提供一种人体重建方法。下面结合图1对本示例性实施方式运行环境的系统架构与应用场景进行示例性说明。
28.图1示出了系统架构的示意图,该系统架构100可以包括图像采集设备110、服务器120与场景130。其中,图像采集设备110可以是智能手机、平板电脑、无人机、智能穿戴设备等具备拍摄功能的终端设备。服务器120泛指提供本示例性实施方式中人体重建相关服务的后台系统,可以是一台服务器或多台服务器形成的集群。场景130可以是包含人体的场景,如人进行运动的场景等。图像采集设备110对场景130拍摄得到待处理图像序列,该待处理图像序列用于进行人体重建。图像采集设备110与服务器120之间可以通过有线或无线的通信链路形成连接,以进行数据交互。
29.在一种实施方式中,可以由图像采集设备110执行本示例性实施方式中的人体重建方法。例如,用户使用图像采集设备110拍摄场景130以得到待处理图像序列,图像采集设备110通过执行人体重建方法,得到待处理图像序列对应的人体参数。
30.在一种实施方式中,可以由服务器120执行本示例性实施方式中的人体重建方法。例如,用户使用图像采集设备110拍摄场景130以得到待处理图像序列后,图像采集设备110将该待处理图像序列上传至服务器120,由服务器120通过执行人体重建方法,得到待处理图像序列对应的人体参数,还可以向图像采集设备110返回人体参数。
31.由上可知,本示例性实施方式中的人体重建方法的执行主体可以是上述图像采集设备110或服务器120,本公开对此不做限定。
32.应当理解,本示例性实施方式中的待处理图像序列也可以是非现场拍摄的图像序列,例如可以是从本地数据库(如相册)、互联网或其他途径获取的图像序列,等等。上述图像采集设备110也可以替换为不具备拍摄功能的终端设备。
33.下面结合图2对本示例性实施方式中的人体重建方法进行说明,图2示出了该人体重建方法的示例性流程,可以包括:
34.步骤s210,获取待处理图像序列,并获取待处理图像序列对应的待处理光流序列,待处理图像序列包括人体;
35.步骤s220,对待处理图像序列提取第一时序特征,对待处理光流序列提取第二时序特征;
36.步骤s230,根据第一时序特征与第二时序特征生成待处理图像序列对应的人体参数。
37.基于上述方法,一方面,本方案采用图像序列与光流序列这样的双模态信息以进行时序特征的提取,并根据两方面的时序特征实现人体重建,能够突破单一模态信息的局限性,扩展信息的特征空间,且不依赖于人体模板,因而有利于提升人体重建的准确性。另一方面,由于光流序列可以基于图像序列而得到,因此本方案基于图像或视频即可实现,无需增加其他传感器,具有较低的实现成本,能够适用于较多的场景。
38.下面对图2中的每个步骤进行具体说明。
39.参考图2,在步骤s210中,获取待处理图像序列,并获取待处理图像序列对应的待处理光流序列,待处理图像序列包括人体。
40.其中,待处理图像序列可以是包含人体的视频,也可以是视频中的一个片段,如可以是视频中包含人体的图像帧序列。待处理光流序列可以包括待处理图像序列中每一帧待处理图像与其参考帧图像之间的光流数据,参考帧图像可以是相邻帧图像,本公开对于待处理图像与参考帧图像之间间隔的帧数不做限定,如第i帧图像的参考帧图像可以是第i-1
帧、第i-2帧、第i-3帧等,也可以是第i+1帧、第i+2帧、第i+3帧等。
41.举例来说,可以从待处理视频中选取连续t帧图像,为一段人体动作的片段,得到待处理图像序(v1,v2,

,vt)。计算该t帧图像中每一帧与相邻帧(如可以是前一帧)之间的光流数据,得到待处理光流序列(o1,o2,

,ot),如其中o1可以是v1与其前一帧之间的光流数据,o2可以是v2与v1之间的光流数据,等等。
42.本公开对于待处理图像的具体形式不做限定。例如,待处理图像可以是rgb图像,也可以是基于其他颜色模式的图像等。待处理图像可以是任意分辨率,为了便于后续处理,可以将其通过适当的上采样或下采样转换为统一的分辨率。
43.本公开对于待处理图像序列的顺序不做限定。待处理图像序列可以按照视频拍摄的帧序排列,也可以按照相反顺序或其他顺序排列,等等。例如,上述待处理图像序列(v1,v2,

,vt)也可以排列为(vt,vt-1,

,v1)等。待处理光流序列可以与待处理图像序列的顺序相同。
44.继续参考图2,在步骤s220中,对待处理图像序列提取第一时序特征,对待处理光流序列提取第二时序特征。
45.其中,待处理图像序列包含了图像之间的时序关系,其能够反映视觉方面的基础性信息,可以从待处理图像序列中提取第一时序特征。例如,可以分别对待处理图像中的每一帧图像提取视觉图像特征,并按照图像的顺序排列视觉图像特征,得到第一时序特征。待处理光流序列包含了光流之间的时序关系,其作为视觉以外的虚拟补充模态,能够反映不同帧图像间的变化信息,从而为人体运动的理解提供辅助,可以从待处理光流序列中提取第二时序特征。例如,可以以待处理光流序列中的每一帧光流数据作为一帧图像,提取光流图像特征,并按照光流数据的顺序排列光流图像特征,得到第二时序特征。
46.在一种实施方式中,人体重建方法还可以包括以下步骤:
47.获取预先训练的人体参数重建网络,人体参数重建网络包括视觉编码网络、光流编码网络与融合处理网络。
48.图3示出本示例性实施方式中人体参数重建网络的示意性结构。视觉编码网络、光流编码网络与融合处理网络为人体参数重建网络的三个子网络,是人体参数重建网络的主要组成部分。视觉编码网络用于对待处理图像序列提取基于视觉的第一时序特征,光流编码网络用于对待处理光流序列提取基于光流的第二时序特征,融合处理网络用于对第一时序特征与第二时序特征进行融合处理,以得到最终的人体参数。本示例性实施方式中的人体重建方法可以基于该人体参数重建网络而实现,将待处理图像序列与待处理光流序列这样的双流信息输入该人体参数重建网络中,即可输出对应的人体参数。由此提高了人体重建方法的可移植性,降低了实现难度,通过将人体参数重建网络部署到所需的场景中,即可实现人体重建方法在不同场景中的应用。
49.在一种实施方式中,上述对待处理图像序列提取第一时序特征,对待处理光流序列提取第二时序特征,可以包括以下步骤:
50.利用视觉编码网络对待处理图像序列提取第一时序特征,利用光流编码网络对待处理光流序列提取第二时序特征。
51.在一种实施方式中,视觉编码网络与光流编码网络可以是并行的两个分支网络,分别用于处理待处理图像序列与待处理光流序列。
52.本公开对于视觉编码网络与光流编码网络的具体结构不做限定,例如可以是基于cnn(convolutional neural network,卷积神经网络)、lstm(long short-term memory,长短时记忆网络)、gru(gated recurrent unit,门控循环单元)等结构的神经网络。
53.在一种实施方式中,视觉编码网络包括视觉卷积神经网络与视觉transformer。参考图4所示,上述利用视觉编码网络对待处理图像序列提取第一时序特征,可以包括以下步骤s410与s420:
54.步骤s410,利用视觉卷积神经网络对待处理图像序列提取图像序列特征;
55.步骤s420,利用视觉transformer对图像序列特征进行时序编码,得到第一时序特征。
56.图5示出本示例性实施方式中视觉编码网络的示意性结构。视觉卷积神经网络、视觉transformer为视觉编码网络的两个子网络,是视觉编码网络的主要组成部分。示例性的,视觉卷积神经网络可以包括一个或多个卷积层与全连接层,将待处理图像序列(v1,v2,

,vt)输入视觉卷积神经网络,经过卷积处理,提取待处理图像序列中的特征图像,再经过全连接处理,可以在全局层面上进行特征图像的融合与维度控制,得到图像序列特征(x1,x2,

,xz)。例如,待处理图像序列(v1,v2,

,vt)经过多次卷积处理,得到2048维的特征图像,经过全连接层的降维处理,得到512维的图像序列特征(x1,x2,

,x512)。transformer是一种用于编解码的网络结构,本示例性实施方式中的视觉transformer可以包括一个或多个多头注意力层与前馈层的双层结构,每个前馈层又可以包括全连接层与丢弃层(dropout)。将图像序列特征(x1,x2,

,xz)。输入视觉transformer,可以进行时序编码,多头注意力层通过全连接层得到q(query)、k(key)、v(value)三个参数,有以下关系:
57.q=wqx,k=wkx,v=wvx
ꢀꢀꢀꢀꢀꢀꢀ
(1)
58.x表示输入的图像序列特征(x1,x2,

,xz),wq、wk、wv表示三个权值矩阵。
59.然后通过多头注意力层输出注意力矩阵,如下所示:
[0060][0061]
softmax表示归一化指数函数,当然也可以采用其他非线性激活函数;dk为调节参数,用于防止矩阵乘法得到结果太大而导致softmax函数的梯度太小。通过多头注意力层可以对图像序列特征进行位置编码,实际上反映了图像序列特征中的时序信息,因此视觉transformer具备较优的时序编码的能力。图像序列特征(x1,x2,

,xz)经过多头注意力层与前馈层的处理,再经过一定的线性处理,得到第一时序特征f
v~t1

[0062]
通过上述视觉卷积神经网络与视觉transformer的结构设置,将第一时序特征的提取过程划分为两个阶段:第一阶段为从待处理图像序列中提取图像序列特征,第二阶段为对图像序列特征进行时序编码以得到第一时序特征。由此能够从局部与全局两个层面上提取待处理图像序列的时序特征,使得特征更加丰富,为后续进行高质量的人体重建提供基础。
[0063]
在一种实施方式中,光流编码网络包括光流卷积神经网络,其可以对待处理光流序列提取第二时序特征。相比之下,在光流编码网络中可以不设置transformer结构,由于待处理光流序列实质为图像的帧间信息(或时域信息),本身具有较强的时序性,通过卷积处理提取光流的特征图像,并进行一定的线性处理,可以得到第二时序特征。
[0064]
继续参考图2,在步骤s230中,根据第一时序特征与第二时序特征生成待处理图像序列对应的人体参数。
[0065]
其中,人体参数可以包括但不限于以下几种参数:人体体型参数,如可以是人体的二维关节点的参数,也可以是基于三维网格的关节点的参数,示例性的,人体体型参数可以包括人体各关节点在三维网格中的位置;人体体型参数还可以包括人体体型的分类参数,如该分类参数用于表示人体体型属于预设类别中的哪一种。人体姿态参数,用于表示人体的实时姿态,可以是人体各部分平移或偏转的参数等,也可以是人体姿态的分类参数,如该分类参数用于表示人体姿态属于预设类别中的哪一种。蒙皮参数,用于表示人体蒙皮(如皮肤或衣服)的纹理或颜色等信息,便于在一些场景中进行蒙皮的渲染。
[0066]
在一种实施方式中,待处理图像序列对应的人体参数可以包括基于smpl(skinned multi-person linear model,蒙皮多人线性模型)的人体参数。
[0067]
在一种实施方式中,待处理图像序列对应的人体参数可以包括待处理图像中每一帧对应的人体参数,例如该人体参数可以是人体参数序列,其帧序与待处理图像序列的帧序相同。
[0068]
第一时序特征与第二时序特征分别从视觉与光流两个方面体现了人体的动作信息,通过对第一时序特征与第二时序特征进行结合与进一步的处理,可以得到待处理图像序列对应的人体参数。
[0069]
在一种实施方式中,上述根据第一时序特征与第二时序特征生成待处理图像序列对应的人体参数,可以包括以下步骤:
[0070]
将第一时序特征与第二时序特征进行融合,并对融合后的数据进行回归处理,得到待处理图像序列对应的人体参数。
[0071]
其中,第一时序特征与第二时序特征的融合过程可以包括拼接、相加、全连接中的一种或多种处理。例如,第一时序特征f
v~t1
与为第二时序特征f
o2
均为512维的特征,将两者相加,并通过全连接处理降维至157维,完成融合过程。可以将融合后的数据视为粗略的人体参数,通过回归处理,进一步得到精细的人体参数(θ1,θ2,

,θt)。一般的,第一时序特征与第二时序特征的维度较高,其融合后的数据维度也较高,通过回归处理可以在降维的同时实现不同维度间的充分融合,最终输出连续的数值结果,其符合人体参数的格式要求,且有利于进一步提高人体参数的准确性。
[0072]
在一种实施方式中,上述根据第一时序特征与第二时序特征生成待处理图像序列对应的人体参数,可以包括以下步骤:
[0073]
利用融合处理网络将第一时序特征与第二时序特征进行融合处理,得到人体参数。
[0074]
其中,融合处理网络是上述人体参数重建网络中的子网络,其用于将第一时序特征与第二时序特征进行融合并做进一步的处理,输出人体参数。由此,本示例性实施方式中的人体重建方法基于人体参数重建网络实现了端到端的处理,能够简化处理过程,提高效率。
[0075]
示例性的,融合处理网络可以包括融合层与回归层,融合层可以包括卷积层、拼接层、全连接层中的一种或多种。回归层可以采用transformer结构,通过对第一时序特征与第二时序特征融合后的数据做进一步的编码与解码,实现回归处理,输出最终的人体参数。
[0076]
在一种实施方式中,融合处理网络可以包括第一融合层与第二融合层。人体参数可以包括人体体型参数与人体姿态参数。上述利用融合处理网络将第一时序特征与第二时序特征进行融合处理,得到待处理图像序列对应的人体参数,可以包括以下步骤:
[0077]
利用第一融合层提取第一时序特征与第二时序特征的共性特征;
[0078]
利用第二融合层提取第一时序特征与第二时序特征的差异特征;
[0079]
根据共性特征与差异特征确定待处理图像序列对应的人体体型参数与人体姿态参数。
[0080]
其中,第一融合层用于以第一融合方式融合第一时序特征与第二时序特征,以提取出第一时序特征与第二时序特征的共性特征。例如,第一融合层可以包括一个或多个全连接层。由于第二时序特征更多地体现帧间信息,因此可以通过全连接处理实现从第一时序特征中分离出第二时序特征,得到剩余的共性特征。当然,本公开对于第一融合层的具体结构与处理方式不做限定。
[0081]
第二融合层用于以第二融合方式融合第一时序特征与第二时序特征,以提取出第一时序特征与第二时序特征的差异特征。例如,第二融合层可以包括拼接层、卷积层、全连接层。通过拼接、卷积、全连接的处理,可以实现在第一时序特征中提取出与第二时序特征相对应的部分,得到差异特征。当然,本公开对于第二融合层的具体结构与处理方式不做限定。
[0082]
人体体型参数对应多帧图像中的共性,人体姿态参数对应多帧图像中的差异。在一种实施方式中,可以根据共性特征确定待处理图像序列对应的人体体型参数,根据差异特征确定待处理图像序列对应的人体姿态参数。在一种实施方式中,可以将共性特征与差异特征进一步的融合处理,得到人体体型参数与人体姿态参数。
[0083]
在一种实施方式中,人体重建方法还可以包括人体参数重建网络的训练过程。参考图所示,该训练过程可以包括以下步骤s610至s630:
[0084]
步骤s610,获取样本图像序列以及样本图像序列对应的样本光流序列与人体参数标签;
[0085]
步骤s620,将样本图像序列与样本光流序列输入待训练的人体参数重建网络,以输出样本图像序列对应的人体参数样本;
[0086]
步骤s630,基于人体参数样本与人体参数标签,更新人体参数重建网络的参数。
[0087]
其中,样本光流序列可以是基于样本图像序列中的帧间信息所得到的光流数据的序列。人体参数标签(ground truth)为样本图像序列对应的真实的人体参数。人体参数重建网络对样本图像序列、样本光流序列的处理过程,与上述对待处理图像序列、待处理光流序列的处理过程相同。参考图7所示,将样本图像序列与样本光流序列输入人体参数重建网络,人体参数重建网络输出样本图像序列对应的人体参数样本。
[0088]
基于人体参数样本与人体参数标签,可以计算一种或多种损失函数,并由此更新人体参数重建网络的参数,从而实现训练过程。
[0089]
在一种实施方式中,上述基于人体参数样本与人体参数标签,更新人体参数重建网络的参数,可以包括以下至少一种:
[0090]

基于人体参数样本与人体参数标签的差别,更新人体参数重建网络的参数。
[0091]
其中,基于人体参数样本与人体参数标签的差别可以构建人体参数重建网络的基
础损失函数。例如,可以采用人体参数样本与人体参数标签构建l1损失函数或l2损失函数等,代入人体参数样本与人体参数标签的值计算损失函数值,并通过反向传播的方式更新人体参数重建网络的参数。
[0092]

利用第一判别器判别人体参数样本或人体参数标签是否为真实数据,根据相应的第一判别结果更新人体参数重建网络的参数。
[0093]
本示例性实施方式中,第一判别器、第二判别器、第三判别器所判别的内容不同,第一判别器用于判别人体参数是否为真实数据,其判别结果记为第一判别结果。人体参数样本是人体参数重建模型生成的人体参数,为非真实数据,人体参数标签为真实数据。如果第一判别器能够判别出人体参数样本为非真实数据,说明人体参数样本的真实性不足,由此更新人体参数重建网络的参数,目的是使其生成能够“骗过”第一判别器的人体参数样本。
[0094]
在一种实施方式中,可以根据第一判别结果更新人体参数重建网络与第一判别器的参数,例如,可以交替训练人体参数重建网络与第一判别器,当第一判别器判别人体参数样本为真实数据时,更新第一判别器的参数,当第一判别器判别人体参数样本为非真实数据时,更新人体参数重建网络的参数。更新第一判别器的参数使其具备更高的判别能力,以避免人体参数重建网络生成的人体参数样本可以很容易地“骗过”第一判别器,以此促使训练出更高性能的人体参数重建网络。
[0095]

利用第二判别器判别同一样本图像序列对应的人体参数样本与人体参数标签是否为相同的人体动作,根据相应的第二判别结果更新人体参数重建网络的参数。
[0096]
第二判别器用于判别两组人体参数是否为相同的人体动作,其判别结果记为第二判别结果。一般的,同一样本图像序列对应的人体参数样本与人体参数标签属于相同的人体动作,然而,如果人体参数样本的准确性不高,则第二判别器可能判别其与人体参数标签为不同的人体动作,这种情况下说明人体参数重建网络的性能有待提升,由此更新人体参数重建网络的参数,目的是使其生成能够“骗过”第二判别器的人体参数样本。
[0097]
在一种实施方式中,可以根据第二判别结果更新人体参数重建网络与第二判别器的参数,例如,可以交替训练人体参数重建网络与第二判别器,当第二判别器判别同一样本图像序列对应的人体参数样本与人体参数标签为相同的人体动作时,更新第二判别器的参数,当第二判别器判别同一样本图像序列对应的人体参数样本与人体参数标签为不同的人体动作时,更新人体参数重建网络的参数。更新第二判别器的参数使其具备更高的判别能力,以避免人体参数重建网络生成的人体参数样本可以很容易地“骗过”第二判别器,以此促使训练出更高性能的人体参数重建网络。
[0098]

利用第三判别器判别人体参数样本、人体参数标签、或人体参数混合数据是否对应于连续的人体动作,根据相应的第三判别结果更新人体参数重建网络的参数。
[0099]
其中,人体参数混合数据由同一样本图像序列对应的人体参数样本与人体参数标签进行混合而得到。一般的,人体参数混合数据与人体参数样本或人体参数标签的帧数相同,例如,同一样本图像序列对应的人体参数样本与人体参数标签均为16帧,可以选取8帧人体参数样本与8帧人体参数标签组成人体参数混合数据,当然,本公开对所选取的具体帧数不做限定。
[0100]
第三判别器用于判别一组人体参数是否对应于连续的人体动作,其判别结果记为
第三判别结果。一般的,一个样本图像序列为连续的人体动作,其对应的人体参数样本与人体参数标签也对应于连续的人体动作,将人体参数样本与人体参数标签混合形成人体参数混合数据,该数据也对应于连续的人体动作。然而,如果人体参数样本的准确性不高,则其与人体参数标签混合后可能存在数据上的不连续,则第三判别器可能判别其对应于不连续的人体动作,这种情况下说明人体参数重建网络的性能有待提升,由此更新人体参数重建网络的参数,目的是使其生成能够“骗过”第三判别器的人体参数样本。
[0101]
在一种实施方式中,可以根据第三判别结果更新人体参数重建网络与第三判别器的参数,例如,可以交替训练人体参数重建网络与第三判别器,当第三判别器判别人体参数混合数据对应于连续的人体动作时,更新第三判别器的参数,当第三判别器判别人体参数混合数据对应于不连续的人体动作时,更新人体参数重建网络的参数。更新第三判别器的参数使其具备更高的判别能力,以避免人体参数重建网络生成的人体参数样本可以很容易地“骗过”第三判别器,以此促使训练出更高性能的人体参数重建网络。
[0102]
应当理解,本示例性实施方式中可以组合使用上述多种训练方式。参考图7所示,将样本图像序列与样本光流序列输入人体参数重建网络,人体参数重建网络输出样本图像序列对应的人体参数样本。一方面,根据人体参数样本与人体参数标签得到基础损失函数,由此更新人体参数重建网络的参数。另一方面,将人体参数样本与人体参数标签输入判别器,得到相应的判别结果,判别器可以包括上述第一判别器、第二判别器、第三判别器中的任意一种或多种,判别结果可以包括上述第一判别结果、第二判别结果、第三判别结果中的任意一种或多种,根据判别结果更新人体参数重建网络的参数。举例来说,可以采用



四种训练方式,在每个batch(批次)中,依次采用基础损失函数、第一判别结果、第二判别结果、第三判别结果来更新人体参数重建网络的参数,通过迭代,使得基础损失函数值能够收敛,并且人体参数样本能够“骗过”第一判别器、第二判别器、第三判别器,从而得到性能很高的人体参数重建网络,有利于实现准确地人体重建。
[0103]
本公开的示例性实施方式还提供一种人体重建装置。参考图8所示,该人体重建装置800可以包括:
[0104]
数据获取模块810,被配置为获取待处理图像序列,并获取待处理图像序列对应的待处理光流序列,待处理图像序列包括人体;
[0105]
特征提取模块820,被配置为对待处理图像序列提取第一时序特征,对待处理光流序列提取第二时序特征;
[0106]
人体参数生成模块830,被配置为根据第一时序特征与第二时序特征生成待处理图像序列对应的人体参数。
[0107]
在一种实施方式中,数据获取模块810,还被配置为:
[0108]
获取预先训练的人体参数重建网络,人体参数重建网络包括视觉编码网络、光流编码网络与融合处理网络;
[0109]
上述对待处理图像序列提取第一时序特征,对待处理光流序列提取第二时序特征,包括:
[0110]
利用视觉编码网络对待处理图像序列提取第一时序特征,利用光流编码网络对待处理光流序列提取第二时序特征;
[0111]
上述根据第一时序特征与第二时序特征生成待处理图像序列对应的人体参数,包
括:
[0112]
利用融合处理网络将第一时序特征与第二时序特征进行融合处理,得到待处理图像序列对应的人体参数。
[0113]
在一种实施方式中,人体重建装置800还可以包括网络训练模块,其被配置为:
[0114]
获取样本图像序列以及样本图像序列对应的样本光流序列与人体参数标签;
[0115]
将样本图像序列与样本光流序列输入待训练的人体参数重建网络,以输出样本图像序列对应的人体参数样本;
[0116]
基于人体参数样本与人体参数标签,更新人体参数重建网络的参数。
[0117]
在一种实施方式中,上述基于人体参数样本与人体参数标签,更新人体参数重建网络的参数,包括以下至少一种:
[0118]
基于人体参数样本与人体参数标签的差别,更新人体参数重建网络的参数;
[0119]
利用第一判别器判别人体参数样本或人体参数标签是否为真实数据,根据相应的第一判别结果更新人体参数重建网络的参数;
[0120]
利用第二判别器判别同一样本图像序列对应的人体参数样本与人体参数标签是否为相同的人体动作,根据相应的第二判别结果更新人体参数重建网络的参数;
[0121]
利用第三判别器判别人体参数样本、人体参数标签、或人体参数混合数据是否对应于连续的人体动作,根据相应的第三判别结果更新人体参数重建网络的参数,人体参数混合数据由同一样本图像序列对应的人体参数样本与人体参数标签进行混合而得到。
[0122]
在一种实施方式中,视觉编码网络包括视觉卷积神经网络与视觉transformer;上述利用视觉编码网络对待处理图像序列提取第一时序特征,包括:
[0123]
利用视觉卷积神经网络对待处理图像序列提取图像序列特征;
[0124]
利用视觉transformer对图像序列特征进行时序编码,得到第一时序特征。
[0125]
在一种实施方式中,融合处理网络包括第一融合层与第二融合层;人体参数包括人体体型参数与人体姿态参数;上述利用融合处理网络将第一时序特征与第二时序特征进行融合处理,得到待处理图像序列对应的人体参数,包括:
[0126]
利用第一融合层提取第一时序特征与第二时序特征的共性特征;
[0127]
利用第二融合层提取第一时序特征与第二时序特征的差异特征;
[0128]
根据共性特征与差异特征确定待处理图像序列对应的人体体型参数与人体姿态参数。
[0129]
在一种实施方式中,上述根据第一时序特征与第二时序特征生成待处理图像序列对应的人体参数,包括:
[0130]
将第一时序特征与第二时序特征进行融合,并对融合后的数据进行回归处理,得到待处理图像序列对应的人体参数。
[0131]
上述装置中各部分的具体细节在方法部分实施方式中已经详细说明,未披露的细节内容可以参见方法部分的实施方式内容,因而不再赘述。
[0132]
本公开的示例性实施方式还提供了一种计算机可读存储介质,可以实现为一种程序产品的形式,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使电子设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。在一种可选的实施方式中,该程序产品可以实现为便携式紧凑盘只读存储器(cd-rom)并包
括程序代码,并可以在电子设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0133]
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0134]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0135]
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0136]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0137]
本公开的示例性实施方式还提供一种电子设备,该电子设备例如可以是上述图像采集设备110或服务器120。该电子设备可以包括处理器与存储器。存储器存储有处理器的可执行指令,如可以是程序代码。处理器通过执行该可执行指令来执行本示例性实施方式中的人体重建方法,如可以执行图2的方法步骤。
[0138]
下面参考图9,以通用计算设备的形式对电子设备进行示例性说明。应当理解,图9显示的电子设备900仅仅是一个示例,不应对本公开实施方式的功能和使用范围带来限制。
[0139]
如图9所示,电子设备900可以包括:处理器910、存储器920、总线930、i/o(输入/输出)接口940、网络适配器950。
[0140]
存储器920可以包括易失性存储器,例如ram 921、缓存单元922,还可以包括非易失性存储器,例如rom 923。存储器920还可以包括一个或多个程序模块924,这样的程序模块924包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。例如,程序模块924可以包括上述装置800中的各模块。
[0141]
总线930用于实现电子设备900的不同组件之间的连接,可以包括数据总线、地址总线和控制总线。
[0142]
电子设备900可以通过i/o接口940与一个或多个外部设备1000(例如键盘、鼠标、外置控制器等)进行通信。
[0143]
电子设备900可以通过网络适配器950与一个或者多个网络通信,例如网络适配器950可以提供如3g/4g/5g等移动通信解决方案,或者提供如无线局域网、蓝牙、近场通信等无线通信解决方案。网络适配器950可以通过总线930与电子设备900的其它模块通信。
[0144]
尽管图9中未示出,还可以在电子设备900中设置其它硬件和/或软件模块,包括但不限于:显示器、微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0145]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0146]
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施方式。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施方式仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
[0147]
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1