一种虚拟换装方法、装置、设备及存储介质与流程

文档序号：32845442发布日期：2023-01-06 22:07阅读：29来源：国知局

1.本技术涉及人工智能技术领域，尤其涉及一种虚拟换装方法、装置、设备及存储介质。

背景技术：

2.虚拟形象是随着语音合成技术、视频生成技术发展而来的新的交互展示媒介，能够极大提升人机交互的自然度和体验感，个性化虚拟形象生成越来越受到关注。
3.目前，换装是个性化虚拟形象极其重要的一环，但是在换装时通过自定义规则对服装进行处理，容易造成服装形状信息的丢失，使得换装的效果较差。

技术实现要素：

4.为了解决上述问题，本技术提出一种虚拟换装方法、装置、设备及存储介质，能够有效提升目标对象的换装效果。
5.根据本技术实施例的第一方面，提供了一种虚拟换装方法，包括：
6.对获取到的服装区域图像进行姿态矫正处理，得到所述服装区域图像中服装的标准形状信息；其中，所述标准形状信息包括所述服装区域图像中服装处于自然平展状态下所呈现的形状信息；
7.从所述服装区域图像中提取得到服装样式信息；
8.利用所述服装样式信息和所述标准形状信息，对目标对象进行换装。
9.根据本技术实施例的第二方面，提供了一种虚拟换装装置，包括：
10.第一处理模块，用于对获取到的服装区域图像进行姿态矫正处理，得到所述服装区域图像中服装的标准形状信息；其中，所述标准形状信息包括所述服装区域图像中服装处于自然平展状态下所呈现的形状信息；
11.信息提取模块，用于从所述服装区域图像中提取得到服装样式信息；
12.换装模块，用于利用多个子区域图像和标准形状信息，对目标对象进行换装。
13.本技术第三方面提供了一种电子设备，包括：
14.存储器和处理器；
15.所述存储器与所述处理器连接，用于存储程序；
16.所述处理器，通过运行所述存储器中的程序，实现上述的种虚拟换装方法。
17.本技术第四方面提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程度被处理器运行时，实现上述的种虚拟换装方法。
18.上述申请中的一个实施例具有如下优点或有益效果：
19.通过对获取到的服装区域图像进行姿态矫正处理，得到服装的标准形状信息，并将服装的标准形状信息用于辅助对目标对象的换装处理，这样可以避免在对目标对象进行换装时由于姿态变化导致丢失完整的服装形状信息的问题，从而保证换装后的服装保持完整形状。这样根据标准形状信息和服装样式信息对目标对象进行换装，就可以提升目标对
象的换装效果。
附图说明
20.为了更清楚地说明本技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
21.图1为本技术一实施例提供的一种虚拟换装方法的流程示意图；
22.图2为本技术一实施例提供的一种虚拟换装方法的流程示意图；
23.图3为本技术一实施例提供的目标对象处于图像中的示意图；
24.图4为本技术一实施例提供的一种虚拟换装方法的流程示意图；
25.图5为本技术一实施例提供的目标对象处于视频中的示意图；
26.图6为本技术一实施例提供的增加时序约束条件的换装的示意图；
27.图7为本技术一实施例提供的增加目标服装图像之后目标对象在图像中换装的具体示意图；
28.图8为本技术一实施例提供的增加目标服装图像之后目标对象在视频中换装的具体示意图；
29.图9为本技术一实施例提供的提取服装掩码的示意图；
30.图10为本技术一实施例提供的成对数据的示意图；
31.图11为本技术一实施例提供的提取人体关键点和服装标签的示意图；
32.图12为本技术一实施例提供的训练时伪标签和预测目标的示意图；
33.图13为本技术一实施例提供的一种虚拟换装装置的结构示意图；
34.图14为本技术一实施例提供的一种虚拟换装装置的结构示意图；
35.图15为本技术一实施例提供的一种电子设备的结构示意图。
具体实施方式
36.本技术实施例技术方案适用于应用在各种人机交互的场景中，例如，人车交互、vr场景、ai主播系统、视频编辑等。采用本技术实施例技术方案，能够更加准确地生成针对不同的真人生成个性化的虚拟形象。
37.本技术实施例技术方案可示例性地应用于处理器、电子设备、服务器(包括云服务器)等硬件设备，或包装成软件程序被运行，当硬件设备执行本技术实施例技术方案的处理过程，或上述软件程序被运行时，可以实现的利用服装样式信息和标准形状信息，对目标对象进行换装的目的。本技术实施例只对本技术技术方案的具体处理过程进行示例性介绍，并不对本技术技术方案的具体实现形式进行限定，任意的可以执行本技术技术方案处理过程的技术实现形式，都可以被本技术实施例所采用。
38.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
39.示例性方法
40.本技术实施例提出一种虚拟换装方法，包括；
41.首先，对获取到的服装区域图像进行姿态矫正处理，得到所述服装区域图像中服装的标准形状信息；其中，所述标准形状信息包括所述服装区域图像中服装处于自然平展状态下所呈现的形状信息；
42.然后，从所述服装区域图像中提取得到服装样式信息；
43.最后，利用所述服装样式信息和所述标准形状信息，对目标对象进行换装。
44.在本技术的技术方案中，通过对获取到的服装区域图像进行姿态矫正处理，得到服装的标准形状信息，并将服装的标准形状信息用于辅助对目标对象的换装处理，这样可以避免在对目标对象进行换装时由于姿态变化导致丢失完整的服装形状信息的问题，从而保证换装后的服装保持完整形状。这样根据标准形状信息和服装样式信息对目标对象进行换装，就可以提升目标对象的换装效果。
45.图1是根据本技术一实施例的虚拟换装方法的流程图。在一示例性实施例中，该一种虚拟换装方法，具体包括：
46.s110、对获取到的服装区域图像进行姿态矫正处理，得到所述服装区域图像中服装的标准形状信息；其中，所述标准形状信息包括所述服装区域图像中服装处于自然平展状态下所呈现的形状信息；
47.s120、对所述服装区域图像进行图像区域划分，得到多个子区域图像；其中，多个子区域图像方向和比例相统一；
48.s130、根据所述多个子区域图像生成服装样式信息；
49.s140、利用所述服装样式信息和所述标准形状信息，对目标对象进行换装。
50.在步骤s110中，示例性地，服装区域图像用于表示换装需要的服装。服装区域图像可以是摄像头直接拍摄得到的图像，还可以是视频中截取的视频帧，还可以在任意图像中提取的服装区域的图像。服装区域图像包括服装本体和姿态信息，姿态信息用于表示在服装区域图像中穿着服装本体的模特的姿势。因此，不论是拍摄得到的服装区域图像，还是提取的服装区域图像，均存在姿态信息，所以对服装区域图像进行姿态矫正处理。而姿态矫正处理可以是根据训练好的神经网络模型对服装区域图像进行处理，以获取标准形状信息。还可以是根据缩放、旋转和映射变换等处理以获取标准形状信息。从而还原服装处于自然平展状态下所呈现的形状信息。可选地，标准形状信息可以表现为服装在图像上的多个坐标，还可以表现为掩码图像。
51.在步骤s120中，示例性地，子区域图像用于表示服装的不同子区域，且方向和比例相统一。在本实施例中，多个子区域图像之间方向相同，比例也相同。可选地，子区域图像可以是任意形状的四边形，还可以是其他多边形。
52.具体地，为了解决服装区域图像中服装风格与空间信息耦合在一起的问题，可以是对服装区域图像进行图像区域以统一的标准进行划分，得到方向和比例相统一的多个子区域图，从而去除服装的固有空间信息。还可以是分割服装区域图像后，对分割后的服装区域图像进行归一化处理，得到方向和比例相统一的多个子区域图像。
53.在步骤s130中，示例性地，服装样式信息用于表示服装区域图像中服装的式样。服装样式信息可以包括：服装的图案、颜色、造型、形状等信息。可选地，可以是将多个子区域
图像按照预设的顺序进行拼接，根据拼接后的图像确定服装样式信息。还可以是根据风格编码器(style encoder)和映射网络(mapping network)联合对多个子区域图像进行编码，对多个子区域图像进行重建，得到服装样式信息。具体地，将多个子区域图像沿着通道维度进行拼接，输入到风格编码器中，经过全局池化作为生成网络的控制条件输入到映射网络，生成服装样式信息，其中，服装样式信息为一维向量。
54.在步骤s140中，示例性地，目标对象用于表示需要进行换装的人或动物。可选地，可以是将服装样式信息与标准形状信息进行融合，确定最终的服装图像，以根据最终的服装图像对目标对象进行换装，从而保证了服装信息的完整性。可选地，还可以是根据标准形状信息确定服装样式信息中的形状信息是否完整；若完整，则根据服装样式信息对目标对象换装；若不完整，根据服装样式信息结合标准形状信息对目标对象换装。这样，标准形状信息可以起到监督服装样式信息的作用。
55.在一种实施方式中，如图2所示，所述利用所述服装样式信息和所述标准形状信息，对目标对象进行换装，包括：
56.获取所述目标对象的第一姿态信息以及非换装区域图像；
57.根据所述第一姿态信息、所述非换装区域图像、所述服装样式信息和所述标准形状信息，对目标对象进行换装。
58.示例性地，第一姿态信息用于表示目标对象的姿势。第一姿态信息可以包括：手臂姿态、身体姿态信息、腿部姿态信息等。第一姿态信息可以是根据人体关键点检测算法(如openpose、posenet)对目标对象所在的图片进行处理得到的。非换装区域用于表示目标对象中无需进行服装改变的区域。非换装区域可以包括：头部区域、腿部区域、手部区域、胳膊区域、上身区域、鞋子区域等。可选地，当确定目标对象需要更换的服装是上衣时，则获取上衣对应的服装区域图像，而目标对象的非换装区域可以是腿部区域、头部区域。可选地，当确定目标对象需要更换的服装是下装(例如，裙子、裤子等)时，则获取下装对应的服装区域图像，而目标对象的非换装区域可以是上身区域、头部区域、手部区域等。
59.具体地，可以是将第一姿态信息、非换装区域图像、服装样式信息和标准形状信息进行融合，这样，可以将目标对象的姿态、头部区域和需要换装的衣服进行组合，从而生成换装后的目标对象。又由于服装样式信息中容易缺失形状信息，因此在目标对象的姿态、头部区域和需要换装的衣服基础上融合标准形状信息，保证了服装的完整性，从而提升目标对象换装的准确性。
60.在一种实施方式中，在所述目标对象处于图像中的情况下，所述根据所述第一姿态信息、所述非换装区域图像、所述服装样式信息和所述标准形状信息，对目标对象进行换装，包括：
61.将所述第一姿态信息、所述非换装区域图像和所述标准形状信息进行编码，得到第一编码结果；
62.将所述第一编码结果和所述服装样式信息进行解码，得到所述目标对象对应的目标换装图像。
63.示例性地，由于需要保证换装人物的准确性，因此需要确定目标对象的身份特征id，所以采用身份特征编码器(id encoder)进行编码。具体地，将第一姿态信息、非换装区域图像和标准形状信息进行拼接，将拼接后的结果输入id encoder得到，第一编码结果。将
第一编码结果和服装样式信息输入至解码器(decoder)得到目标对象换装后的图像，从而实现对图片之间的换装，并能够实现平面服装和模特之间的换装。
64.在本实施例中，如图3所示，对目标对象进行换装所采用的网络结构对抗网络(style generative adversarial networks，stylegan)，例如，stylegan2。将所有的子区域图像沿着通道维度进行拼接，输入到style encoder中，经过全局池化作为生成网络的控制条件输入到mapping network，得到服装样式信息。根据目标对象所在的图片确定第一姿态信息，将非换装区域图像，第一姿态信息以及标准形状信息(具体可以表现为掩码图像)沿通道拼接后输入到id encoder，得到第一编码结果，将第一编码结果与服装样式信息依次输入多个decoder，直至解码完成，得到目标对象对应的目标换装图像。
65.在一种实施方式中，如图4所示，在所述目标对象处于视频中的情况下，获取所述目标对象的第一姿态信息以及非换装区域图像包括：获取所述目标对象在所述视频中每一视频帧的第一姿态信息以及所述述目标对象在所述视频中每一视频帧的非换装区域图像；
66.相应地，所述根据所述第一姿态信息、所述非换装区域图像、所述服装样式信息和所述标准形状信息，对目标对象进行换装，包括：
67.s410、根据所述目标对象在所述视频中每一视频帧的第一姿态信息，确定姿态信息序列；
68.s420、根据所述姿态信息序列、所述目标对象在所述视频中每一视频帧的非换装区域图像、所述标准形状信息以及所述服装样式信息进行解码，得到所述目标对象对应的目标换装视频。
69.示例性地，姿态信息序列用于表示视频中目标对象的姿势。可选地，由于视频是连续的，考虑到底视频中姿势的连续性，希望在换装时可以得到正确的运动姿势，因此将姿态信息与非换装区域和标准形状信息进行解耦。具体地，可以是将每一帧的第一姿态信息进行编码，得到姿态信息序列，还可以是根据预设的动作识别模型对多帧的第一姿态信息进行处理，得到姿态信息序列，还可以是按照顺序对每一帧的第一姿态信息进行排序得到姿态信息序列。
70.具体地，在对获取到的服装区域图像进行姿态矫正处理，得到服装区域图像中服装的标准形状信息，对服装区域图像进行图像区域划分，得到多个子区域图像，根据多个子区域图像生成服装样式信息。对视频中每一视频帧进行人体关键点检测，根据每一帧的人体关键点确定每一帧的目标对象的姿势(即第一姿态信息)。根据预设的动作识别模型对多帧的第一姿态信息进行处理，得到姿态信息序列。同时获取目标对象在视频中每一帧的非换装区域，再将姿态信息序列、非换装区域、标准形状信息以及服装样式信息输入至解码器，从而得到目标对象换装后的视频，进而实现对视频中的目标对象进行换装，提升视频换装的准确性。
71.在一种实施方式中，所述根据所述姿态信息序列、所述目标对象在所述视频中每一视频帧的非换装区域图像、所述标准形状信息以及所述服装样式信息进行解码，得到所述目标对象对应的目标换装视频，包括：
72.将所述目标对象在所述视频中每一视频帧的非换装区域图像和所述标准形状信息进行编码，得到第二编码结果；
73.将所述第二编码结果、所述姿态信息序列和所述服装样式信息进行解码，得到所
述目标对象对应的目标换装视频。
74.示例性地，由于需要保证换装人物的准确性，因此需要确定目标对象的身份特征，所以采用id encoder进行编码。具体地，将非换装区域图像和标准形状信息进行拼接，将拼接后的结果输入id encoder得到第二编码结果。将第二编码结果、姿态信息序列和服装样式信息输入至解码器(decoder)得到目标对象换装后的视频，从而实现对视频中的目标对象进行换装。
75.在本实施例中，如图5所示，对目标对象进行换装所采用的网络结构stylegan2。将所有的子区域图像沿着通道维度进行拼接，输入到style encoder中，经过全局池化作为生成网络的控制条件输入到mapping network，得到服装样式信息。获取目标对象在视频中每一帧的非换装区域图像以及第一姿态信息，根据预设的动作识别模型对多帧的第一姿态信息进行处理得到姿态信息序列。将视频中每一帧的非换装区域以及标准形状信息(具体可以表现为掩码图像)沿通道拼接后输入到id encoder，得到第二编码结果，将第二编码结果、姿态信息序列与服装样式信息依次输入多个decoder，直至解码完成，得到目标对象对应的目标换装视频。
76.在一种实施方式中，所述根据所述姿态信息序列、所述目标对象在所述视频中每一视频帧的非换装区域图像、所述标准形状信息以及所述服装样式信息进行编码，得到所述目标对象对应的目标换装视频，包括：
77.根据所述姿态信息序列、所述目标对象在所述视频中每一视频帧的非换装区域图像、所述标准形状信息以及所述服装样式信息进行编码，得到预测换装视频；
78.利用时间序列约束条件，将所述预测换装视频确定为所述目标换装视频。
79.示例性地，时间序列约束条件用于对预测换装视频的时序进行约束。可选地，时间序列约束条件可以表现为时序判别器，还可以预设的视频帧之间的顺序，还可以去是其他可以约束时序的模块或条件，在此不作限定。具体地，在目标对象处于视频中，非换装区域、标准形状信息进行编码得到第二编码结果，第二编码结果、姿态信息序列和服装样式信息进行解码，得到预测换装视频。判断预测换装视频是否满足时间序列约束条件，若满足，则将预测换装视频作为所述目标换装视频输出；若不满足，则不输出预测换装视频。
80.在本实施例中，如图6所示，在目标对象处于视频中时，由于逐帧换装时序连续性很差，因此在stylegan2中输出的位置添加时序判别器，通过时序判别器对输出的预测换装视频进行监督，有效提升时序的连续性，使得时序连续更平滑。
81.在一种实施方式中，根据所述目标对象在所述视频中每一视频帧的第一姿态信息，确定姿态信息序列，包括：
82.对所述目标对象在所述视频中每一视频帧的第一姿态信息进行编码处理以及姿态信息的历史信息融合处理，得到姿态信息序列。
83.示例性地，姿态信息的历史信息融合处理用于表示对运动姿势进行学习。具体地，可以是通过动作识别模型(temporal shift module，tsm)学习到历史信息。需要说明的是，针对视频来讲，只有姿势需要时序连续，因此，在训练时只将姿态信息输入动作识别模型进行训练即可。具体地，在stylegan2中添加动作编码器和动作识别模型，这样训练时，将每一视频帧的第一姿态信息输入动作编码器(pose encoder)，得到第三编码结果。将第三编码结果输入至动作识别模型学习到历史信息，得到训练好的动作识别模型。这样，在获取视频
中每一视频帧的第一姿态信息后，将其输入至pose encoder进行编码，将编码结果输入动作识别模型，以对第一姿态信息进行排序，输出姿态信息序列，从而确定出正确的运动姿势，保证了视频换装时序的连续性。
84.在一种实施方式中，所述根据所述第一姿态信息、所述非换装区域图像、所述服装样式信息和所述标准形状信息，对目标对象进行换装，包括：
85.利用所述目标对象的第一姿态信息对所述服装区域图像的多个子区域图像进行处理，得到目标服装图像；其中，所述服装区域图像的多个子区域图像通过对所述服装区域图像进行图像区域划分处理得到；
86.对所述第一姿态信息、所述非换装区域图像、所述服装样式信息和所述标准形状信息进行编码，得到所述目标对象的预测换装图像；
87.根据所述目标服装图像和所述预测换装图像，确定换装后的目标对象。
88.示例性地，目标对象的第一姿态信息可以通过人体关键点进行表示。可选地，如图7所示，当目标对象处于图像中，将所有的子区域图像沿着通道维度进行拼接，输入到style encoder中，经过全局池化作为生成网络的控制条件输入到mapping network，得到服装样式信息。根据目标对象所在的图片确定第一姿态信息p，将非换装区域图像r，第一姿态信息p以及标准形状信息(具体可以表现为掩码图像m)沿通道拼接后输入到id encoder，得到第一编码结果，将第一编码结果与服装样式信息依次输入多个decoder，直至解码完成，得到目标对象对应的目标对象的预测换装图像。
89.将多个子区域图像d_patches按照目标对象的人体关键点可以进行逆变换，然后将逆变换后结果拼接，获得逆变换后的服装结果(即目标服装图像)，记为n_clothes。逆变化后的服装n_clothes与decoder按照空间自适应去正则化(spatially adaptive denormalization，spade)进行融合，通过n_clothes对预测换装图像进行监督，根据n_clothes确定是否输出预测换装图像，从而提高目标对象的换装效果。
90.可选地，如图8所示，当目标对象处于视频中，将所有的子区域图像沿着通道维度进行拼接，输入到style encoder中，经过全局池化作为生成网络的控制条件输入到mapping network，得到服装样式信息。获取目标对象在视频中每一帧的非换装区域以及第一姿态信息，将每一视频帧的第一姿态信息通过pose encoder得到的编码特征输入至tsm，以输出态信息序列。将视频中每一帧的非换装区域r以及标准形状信息(具体可以表现为掩码图像m)沿通道拼接后输入到id encoder，得到第二编码结果，将第二编码结果、姿态信息序列与服装样式信息依次输入多个decoder，直至解码完成，得到目标对象对应的预测换装视频。
91.多个子区域图像d_patches按照人体关键点可以进行逆变换，然后将逆变换后结果拼接，获得逆变换后的服装结果结合每一视频帧的人体关键点，得到目标服装图像序列。逆变化后的目标服装图像序列与decoder按照spade进行融合，通过目标服装图像序列对预测换装视频进行监督，根据目标服装图像序列确定是否输出预测换装视频，从而提高视频中目标对象的换装效果。
92.进一步地，由于目标对象处于视频中，因此采用流式测试。让模型学习时序信息，同一视频为同一目标对象的连续帧图像，所以子区域图像和标准形状信息可以共享，缩短数据处理的时长。训练时非换装区域和目标服装图像序列不同帧之间无交互，所以进行单
独的特征提取。第一姿态信息单独提取特征后通过tsm融合历史信息，最后通过decoder获得连续帧图像。测试时将历史的姿态信息保留与当前姿态合并送入tsm，保留的历史特征长度与训练集对齐。
93.在一种实施方式中，所述对获取到的服装区域图像进行姿态矫正处理，得到所述服装区域图像中服装的标准形状信息，包括：
94.在原始图像中提取所述服装区域图像；
95.将所述原始图像和所述服装区域图像输入至预设的神经网络，得到所述标准形状信息。
96.示例性地，原始图像是服装区域的图像，可选地，原始图像中可以包括源对象和服装区域图像。预设的神经网络是可以去除服装区域图像中的姿态信息的模型。可选地，预设的神经网络可以采用u-net结构，还可以采用其他的神经网络，在此不作限定。
97.具体地，如图9所示，在训练神经网络时，训练数据采用成对的数据(如图10所示，即原始图片和服装区域图像)，损失函数采用均方损失函数(mean squared error loss，mse-loss)，预测目标为服装掩码(即标准形状信息)，如此进行训练，就可以得到训练好的神经网络。这样，在获取原始图像之后，可以根据需要提取上衣对应的服装区域图像，或下装对应的服装区域图像。再将上衣对应的服装区域图像或下装对应的服装区域图像和原始图像输入至训练好的神经网络中，就可以得到上衣对应的上衣掩码或下装对应的下装掩码，上衣掩码或下装掩码可以准确地反映原始图像中的服装的形状信息，从而可以更精确的对目标对象进行换装。
98.在一种实施方式中，所述在原始图像中提取所述服装区域图像，包括：
99.确定所述原始图像中的服装标签；
100.根据所述服装标签确定对应的人体关键点；
101.根据所述人体关键点和所述服装标签，得到所述服装区域图像。
102.示例性地，服装标签用于表示服装对应的区域，可选地，可以用不同的颜色标记上衣和下装。可选地，可以通过人体解析模型(human parsing)对原始图像进行像素级的是细粒度分割，根据不同颜色标记服装和身体部位，从而划分出身体部位和服装，以确定出服装标签。
103.示例性地，人体关键点集是人体关键点的集合，一般人体关键点表示17个关节，分别是鼻子、左右眼、左右耳、左右肩、左右肘、左右腕、左右臀、左右膝、左右脚踝。可选地，人体检测算法可以包括：g-rmi、cfn、rmpe、paf、associative embedding、openpose等。
104.可选地，如图11所示，可以是根据预先训练好的服装关键点模型确定服装标签对应的人体关键点，其中，服装关键点模型可以是神经网络，还可以是其他模型。具体地，通过openpose对训练图像进行处理，得到人体关键点，并在人体关键点中确定出服装对应的人体关键点。然后根据人体解析模型对训练图像进行处理，得到训练图像的标签，在训练图像的标签中提取服装标签。如图12所示，根据服装标签和服装对应的人体关键点(即根据服装标签和服装对应的人体关键点形成一个伪标签)对神经网络进行训练，即将服装标签作为神经网络的输入数据，服装对应的人体关键点作为预测目标，得到训练好的服装关键点模型。需要说明的是，训练好的服装关键点模型输出的可以仅是人体关键点，还可以是带有人体关键点的服装标签(即服装区域图像)。可选地，当训练好的服装关键点模型输出的仅是
人体关键点的情况下，则将人体关键点与服装标签进行融合，则可以得到服装区域图像。
105.在本实施例中，在获取原始图像后，根据人体解析模型确定原始图像中服装标签，将服装标签输入至服装关键点模型，输出带有人体关键点的服装标签。这样，由于本技术是直接对服装进行处理，这样不仅可以处理模特之间换装，还可以处理平面服装换装的情况，使得换装具备通用性。
106.在一种实施方式中，所述对所述服装区域图像进行图像区域划分处理，得到多个子区域图像，包括：
107.根据原始图像确定人体关键点集和所述原始图像中的服装标签，并根据所述服装标签确定对应的人体关键点；
108.具体可参见上述介绍，确定服装标签对应的人体关键点。
109.利用所述人体关键点对所述服装区域图像进行划分，得到划分后的服装区域图像；
110.对所述划分后的服装区域图像进行透视变换处理，得到方向和比例相统一的多个子区域图像。
111.其中，透视变换处理是将图像投影到一个新的视平面，用于将划分后的服装区域图像标准化，即对划分后的服装区域图像的方向和比例进行调整，使得多个子区域图像的方向和比例相同。
112.在本实施例中，当服装区域图像是上衣或下装时，可以根据上衣或下装对应人体关键点(如左右肩、左右肘、左右腕、左右臀、左右膝、左右脚踝等)对服装区域图像进行分割，得到8个贴片，即8个patches，其中，这8个patches为正方形。将8个patches进行透视变换抹除原始服装的结构信息，得到多个子区域图像，记为d_patches，从而解决原始图像中服装风格与空间信息耦合在一起的问题。
113.示例性装置
114.相应的，相应的，图13是根据本技术一实施例的虚拟换装装置的结构示意图。在一示例性实施例中，本技术实施例还提出一种虚拟换装装置，该装置包括：
115.第一处理模块1310，用于对获取到的服装区域图像进行姿态矫正处理，得到所述服装区域图像中服装的标准形状信息；其中，所述标准形状信息包括所述服装区域图像中服装处于自然平展状态下所呈现的形状信息；
116.信息提取模块1320，用于从所述服装区域图像中提取得到服装样式信息；
117.换装模块1330，用于利用多个子区域图像和标准形状信息，对目标对象进行换装。
118.作为一种优选的实施方式，上述的信息提取模块1320，从所述服装区域图像中提取得到服装样式信息时，先对所述服装区域图像进行划分处理，得到多个子区域图像，其中，所述多个子区域图像方向和比例相统一；然后根据所述多个子区域图像生成服装样式信息。
119.基于上述的优选实施方式，图14示出了该优选实施例所提出的虚拟换装装置的结构示意图，参见图14所示，该虚拟换装装置，包括：
120.第一处理模块1310，用于对获取到的服装区域图像进行姿态矫正处理，得到所述服装区域图像中服装的标准形状信息；其中，所述标准形状信息包括所述服装区域图像中服装处于自然平展状态下所呈现的形状信息；
121.第二处理模块1321，用于对所述服装区域图像进行划分处理，得到多个子区域图像；
122.生成模块1322，用于根据所述多个子区域图像生成服装样式信息；
123.换装模块1330，用于利用多个子区域图像和标准形状信息，对目标对象进行换装。
124.在一种实施方式中，所述换装模块1340，包括：
125.获取模块，用于获取所述目标对象的第一姿态信息以及非换装区域图像；
126.第三处理模块，用于根据所述第一姿态信息、所述非换装区域图像、所述服装样式信息和所述标准形状信息，对目标对象进行换装。
127.在一种实施方式中，在所述目标对象处于图像中的情况下，第三处理模块用于：
128.将所述第一姿态信息、所述非换装区域图像和所述标准形状信息进行编码，得到第一编码结果；
129.将所述第一编码结果和所述服装样式信息进行解码，得到所述目标对象对应的目标换装图像。
130.在一种实施方式中，在所述目标对象处于视频中的情况下，获取所述目标对象的第一姿态信息以及非换装区域图像包括：获取所述目标对象在所述视频中每一视频帧的第一姿态信息以及所述述目标对象在所述视频中每一视频帧的非换装区域图像；
131.相应地，第三处理模块用于：
132.根据所述目标对象在所述视频中每一视频帧的第一姿态信息，确定姿态信息序列；
133.根据所述姿态信息序列、所述目标对象在所述视频中每一视频帧的非换装区域图像、所述标准形状信息以及所述服装样式信息进行解码，得到所述目标对象对应的目标换装视频。
134.在一种实施方式中，所述根据所述姿态信息序列、所述目标对象在所述视频中每一视频帧的非换装区域图像、所述标准形状信息以及所述服装样式信息进行解码，得到所述目标对象对应的目标换装视频，包括：
135.将所述目标对象在所述视频中每一视频帧的非换装区域图像和所述标准形状信息进行编码，得到第二编码结果；
136.将所述第二编码结果、所述姿态信息序列和所述服装样式信息进行解码，得到所述目标对象对应的目标换装视频。
137.在一种实施方式中，所述根据所述姿态信息序列、所述目标对象在所述视频中每一视频帧的非换装区域图像、所述标准形状信息以及所述服装样式信息进行编码，得到所述目标对象对应的目标换装视频，包括：
138.根据所述姿态信息序列、所述目标对象在所述视频中每一视频帧的非换装区域图像、所述标准形状信息以及所述服装样式信息进行编码，得到预测换装视频；
139.利用时间序列约束条件，将所述预测换装视频确定为所述目标换装视频。
140.在一种实施方式中，根据所述目标对象在所述视频中每一视频帧的第一姿态信息，确定姿态信息序列，包括：
141.对所述目标对象在所述视频中每一视频帧的第一姿态信息进行编码处理以及姿态信息的历史信息融合处理，得到姿态信息序列。
142.在一种实施方式中，所述第三处理模块，包括：
143.第四处理模块，用于利用所述目标对象的第一姿态信息对所述服装区域图像的多个子区域图像进行处理，得到目标服装图像；其中，所述服装区域图像的多个子区域图像通过对所述服装区域图像进行图像区域划分处理得到；
144.第一预测模块，用于对所述第一姿态信息、所述非换装区域图像、所述服装样式信息和所述标准形状信息进行编码，得到所述目标对象的预测换装图像；
145.监督模块，用于根据所述目标服装图像和所述预测换装图像，确定换装后的目标对象。
146.在一种实施方式中，所述第一处理模块1310，包括：
147.提取模块，用于在原始图像中提取所述服装区域图像；
148.第二预测模块，用于将所述原始图像和所述服装区域图像输入至预设的神经网络，得到所述标准形状信息。
149.在一种实施方式中，所述提取模块，还用于：
150.根据所述原始图像，确定人体关键点集和所述原始图像中的服装标签；
151.根据所述服装标签确定对应的人体关键点；
152.根据所述人体关键点和所述服装标签，得到所述服装区域图像。
153.在一种实施方式中，所述第二处理模块1321，还用于：
154.根据原始图像确定人体关键点集和所述原始图像中的服装标签，并根据所述服装标签确定对应的人体关键点；
155.利用所述人体关键点对所述服装区域图像进行划分，得到划分后的服装区域图像；
156.对所述划分后的服装区域图像进行透视变换处理，得到所述方向和比例相统一的多个子区域图像。
157.本实施例提供的虚拟换装装置，与本技术上述实施例所提供的虚拟换装方法属于同一申请构思，可执行本技术上述任意实施例所提供的虚拟换装方法，具备执行虚拟换装方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本技术上述实施例提供的虚拟换装方法的具体处理内容，此处不再加以赘述。
158.示例性电子设备
159.本技术另一实施例还提出一种电子设备，参见图15所示，该设备包括：
160.存储器1400和处理器1410；
161.其中，所述存储器1400与所述处理器1410连接，用于存储程序；
162.所述处理器1410，用于通过运行所述存储器1400中存储的程序，实现上述任一实施例公开的虚拟换装方法。
163.具体的，上述电子设备还可以包括：总线、通信接口1420、输入设备1430和输出设备1440。
164.处理器1410、存储器1400、通信接口1420、输入设备1430和输出设备1440通过总线相互连接。其中：
165.总线可包括一通路，在计算机系统各个部件之间传送信息。
166.处理器1410可以是通用处理器，例如通用中央处理器(cpu)、微处理器等，也可以
是特定应用集成电路(application-specific integrated circuit，asic)，或一个或多个用于控制本发明方案程序执行的集成电路。还可以是数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
167.处理器1410可包括主处理器，还可包括基带芯片、调制解调器等。
168.存储器1400中保存有执行本发明技术方案的程序，还可以保存有操作系统和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器1400可以包括只读存储器(read-only memory，rom)、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器(random access memory，ram)、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。
169.输入设备1430可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。
170.输出设备1440可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。
171.通信接口1420可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网(ran)，无线局域网(wlan)等。
172.处理器1410执行存储器1400中所存放的程序，以及调用其他设备，可用于实现本技术上述实施例所提供的任意一种虚拟换装方法的各个步骤。
173.示例性计算机程序产品和存储介质
174.除了上述方法和设备以外，本技术的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本技术各种实施例的虚拟换装方法中的步骤。
175.所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本技术实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如java、c++等，还包括常规的过程式程序设计语言，诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
176.此外，本技术的实施例还可以是存储介质，其上存储有计算机程序，计算机程序被处理器执行本说明书上述“示例性方法”部分中描述的根据本技术各种实施例的虚拟换装方法中的步骤。
177.上述的电子设备的具体工作内容，以及上述的计算机程序产品和存储介质上的计算机程序被处理器运行时的具体工作内容，均可以参见上述的方法实施例的内容，此处不再赘述。
178.对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本技术并不受所描述的动作顺序的限制，因为依据本技术，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本技术所必须的。
179.需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重
点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
180.本技术各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。
181.本技术各实施例种装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。
182.本技术所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其它的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。
183.作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。
184.另外，在本技术各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。
185.专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
186.结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。
187.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
188.对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本技术。对这
些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：程虎殷保才胡金水殷兵刘文超
技术所有人：科大讯飞股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。