本发明涉及人工智能,具体涉及基于扩散模型的虚拟试衣方法。
背景技术:
::1、虚拟试衣是人工智能领域一个重要的研究方向,目的是将衣服从一幅图像转移到另一幅图像,同时保存人和衣服的细节,随着技术的发展,虚拟试衣依赖于生成对抗网络(gan)取得了巨大的进步,但是仍然存在很多不足之处,尤其是再高分辨率的图像下,虚拟试衣的结果仍在不同程度上存在着衣服层面、人物层面、或者人衣合成不够自然等问题。2、gan网络需要同时训练判别器和生成器,比较难平衡,这使得训练不稳定,生成的虚拟试衣结果仍在不同程度上存在着衣服层面、人物层面、或者人衣合成不够自然等问题,尤其是在高分辨率图像上最为明显。此外,仅仅简单的使用衣服作为条件来引导扩散模型,不足以保持衣服的细节。3、近年来,扩散模型的发展推动了图像以及视频任务的发展,为了获得最佳结果,扩散模型利用了一种引导技术,该技术以样本多样性为代价提高了样本保真度,本方法将stablediffusion的backbone替换为vision transformer模型,大幅度提高了模型性能,以及生成试衣图像的可靠度。viton-hd算法可以在高分辨率图像上生成虚拟试衣结果,表现出了杰出的性能。clip已经成为一个成功的图像表示学习者,clip嵌入具有许多令人满意的特性:它们对图像分布变化具有鲁棒性,具有令人印象深刻的zero-shot能力,并且经过微调,可以在各种视觉和语言任务上获得最先进的结果。技术实现思路1、为解决已有技术存在的不足,本发明提供了一种基于扩散模型的虚拟试衣方法,包括如下步骤:2、步骤s1:模型训练阶段:3、获取三幅图像:人物图像i0(未穿上所需试穿的衣服)、衣服图像ic,人物穿上衣服后的真实图像igt,利用该三幅图像训练模型,直至模型收敛;4、步骤s2:模型使用阶段:5、获取人物图像i0’和衣服图像ic’,基于人物图像i0’和衣服图像ic’得到虚拟试衣图像。6、其中,所述步骤s1中,通过重构分支和细化分支分别得到两个损失值,两个损失值相加得到的总损失收敛时模型训练完毕;7、其中,重构分支的训练过程如下:8、步骤s11:将人物图像i0经过编码器得到嵌入图像z0,再利用公式1可得到z0=ε(i0)在时间t的嵌入图像:9、10、其中,αt=α1*α2*α3*…*αt;即t个时刻的α连续相乘,其中,αt=(1-βt),βt为随机生成的介于0到1之间的数,在每个训练周期中,t随机生成;11、ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声;12、步骤s12:基于人物图像i0生成衣服不可知图像ia,衣服图像ic利用viton-hd中的扭曲算法得到扭曲图像iw,然后生成扭曲图像的掩码图像im及扭曲图像掩码m,将衣服不可知图像ia和衣服扭曲图像iw相加得到粗糙生成图像iaw0;13、步骤s13:将粗糙生成图像iaw0输入到编码器中得到嵌入图像zaw0;14、步骤s14:将嵌入图像zaw0、zt及扭曲图像掩码m连接{zt,zaw0,m},作为重构分支的输入;同时,通过clip模型提取衣服图像ic的特征c,通过交叉注意力机制将特征c,以及所连接的{zt,zaw0,m}均输入到vision transformer网络中,得到一个预测的噪声∈θ(zt,zaw0,m,c,t);15、步骤s15:计算预测噪声和原始噪声之间的loss值:16、17、其中,细化分支的训练过程如下:18、步骤s1a:将粗糙生成图像iaw0输入到编码器中得到嵌入图像zaw0,然后基于公式(3)得到zawt;19、20、其中,αt=α1*α2*α3*…*αt;即t个时刻的α连续相乘,其中,αt=(1-βt),βt为随机生成的介于0到1之间的数,在每个训练周期中,t随机生成;21、ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声;22、步骤s1b:将{zawt,zaw0,m}沿通道方向连接作为vision transformer的输入,同时,通过clip模型提取衣服图像ic的特征c,通过交叉注意力机制将特征c,以及所连接的{zawt,zaw0,m}均输入到vision transformer网络中,得到预测的噪声;然后根据公式(3)通过反方向得到去噪后的潜变量然后将输入到解码器中,得到23、步骤s1c:计算与人物穿上衣服后的真实图像igt的感知损失,计算公式如下:24、25、其中,模型训练的总损失为:26、其中,模型使用阶段,通过如下步骤得到虚拟试衣图像:27、步骤s21:解析人物图像i0’,得到人物的扭曲情况,基于所解析出来的扭曲情况,对衣服图像ic’利用viton-hd中的扭曲算法得到扭曲图像iw’;然后生成扭曲图像的掩码图像im’及扭曲图像掩码m’;28、步骤s22:基于人物图像i0’生成衣服不可知图像ia’;29、步骤s23:将衣服不可知图像ia’和衣服扭曲图像iw’相加得到粗糙生成图像iaw0’;30、步骤s24:将粗糙生成图像iaw0’输入到编码器中得到嵌入图像zaw0’,加躁后得到zawt’:31、32、其中,αt=α1*α2*α3*…*αt;即t个时刻的α连续相乘,其中,αt=(1-βt),βt为随机生成的介于0到1之间的数,在每个训练周期中,t随机生成;33、ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声;34、步骤s25:将{zawt’,zaw0’,m’}沿通道方向连接作为vision transformer的输入,得到预测的噪声;然后根据公式(6)通过反方向得到去噪后的潜变量然后将输入到解码器中,得到即为最终的虚拟试衣图像。35、本发明将stablediffusion的backbone替换为vision transformer模型,相比于传统的卷积神经网络,vision transformer通过self-attention机制学习图像中不同部分之间的关系,从而实现了更加准确和细粒度的特征提取,从而大幅度提高了模型性能,以及生成试衣图像的可靠度。技术特征:1.基于扩散模型的虚拟试衣方法,其特征在于,包括如下步骤:2.如权利要求1所述的基于扩散模型的虚拟试衣方法,其特征在于,所述步骤s1中,通过重构分支和细化分支分别得到两个损失值,两个损失值相加得到的总损失收敛时模型训练完毕;3.如权利要求2所述的基于扩散模型的虚拟试衣方法,其特征在于,细化分支的训练过程如下:4.如权利要求3所述的基于扩散模型的虚拟试衣方法,其特征在于,5.如权利要求1所述的基于扩散模型的虚拟试衣方法,其特征在于,模型使用阶段,通过如下步骤得到虚拟试衣图像:技术总结基于扩散模型的虚拟试衣方法,其特征在于,包括如下步骤:模型训练阶段:获取三幅图像:人物图像I<subgt;0</subgt;(未穿上所需试穿的衣服)、衣服图像I<subgt;c</subgt;,人物穿上衣服后的真实图像I<subgt;gt</subgt;,利用该三幅图像训练模型,直至模型收敛;模型使用阶段:获取人物图像I<subgt;0</subgt;’和衣服图像I<subgt;c</subgt;’,基于人物图像I<subgt;0</subgt;’和衣服图像I<subgt;c</subgt;’得到虚拟试衣图像。本发明将stable diffusion的backbone替换为Vision Transformer模型,从而实现了更加准确和细粒度的特征提取,从而大幅度提高了模型性能,以及生成试衣图像的可靠度。技术研发人员:刘丽欣,韩福海受保护的技术使用者:先进操作系统创新中心(天津)有限公司技术研发日:技术公布日:2024/2/21