基于扩散模型的虚拟试衣方法与流程

文档序号：37100044发布日期：2024-02-22 20:57阅读：35来源：国知局

本发明涉及人工智能，具体涉及基于扩散模型的虚拟试衣方法。
背景技术：
：：1、虚拟试衣是人工智能领域一个重要的研究方向，目的是将衣服从一幅图像转移到另一幅图像，同时保存人和衣服的细节，随着技术的发展，虚拟试衣依赖于生成对抗网络(gan)取得了巨大的进步，但是仍然存在很多不足之处，尤其是再高分辨率的图像下，虚拟试衣的结果仍在不同程度上存在着衣服层面、人物层面、或者人衣合成不够自然等问题。2、gan网络需要同时训练判别器和生成器，比较难平衡，这使得训练不稳定，生成的虚拟试衣结果仍在不同程度上存在着衣服层面、人物层面、或者人衣合成不够自然等问题，尤其是在高分辨率图像上最为明显。此外，仅仅简单的使用衣服作为条件来引导扩散模型，不足以保持衣服的细节。3、近年来，扩散模型的发展推动了图像以及视频任务的发展，为了获得最佳结果，扩散模型利用了一种引导技术，该技术以样本多样性为代价提高了样本保真度，本方法将stablediffusion的backbone替换为vision transformer模型，大幅度提高了模型性能，以及生成试衣图像的可靠度。viton-hd算法可以在高分辨率图像上生成虚拟试衣结果，表现出了杰出的性能。clip已经成为一个成功的图像表示学习者，clip嵌入具有许多令人满意的特性：它们对图像分布变化具有鲁棒性，具有令人印象深刻的zero-shot能力，并且经过微调，可以在各种视觉和语言任务上获得最先进的结果。技术实现思路1、为解决已有技术存在的不足，本发明提供了一种基于扩散模型的虚拟试衣方法，包括如下步骤：2、步骤s1：模型训练阶段：3、获取三幅图像：人物图像i0(未穿上所需试穿的衣服)、衣服图像ic，人物穿上衣服后的真实图像igt，利用该三幅图像训练模型，直至模型收敛；4、步骤s2：模型使用阶段：5、获取人物图像i0’和衣服图像ic’，基于人物图像i0’和衣服图像ic’得到虚拟试衣图像。6、其中，所述步骤s1中，通过重构分支和细化分支分别得到两个损失值，两个损失值相加得到的总损失收敛时模型训练完毕；7、其中，重构分支的训练过程如下：8、步骤s11：将人物图像i0经过编码器得到嵌入图像z0，再利用公式1可得到z0＝ε(i0)在时间t的嵌入图像：9、10、其中，αt＝α1*α2*α3*…*αt；即t个时刻的α连续相乘，其中，αt＝(1-βt)，βt为随机生成的介于0到1之间的数，在每个训练周期中，t随机生成；11、ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声；12、步骤s12：基于人物图像i0生成衣服不可知图像ia，衣服图像ic利用viton-hd中的扭曲算法得到扭曲图像iw，然后生成扭曲图像的掩码图像im及扭曲图像掩码m，将衣服不可知图像ia和衣服扭曲图像iw相加得到粗糙生成图像iaw0；13、步骤s13：将粗糙生成图像iaw0输入到编码器中得到嵌入图像zaw0；14、步骤s14：将嵌入图像zaw0、zt及扭曲图像掩码m连接{zt，zaw0，m}，作为重构分支的输入；同时，通过clip模型提取衣服图像ic的特征c，通过交叉注意力机制将特征c，以及所连接的{zt，zaw0，m}均输入到vision transformer网络中，得到一个预测的噪声∈θ(zt,zaw0,m,c,t)；15、步骤s15：计算预测噪声和原始噪声之间的loss值：16、17、其中，细化分支的训练过程如下：18、步骤s1a：将粗糙生成图像iaw0输入到编码器中得到嵌入图像zaw0，然后基于公式(3)得到zawt；19、20、其中，αt＝α1*α2*α3*…*αt；即t个时刻的α连续相乘，其中，αt＝(1-βt)，βt为随机生成的介于0到1之间的数，在每个训练周期中，t随机生成；21、ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声；22、步骤s1b：将{zawt，zaw0，m}沿通道方向连接作为vision transformer的输入，同时，通过clip模型提取衣服图像ic的特征c，通过交叉注意力机制将特征c，以及所连接的{zawt，zaw0，m}均输入到vision transformer网络中，得到预测的噪声；然后根据公式(3)通过反方向得到去噪后的潜变量然后将输入到解码器中，得到23、步骤s1c：计算与人物穿上衣服后的真实图像igt的感知损失，计算公式如下：24、25、其中，模型训练的总损失为：26、其中，模型使用阶段，通过如下步骤得到虚拟试衣图像：27、步骤s21：解析人物图像i0’，得到人物的扭曲情况，基于所解析出来的扭曲情况，对衣服图像ic’利用viton-hd中的扭曲算法得到扭曲图像iw’；然后生成扭曲图像的掩码图像im’及扭曲图像掩码m’；28、步骤s22：基于人物图像i0’生成衣服不可知图像ia’；29、步骤s23：将衣服不可知图像ia’和衣服扭曲图像iw’相加得到粗糙生成图像iaw0’；30、步骤s24：将粗糙生成图像iaw0’输入到编码器中得到嵌入图像zaw0’，加躁后得到zawt’：31、32、其中，αt＝α1*α2*α3*…*αt；即t个时刻的α连续相乘，其中，αt＝(1-βt)，βt为随机生成的介于0到1之间的数，在每个训练周期中，t随机生成；33、ε为均值和方差分别为0和1的服从高斯分布的一个高斯噪声；34、步骤s25：将{zawt’，zaw0’，m’}沿通道方向连接作为vision transformer的输入，得到预测的噪声；然后根据公式(6)通过反方向得到去噪后的潜变量然后将输入到解码器中，得到即为最终的虚拟试衣图像。35、本发明将stablediffusion的backbone替换为vision transformer模型，相比于传统的卷积神经网络，vision transformer通过self-attention机制学习图像中不同部分之间的关系，从而实现了更加准确和细粒度的特征提取，从而大幅度提高了模型性能，以及生成试衣图像的可靠度。技术特征：1.基于扩散模型的虚拟试衣方法，其特征在于，包括如下步骤：2.如权利要求1所述的基于扩散模型的虚拟试衣方法，其特征在于，所述步骤s1中，通过重构分支和细化分支分别得到两个损失值，两个损失值相加得到的总损失收敛时模型训练完毕；3.如权利要求2所述的基于扩散模型的虚拟试衣方法，其特征在于，细化分支的训练过程如下：4.如权利要求3所述的基于扩散模型的虚拟试衣方法，其特征在于，5.如权利要求1所述的基于扩散模型的虚拟试衣方法，其特征在于，模型使用阶段，通过如下步骤得到虚拟试衣图像：技术总结基于扩散模型的虚拟试衣方法，其特征在于，包括如下步骤：模型训练阶段：获取三幅图像：人物图像I<subgt;0</subgt;(未穿上所需试穿的衣服)、衣服图像I<subgt;c</subgt;，人物穿上衣服后的真实图像I<subgt;gt</subgt;，利用该三幅图像训练模型，直至模型收敛；模型使用阶段：获取人物图像I<subgt;0</subgt;’和衣服图像I<subgt;c</subgt;’，基于人物图像I<subgt;0</subgt;’和衣服图像I<subgt;c</subgt;’得到虚拟试衣图像。本发明将stable diffusion的backbone替换为Vision Transformer模型，从而实现了更加准确和细粒度的特征提取，从而大幅度提高了模型性能，以及生成试衣图像的可靠度。技术研发人员：刘丽欣,韩福海受保护的技术使用者：先进操作系统创新中心（天津）有限公司技术研发日：技术公布日：2024/2/21

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘丽欣,韩福海
技术所有人：先进操作系统创新中心（天津）有限公司
我是此专利的发明人

上一篇：一种组装式果穗烘干机的制作方法
上一篇：一种受热均匀的生态板材料生产用热压装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。