图像编辑模型的训练方法、图像编辑方法和装置与流程

文档序号：34657817发布日期：2023-07-04 22:47阅读：34来源：国知局

本公开涉及人工智能，尤其涉及深度学习、图像处理、计算机视觉，尤其涉及一种图像编辑模型的训练方法、图像编辑方法、装置、电子设备、存储介质和计算机程序产品。

背景技术：

1、目前，随着人工智能技术的不断发展，图像编辑在图像补全、内容删除、照片修复等场景得到广泛应用，具有编辑效率高、自动化程度高等优点。但目前的图像编辑技术随机生成掩码图，导致构建掩码图时缺少语义信息，使得图像编辑的成功率较低。

技术实现思路

1、本公开提供了一种用于图像编辑模型的训练方法、图像编辑方法、装置、电子设备、存储介质和计算机程序产品。

2、根据本公开的一方面，提供了一种图像编辑模型的训练方法，包括：基于预训练的潜在扩散模型，得到待训练的图像编辑模型；获取样本图像的语义掩码图集合，所述语义掩码图集合包括多维度上的语义掩码图；获取所述样本图像的第一编辑信息，所述第一编辑信息包括描述图像编辑后预期效果的目标文本信息；基于所述样本图像、所述样本图像的训练语义掩码图和所述第一编辑信息，对所述图像编辑模型进行训练，以得到目标图像编码模型，所述训练语义掩码图为所述语义掩码图集合中一个维度上的语义掩码图。

3、根据本公开的另一方面，提供了一种图像编辑方法，包括：获取待编辑的目标图像和所述目标图像的掩码图；获取所述目标图像的目标编辑信息；将所述待编辑图像、所述掩码图、所述目标编辑信息和随机高斯噪声，输入目标图像编辑模型中，得到所述目标图像的目标编辑图像；其中，所述目标图像编辑模型采用本公开的训练方法训练出的模型。

4、根据本公开的另一方面，提供了一种图像编辑模型的训练装置，包括：第一生成模块，基于预训练的潜在扩散模型，得到待训练的图像编辑模型；第一获取模块，获取样本图像的语义掩码图集合，所述语义掩码图集合包括多维度上的语义掩码图；第二获取模块，获取所述样本图像的第一编辑信息，所述第一编辑信息包括描述图像编辑后预期效果的目标文本信息；第二生成模块，基于所述样本图像、所述样本图像的训练语义掩码图和所述第一编辑信息，对所述图像编辑模型进行训练，以得到目标图像编码模型，所述训练语义掩码图为所述语义掩码图集合中一个维度上的语义掩码图。

5、根据本公开的另一方面，提供了一种图像编辑装置，包括：第一获取模块，获取待编辑的目标图像和所述目标图像的掩码图；第二获取模块，获取所述目标图像的目标编辑信息；编辑模块，将所述待编辑图像、所述掩码图、所述目标编辑信息和随机高斯噪声，输入目标图像编辑模型中，得到所述目标图像的目标编辑图像。其中，所述目标图像编辑模型采用本公开的训练方法训练出的模型。

6、根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述一方面实施例所述的图像编辑模型的训练方法、图像编辑方法。

7、根据本公开另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其上存储有计算机程序/指令，所述计算机指令用于使所述计算机执行上述一方面实施例所述的图像编辑模型的训练方法。

8、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现上述一方面实施例所述的图像编辑模型的训练方法。

9、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种图像编辑模型的训练方法，其中，包括：

2.根据权利要求1所述的方法，其中，所述基于所述样本图像、所述样本图像的训练语义掩码图和所述第一编辑信息，对所述图像编辑模型进行训练，以得到目标图像编码模型包括：

3.根据权利要求1或2所述的方法，其中，所述潜在扩散模型包括图像自编码器、第一文本编码器和去噪网络，所述基于预训练的潜在扩散模型，得到待训练的图像编辑模型，包括：

4.根据权利要求2所述的方法，其中，所述基于所述掩码后样本图像、所述训练语义掩码图和所述第一编辑信息，对所述加噪样本图像进行多次迭代去噪和文生图，得到所述样本图像的第一编辑图像和预测噪声，包括：

5.根据权利要求1-4中任一项所述的方法，其中，所述方法还包括：

6.根据权利要求1-4中任一项所述的方法，其中，所述获取样本图像的语义掩码图集合，包括：

7.根据权利要求6所述的方法，其中，所述对所述样本图像进行物体识别，并根据携带语义信息的物体，生成第一维度上的第一类语义掩码图，包括：

8.根据权利要求6所述的方法，其中，所述获取所述样本图像的文本信息，包括：

9.根据权利要求8所述的方法，其中，所述基于所述样本图像和所述目标文本信息，生成第二维度上的语义掩码图，包括：

10.根据权利要求6所述的方法，其中，所述获取所述样本图像中物体的垂类关键词，包括：

11.根据权利要求1-4中任一项所述的方法，其中，所述获取样本图像的语义掩码图集合，包括：

12.根据权利要求1-4中任一项所述的方法，其中，在得到所述目标图像编辑模型之后，还包括：

13.根据权利要求12所述的方法，其中，所述根据所述第二编辑后图像，对所述目标图像编辑模型的整体性能进行评估，包括：

14.根据权利要求13所述的方法，其中，所述获取所述第二编辑后图像的质量评估信息，包括：

15.根据权利要求13所述的方法，其中，所述方法还包括：

16.一种图像编辑方法，其中，包括：

17.一种图像编辑模型训练装置，包括：

18.根据权利要求17所述的装置，其中，所述第二生成模块，还用于：

19.根据权利要求17或18所述的装置，其中，所述第一生成模块，还用于：

20.根据权利要求18所述的装置，其中，所述第二生成模块，还用于：

21.根据权利要求17-20中任一项所述的装置，其中，所述第二生成模块，还用于：

22.根据权利要求17-20中任一项所述的装置，其中，所述第一获取模块，还用于：

23.根据权利要求22所述的装置，其中，所述第一获取模块，还用于：

24.根据权利要求22所述的装置，其中，所述第一获取模块，还用于：

25.根据权利要求24所述的装置，其中，所述第一获取模块，还用于：

26.根据权利要求22所述的装置，其中，所述第一获取模块，还用于：

27.根据权利要求17-20中任一项所述的装置，其中，所述第一获取模块，还用于：

28.根据权利要求17-20中任一项所述的装置，其中，所述第二生成模块，还用于：

29.根据权利要求28所述的装置，其中，所述第二生成模块，还用于：

30.根据权利要求29所述的装置，其中，所述第二生成模块，还用于：

31.根据权利要求29所述的装置，其中，所述第二生成模块，还用于：

32.一种图像编辑装置，包括：

33.一种电子设备，包括：

34.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-16中任一项所述的图像编辑模型的训练方法。

35.一种计算机程序产品，包括计算机程序/指令，其特征在于，该计算机程序/指令被处理器执行时实现权利要求1-16中任一项所述的方法步骤。

技术总结
本公开提供了一种图像编辑模型的训练方法、图像编辑方法和装置，涉及人工智能技术领域，尤其涉及深度学习、图像处理，计算机视觉技术领域。具体实施方案为：基于预训练的潜在扩散模型，得到待训练的图像编辑模型；获取样本图像的语义掩码图集合，语义掩码图集合包括多维度上的语义掩码图；获取样本图像的第一编辑信息，第一编辑信息包括描述图像编辑后预期效果的目标文本信息；基于样本图像、样本图像的训练语义掩码图和第一编辑信息，对图像编辑模型进行训练，以得到目标图像编码模型，训练语义掩码图为语义掩码图集合中一个维度上的语义掩码图。由此，该模型基于多个维度语义掩码图进行训练，有助于提升图像编辑能力，增大图像编辑的成功率。

技术研发人员：杨虎,李国豪,李伟,刘家辰,肖欣延
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨虎李国豪李伟刘家辰肖欣延
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种自修复水凝胶阻燃涂层的制备方法与流程
上一篇：一种低磁导率的纳米晶软磁合金制备装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。