图片生成方法及装置、存储介质、计算设备与流程

文档序号：36011330发布日期：2023-11-17 05:23阅读：43来源：国知局

本申请涉及计算机，尤其涉及一种图片生成方法及装置、存储介质、计算设备。

背景技术：

1、传统的写真照片都是由拍摄团队在特定的取景地点，在打光、化妆等一系列的专业团队的辅助下，对特定着装和姿态的人物进行拍摄，并且在经由一系列的修图操作得到用户满意的照片。

2、但是，为了得到效果足够令人的满意的照片，这一过程通常要耗费较长的时间与人工成本，并且时间与空间上的限制往往不能满足用户多场景拍摄的需求。传统的图像处理手段，例如ps合成也只能对经由传统拍摄手段得到的照片进行处理，在图片的多样性和创造性上的能力比较欠缺，并且经过ps合成处理的图片在细节上例如光线阴影往往会有生硬或者不自然的情况，人物姿态的多样性也较难满足。

技术实现思路

1、本申请要解决的技术问题是如何提升图片生成的效率和灵活性。

2、为了达到上述目的，本申请提供了以下技术方案：

3、第一方面，提供了一种图片生成方法，图片生成方法包括：获取输入内容，所述输入内容包括人脸标识、服装标识、姿态信息以及背景图片；将所述输入内容输入至扩散模型，以生成目标图片，其中，所述扩散模型根据所述人脸标识调用其对应的第一lora模型生成所述目标图片中的人脸，所述扩散模型根据所述服装标识调用其对应的第二lora模型生成所述目标图片中的服装，所述目标图片还包括所述姿态信息中的姿态以及所述背景图片中的背景。

4、可选的，所述获取输入内容包括：获取姿态图片；对所述姿态图片提取姿态关键点，以作为所述姿态信息。

5、可选的，所述背景图片包括期望区域，所述目标图标包括所述期望区域。

6、可选的，采用以下方式训练所述第一lora模型：获取第一训练集以及第一正则数据集，所述第一训练集包括多个人脸图片及其人脸特征信息，所述第一正则数据集包括所述多个人脸图片对应的全身图片，所述多个人脸图片对应同一人脸；利用所述第一训练集以及所述第一正则数据集训练所述第一lora模型。

7、可选的，采用以下方式训练所述第二lora模型：获取第二训练集以及第二正则数据集，所述第二训练集包括多个服装图片及其服装特征信息，所述第二正则数据集包括所述多个服装图片对应的具有脸部信息的全身图片，所述多个服装图片对应同一服装；利用所述第二训练集以及所述第二正则数据集训练所述第二lora模型。

8、可选的，所述将所述输入内容输入至扩散模型包括：将所述姿态信息以及所述背景图片输入至controlnet模型，所述controlnet模型输出融合图片至所述扩散模型，所述融合图片通过融合所述姿态信息与所述背景图片得到。

9、可选的，所述输入内容包括需求信息，所述需求信息用于指示所述目标图片的质量。

10、可选的，所述人脸标识选自以下一种或多种：人脸标签和人脸特征信息；所述服装标识选自以下一种或多种：服装标签和服装特征信息。

11、第二方面，提供了一种图片生成装置，所述装置包括：获取模块，用于获取输入内容，所述输入内容包括人脸标识、服装标识、姿态信息以及背景图片；生成模块，用于将所述输入内容输入至扩散模型，以生成目标图片，其中，所述扩散模型根据所述人脸标识调用其对应的第一lora模型生成所述目标图片中的人脸，所述扩散模型根据所述服装标识调用其对应的第二lora模型生成所述目标图片中的服装，所述目标图片还包括所述姿态信息中的姿态以及所述背景图片中的背景。

12、第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器运行以执行第一方面或第二方面提供的任意一种方法。

13、第四方面，提供了一种计算设备，包括存储器和处理器，存储器上存储有可在处理器上运行的计算机程序，其特征在于，处理器运行计算机程序以执行第二方面提供的任意一种方法。

14、第五方面，提供了一种计算机程序产品，其上存储有计算机程序，计算机程序被处理器运行以执行第一方面或第二方面提供的任意一种方法。

15、第六方面，本申请实施例还提供一种芯片(或者说数据传输装置)，该芯片上存储有计算机程序，在计算机程序被芯片执行时，实现上述方法的步骤。

16、第七方面，本申请实施例还提供一种系统芯片，应用于终端中，所述芯片系统包括至少一个处理器和接口电路，所述接口电路和所述至少一个处理器通过线路互联，所述至少一个处理器用于执行指令，以执行第一方面或第二方面提供的任意一种方法。

17、与现有技术相比，本申请技术方案具有以下有益效果：

18、本申请技术方案中，获取输入内容，输入内容包括人脸标识、服装标识、姿态信息以及背景图片；将输入内容输入至扩散模型，以生成目标图片，其中，扩散模型根据人脸标识调用其对应的第一lora模型生成目标图片中的人脸，扩散模型根据服装标识调用其对应的第二lora模型生成目标图片中的服装，目标图片还包括姿态信息中的姿态以及背景图片中的背景。通过本申请技术方案，使得用户只需要通过上传图片以及相关信息就可以得到期望风格的写真图片，大大降低了用户的时间成本，提升了用户体验；此外，还提高风格化写真，例如婚纱照拍摄的效率，降低了成本。此外，利用扩散模型和lora模型来生成图片，能够在保证目标图片的质量的基础上提升图片生成的效率和灵活性。

19、进一步地，姿态信息包括姿态图片中的姿态关键点。通过提取姿态关键点来生成目标图片，能够保证目标图片中姿态与姿态图片中姿态的一致性，保证图片生成效果。

20、进一步地，第一正则数据集包括多个人脸图片对应的全身图片。通过第一正则数据集参与第一lora模型的训练，能够保证目标图片中各个部位的比例，避免肢体错位的情况，提升目标图片的质量。

21、进一步地，第二正则数据集包括多个服装图片对应的具有脸部信息的全身图片。通过第二正则数据集参与第二lora模型的训练，能够保证目标图片中脸部与身体的比例，避免头大身体小的情况，提升目标图片的质量。

技术特征：

1.一种图片生成方法，其特征在于，包括：

2.根据权利要求1所述的图片生成方法，其特征在于，所述获取输入内容包括：

3.根据权利要求1所述的图片生成方法，其特征在于，所述背景图片包括期望区域，所述目标图标包括所述期望区域。

4.根据权利要求1所述的图片生成方法，其特征在于，采用以下方式训练所述第一lora模型：

5.根据权利要求1所述的图片生成方法，其特征在于，采用以下方式训练所述第二lora模型：

6.根据权利要求1所述的图片生成方法，其特征在于，所述将所述输入内容输入至扩散模型包括：

7.根据权利要求1所述的图片生成方法，其特征在于，所述输入内容包括需求信息，所述需求信息用于指示所述目标图片的质量。

8.根据权利要求1至7任一项所述的图片生成方法，其特征在于，所述人脸标识选自以下一种或多种：人脸标签和人脸特征信息；所述服装标识选自以下一种或多种：服装标签和服装特征信息。

9.一种图片生成装置，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行权利要求1至8中任一项所述图片生成方法的步骤。

11.一种计算设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行权利要求1至8中任一项所述图片生成方法的步骤。

技术总结
本申请提供了一种图片生成方法及装置、存储介质、计算设备，该图片生成方法包括：获取输入内容，输入内容包括人脸标识、服装标识、姿态信息以及背景图片；将输入内容输入至扩散模型，以生成目标图片，其中，扩散模型根据人脸标识调用其对应的第一LoRA模型生成目标图片中的人脸，扩散模型根据服装标识调用其对应的第二LoRA模型生成目标图片中的服装，目标图片还包括姿态信息中的姿态以及背景图片中的背景。本申请技术方案能够提升图片生成的效率和灵活性。

技术研发人员：王霄鹏,虞钉钉,胡贤良
受保护的技术使用者：华院计算技术（上海）股份有限公司
技术研发日：
技术公布日：2024/1/16

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王霄鹏虞钉钉胡贤良
技术所有人：华院计算技术（上海）股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。