本公开涉及人工智能,具体涉及计算机视觉、深度学习、大模型等,特别涉及一种图像生成方法、图像生成模型的训练方法、图像生成装置、图像生成模型的训练装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术:
1、人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
2、近一两年内,扩散模型(diffusion model)在学术界和产业界有非常大的热度。它是一种图像生成技术,可以通过对一张噪声图像进行不断迭代去噪以生成一张清晰的图像。
3、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
技术实现思路
1、本公开提供了一种图像生成方法、图像生成模型的训练方法、图像生成装置、图像生成模型的训练装置、电子设备、计算机可读存储介质和计算机程序产品。
2、根据本公开的一方面,提供了一种图像生成方法,包括:获取初始噪声图像;获取与预设的多个去噪推理步骤对应的多个推理步骤信息;将初始噪声图像与多个推理步骤信息分别进行融合,得到多个第一特征;利用自注意力机制对多个第一特征进行并行处理,得到与多个第一特征对应的多个第二特征,其中,多个第二特征表征对初始噪声图像迭代执行多个去噪推理步骤而得到的多个图像;以及基于多个第二特征,得到不包含噪声的目标图像。
3、根据本公开的另一方面,提供了一种图像生成模型的训练方法,包括:获取样本初始噪声图像、多个样本中间图像和样本目标图像,其中,样本目标图像不包含噪声,多个样本中间图像表征包含不同程度的噪声的样本目标图像;获取与预设的多个去噪推理步骤对应的多个推理步骤信息;将样本初始噪声图像与多个推理步骤信息分别进行融合,得到多个第三特征;利用基于自注意力机制的深度学习模型对多个第三特征进行并行处理,得到与多个第三特征对应的多个第四特征,其中,多个第四特征表征对样本初始噪声图像迭代执行多个去噪推理步骤而得到的多个图像;以及基于多个第四特征、多个样本中间图像和样本目标图像对深度学习模型进行训练,得到图像生成模型。
4、根据本公开的另一方面,提供了一种图像生成装置,包括:第一图像获取单元,被配置为获取初始噪声图像;第一推理步骤信息获取单元,被配置为获取与预设的多个去噪推理步骤对应的多个推理步骤信息;第一融合单元,被配置为将初始噪声图像与多个推理步骤信息分别进行融合,得到多个第一特征;第一并行处理单元,被配置为利用自注意力机制对多个第一特征进行并行处理,得到与多个第一特征对应的多个第二特征,其中,多个第二特征表征对初始噪声图像迭代执行多个去噪推理步骤而得到的多个图像;以及生成单元,被配置为基于多个第二特征,得到不包含噪声的目标图像。
5、根据本公开的另一方面,提供了一种图像生成模型的训练装置,包括:第二图像获取单元,被配置为获取样本初始噪声图像、多个样本中间图像和样本目标图像,其中,多个样本中间图像表征包含不同程度的噪声的样本目标图像;第二推理步骤信息获取单元,被配置为获取与预设的多个去噪推理步骤对应的多个推理步骤信息,多个去噪推理轮次与多个噪声添加轮次相对应;第二融合单元,被配置为将样本初始噪声图像与多个推理步骤信息分别进行融合,得到多个第三特征;第二并行处理单元,被配置为利用基于自注意力机制的深度学习模型对多个第三特征进行并行处理,得到与多个第三特征对应的多个第四特征,其中,多个第四特征表征对样本初始噪声图像迭代执行多个去噪推理步骤而得到的多个图像;以及训练单元,被配置为基于多个第四特征、多个样本中间图像和样本目标图像对深度学习模型进行训练,得到图像生成模型。
6、根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。
7、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述方法。
8、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述方法。
9、根据本公开的一个或多个实施例,本公开将与预设的多个去噪推理步骤对应的多个推理步骤信息分别和初始噪声图像进行融合,得到多个第一特征,并利用自注意力机制对融合有初始噪声图像和不同的推理步骤信息的多个第一特征进行并行处理,得到多个第二特征,这些第二特征能够表征对初始噪声图像迭代执行多个去噪推理步骤而得到的多个图像,最终基于这些第二特征得到图像生成结果,即目标图像。通过上述方式,使得无需迭代执行多个去噪推理步骤即能够得到不包含噪声的目标图像,提升了对噪声图像进行去噪推理的效率,降低了图像生成过程的耗时。
10、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种图像生成方法,包括:
2.根据权利要求1所述的方法,其中,所述推理步骤信息包括时间步数特征,所述时间步数特征指示所述推理步骤信息对应的去噪推理步骤的已推理步数。
3.根据权利要求2所述的方法,其中,所述推理步骤信息包括噪声系数,所述噪声系数包括第一预设概率分布的超参数,所述第一预设概率分布表征在所述推理步骤信息对应的去噪推理步骤中期望去除的噪声。
4.根据权利要求3所述的方法,其中,将所述初始噪声图像与所述多个推理步骤信息分别进行融合,得到多个第一特征包括:
5.根据权利要求1-4中任一项所述的方法,其中,利用自注意力机制对所述多个第一特征进行并行处理,得到与所述多个第一特征对应的多个第二特征包括:
6.根据权利要求1-4中任一项所述的方法,其中,所述初始噪声图像是基于第二预设概率分布进行随机采样而得到的纯噪声图像。
7.一种图像生成模型的训练方法,包括:
8.根据权利要求7所述的方法,其中,所述样本初始噪声图像是根据第三预设概率分布进行随机采样而得到的纯噪声图像。
9.根据权利要求8所述的方法,其中,所述多个样本中间图像和所述样本目标图像是利用经训练的扩散模型对所述样本初始噪声图像迭代执行所述多个去噪推理步骤而依次得到的。
10.根据权利要求7所述的方法,其中,所述推理步骤信息包括时间步数特征,所述时间步数特征指示所述推理步骤信息对应的去噪推理步骤的已推理步数。
11.根据权利要求10所述的方法,其中,所述推理步骤信息包括噪声系数,所述噪声系数包括第四预设概率分布的超参数,所述第四预设概率分布表征在所述推理步骤信息对应的去噪推理步骤中期望去除的噪声。
12.根据权利要求11所述的方法,其中,所述多个样本中间图像和所述样本初始噪声图像表征对所述样本目标图像执行与所述多个去噪推理步骤对应的多个噪声添加步骤而依次得到的多个图像,其中,在所述多个噪声添加步骤的其中一个噪声添加步骤中添加的噪声和在与该噪声添加步骤对应的去噪推理步骤中期望去除的噪声具有相同的概率分布。
13.根据权利要求11所述的方法,其中,将所述样本初始噪声图像与所述多个推理步骤信息分别进行融合,得到多个第三特征包括:
14.根据权利要求7-13中任一项所述的方法,其中,利用基于自注意力机制的深度学习模型对所述多个第三特征进行并行处理,得到与所述多个第三特征对应的多个第四特征包括:
15.一种图像生成装置,包括:
16.一种图像生成模型的训练装置,包括:
17.一种电子设备,包括:
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。
19.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-14中任一项所述的方法。