本申请涉及人工智能,特别涉及一种图片生成处理方法、装置、设备、存储介质及程序产品。
背景技术:
1、随着人工智能(artificial intelligence,ai)技术的不断发展,ai画图类的应用也越来越广泛。比如,用户输入一句对于特定人物的描述,图片生成模型可以自动生成该特定人物的图片。
2、在相关技术中,用于生成特定人物图片的图片生成模型的训练过程可以如下:首先通过通用的人物图片-描述文本对训练出一个初始的图片生成模型,然后,通过特定人物图片-描述文本对,对初始的图片生成模型进行再训练,得到能够生成特定人物图片的图片生成模型。
3、由于特定人物图片-描述文本的样本数量有限,通过特定人物图片-描述文本对,对初始的图片生成模型进行再训练会导致图片生成模型过拟合,只能生成与训练样本相近的特定人物图片,从而影响模型的泛化性,图片生成的效果较差。
技术实现思路
1、本申请实施例提供了一种图片生成处理方法、装置、设备、存储介质及程序产品,可以提高生成特定人物的图片的效果,该技术方案如下:
2、一方面,提供了一种图片生成处理方法,所述方法由计算机设备执行,所述方法包括:
3、获取图片描述文本,所述图片描述文本中包含第一人物的姓名;
4、对所述图片描述文本进行编码处理,获得图片描述文本编码;
5、将所述图片描述文本编码,以及噪声图片的第一图片特征输入图片生成模型中的旁路分支,获得所述旁路分支输出的第二图片特征;所述旁路分支是通过第一图片文本对训练得到的;所述第一图片文本对中的第一图片样本包含所述第一人物,所述第一图片文本对中的第一文本样本包含所述第一人物的姓名;
6、将所述图片描述文本编码、所述第二图片特征,以及所述第一图片特征输入所述图片生成模型中的去噪分支,获得所述去噪分支输出的第三图片特征;
7、基于所述第三图片特征进行解码处理,获得所述图片描述文本对应的图片。
8、一方面,提供了一种图片生成处理方法,所述方法由计算机设备执行,所述方法包括:
9、对第一文本样本进行编码处理,获得第一文本编码样本;所述第一文本样本中包含第一人物的姓名;
10、将所述第一文本编码样本,以及第一噪声图片样本的第一图片特征样本输入图片生成模型中的旁路分支,获得所述旁路分支输出的第二图片特征样本;
11、将所述第一文本编码样本、所述第二图片特征样本,以及所述第一图片特征样本输入所述图片生成模型中的去噪分支,获得所述去噪分支输出的第三图片特征样本;
12、基于所述第三图片特征样本进行解码处理,获得所述第一文本样本对应的第一预测图片;
13、基于所述第一预测图片与所述第一图片样本之间的差值,获取第一损失函数值;
14、基于所述第一损失函数值,对所述旁路分支的参数进行更新;
15、其中,所述旁路分支更新完成后的所述图片生成模型,用于基于输入的图片描述文本,生成所述图片描述文本对应的图片;所述图片描述文本中包含所述第一人物的姓名。
16、另一方面,提供了一种图片生成处理装置,所述装置包括:
17、文本获取模块,用于获取图片描述文本,所述图片描述文本中包含第一人物的姓名;
18、编码模块,用于对所述图片描述文本进行编码处理,获得图片描述文本编码;
19、旁路处理模块,用于将所述图片描述文本编码,以及噪声图片的第一图片特征输入图片生成模型中的旁路分支,获得所述旁路分支输出的第二图片特征;所述旁路分支是通过第一图片文本对训练得到的;所述第一图片文本对中的第一图片样本包含所述第一人物,所述第一图片文本对中的第一文本样本包含所述第一人物的姓名;
20、去噪处理模块,用于将所述图片描述文本编码、所述第二图片特征,以及所述第一图片特征输入所述图片生成模型中的去噪分支,获得所述去噪分支输出的第三图片特征;
21、解码模块,用于基于所述第三图片特征进行解码处理,获得所述图片描述文本对应的图片。
22、另一方面,提供了一种图片生成处理装置,所述装置包括:
23、编码模块,用于对第一文本样本进行编码处理,获得第一文本编码样本;所述第一文本样本中包含第一人物的姓名;
24、旁路处理模块,用于将所述第一文本编码样本,以及第一噪声图片样本的第一图片特征样本输入图片生成模型中的旁路分支,获得所述旁路分支输出的第二图片特征样本;
25、去噪处理模块,用于将所述第一文本编码样本、所述第二图片特征样本,以及所述第一图片特征样本输入所述图片生成模型中的去噪分支,获得所述去噪分支输出的第三图片特征样本;
26、解码模块,用于基于所述第三图片特征样本进行解码处理,获得所述第一文本样本对应的第一预测图片;
27、损失计算模块,用于基于所述第一预测图片与所述第一图片样本之间的差值,获取第一损失函数值;
28、参数更新模块,用于基于所述第一损失函数值,对所述旁路分支的参数进行更新;
29、其中,所述旁路分支更新完成后的所述图片生成模型,用于基于输入的图片描述文本,生成所述图片描述文本对应的图片;所述图片描述文本中包含所述第一人物的姓名。
30、另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储由至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现上述图片生成处理方法。
31、另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现上述图片生成处理方法。
32、另一方面,提供一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述各种可选实现方式中提供的图片生成处理方法。
33、本申请提供的技术方案可以包括以下有益效果:
34、获取到包含第一人物的姓名的图片描述文本后,对图片描述文本进行编码获得图片描述文本编码,然后通过旁路分支对图片描述文本编码以及噪声图片的第一图片特征进行处理得到第二图片特征,再将第二图片特征输入去噪分支得到第三图片特征,最后解码得到图片描述文本对应的图片;其中,由于旁路分支是通过包含第一人物的图片,以及包含第一人物的姓名的文本进行训练的,独立于去噪分支之外的网络分支,因此,上述方案中的模型能够保留去噪分支的模型泛化能力的情况下,准确的生成包含特定人物的图片,从而提高了生成特定人物的图片的效果。
1.一种图片生成处理方法,其特征在于,所述方法由计算机设备执行,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述旁路分支中包含n个第一处理单元;所述去噪分支中包含n个第二处理单元;n为大于或者等于2的整数;
3.根据权利要求2所述的方法,其特征在于,所述去噪分支中还包含中间处理单元;所述旁路分支中还包含旁路输出单元;
4.根据权利要求1所述的方法,其特征在于,所述旁路分支中包含n个第一处理单元;所述去噪分支中包含n个第二处理单元;n为大于或者等于2的整数;
5.根据权利1至4任一所述的方法,其特征在于,所述方法还包括:
6.根据权利要求5所述的方法,其特征在于,所述对所述图片描述文本进行编码处理,获得图片描述文本编码,包括:
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
8.根据权利要求7所述的方法,其特征在于,所述文本编码分支与所述旁路分支交替训练。
9.一种图片生成处理方法,其特征在于,所述方法由计算机设备执行,所述方法包括:
10.根据权利要求9所述的方法,其特征在于,所述对第一文本样本进行编码处理,获得第一文本编码样本,包括:
11.一种图片生成处理装置,其特征在于,所述装置包括:
12.一种图片生成处理装置,其特征在于,所述装置包括:
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器存储有至少一条计算机程序,所述至少一条计算机程序由所述处理器加载并执行以实现如权利要求1至10任一所述的图片生成处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至10任一所述的图片生成处理方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中;所述计算机程序由计算机设备的处理器读取并执行,以实现如权利要求1至10任一所述的图片生成处理方法。