本技术涉及图像处理,尤其涉及一种图像融合方法、装置、设备、存储介质及程序产品。
背景技术:
::1、相关技术中,可以利用sdm(stable diffusion model,稳定扩散)模型根据参考图像和/或文本提示的引导,来实现图像编辑。但是,针对不同图像编辑场景,需要对预训练的sdm模型作进一步的微调和训练,才能达到对应的编辑效果。而模型微调和模型微调需要大量的算力和数据支撑,限制了图像编辑方法的应用场景。技术实现思路1、本技术的主要目的在于提供一种图像融合方法、装置、设备、存储介质及程序产品,旨在解决如何扩展图像编辑方法的应用场景的技术问题。2、为实现上述目的,本技术提出一种图像融合方法,图像融合方法包括:3、获取原始图像、参考图像以及文本提示信息,其中,参考图像包括目标主体,原始图像包括待添加目标主体的编辑区域;4、生成第一噪声图像和第二噪声图像,其中,第一噪声图像为将目标主体与原始图像融合得到的融合图像的噪声图像,第二噪声图像通过在第一噪声图像中与编辑区域对应的背景区域内填充随机高斯噪声获得,背景区域为编辑区域中除目标主体之外的区域;5、提取得到第一特征向量、第二特征向量和第三特征向量,其中,第一特征向量从第一噪声图像中提取得到,第二特征向量从第一噪声图像和文本提示信息中提取得到,第三特征向量从第二噪声图像和文本提示信息中提取得到;6、融合第一特征向量、第二特征向量和第三特征向量,获得到目标特征向量;7、根据目标特征向量,生成目标融合图像。8、在一实施例中,提取得到第一特征向量、第二特征向量和第三特征向量的步骤,包括:9、将第一噪声图像作为第一当前噪声图像,将第一噪声图像作为第二当前噪声图像,并将第二噪声图像作为第三当前噪声图像;10、提取得到第一当前特征向量、第二当前特征向量和第三当前特征向量,其中,第一当前特征向量从第一当前噪声图像中提取得到,第二当前特征向量从第二当前噪声图像和文本提示信息中提取得到,第三当前特征向量从第三当前噪声图像和文本提示信息中提取得到;11、融合第一特征向量、第二特征向量和第三特征向量,得到目标特征向量的步骤,包括:12、根据第一当前特征向量、第二当前特征向量和第三当前特征向量中至少一者,得到中间特征向量;13、根据目标特征向量,生成目标融合图像的步骤之前,图像融合方法还包括:14、根据第一当前特征向量,获得第一预测噪声图像;15、根据第二当前特征向量,获得第二预测噪声图像;16、根据中间特征向量,获得第三预测噪声图像;17、利用第一预测噪声图像,对第一当前噪声图像进行去噪处理,得到第一中间噪声图像;18、利用第二预测噪声图像,对第二当前噪声图像进行去噪处理,得到第二中间噪声图像;19、利用第三预测噪声图像,对第三当前噪声图像进行去噪处理,得到第三中间噪声图像;20、将第一中间噪声图像作为第一当前噪声图像,将第二中间噪声图像作为第二当前噪声图像,并将第三中间噪声图像作为第三当前噪声图像,返回执行提取得到第一当前特征向量、第二当前特征向量和第三当前特征向量的步骤;21、直到当前迭代次数为预设最大迭代次数,将中间特征向量作为目标特征向量。22、在一实施例中,根据第一当前特征向量、第二当前特征向量和第三当前特征向量中至少一者,得到中间特征向量的步骤,包括:23、在当前迭代次数小于或等于第一预设迭代次数的情况下,将第三当前特征向量作为中间特征向量;24、在当前迭代次数大于第一预设迭代次数,且小于第二预设迭代次数的情况下,融合第一当前特征向量、第二当前特征向量和第三当前特征向量,得到中间特征向量;25、在当前迭代次数大于或等于第二预设迭代次数的情况下,融合第二当前特征向量和第三当前特征向量,得到中间特征向量。26、在一实施例中,提取得到第一特征向量、第二特征向量和第三特征向量的步骤,包括:27、将第一噪声图像输入第一稳定扩散模型,提取得到第一特征向量;28、将第一噪声图像和文本提示信息输入第二稳定扩散模型,提取得到第二特征向量;29、将第二噪声图像和文本提示信息输入第三稳定扩散模型,提取得到第三特征向量。30、在一实施例中,生成第一噪声图像的步骤,包括:31、从参考图像中提取得到目标主体;32、将目标主体融合到原始图像的编辑区域内,得到融合图像;33、将融合图像转换为第一噪声图像。34、在一实施例中,生成第二噪声图像的步骤,包括:35、根据原始图像与目标主体的融合图像,生成掩码图像,其中,掩码图像用于提取融合图像中与编辑区域对应的背景区域;36、根据掩码图像与随机噪声图像,得到第一中间噪声图像;37、根据掩码图像的反掩码图像与融合图像的噪声图像,得到第二中间噪声图像;38、融合第一中间噪声图像和第二中间噪声图像,得到第二噪声图像。39、此外,为实现上述目的,本技术还提出一种图像融合装置,图像融合装置包括:40、获取模块,用于获取原始图像、参考图像以及文本提示信息,其中,参考图像包括目标主体,原始图像包括待添加目标主体的编辑区域;41、第一生成模块,用于生成第一噪声图像和第二噪声图像,其中,第一噪声图像为将目标主体与原始图像融合得到的融合图像的噪声图像,第二噪声图像通过在第一噪声图像中与编辑区域对应的背景区域内填充随机高斯噪声获得,背景区域为编辑区域中除目标主体之外的区域;42、特征提取模块,用于提取得到第一特征向量、第二特征向量和第三特征向量,其中,第一特征向量从第一噪声图像中提取得到,第二特征向量从第一噪声图像和文本提示信息中提取得到,第三特征向量从第二噪声图像和文本提示信息中提取得到;43、特征融合模块,用于融合第一特征向量、第二特征向量和第三特征向量,获得到目标特征向量;44、第二生成模块,用于根据目标特征向量,生成目标融合图像。45、此外,为实现上述目的,本技术还提出一种图像融合设备,图像融合设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序配置为实现如上文的图像融合方法的步骤。46、此外,为实现上述目的,本技术还提出一种存储介质,存储介质为计算机可读存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上文的图像融合方法的步骤。47、此外,为实现上述目的,本技术还提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序被处理器执行时实现如上文的图像融合方法的步骤。48、本技术提出的一个或多个技术方案,至少具有以下技术效果:49、本技术提供一种图像融合方法、装置、设备、存储介质及程序产品,通过生成原始图像与目标主体的融合图像的第一噪声图像,在第一噪声图像中与编辑区域对应的背景区域内填充随机高斯噪声,生成第二噪声图像,分别利用第一噪声图像、第一噪声图像结合文本提示信息和第二噪声图像结合文本提示信息,提取得到第一特征向量、第二特征向量和第三特征向量,来融合得到生成目标融合图像的目标特性向量;由于第一特征向量融合了融合图像的背景特征和主体特征,第二特征向量在第一特征向量的基础上增加了文本提示信息直到,可以生成尽可能的满足文本语义的融合图像,第三特征向量不仅融合了融合图像的背景特征、主体特征和文本提示信息的文本特征,还融合了背景区域的随机高斯噪声,可以使得生成的目标融合图像中目标主体与周围背景自然过渡,从而在进行图像编辑时,可以直接应用预训练的sdm模型根据目标特征向量生成目标融合图像,无需再针对不同应用场景重新对预训练的sdm模型作进一步的微调和训练,减少了复杂且耗时的模型微调过程,也不需要再另外收集样本数据和消耗算力,大大扩展图像编辑方法的应用场景。当前第1页12当前第1页12