多模态图像生成方法、装置、存储介质及电子设备与流程

文档序号：35443064发布日期：2023-09-14 01:26阅读：51来源：国知局

本申请属于图像处理，涉及一种图像生成方法，特别是涉及一种多模态图像生成方法、装置、存储介质及电子设备。

背景技术：

1、图像生成技术是一种计算机科学领域的技术，旨在通过计算机程序或机器学习模型生成逼真的图像。生成的图像可以是完全虚构的，也可以是基于现实图像的变种或创作。图像生成技术在计算机图形学、人工智能和机器学习等领域中具有广泛的应用。

技术实现思路

1、本申请实施例提供一种多模态图像生成方法、装置、存储介质及电子设备，用于生成高质量的图像。

2、第一方面，本申请实施例提供一种多模态图像生成方法，所述多模态图像生成方法包括：对语音描述进行音频编码以获取语音嵌入；对所述语音描述进行语音识别以获取转写文本；对所述转写文本进行文本编码以获取第一文本嵌入；对文字描述进行文本编码以获取第二文本嵌入；根据所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和高斯采样嵌入获取隐层嵌入；根据所述隐层嵌入生成图像。

3、在所述第一方面的一种实现方式中，所述多模态图像生成方法还包括：从高斯分布中随机采样出一个样本作为所述高斯采样嵌入。

4、在所述第一方面的一种实现方式中，根据所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和高斯采样嵌入获取隐层嵌入包括：对所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和所述高斯采样嵌入进行连接操作以获取所述隐层嵌入。

5、在所述第一方面的一种实现方式中，根据所述隐层嵌入生成图像包括：根据所述隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入获取去噪声的隐层嵌入；利用所述去噪声的隐层嵌入生成所述图像。

6、在所述第一方面的一种实现方式中，获取去噪声的隐层嵌入包括：根据所述隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入获取所述隐层嵌入的噪声；从所述隐层嵌入中减去所述隐层嵌入的噪声以获取中间隐层嵌入；循环执行噪声去除子方法直到满足循环终止条件，以最后一次循环中获取的所述中间隐层嵌入作为所述去噪声的隐层嵌入；其中，所述噪声去除子方法包括：根据所述中间隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入获取所述中间隐层嵌入的噪声；从所述中间隐层嵌入中减去所述中间隐层嵌入的噪声以获取新的所述中间隐层嵌入。

7、在所述第一方面的一种实现方式中，根据所述隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入获取所述隐层嵌入的噪声包括：利用深度学习模型对所述隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入进行处理以获取所述隐层嵌入的噪声。

8、在所述第一方面的一种实现方式中，所述深度学习模型包括编码器和解码器，所述深度学习模型的值向量为所述隐层嵌入，所述深度学习模型的查询向量为所述语音嵌入，所述编码器的键向量为所述第一文本嵌入，所述解码器的键向量为所述第二文本嵌入。

9、第二方面，本申请实施例提供一种多模态图像生成装置，所述多模态图像生成装置包括：音频编码模块，用于对语音描述进行音频编码以获取语音嵌入；语音识别模块，用于对所述语音描述进行语音识别以获取转写文本；文本编码模块，用于对所述转写文本进行文本编码以获取第一文本嵌入，并用于对文字描述进行文本编码以获取第二文本嵌入；隐层嵌入获取模块，用于根据所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和高斯采样嵌入获取隐层嵌入；图像生成模块，用于根据所述隐层嵌入生成图像。

10、第三方面，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本申请第一方面中任一项所述的方法。

11、第四方面，本申请实施例提供一种电子设备，所述电子设备包括：存储器，存储有一计算机程序；处理器，与所述存储器通信相连，调用所述计算机程序时执行本申请第一方面中任一项所述的方法。

12、本申请实施例提供的多模态图像生成方法能够利用语音描述和文字描述两种模态来强化图像生成，由此生成的图像具有更高的质量。

技术特征：

1.一种多模态图像生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：从高斯分布中随机采样出一个样本作为所述高斯采样嵌入。

3.根据权利要求1所述的方法，其特征在于，根据所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和高斯采样嵌入获取隐层嵌入包括：

4.根据权利要求1所述的方法，其特征在于，根据所述隐层嵌入生成图像包括：

5.根据权利要求4所述的方法，其特征在于，获取去噪声的隐层嵌入包括：

6.根据权利要求5所述的方法，其特征在于，根据所述隐层嵌入、所述语音嵌入、所述第一文本嵌入和所述第二文本嵌入获取所述隐层嵌入的噪声包括：

7.根据权利要求6所述的方法，其特征在于，所述深度学习模型包括编码器和解码器，所述深度学习模型的值向量为所述隐层嵌入，所述深度学习模型的查询向量为所述语音嵌入，所述编码器的键向量为所述第一文本嵌入，所述解码器的键向量为所述第二文本嵌入。

8.一种多模态图像生成装置，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。

10.一种电子设备，其特征在于，所述电子设备包括：

技术总结
本申请提供一种多模态图像生成方法、装置、存储介质及电子设备。所述多模态图像生成方法包括：对语音描述进行音频编码以获取语音嵌入；对所述语音描述进行语音识别以获取转写文本；对所述转写文本进行文本编码以获取第一文本嵌入；对文字描述进行文本编码以获取第二文本嵌入；根据所述语音嵌入、所述第一文本嵌入、所述第二文本嵌入和高斯采样嵌入获取隐层嵌入；根据所述隐层嵌入生成图像。所述多模态图像生成方法利用两种模态生成图像，由此生成的图像更能满足用户的需求。

技术研发人员：孔欧
受保护的技术使用者：上海蜜度信息技术有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孔欧
技术所有人：上海蜜度信息技术有限公司
我是此专利的发明人