图像生成方法、装置及显示设备与流程

文档序号:41093398发布日期:2025-02-28 17:27阅读:8来源:国知局
图像生成方法、装置及显示设备与流程

本技术涉及显示设备,尤其涉及一种图像生成方法、装置及显示设备。


背景技术:

1、随着图像生成技术的快速发展,人工智能和机器学习技术可以实现图像的自动生成。相关技术可以实现基于单一模态信息进行图像生成,例如,基于文本信息生成图像或基于图像信息生成对应图像。但是,随着用户个性化需求的增加,这种单一模态信息生成图像已经无法满足用户的需求。


技术实现思路

1、本技术实施例提供一种图像生成方法、装置及显示设备,能够基于多模态信息生成对应图像,满足用户个性化需求。

2、本技术实施例第一方面提供一种图像生成方法,该方法包括:首先,获取用户输入的多模态信息;其中,多模态信息包括音频信息、文本信息、图像信息和视频信息中的至少两项。然后,基于图像生成模型中的编码网络分别对各模态信息进行处理,得到各模态信息对应的特征向量。其次,基于图像生成模型中的融合网络对各模态信息对应的特征向量进行融合处理,得到融合向量。最后,基于多模态信息,通过图像生成模型中的多阶段网络对融合向量进行处理,得到多模态信息对应的目标图像。

3、本技术实施例提供的图像生成方法,在获取到用户输入的多模态信息后,将多模态信息输入至图像生成模型,依次经过图像生成模型中编码网络、融合网络和多阶段网络处理后,得到符合多模态信息的目标图像。本技术实施例提供的图像生成方法能够实现对多模态信息处理以生成符合要求的图像,满足用户个性化需求,提高了用户体验。

4、在一些实施例中,基于多模态信息,通过图像生成模型中的多阶段网络对融合向量进行处理,得到多模态信息对应的目标图像,包括:确定多模态信息对应的至少一个辅助特征信息;基于多阶段网络中的至少一个特征子网络对融合向量和至少一个辅助特征信息进行处理,得到目标向量;基于多阶段网络中的图像解码子网络对目标向量进行解码处理,得到目标图像。

5、基于上述方案,多阶段网络对融合向量进行处理时,引入了辅助特征信息,辅助特征信息能够使得多阶段网络提取出更加真实和形象的特征,从而提高后续生成目标图像的质量,使得图像生成模型生成更加符合用户需求的图像。

6、在一些实施例中,基于多阶段网络中的至少一个特征子网络对融合向量和至少一个辅助特征信息进行处理,得到目标向量,包括:基于至少一个特征子网络中的第一特征子网络对融合向量和第一辅助特征信息进行处理,确定第一输出向量;其中,至少一个辅助特征信息包括第一辅助特征信息、第二辅助特征信息和第三辅助特征信息;基于至少一个特征子网络中的中间特征子网络对第一输出向量和第二辅助特征信息进行处理,确定第二输出向量;基于至少一个特征子网络中的第二特征子网络对第二输出向量和第三辅助特征信息进行处理,确定目标向量。

7、基于上述方案,在多阶段网络中,通过将前一个特征子网络输出的向量和当前特征子网络对应的辅助特征信息输入至当前特征子网络中,经过当前特征子网络处理后,将其输出的特征向量继续输入至下一个特征子网络。通过在多阶段网络中划分层级关系,使得每个阶段接收上一阶段的输出信息和辅助信息,实现细粒度的控制,同时实现多阶段的可控生成,提高图像的输出质量,并提高图像生成模型的执行效率和性能。

8、在一些实施例中,基于图像生成模型中的融合网络对各模态信息对应的特征向量进行融合处理,得到融合向量,包括:确定预设长度;基于预设长度,通过融合网络对各模态信息对应的特征向量进行融合处理,得到预设长度的融合向量。

9、基于上述方案,融合网络通过对多模态信息分别对应的特征向量进行融合,以生成了预设固定长度的融合向量,生成预设长度的融合向量可以在保证编码网络在处理性能的同时,也可以提高运行效率,更加适用于实时处理和大规模数据分析的场景中。

10、在一些实施例中,基于预设长度,通过融合网络对各模态信息对应的特征向量进行融合处理,得到预设长度的融合向量,包括:通过融合网络对各模态信息对应的特征向量进行特征选择处理,得到选择特征向量;将选择特征向量映射至预设特征空间,得到映射特征向量;基于预设长度,对映射特征向量进行融合处理,得到预设长度的所述融合向量;其中,融合处理包括加权融合、特征级融合和决策级融合中的至少一种融合方式。

11、基于上述方案,通过在进行融合处理时,可以通过特征选择处理选择出最有用的特征,从而减少特征空间的维度,提高图像生成模型的泛化能力和计算效率。同时,通过特征映射和融合处理,将多个特征向量融合为一个新的特征向量,实现了对多模态信息的融合处理,为后续基于多模态信息生成图像提供基础。

12、在一些实施例中,基于图像生成模型中的编码网络分别对各模态信息进行处理,得到各模态信息对应的特征向量,包括以下至少一项:将音频信息输入至编码网络中的音频编码子网络,生成音频信息对应的音频特征向量;将文本信息输入至所述编码网络中的文本编码子网络,生成文本信息对应的文本特征向量;将图像信息输入至编码网络中的图像编码子网络,生成图像信息对应的图像特征向量;将视频信息输入至编码网络中的视频编码子网络,生成视频信息对应的视频特征向量。

13、基于上述方案,编码网络中包括用于处理不同模态信息的多个编码子网络,从而可以处理用户出入的各种不同的模态信息,为后续融合网络对多模态信息对应的特征向量的融合处理提供基础。

14、在一些实施例中,将音频信息输入至编码网络中的音频编码子网络,生成音频信息对应的音频特征向量,包括:对音频信息进行预处理,得到预处理后的音频信息;对预处理后的模态信息进行特征提取操作,得到初始特征向量;对初始特征向量进行编码处理,得到音频特征向量。

15、基于上述方案,编码网络中的音频编码子网络对音频信息进行编码处理可以包括预处理、特征提取和编码处理,从用户输入的音频信息中提取出有意义的特征表示,提高后续图像生成的准确度。

16、在一些实施例中,该方法还包括:获取多模态训练信息;基于待训练图像生成模型对多模态训练信息进行处理,生成预测图像;其中,待训练图像生成模型包括待训练编码网络、待训练融合网络和待训练多阶段网络;获取样本图像;以预测图像为待训练图像生成模型的初始训练输出信息,样本图像为监督信息,迭代待训练图像生成模型,得到图像生成模型。

17、基于上述方案,本技术实施例还提出了对图像生成模型的训练过程,通过获取到的多模态训练信息对待训练图像生成模型进行训练,以样本图像为监督信息对待训练图像生成模型进行迭代训练,以得到训练后的图像生成模型,训练后的图像生成模型可以用于将多模态信息转换为对应的目标图像,实现对多模态信息处理以生成符合要求的图像,满足用户个性化需求,提高了用户体验。

18、本技术实施例第二方面提供一种图像生成装置,包括:获取模块和确定模块。其中,获取模块被配置为获取用户输入的多模态信息;其中,多模态信息包括音频信息、文本信息、图像信息和视频信息中的至少两项。确定模块被配置为基于图像生成模型中的编码网络分别对各模态信息进行处理,得到各模态信息对应的特征向量;基于图像生成模型中的融合网络对所述各模态信息对应的特征向量进行融合处理,得到融合向量;基于多模态信息,通过图像生成模型中的多阶段网络对融合向量进行处理,得到多模态信息对应的目标图像。

19、本技术实施例提供的图像生成装置,在获取到用户输入的多模态信息后,将多模态信息输入至图像生成模型,依次经过图像生成模型中编码网络、融合网络和多阶段网络处理后,得到符合多模态信息的目标图像。本技术实施例提供的图像生成方法能够实现对多模态信息处理以生成符合要求的图像,满足用户个性化需求,提高了用户体验。

20、本技术实施例第三方面提供一种显示设备,包括显示器和与显示器耦接的控制器。其中,显示器,被配置为显示图像生成应用的应用界面;其中,应用界面包括第一输入区、第二输入区以及图像展示区。控制器被配置为:响应于接收到用户在第一输入区输入的图像信息,以及在第二输入区输入的文本信息;基于图像生成模型中的编码网络分别对多模态信息中的各模态信息进行处理,得到各模态信息对应的特征向量;其中,多模态信息包括图像信息和文本信息;基于图像生成模型中的融合网络对各模态信息对应的特征向量进行融合处理,得到融合向量;基于多模态信息,通过图像生成模型中的多阶段网络对所述融合向量进行处理,得到多模态信息对应的目标图像。

21、本技术实施例提供的显示设备,该显示设备可以接收用户在第一输入区输入的图像信息,以及在第二输入区输入的文本信息,并基于图像信息和文本信息,以及训练好的图像生成模型,生成目标图像。其中,目标图像可以满足图像信息和文本信息的需求。本技术实施例提供的显示设备能够实现对多模态信息处理以生成符合要求的图像,满足用户个性化需求,提高了用户体验。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1