一种图像生成方法及相关装置与流程

文档序号：40165370发布日期：2024-11-29 15:58阅读：25来源：国知局

所属的技术人员能够理解，本技术的各个方面可以实现为系统、方法或程序产品。因此，本技术的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式（包括固件、微代码等），或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。基于相同的发明构思，本技术实施例还提供一种电子设备。在一种实施例中，该电子设备可以是服务器，也可以是终端设备。参阅图14所示，其为本技术实施例中提供的一种可能的电子设备的结构示意图，图14中，电子设备1400包括：处理器1410和存储器1420。其中，存储器1420存储有可被处理器1410执行的计算机程序，处理器1410通过执行存储器1420存储的指令，可以执行上述图像生成方法的步骤。存储器1420可以是易失性存储器（volatile memory），例如随机存取存储器（random-access memory，ram）；存储器1420也可以是非易失性存储器（non-volatilememory），例如只读存储器（read-only memory，rom），快闪存储器（flash memory），硬盘（hard disk drive，hdd）或固态硬盘（solid-state drive，ssd）；或者存储器1420是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1420也可以是上述存储器的组合。处理器1410可以包括一个或多个中央处理单元（central processing unit，cpu）或者为数字处理单元等等。处理器1410，用于执行存储器1420中存储的计算机程序时实现上述图像生成方法。在一些实施例中，处理器1410和存储器1420可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。本技术实施例中不限定上述处理器1410和存储器1420之间的具体连接介质。本技术实施例中以处理器1410和存储器1420之间通过总线连接为例，总线在图14中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线可以分为地址总线、数据总线、控制总线等。为便于描述，图14中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。基于同一发明构思，本技术实施例提供了一种计算机可读存储介质，其包括计算机程序，当计算机程序在电子设备上运行时，计算机程序用于使电子设备执行上述图像生成方法的步骤。在一些可能的实施方式中，本技术提供的图像生成方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在电子设备上运行时，计算机程序用于使电子设备执行上述图像生成方法中的步骤，例如，电子设备可以执行如图3中所示的步骤。程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、ram、rom、可擦式可编程只读存储器（eprom或闪存）、光纤、便携式紧凑盘只读存储器（compact disk read only memory，cd-rom）、光存储器件、磁存储器件、或者上述的任意合适的组合。本技术的实施方式的程序产品可以采用cd-rom并包括计算机程序，并可以在电子设备上运行。然而，本技术的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储计算机程序的有形介质，该计算机程序可以被命令执行系统、装置或者器件使用或者与其结合使用。可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的计算机程序。尽管已描述了本技术的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

背景技术：

1、图像生成是指根据对象输入的内容（content）、画风（style）、质感（quality）等至少一类图像属性，生成相应的图像。

2、相关技术中，在指定三类图像属性情况下，先根据某一类图像属性生成初始图像，再在初始图像中依次加入每类图像属性，从而生成满足三类图像属性的目标图像。然而，图像属性的逐一加入，需要对初始图像进行多次图像转换，而每次图像转换都可能丢失部分图像细节，影响生成的目标图像的准确性。

3、以输入目标内容、目标画风和目标质感为例。首先，基于目标内容进行文生图操作，生成包含目标内容的初始图像；接着，针对初始图像进行画风转换，生成目标画风对应的中间图像；最后，在中间图像的基础上，按照目标质感进行质感转换，生成目标图像。

4、由于画风转换和质感转换均可能对初始图像中的内容进行更改，因此，中间图像或者目标图像会丢失部分或全部目标内容，特别是在目标内容较为复杂的情况下，初始图像中包含较多的对象，而画风转换和质感转换会导致目标图像丢失细节，从而导致生成的图像的内容不准确。

技术实现思路

1、本技术实施例提供一种图像生成方法及相关装置，用以提高生成图像的准确性。

2、一方面，本技术实施例提供一种图像生成方法，包括：

3、基于图像描述文本，针对设定的第一图像属性、第二图像属性和第三图像属性，分别提取出相应的第一文本特征、第二文本特征和第三文本特征；

4、基于预设的噪声图像，针对所述第一图像属性、第二图像属性和第三图像属性，分别提取出相应的第一初始特征、第二初始特征和第三初始特征；

5、基于所述第一文本特征、所述第二文本特征和所述第三文本特征，分别对所述第一初始特征、所述第二初始特征和所述第三初始特征进行特征提取，获得相应的第一中间特征、第二中间特征和第三中间特征；

6、基于所述第一中间特征和所述第二中间特征，对所述第三中间特征进行特征重构，获得目标图像特征，并基于所述目标图像特征，生成目标图像。

7、一方面，本技术实施例提供一种图像生成装置，包括：

8、文本提取单元，用于基于图像描述文本，针对设定的第一图像属性、第二图像属性和第三图像属性，分别提取出相应的第一文本特征、第二文本特征和第三文本特征；

9、特征初始化单元，用于基于预设的噪声图像，针对所述第一图像属性、第二图像属性和第三图像属性，分别提取出相应的第一初始特征、第二初始特征和第三初始特征；

10、特征提取单元，用于基于所述第一文本特征、所述第二文本特征和所述第三文本特征，分别对所述第一初始特征、所述第二初始特征和所述第三初始特征进行特征提取，获得相应的第一中间特征、第二中间特征和第三中间特征；

11、特征重构单元，用于基于所述第一中间特征和所述第二中间特征，对所述第三中间特征进行特征重构，获得目标图像特征，并基于所述目标图像特征，生成目标图像。

12、一种可能的实现方式中，基于所述第一文本特征，对所述第一初始特征进行特征提取，获得第一中间特征时，特征提取单元具体用于：

13、对所述第一初始特征进行n次下采样，并将第n次下采样得到的第一下采样特征作为第一中间特征；其中，每次下采样中，基于前一次下采样得到的第一下采样特征，结合所述第一文本特征，获得当前次下采样的第一下采样特征；

14、基于所述第二文本特征，对所述第二初始特征进行特征提取，获得第二中间特征，包括：

15、对所述第二初始特征进行n次下采样，并将第n次下采样得到的第二下采样特征作为第二中间特征；其中，每次下采样中，基于前一次下采样得到的第二下采样特征和第一下采样特征，结合所述第二文本特征，获得当前次下采样的第二下采样特征。

16、一种可能的实现方式中，所述基于前一次下采样得到的第二下采样特征和第一下采样特征，结合所述第二文本特征，获得当前次下采样的第二下采样特征时，特征提取单元具体用于：

17、对前一次下采样得到的第二下采样特征和第一下采样特征进行融合处理，获得当前次下采样的输入数据；

18、基于当前次下采样的输入数据，结合所述第二文本特征进行下采样处理，获得当前次下采样的第二下采样特征。

19、一种可能的实现方式中，所述基于当前次下采样的输入数据，结合所述第二文本特征进行下采样处理，获得当前次下采样的第二下采样特征时，特征提取单元具体用于：

20、对当前次下采样的输入数据进行语义提取，获得当前次下采样的第二下采样特征中的第二语义特征，并基于当前次下采样的第二语义特征进行自注意力处理，获得当前次下采样的第二下采样特征中的第二自注意力特征；

21、基于当前次下采样的第二自注意力特征，结合所述第二文本特征进行交叉注意力处理，获得当前次下采样的第二下采样特征中的第二交叉注意力特征。

22、一种可能的实现方式中，基于所述第三文本特征，对所述第三初始特征进行特征提取，获得第三中间特征时，特征提取单元具体用于：

23、对所述第三初始特征进行n次下采样，并将第n次下采样得到的第三下采样特征作为第三中间特征；其中，每次下采样中，基于前一次下采样得到的第三下采样特征、当前次下采样得到的第二下采样特征，结合所述第三文本特征，获得当前次下采样的第三下采样特征。

24、一种可能的实现方式中，第三下采样特征包括下采样过程中的第三语义特征、第三自注意力特征、第三交叉注意力特征；

25、所述基于前一次下采样得到的第三下采样特征、当前次下采样得到的第二下采样特征，结合所述第三文本特征，获得当前次下采样的第三下采样特征特征时，提取单元具体用于：

26、对前一次下采样得到的第三交叉注意力特征进行语义提取，获得当前次下采样的第三语义特征；

27、基于当前次下采样得到的第二自注意力特征，结合当前次下采样的第三语义特征进行自注意力处理，获得当前次下采样的第三自注意力特征；其中，当前次下采样得到的第二自注意力特征是利用前一次下采样得到的第二下采样特征生成的；

28、基于当前次下采样的第三自注意力特征，结合所述第三文本特征进行交叉注意力处理，获得当前次下采样的第三交叉注意力特征。

29、一种可能的实现方式中，所述基于当前次下采样得到的第二自注意力特征，结合当前次下采样的第三语义特征进行自注意力处理，获得当前次下采样的第三自注意力特征时，提取单元具体用于：

30、基于当前次下采样得到的第二自注意力特征，获得所述第二图像属性对应的查询信息、键信息和值信息；以及，基于当前次下采样的第三语义特征，获得所述第三图像属性对应的查询信息、键信息和值信息；

31、对所述第二图像属性对应的查询信息、键信息和值信息，和所述第三图像属性对应的查询信息、键信息和值信息进行信息组合，获得新的输入数据，并对新的输入数据进行自注意力计算，获得当前次下采样的第三自注意力特征。

32、一种可能的实现方式中，所述基于所述第一中间特征和所述第二中间特征，对所述第三中间特征进行特征重构，获得目标图像特征时，特征重构单元具体用于：

33、对所述第一中间特征进行n次上采样，并将第n次上采样得到的第一上采样特征作为第一重构特征；其中，每次上采样中，基于前一次上采样得到的第一上采样特征，结合所述第一文本特征，获得当前次上采样的第一上采样特征；

34、对所述第二中间特征进行n次上采样，并将第n次上采样得到的第二上采样特征作为第二重构特征；其中，每次上采样中，基于前一次上采样得到的第二上采样特征，结合所述第二文本特征，获得当前次上采样的第二上采样特征；

35、对所述第三中间特征进行n次上采样，并将第n次上采样得到的第三上采样特征作为目标图像特征；其中，每次上采样中，基于前一次上采样得到的第三上采样特征、当前次上采样得到的第一上采样特征和第二上采样特征，结合所述第三文本特征，获得当前次上采样的第三上采样特征。

36、一种可能的实现方式中，第三上采样特征包括上采样过程中的第三语义特征、第三自注意力特征、第三交叉注意力特征；

37、所述基于前一次上采样得到的第三上采样特征、当前次上采样得到的第一上采样特征和第二上采样特征，结合所述第三文本特征，获得当前次上采样的第三上采样特征时，特征重构单元具体用于：

38、对前一次上采样得到的第三交叉注意力特征进行语义提取，获得当前次上采样的第三语义特征；

39、基于当前次上采样得到的第三语义特征，结合当前次上采样得到的第一上采样特征中的第一语义特征进行自注意力处理，获得当前次上采样的第三自注意力特征；

40、基于当前次上采样得到的第三自注意力特征、当前次上采样得到的第二上采样特征中的第二自注意力特征，结合所述第三文本特征进行交叉注意力处理，获得当前次上采样的第三交叉注意力特征。

41、一种可能的实现方式中，所述基于当前次上采样得到的第三语义特征，结合当前次上采样得到的第一上采样特征中的第一语义特征进行自注意力处理，获得当前次上采样的第三自注意力特征时，特征重构单元具体用于：

42、基于当前次上采样得到的第三语义特征，获得所述第三图像属性对应的用于自注意力处理的查询信息、键信息和值信息；

43、基于所述第三图像属性对应的用于自注意力处理的查询信息，结合所述第一图像属性对应的查询信息，获得新查询信息，其中，第一图像属性对应的查询信息是利用当前次上采样得到的第一语义特征提取的；

44、基于所述第三图像属性对应的用于自注意力处理的键信息、值信息和所述新查询信息，获得当前次上采样的第三自注意力特征。

45、一种可能的实现方式中，所述基于当前次上采样得到的第三自注意力特征、当前次上采样得到的第二上采样特征中的第二自注意力特征，结合所述第三文本特征进行交叉注意力处理，获得当前次上采样的第三交叉注意力特征时，特征重构单元具体用于：

46、基于所述当前次上采样的第三自注意力特征，获得所述第三图像属性对应的用于交叉注意力处理的查询信息，并基于所述第三文本特征，获得所述第三图像属性对应的用于交叉注意力处理的键信息和值信息；

47、基于所述第三图像属性对应的用于交叉注意力处理的查询信息，结合所述第二图像属性对应的查询信息，获得新查询信息，其中，第二图像属性对应的查询信息是利用当前次上采样得到的第二语义特征提取的；

48、基于所述第三图像属性对应的用于交叉注意力处理的值信息，结合所述第二图像属性对应的值信息，获得新值信息，其中，第二图像属性对应的值信息是根据第二文本特征获得的；

49、基于所述第三图像属性对应的用于自注意力处理的键信息、所述新值信息和所述新查询信息，获得当前次上采样的第三交叉注意力特征。

50、一种可能的实现方式中，所述基于所述第一文本特征、所述第二文本特征和所述第三文本特征，分别对所述第一初始特征、所述第二初始特征和所述第三初始特征进行特征提取，获得相应的第一中间特征、第二中间特征和第三中间特征时，特征提取单元具体用于：

51、基于所述第一文本特征，利用第一生成模型，对所述第一初始特征进行特征提取，获得第一中间特征，所述第一生成模型是训练后的用于生成包含所述第一图像属性的图像的生成模型；

52、基于所述第二文本特征和所述第一中间特征，利用第二生成模型，对所述第二初始特征进行特征提取，获得第二中间特征，所述第二生成模型是训练后的用于生成包含所述第二图像属性的图像的生成模型；

53、基于所述第三文本特征和所述第二中间特征，利用所述第三生成模型，对所述第三初始特征进行特征提取，获得第三中间特征，所述第三生成模型是训练后的用于生成包含所述第三图像属性的图像的生成模型。一方面，提供一种电子设备，包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行上述方法的步骤。

54、一方面，提供一种计算机可读存储介质，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行上述任一方面方法的步骤。

55、一方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质中读取并执行所述计算机程序，使得电子设备执行上述任一方面方法的步骤。

56、本技术实施例中，在基于图像描述文本，分别提取出三类图像属性各自对应的文本特征，并利用噪声图像，初始化生成三类图像属性各自对应的初始特征之后，先利用三类图像属性各自对应的文本特征，分别对三类图像属性各自对应的初始特征进行特征提取，获得三类图像属性各自对应的中间特征，这样，可以提取出与图像描述文本相关的三类图像属性各自对应的中间特征，剔除与图像描述文本无关的特征，从而达到去噪的效果，进而生成满足图像描述文本的目标图像，并且特征提取可以减少特征量，从而提高图像生成效率。

57、然后，基于三类图像属性各自对应的中间特征进行特征重构，获得目标图像特征，并基于目标图像特征，生成目标图像。由于特征重构是根据三类图像属性各自提取出的中间特征进行的，因此，生成的目标图像可以满足三类图像属性的要求。此外，相对于多次图像转换而言，特征重构不会因图像转换丢失细节，减少了各类图像属性的信息损失，从而提高了生成图像的准确率。

58、本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：冯鑫
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种高效自动化数控喷涂机的制作方法
上一篇：失语症康复训练的数据处理方法及装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。