一种人体图像生成模型及其构建方法、装置及应用与流程

文档序号：34603644发布日期：2023-06-29 02:04阅读：39来源：国知局

本技术涉及算法领域，特别是涉及一种人体图像生成模型及其构建方法、装置及应用。

背景技术：

1、扩散模型(diffusion models)是受非平衡热力学(non-equilibriumthermodynamics)的启发，定义了一个扩散步骤的马尔科夫链(markov chain)以缓慢地向数据添加随机噪声，然后学习逆转扩散过程(learn to reverse the diffusionprocess)，并从噪声中构建所需的数据样本，与其他模型不同的是，扩散模型是以固定的程序学习的，其潜在的变量具有高维度(与原始数据相同)。

2、bert(bidirectional encoder representations from transformers)是一个语言表示模型(language representation model)，它的主要模型结构是transformer的encoder(编码器)堆叠而成，它其实是一个2阶段的框架，分别是pretraining(再训练)以及在各个具体任务上进行finetuning(微调)，bert具有两个特点：一个是该模型深度有12层，但是宽度只有1024，而常规的transformer的深度有2048，在计算机图像处理的一个观点认为深而窄比浅而宽的模型更好，第二是bert可以同时利用左侧和右侧的词语进行学习。

3、现有的生成人体的生成模型采用位置编码来做文字向量的投影，所以对于生成的人体肢体数量(如手指、手臂、腿等)不能很好的控制，经常出现多条手臂或多条腿的人体图片，且无法对生成图像的整体特征进行优化，所以亟需一种可以通过文字描述转换成合理且细节特征丰富的人体图像的方法。

技术实现思路

1、本技术实施例提供了一种人体图像生成模型及其构建方法、装置及应用，可以根据文字信息生成人体图像，且生成的人体图像准确、清晰，并通过扩散原理进行模型构建来对特征的整体进行优化，解决了生成的人体图像面部特征不和谐的问题。

2、第一方面，本技术实施例提供了一种人体图像生成模型的构建方法，所述方法包括：

3、获取至少一人体图像数据，对所述人体图像数据进行分割得到多个人体部位图像数据，根据所述人体图像数据获取对应的一段人体文字数据，所述人体文字数据中包含对应人体图像数据中的所有局部特征；

4、构建文字特征提取层和图像特征提取层，所述文字特征提取层将所述人体文字数据转换为多个人体部位文字特征，所述图像特征提取层将所述人体部位图像数据转换为人体部位图像特征，所述人体部位文字特征与所述人体部位图像特征一一对应；

5、构建人体图像生成模型，所述人体图像生成模型包括向量投影模块、矩阵填充模块、扩散模块、生成器，所述向量投影模块将所述人体部位文字特征投影到投影层得到第一投影部位图像特征，所述向量投影模块将所述人体部位图像特征投影到投影层得到第二投影部位图像特征，计算每一所述第一投影部位图像特征与对应的第二投影部位图像特征之间的第一损失；

6、所述矩阵填充模块对每一所述第一投影部位图像特征进行矩阵局部填充得到融合人体图像特征；

7、所述扩散模块对所述人体图像数据基于扩散思想进行扩散得到第一扩散人体图像特征，计算所述第一扩散人体图像特征与所述融合人体图像特征之间的第二损失，所述扩散模块对所述融合人体图像特征基于扩散思想进行反扩散得到第二扩散人体图像特征，计算所述第二扩散人体图像特征与所述人体图像数据之间的第三损失；

8、当所述第一损失、第二损失、第三损失均满足设定条件完成模型构建得到训练好的人体图像生成模型，将所述融合人体图像特征输入到生成器中得到人体图像。

9、第二方面，本技术实施例提供了一种人体图像生成方法，包括：

10、获取人体文字数据，将所述人体文字数据通过文字特征提取层进行特征提取得到多个人体部位文字特征，将多个人体部位文字特征输入构建好的人体图像生成模型中，人体图像生成模型中的向量投影模块将每一人体部位文字特征转换为第一投影部位图像特征；

11、人体图像生成模型中的矩阵填充模块对每一所述第一投影部位图像特征进行矩阵局部填充得到融合人体图像特征；

12、人体图像生成模型中的扩散模模块对所述融合人体图像特征基于扩散思想进行优化得到优化融合人体图像特征；

13、将所述优化融合人体图像特征输入到人体图像生成模型的生成器中得到人体图像。

14、第三方面，本技术实施例提供了一种人体图像生成模型的构建装置，包括：

15、获取模块：获取至少一人体图像数据，对所述人体图像数据进行分割得到多个人体部位图像数据，根据所述人体图像数据获取对应的一段人体文字数据，所述人体文字数据中包含对应人体图像数据中的所有局部特征；

16、特征处理模块：构建文字特征提取层和图像特征提取层，所述文字特征提取层将所述人体文字数据转换为多个人体部位文字特征，所述图像特征提取层将所述人体部位图像数据转换为人体部位图像特征，所述人体部位文字特征与所述人体部位图像特征一一对应；

17、向量投影模块：构建人体图像生成模型，所述人体图像生成模型包括向量投影模块、矩阵填充模块、扩散模块、生成器，所述向量投影模块将所述人体部位文字特征投影到投影层得到第一投影部位图像特征，所述向量投影模块将所述人体部位图像特征投影到投影层得到第二投影部位图像特征，计算每一所述第一投影部位图像特征与对应的第二投影部位图像特征之间的第一损失；

18、填充模块：所述矩阵填充模块对每一所述第一投影部位图像特征进行矩阵局部填充得到融合人体图像特征；

19、扩散模块：所述扩散模块对所述人体图像数据基于扩散思想进行扩散得到第一扩散人体图像特征，计算所述第一扩散人体图像特征与所述融合人体图像特征之间的第二损失，所述扩散模块对所述融合人体图像特征基于扩散思想进行反扩散得到第二扩散人体图像特征，计算所述第二扩散人体图像特征与所述人体图像数据之间的第三损失；

20、生成模块：当所述第一损失、第二损失、第三损失均满足设定条件完成模型构建得到训练好的人体图像生成模型，将所述融合人体图像特征输入到生成器中得到人体图像。

21、第四方面，本技术实施例提供了一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行一种人体图像生成模型的构建方法或一种人体图像生成方法。

22、第五方面，本技术实施例提供了一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序包括用于控制过程以执行过程的程序代码，所述过程包括一种人体图像生成模型的构建方法或一种人体图像生成方法。

23、本发明的主要贡献和创新点如下：

24、本技术实施例在进行特征提取时通过对sentencebert网络进行了改进，删去了原sentencebert网络中的池化层以及后续层级，添加了一个向量投影模块，在向量投影模块中使用不同的局部器官投影模块来进行投影调整，达到了局部特征细节丰富，且生成的肢体数量真实合理；本方案在矩阵填充模块为不同的部位设置不同的填充顺序，所以生成的人体图像会更具有层次感；本方案采用扩散原理来构建扩散模型来进行扩散和反扩散从而对融合人体图像特征进行优化，可以修复人体图像中不同部位区块边缘的割裂感，达到人体整体特征和谐、真实。

25、本技术的一个或多个实施例的细节在以下附图和描述中提出，以使本技术的其他特征、目的和优点更加简明易懂。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李圣权卓家雨王国梁韩致远张香伟
技术所有人：城云科技（中国）有限公司
我是此专利的发明人

上一篇：一种包覆型硫化物固态电解质片及其制备方法与流程
上一篇：DSB-PE基因编辑系统及其应用的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。