基于多模态预训练模型的数据集生成方法、训练方法与流程

文档序号：35851578发布日期：2023-10-25 19:44阅读：62来源：国知局

本发明涉及三维内容生成领域，特别涉及基于多模态预训练模型的数据集生成方法及装置、训练方法、三维内容生成方法、电子设备、计算机可读存储介质。

背景技术：

1、aigc（artificial intelligence generated content，即人工智能内容生成），是指采用人工智能技术自动生产包括文本、音频、图像等模态的数字化内容，此外，aigc还用于3d（即三维）内容的生成，也即3d内容智能生成技术，通过生成高质量、多样化的3d内容，作为3d数字资产广泛应用于虚拟现实、增强现实等行业。

2、目前基于文本的三维内容生成方案中，三维数据集的文本描述质量较差，无法得到性能较好的三维内容生成模型，导致生成的三维内容准确性较低。

技术实现思路

1、有鉴于此，本发明的目的在于提供基于多模态预训练模型的数据集生成方法、训练方法，能够提升数据集质量，进而保障三维内容生成模型的性能，从而提升生成三维内容的准确性。其具体方案如下：

2、第一方面，本发明公开了一种基于多模态预训练模型的数据集生成方法，包括：

3、将三维内容集中的每个三维内容渲染为二维图像；

4、构建问题集合；所述问题集合包括多个属性对应的问题；

5、针对每一所述二维图像，基于所述问题集合询问图文问答预训练模型以得到每个问题对应的答案，并基于每个属性对应的所述答案确定每个属性的文本描述；

6、基于所述文本描述确定每个所述三维内容的每个属性的描述信息，得到每个所述三维内容的三维内容描述，以生成三维内容描述数据集；所述三维内容描述包含多个所述属性的所述描述信息。

7、可选的，将三维内容集中的每个三维内容渲染为二维图像，包括：

8、将三维内容集中的每个三维内容渲染为多个视角下的二维图像。

9、可选的，所述将三维内容集中的每个三维内容渲染为多个视角下的二维图像，包括：

10、基于球坐标系计算多个虚拟相机位置；

11、基于所述多个虚拟相机位置对三维内容集中的每个三维内容进行渲染，得到多个视角下的二维图像。

12、可选的，所述将三维内容集中的每个三维内容渲染为二维图像，包括：

13、将三维内容集中的每个三维内容转换至世界坐标系；

14、将所述世界坐标系下的三维内容中的每个点均乘以缩放因子以完成尺度缩放；

15、将尺度缩放后的三维内容渲染为二维图像。

16、可选的，在将所述世界坐标系下的三维内容中的每个点均乘以缩放因子以完成尺度缩放之前，还包括：

17、计算所述世界坐标系下的三维内容在每个坐标轴下最大值和最小值之间的差值；

18、将各坐标轴对应的所述差值中的最大值取倒数，得到所述缩放因子。

19、可选的，所述基于所述文本描述确定每个所述三维内容的每个属性的描述信息，包括：

20、针对每个属性，利用评价网络模型确定多个视角下的文本描述的得分，并将所述得分大于预设阈值的文本描述进行融合以得到该属性的描述信息；其中，所述多个视角下的文本描述均为同一三维内容对应的文本描述。

21、可选的，所述针对每个属性，利用评价网络模型确定多个视角下的文本描述的得分，包括：

22、针对每个属性，将多个视角下的文本描述输入评价网络模型，抽取局部特征和全局特征，基于所述局部特征和所述全局特征构建联合特征，并基于所述联合特征输出多个视角下的文本描述的得分。

23、可选的，针对每个属性，将多个视角下的文本描述输入评价网络模型，抽取局部特征和全局特征，包括：

24、针对每个属性，将多个视角下的文本描述输入评价网络模型，依次经过双向编码器表示结构、一个多层感知机层得到局部特征，再经过一个多层感知机层以及池化层，得到全局特征。

25、可选的，基于所述联合特征输出多个视角下的文本描述的得分，包括：

26、基于所述联合特征，并利用预设数量个多层感知机层输出多个视角下的文本描述的得分。

27、可选的，所述评价网络模型的训练过程包括：

28、构建训练数据集，所述训练数据集包括训练样本和所述训练样本对应的标签信息，所述训练样本为不同属性对应的多个视角下的文本描述；

29、将所述训练样本输入初始模型，得到多个视角下的文本描述的得分；

30、基于该得分和所述标签信息计算训练损失；

31、基于所述训练损失更新所述初始模型的参数，得到参数更新后模型；

32、对参数更新后模型进行训练迭代，直到满足训练停止条件，将当前的参数更新后模型确定为评价网络模型。

33、可选的，还包括：

34、针对任一属性，如果评价网络模型输出的多个视角下的文本描述的得分中不存在大于所述预设阈值的得分，则重新基于该属性对应的问题询问图文问答预训练模型以得到该属性的文本描述，以及执行利用评价网络模型确定多个视角下的文本描述的得分，并将所述得分大于预设阈值的文本描述进行融合以得到该属性的描述信息的步骤。

35、可选的，所述构建问题集合，包括：

36、针对多个属性分别设置问题，得到问题集合；

37、其中，所述多个属性包括概念属性、几何属性、颜色属性以及材质属性中的至少两个。

38、可选的，所述基于所述问题集合询问图文问答预训练模型以得到每个问题对应的答案，并基于每个属性对应的所述答案确定每个属性的文本描述，包括：

39、当所述问题集合中每个属性对应一个问题，则利用每个属性的问题多次询问图文问答预训练模型以得到多个答案，并将多个答案中与该二维图像最相似的答案确定为该属性的文本描述。

40、可选的，所述将多个答案中与该二维图像最相似的答案确定为该属性的文本描述，包括：

41、利用图文对比预训练模型计算多个答案与该二维图像的相似度，并将相似度最高的答案确定为该属性的文本描述。

42、可选的，所述基于所述问题集合询问图文问答预训练模型以得到每个问题对应的答案，并基于每个属性对应的所述答案确定每个属性的文本描述，包括：

43、当所述问题集合中每个属性对应多个问题，则利用每个属性的多个问题询问图文问答预训练模型以得到多个答案，并将多个答案中与该二维图像最相似的答案确定为该属性的文本描述。

44、第二方面，本发明公开了一种三维内容生成模型训练方法，包括：

45、基于所述三维内容描述数据集对生成式对抗网络进行训练；所述三维内容描述数据集根据前述的基于多模态预训练模型的数据集生成方法生成；所述生成式对抗网络包括鉴别器、生成器以及条件控制器；

46、当所述鉴别器无法分辨所述生成器所生成内容，则将当前生成式对抗网络中的所述生成器和所述条件控制器组成的网络结构确定为三维内容生成模型。

47、可选的，所述基于所述三维内容描述数据集对生成式对抗网络进行训练，包括：

48、基于所述三维内容描述数据集对所述生成器和鉴别器进行交替训练，先冻结生成器、训练鉴别器，后冻结鉴别器、训练生成器，交替执行多次。

49、可选的，所述生成器的训练过程包括：

50、从所述三维内容描述数据集中获取三维内容描述，并利用所述条件控制器生成多属性编码描述子；

51、将初始噪声变换以得到噪声编码描述子，并基于所述噪声编码描述子与所述多属性编码描述子构建联合描述子；

52、将所述联合描述子输入生成器，得到生成器生成的三维内容；

53、将该三维内容输入鉴别器，得到该三维内容对应的预测值

54、基于该预测值与第一损失函数计算第一训练损失，并基于第一训练损失更新生成器的参数。

55、可选的，所述鉴别器的训练过程包括：

56、将真值数据和生成器生成的三维内容输入鉴别器，得到所述真值数据对应的第一预测值以及该三维内容对应的第二预测值；

57、基于所述第一预测值和所述第二预测值以及第二损失函数计算第二训练损失，并基于所述第二训练损失更新鉴别器的参数。

58、第三方面，本发明公开了一种三维内容生成方法，包括：

59、获取目标描述以及目标噪声，并输入三维内容生成模型；所述目标描述为多个属性的描述信息；其中，所述三维内容生成模型根据前述的三维内容生成模型训练方法训练得到；

60、利用条件控制器生成多属性编码描述子，并将目标噪声变换以得到噪声编码描述子；

61、基于该多属性编码描述子与该噪声编码描述子构建联合描述子，并利用生成器基于该联合描述子生成目标三维内容。

62、第四方面，本发明公开了一种数据集生成装置，包括：

63、二维图像渲染模块，用于将三维内容集中的每个三维内容渲染为二维图像；

64、问题集合构建模块，用于构建问题集合；所述问题集合包括多个属性对应的问题；

65、属性描述确定模块，用于针对每一所述二维图像，基于所述问题集合询问图文问答预训练模型以得到每个问题对应的答案，并基于每个属性对应的所述答案确定每个属性的文本描述；

66、数据集确定模块，用于基于所述文本描述确定每个所述三维内容的每个属性的描述信息，得到每个所述三维内容的三维内容描述，以生成三维内容描述数据集；所述三维内容描述包含多个所述属性的所述描述信息。

67、第五方面，本发明公开了一种电子设备，包括存储器和处理器，其中：

68、所述存储器，用于保存计算机程序；

69、所述处理器，用于执行所述计算机程序，以实现前述的基于多模态预训练模型的数据集生成方法，和/或，前述的三维内容生成模型训练方法，和/或，前述的三维内容生成方法。

70、第六方面，本发明公开了一种计算机可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述的基于多模态预训练模型的数据集生成方法，和/或，前述的三维内容生成模型训练方法，和/或，前述的三维内容生成方法。

71、可见，本发明先将三维内容集中的每个三维内容渲染为二维图像，以及构建问题集合，所述问题集合包括多个属性对应的问题，之后针对每一所述二维图像，基于所述问题集合询问图文问答预训练模型以得到每个问题对应的答案，并基于每个属性对应的所述答案确定每个属性的文本描述，然后基于所述文本描述确定每个所述三维内容的每个属性的描述信息，得到每个所述三维内容的三维内容描述，以生成三维内容描述数据集；所述三维内容描述包含多个所述属性的所述描述信息。也即，本发明构建包括多个属性问题的提问集合，针对三维内容对应的二维图像，询问图文问答预训练模型以得到每个问题对应的答案，并基于答案确定每个属性的文本描述，进而确定每个三维内容对应的多个属性的描述信息，得到三维内容描述数据集。

72、本发明的有益效果在于：三维内容描述中包含多个属性中每个属性分别对应的描述信息，这样得到的三维内容描述数据集更加丰富和准确，能够提升数据集质量，进而保障三维内容生成模型的性能，从而提升生成三维内容的准确性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杜国光范宝余王丽郭振华赵雅倩李仁刚
技术所有人：浪潮（北京）电子信息产业有限公司
我是此专利的发明人

上一篇：一种建筑装饰装修施工用喷砂装置的制作方法
上一篇：一种油水分离装置用过滤机构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。