本发明属于计算机视觉领域,具体涉及一种基于自然文本描述的高保真三维人脸模型生成方法。
背景技术:
1、3d人脸在现实许多领域中都有很高的要求,如数字人、临场感和电影特效等。而创建高保真3d人脸非常复杂,需要经验丰富的建模师花费大量时间。近年来,大批学者致力于文本到图像和图像到3d的合成,但这种模式会造成较大的中间误差,也缺乏在给定抽象描述的情况下合成3d人脸的能力。
2、当前,已经有部分学者尝试从文本中恢复出三维形状,但他们无法生成完全符合描述的三维模型。chen等人(kevin chen,christopher b choy,manolis savva,angel xchang,thomas funkhouser,and silvio savarese.text2shape:generating shapes fromnatural language by learning joint embeddings.in accv,pages 100–116.springer,2018.2)提出,通过学习3d形状的语言和物理属性之间的隐式跨模态连接,从自然语言生成彩色3d形状。在进一步的研究中,liu等人(zhengzhe liu,yi wang,xiaojuan qi,and chi-wing fu.towards implicit text-guided 3d shape generation.in cvpr,pages 17896–17906,2022.2)提出了对文本和形状中学习特征的形状和颜色预测进行解耦,并提出了单词级空间变换器,以将文本中的单词特征与形状中的空间特征相关联。在后续研究中,clip(contrastive language-image pre-training)发挥了重要作用,它是一个大型的预训练视觉语言模型,并且利用提示学习来利用clip模型的强大表示力。jain等人(ajay jain,ben mildenhall,jonathan t barron,pieter abbeel,and ben poole.zero-shot text-guided object generation with dream fields.in cvpr,pages 867–876,2022.2)提出将神经渲染与多模态图像和文本表示相结合,以从自然语言描述中合成不同的3d对象,poole等人(ben poole,ajay jain,jonathan t barron,and benmildenhall.dreamfusion:text-to-3d using 2ddiffusion.arxivpreprint arxiv:2209.14988,2022.2)进一步利用预训练的2d文本到图像扩散模型和nerf,以更灵活的合成执行文本到3d的合成。
3、上述研究致力于从文本中恢复三维形状而非三维人脸,但目前只有canfes等人(zehranaz canfes,m furkanatasoy,alara dirik,and pinar yanardag.text and imageguided 3d avatar generation andmanipulation.arxiv preprint arxiv:2202.06079,2022.2,7)试图生成3d人脸,但其模型依赖于无约束的初始3d人脸,且仅适用于短语。因此,利用面部先验知识从自然语言文本中实现细粒度和高质量的3d人脸生成仍然是一个亟待解决的问题。
技术实现思路
1、为了从文本中直接生成精细的三维人脸模型,本发明提供了一种基于自然文本描述的高保真三维人脸模型生成方法。
2、为了实现上述发明目的,本发明方法采用的技术方案如下:
3、一种基于自然文本描述的高保真三维人脸模型生成方法,包括如下步骤:
4、s1,获取三维人脸模型数据集,设计人脸面部属性描述问卷并人工标注,同时基于固定句式生成三维人脸模型对应的文本描述句子,生成人脸文本描述数据集;
5、s2,基于所述人脸文本描述数据集,利用非刚性迭代最近邻算法将所有三维人脸模型转变为拓扑一致的模型,即具有相同的顶点和面片数量的模型;将纹理重映射,生成对应于拓扑一致模型的纹理贴图;使用主成分分析法降维生成3dmm模型,获得对应的3dmm系数;
6、s3,根据步骤s1标注的人脸数据构建独热编码,使用预训练的视觉语言模型生成文本嵌入向量,构建文本解析网络训练数据,训练所述文本解析网络;
7、s4,根据步骤s3的独热编码和步骤2得到的3dmm系数、纹理贴图,训练从独热编码到3dmm系数和纹理贴图的网络,训练完成后将所述文本解析网络输出的几何独热编码和纹理独热编码分别输入形状预测网络和纹理生成网络生成对应的3dmm系数和纹理贴图;
8、s5,通过所述视觉语言模型的损失函数和l2损失函数优化所述形状预测网络和纹理生成网络输出的形状空间和纹理空间的参数向量,使其能符合抽象文本描述,并生成最终的三维人脸模型。
9、进一步地,所述步骤s3中,根据所述人脸面部属性描述问卷构建一个p×q维的矩阵,其中p表示p个不同的面部属性,q表示独热编码的维度;利用一个8层多层感知机作为文本解析网络,所述文本解析网络将视觉语言模型的文本嵌入向量作为输入,然后输出预测的独热编码,使用交叉熵损失作为训练的损失函数。
10、进一步地,所述步骤s4中,利用一个8层的多层感知机作为形状预测网络,所述形状预测网络将几何独热编码作为输入,然后输出对应的3dmm系数。
11、本发明构建了一个大规模文本-三维人脸数据集,包含不同对象的多种面部属性和自由描述,并提出了一个可行的从自由文本描述中生成三维人脸模型的方法。本发明首次实现了从自然文本描述中生成三维人脸模型,弥补了这方面的研究空白。所提出的方法可广泛应用于数字人、游戏创作、电影特效等领域,具有较高的实用价值和发展前景。
1.一种基于自然文本描述的高保真三维人脸模型生成方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于自然文本描述的高保真三维人脸模型生成方法,其特征在于,所述步骤s1中,人脸面部属性包括25种。
3.根据权利要求1所述的一种基于自然文本描述的高保真三维人脸模型生成方法,其特征在于,所述步骤s3中,根据所述人脸面部属性描述问卷构建一个p×q维的矩阵,其中p表示p个不同的面部属性,q表示独热编码的维度;利用一个8层多层感知机作为文本解析网络,所述文本解析网络将视觉语言模型的文本嵌入向量作为输入,然后输出预测的独热编码,使用交叉熵损失作为训练的损失函数。
4.根据权利要求1所述的一种基于自然文本描述的高保真三维人脸模型生成方法,其特征在于,所述步骤s4中,利用一个8层的多层感知机作为形状预测网络,所述形状预测网络将几何独热编码作为输入,然后输出对应的3dmm系数。
5.根据权利要求1所述的一种基于自然文本描述的高保真三维人脸模型生成方法,其特征在于,使用带权重的l1损失函数和面部不同区域的三元组损失来训练所述形状预测网络:
6.根据权利要求5所述的一种基于自然文本描述的高保真三维人脸模型生成方法,其特征在于,将整个面部分为4个区域:面部关键点、眼睛鼻子嘴巴、其他面部区域、以及除上述以外的其他区域,其中,其他面部区域包括除去眼睛鼻子嘴巴以外的面部区域,其他区域包括耳朵和后脑勺。
7.根据权利要求6所述的一种基于自然文本描述的高保真三维人脸模型生成方法,其特征在于,所述4个区域对应的权重为16:4:3:0。
8.根据权利要求5所述的一种基于自然文本描述的高保真三维人脸模型生成方法,其特征在于,面部不同区域的三元组损失是基于不同的区域构建面部的正反例数据对,使网络预测结果接近正例,远离反例;其损失函数为:
9.根据权利要求1所述的一种基于自然文本描述的高保真三维人脸模型生成方法,其特征在于,所述步骤s5中,利用可微渲染器将3dmm系数和纹理贴图构成的三维人脸模型渲染成二维图片,并使用视觉语言模型编码器进行编码,所得的图像嵌入与输入的抽象文本嵌入之间求余弦相似度损失,同时,添加两项正则项损失来分别约束形状空间s和纹理空间t,最终的损失函数为: