一种基于CLIP模型的三维人脸重建方法

文档序号:35066894发布日期:2023-08-09 06:43阅读:24来源:国知局
本发明涉及计算机视觉和计算机图像学,具体涉及一种基于clip模型的三维人脸重建方法。
背景技术
::1、近年来,基于单幅图像的3d人脸重建越来越受到研究者的重视。vetter等(volkerblanz,thomas vetter,”a morphable model for the synthesis of 3d faces,”inproceed-ings of the acm siggraph annual conference,1999,pp.187–194.)首创性提出3d形变模型(3d morphable model,3dmm)算法。自此二十多年里,3dmm方法得到快速的发展,且应用最为广泛。随着深度学习技术的兴起,一些有监督的3d人脸重建方法利用深度卷积网络来预测3dmm参数,以取代传统的优化方法以获得更好的重建效果。然而,带有3d地面真值的人脸数据不易获得。一些无监督或弱监督的学习方法获得广泛研究,并得到可接受的结果。tewari等(a.tewari,m.zollofer,h.kim,p.garrido,f.bernard,p.perez,andt.christian.mofa:model-based deep convolutional face autoencoder forunsupervised monocular reconstruction.in iccv,2017.3)提出在训练过程中使用光度损失作为监督信号来恢复人脸纹理。genova等(k.genova,f.cole,a.maschinot.unsupervised training for 3d morphable model regression.in cvpr,2018,pp.8377-8386)利用人脸识别网络来提高人脸重建的保真度。deng等(y.deng,j.yang,s.xu.accurate 3d face reconstruction with weakly-supervised learning:from single image to image set.in cvprw,2019,pp.285-295)采用地标损失来提高面部重建的准确性。shang等(j.shang,t.shen,s.li,l.zhou,m.zhen,t.fang,andl.quan.self-supervised monocular 3d face recons-truction by occlusion-awaremultiview geometry consistency.in eccv,2020,pp.53–70)提出了一种深度损失来提高人脸对齐的准确性。这些方法不断探索不同损失对3d人脸重建的作用,但是这些方法忽视对人脸几何细节的关注。总之,这些方法只能重建粗糙的几何和不保真的纹理,不能恢复几何细节。2、现有技术中的一些方法能够用于恢复详细地人脸形状。feng等(y.feng,h.feng,m.j.black,and t.bolkart.learning an animatable detailed 3d face model fromin-the-wild images.in tog,40(4):88:1–88:13,2021.2,3,4,5,6,7,8)提出了捕捉细节表情与动画(detailed expression capture and animat-ion,deca)方法利用多视图人脸图像学习公共的几何细节,以此来生成富有几何细节的几何位移图。但是该方法学习的几何位移图不准确,且生成的几何细节不具有真实性。danecek等(r.danecek,m.j.black,t.bolkart.emoca:emotion driven monocular face capture and animation.in cvpr,2022.)提出情感捕捉与动画(emotion capture and animation,emoca)方法,利用深度感知表情一致性损失来学习人脸表情下的几何细节。该方法能够有效地恢复人脸表情的几何细节。但是该方法不能生成具有真实感的3d人脸形状。因此,这些使用位移图来恢复人脸几何细节的方法很难学习到准确的几何细节,缺乏几何真实感。现有的工作无法有效捕捉几何细节和语义属性,导致生成的3d人脸几何细节少、纹理粗糙。此外,我们发现emoca方法利用表情网络获得更多的面部表情几何细节。因此,我们认为一个强大的语义表示网络可以学习几何细节和语义属性,以引导粗糙的3d人脸模型恢复更多的几何细节和具有真实感的面部表情。为此,我们利用clip(contrastive-language-image-pretraining)模型的强大表示能力来学习几何细节和语义特征。clip模型在400万文本-图像对上训练,它可以有效的获取细粒度语义特征。styleclip(o.patashnik,z.wu,e.shechtman,d.cohen-or,andd.lischinski.styleclip:text-driven manipulation of sty-egan imagery.in cvpr,pp.2085–2094,2021.)表明,clip模型可以捕捉人脸的几何和语义属性。3、因此,现需要一种具有较高的人脸重建精度和更显著的人脸几何细节的基于clip模型的三维人脸重建方法。技术实现思路1、本发明的主要目的在于提供一种基于clip模型的三维人脸重建方法,以解决现有技术中人脸重建精度较低、人脸几何细节较少的问题。2、为实现上述目的,本发明提供了一种基于clip模型的三维人脸重建方法,具体包括如下步骤:3、s1,采用掩码预训练方式获取粗糙的特征表示。4、s2,采用参数细化模块从粗糙特征中学习细粒度特征表示,参数细化模块包括:深度可分离的残差块和transformer编码器,深度可分离的残差块用于学习局部人脸的细节特征,transformer编码器用于从粗糙的特征表示中学习全局的语义特征,采用特征融合模块将参数细化模块学习的局部细节特征和全局语义特征进行融合。5、s3,采用特征分类器来获取3dmm参数,细粒度的特征表示fc通过特征分类器获得低维的3dmm参数代码,参数代码由形状代码α、表情代码β、纹理代码t、位姿代码ρ和光照代码l组成共257维参数代码。6、s4,采用bfm模型拟合3dmm参数生成三维人脸模型,本阶段拟合参数分为人脸模型和相机模型。7、s5,采用可微渲染器将3d人脸模型渲染到2d图像中,生成渲染图像ir=r(s3d),其中r(·)表示可微渲染器,s3d是3d人脸模型的顶点。8、s6,采用损失函数优化模型,损失函数包括粗糙损失函数和特征一致性损失函数,其中粗糙损失函数包括光度损失函数、身份损失函数、地标损失函数和正则化损失函数,特征一致性损失函数包括几何特征一致性损失函数和语义特征一致性损失函数。9、进一步地,步骤s1中,给定输入图像其中,h和w表示人脸图像的高度和宽度,在vggface2数据集中采用掩码方式预训练残差网络来提取粗糙的特征表示f0=hb(is),其中hb(·)表示预训练残差网络,c代表通道数。10、进一步地,步骤s2中,参数细化阶段从粗糙特征f0中学习细粒度特征表示fc=hprm(f0),其中hprm(·)表示参数细化模块。11、进一步地,步骤s2具体包括如下步骤:12、s2.1,给定粗糙特征f0。13、s2.2,使用1×1卷积层来降低特征维度得到256维特征向量,此过程被定义为:c=c(f0)。14、s2.3,采用并行的深度可分离的残差块和transformer编码器分别学习局部高频特征和全局语义特征,此过程定义为fc=cat(t(c)+dw(c)),其中t(·)表示transformer编码器,dw(·)表示深度可分离残差块。15、进一步地,步骤s4的人脸模型表示为:16、17、其中,表示3d人脸的平均形状;aid,aexp和atex分别表示人脸的形状、表情和纹理的主成分基,α,β,t分别表示人脸的形状、表情和纹理参数,用于拟合生成3d人脸。18、步骤s4的相机模型使用透视相机将3d人脸模型投影到2d图像中,透视相机投影过程可以表示为:19、v=f×r×s3d+t  (2)20、其中r是旋转矩阵,t是平移向量,s3d是3d人脸模型的顶点,f是相机焦距。21、进一步地,步骤s6中,光度损失函数用于使生成的纹理肤色接近输入图形的纹理肤色,光度损失函数被定义为:22、lphoto=||mi⊙(is-ir)||1  (3)23、其中mi是人脸肤色的掩码区域,⊙代表哈达玛积,is、ir分别是输入图像和渲染图像,||·||1是l1范式。24、地标损失函数用于进行弱监督学习,测量3d人脸投影到输入图像和输入图像之间68个关键点的距离。地标损失函数被定义为:25、26、其中ki是输入图像的第i个关键点,k′i是重建的3d人脸模型投影后的第i个关键点;wi是第i个关键点的权重,只有内嘴边的关键点权重为20,其他关键点权重均为1。27、身份损失函数用于生成人脸几何图像,在vggface2数据集上训练arcface网络,然后将训练好的网络用于提取输入图像和渲染图像的512维人脸的深度特征,最后计算深度特征余弦相似性,身份损失函数被定义为:28、lid=1-<f(is),f(ir)>  (5)29、其中,f(·)是预训练的arcface网络,is,ir分别是输入图像和渲染图像,<·,·>是向量内积。30、正则化损失函数用于防止3d人脸形状退化,定义正则化损失为:31、lreg=||α||2+||β||2+||δ||2  (9)32、其中,α,β,δ分别代表形状参数、表情参数和纹理参数。33、进一步地,步骤s6中,几何特征一致性损失函数,用于恢复人脸的几何细节,几何特征一致性损失函数被定义为:34、35、其中,clipl是rn50×4clip模型的第2和3层,wl是clipl的权重,wl={1,1/2},is、ir分别是输入图像和渲染图像,||·||2是l2范式。36、语义特征一致性损失函数,用于使纹理肤色逼近输入图像,和用于解决3d人脸模型的闭眼问题,它可以定义为:37、lsemantic=1-cos(clip(is),clip(ir))  (7)38、其中,clip是vit-b/32clip模型的fc层,is、ir分别是输入图像和渲染图像,cos(·)是余弦距离。39、特征一致性损失函数被定义为:40、lcl=lgeometric+lsemantic  (8)。41、进一步地,目标函数所有损失的优化定义为:42、lall=minλphotolphoto+λidlid+λlmllm+λcllcl+λreglreg  (10)43、其中,λphoto=1,λid=2,λlm=1.7×10-3,λreg=1×10-4,λcl=2是相应损失的权重。44、本发明具有如下有益效果:45、1.本发明的参数细化模块用于学习丰富的特征表示,以加速模型的收敛速度和估计准确的人脸模型参数,参数细化模块采用并行transformer编码器和深度可分离残差块来学习全局语义特征和局部几何特征。46、2.本发明提出的特征融合模块将参数细化模块学习的全局语义特征和局部几何特征融合为细粒度的特征表示,然后将特征分类器将细粒度特征线性分类为不同的3dmm参数。47、3.本发明的特征一致性损失函数,利用强大表征的clip模型来捕捉几何细节,以此恢复人脸的纹理肤色和局部几何细节。48、4.本发明提供的方法包括参数细化模块、特征融合模块以及特征一致性损失函数,使其相较于现有的单幅图像三维人脸重建算法,具有更高的人脸重建精度和更显著的人脸几何细节。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1