用3d脸部建模和地标对齐扩增造型的方法

文档序号：6484587阅读：245来源：国知局

用3d脸部建模和地标对齐扩增造型的方法
【专利摘要】可首先通过借助摄像机捕获场景的2D图像来执行用户的脸部的个性化3D形变模型的生成。接下来，可在2D图像中检测用户的脸部，并且可在2D图像中检测用户的脸部的2D地标点。每一个检测的2D地标点都可被配准到通用3D脸部模型。可实时生成个性化面部组件以表示映射到通用3D脸部模型的用户的脸部以形成个性化3D形变模型。个性化3D形变模型可被显示给用户。对于来自摄像机的2D图像的现场视频序列可实时重复这个过程。
【专利说明】用3D脸部建模和地标对齐扩增造型的方法
【技术领域】
[0001]一般而言，本公开涉及图像处理领域。更具体地说，本发明的实施例涉及在用于个性化面部图像的处理系统中由处理器执行的扩增现实应用。
【背景技术】
[0002]在个人计算机(PC)、手持计算装置和嵌入式细分市场中，消费者对脸部技术和相关应用极其感兴趣。当摄像机被用作捕获用户的直播视频流的输入装置时，存在观看、分析、交互和增强“镜子”装置中用户的脸部的广泛需求。计算机实现的脸部和化身技术的现有方法落入四个截然不同的主要类别中。第一类别使用诸如局部二值模式(LBP)、Gabor滤波器、比例不变特征变换(SIFT)、加速鲁棒特征(SURF)和梯度方向直方图(HOG)的技术来特征化面部特征。第二类别处理单个二维(2D)图像，诸如脸部检测、面部识别系统、性别/种族检测和年龄检测。第三类别考虑用于脸部跟踪的视频序列、用于对齐的地标检测和表情评价。第四类别对三维(3D)脸部建模并提供动画。
[0003]在大多数当前解决方案中，脸部相关应用中的用户交互基于2D图像或视频。此外，整个脸部区域是用户交互的目标。当前解决方案的一个缺点是，用户不能与部分脸部区域或个体特征交互，也不能在自然3D空间上操作。尽管存在可给用户呈现3D脸部模型的小量应用，但通常提供通用模型。这些应用缺乏定制的能力，并且没为用户提供身临其境的体验。期望更好的方法，理想的是在单个处理系统中组合所有四种能力(面部特征、2D脸部识别、视频序列中的脸部跟踪和用于对齐的地标检测以及3D脸部动画)的方法。
【专利附图】

【附图说明】
[0004]参考附图提供详细描述。在不同图中使用相同附图标记指示类似或相似项目。
[0005]图1是根据本发明一些实施例的扩增现实组件的图解；
图2是根据本发明一些实施例在扩增现实组件中生成用户的个性化面部组件的图解；图3和4是根据本发明实施例的脸部检测处理的示例图像。
[0006]图5是根据本发明的实施例当在脸部图像上应用左嘴角的级联分类器时可能性响应图像示例及其平滑结果。
[0007]图6是根据本发明实施例的旋转参数、平移参数和缩放参数的例证。
[0008]图7是根据本发明实施例示出用于地标点检测处理的大范围脸部变化的示例图
像集合。
[0009]图8是根据本发明实施例示出脸部上95个地标点的示例图像。
[0010]图9和10是根据本发明实施例在各种脸部图像上执行的2D面部地标点检测处理的示例。
[0011]图11是根据本发明实施例的地标点配准处理的示例图像。
[0012]图12是根据本发明实施例的摄像机模型的例证。
[0013]图13例证了根据本发明实施例的几何重新投射误差。[0014]图14例证了根据本发明实施例的迷你球滤波的概念。
[0015]图15是根据本发明实施例的纹理映射框架的流程图。
[0016]图16和17是例证根据本发明实施例从多视图图像进行3D脸部构建的示例图像。
[0017]图18和19例证了处理系统实施例的框图，其可用于实现本文讨论的一些实施例。
【具体实施方式】
[0018]本发明实施例在比先前方法更“精密尺度”和更“个性化”的基于处理器的应用内提供了与面部图像的交互以及面部图像的增强。通过“精密尺度”，用户例如可与诸如眼睛、嘴巴、鼻子和脸颊等个体脸部特征交互，并扩增它们。“个性化”意味着，面部特征可对于每个人类用户特征化，而不是限于可应用于每个人的通用脸部模型。通过在本发明实施例中提出的技术，可对于处理系统的各种细分市场实现高级脸部和化身应用。
[0019]在以下描述中，阐述了大量特定细节以便提供对各种实施例的透彻理解。然而，本发明的各种实施例可在没有这些特定细节的情况下实施。在其它实例下，众所周知的方法、过程、组件和电路未详细描述，以免模糊了本发明的具体实施例。另外，可以使用各种构件来执行本发明实施例的各种方面，各种构件诸如是集成半导体电路(“硬件”)、组织成存储在计算机可读存储介质上的一个或多个程序的计算机可读指令(“软件”)或硬件和软件的某种组合，。为了本公开的目的，对“逻辑”的引用将意味着或者硬件、软件(例如包含控制处理器操作的微代码)、固件或它们的某种组合。
[0020]本发明的实施例处理从摄像机捕获的用户的脸部图像。在将脸部图像拟合到通用3D脸部模型之后，本发明的实施例便于最终用户与用户的脸部的个性化化身3D模型的交互。通过从2D脸部图像到3D化身模型的地标映射，可个体地特征化首要面部特征，诸如眼睛、嘴巴和鼻子。通过这种方式，可提供比先前技术更加自然且身临其境的高级人机交互(HCI)交互，诸如虚拟造型。
[0021]为了给用户提供定制面部表示，本发明的实施例给用户呈现了作为形变模型而不是通用统一模型的3D脸部化身。为了便于用户个体且单独增强和/或扩增他们的眼睛、鼻子、嘴巴和/或脸颊或3D脸部化身模型上的其它面部特征的能力，本发明的实施例提取其几何和纹理约束对于人鲁棒的一组地标点。为了给用户提供动态交互体验，本发明的实施例将捕获的2D脸部图像映射到3D脸部化身模型以便进行面部表情同步。
[0022]通用3D脸部模型是描述具有自然表情的人脸的几何属性的3D形状表示。它通常包括顶点集、连接在两个顶点之间的边以及三边(三角形脸)或四边(方脸)的闭集。
[0023]为了在具照片真实感的模型中呈现个性化化身，在本发明的实施例中可包含基于3D模型重构的多视图立体组件。多视图立体组件处理N个脸部图像(或视频序列中的连续帧)，其中N是自然数，并且自动估计脸部模型的摄像机参数、点云和网格。点云是三维坐标系中的顶点集。这些顶点通常由X、Y和Z坐标定义，并且通常打算表示对象的外部表面。
[0024]为了与部分脸部区域单独交互，在本发明的实施例中可包含单目地标检测组件。单目地标检测组件将当前视频帧与之前视频帧对齐，并且还将关键点配准到通用3D脸部模型以避免漂移和抖动。在一个实施例中，当数个地标的映射距离大于阈限时，可自动重启地标的检测和对齐。
[0025]为了通过利用通用3D脸部模型来扩增个性化化身，在本发明的实施例中可包含主成分分析。主成分分析(PCA)将通常数千的顶点和三角形的映射变换成数十个参数的映射。如果在包括具有有限计算能力的嵌入式平台的处理系统上执行扩增现实组件，则这使计算复杂性可行。因此，本发明的实施例可提供实时脸部跟踪和个性化化身操控。
[0026]图1是根据本发明一些实施例的扩增现实组件100的图解。在一个实施例中，扩增现实组件可以是作为处理系统一部分的硬件组件、固件组件、软件组件或硬件组件、固件组件和/或软件组件中一种或多种的组合。在各种实施例中，处理系统可以是PC、膝上型电脑、上网本、平板电脑、手持电脑、智能电话、移动因特网装置(MID)或任何其它固定处理装置或移动处理装置。在另一实施例中，扩增现实组件100可以是在处理系统上执行的应用程序的一部分。在各种实施例中，应用程序可以是独立程序，或者例如网页浏览器、图像处理应用、游戏或多媒体应用的另一程序(例如诸如插件)的一部分。
[0027]在一个实施例中，存在两个数据域:2D和3D，它们分别由至少一个2D脸部图像和3D化身模型表示。摄像机(未示出)可用作图像捕获工具。摄像机获得至少一个2D图像102。在一个实施例中，2D图像可包括来自视频摄像机的多个帧。在一个实施例中，摄像机可与处理系统(诸如web摄像机、蜂窝电话摄像机、平板电脑摄像机等)一体。通用3D脸部模型104可预先存储在处理系统的存储装置中，并根据需要输入到扩增现实组件100。在一个实施例中，通用3D脸部模型可由处理系统通过网络(诸如例如因特网)获得。在一个实施例中，通用3D脸部模型可存储在处理系统内的存储装置上。扩增现实组件100实时处理2D图像、通用3D脸部模型，可选地还有用户输入，以生成个性化面部组件106。个性化面部组件106包括3D形变模型，该3D形变模型对于个体用户将用户的脸部表示为个性化的和扩增的。个性化面部组件可存储在处理系统的存储装置中。个性化面部组件106可根据需要用在其它应用程序、处理系统和/或处理装置中。例如，个性化面部组件可被显示在处理系统的显示器上，以便由用户观看并与之交互。用户输入可经由众所周知的用户接口技术获得，以在个性化面部组件中改变或扩增用户的脸部的所选特征。以这种方式，用户可以看看选择的改变在用户的个性化3D面部模型上看起来像什么，其中所有改变都大致实时示出了。在一个实施例中，结果应用包括虚拟造型能力。
[0028]本发明实施例支持至少三种输入情况。在第一种情况下，用户的单个2D图像可被拟合到通用3D脸部模型。在第二种情况下，可通过应用拍照姿势恢复和多视图立体匹配技术来处理用户的多个2D图像，以重构3D模型。在第三种情况下，可处理直播视频帧序列以检测和跟踪用户的脸部，并至少部分基于直播视频帧、可选地还有用户输入来生成并连续调整用户的脸部的对应个性化3D形变模型，以改变所选个体面部特征。
[0029]在一个实施例中，个性化化身生成组件112提供脸部检测和跟踪、拍照姿势恢复、多视图立体图像处理、模型拟合、网格细化和纹理映射操作。个性化化身生成组件112在2D图像102中检测脸部区域，并重构脸部网格。为了实现这个目标，可自动估计摄像机参数，诸如焦距、旋转和变换以及缩放因子。在一个实施例中，可从摄像机获得其中一个或多个摄像机参数。当得到内部和外部摄像机参数时，将相应地恢复用户的脸部的稀疏点云。由于期望精密尺度化身生成，所以可用束调整方法基于多视图图像来估计2D脸部模型的稠密点云。为了建立通用3D脸部模型104与在2D图像102中所捕获的个体用户的脸部之间的形变关系，可分别由2D地标点检测组件108和3D地标点配准组件110检测和配准2D脸部模型与3D脸部模型之间的地标特征点。[0030] 可相对于稳定纹理和空间相关性来定义地标点。配准的地标点越多，特征化面部组件可越准确。在一个实施例中，可检测高达95个地标点。在各种实施例中，可应用比例不变特征变换(SIFT)或加速鲁棒特征(SURF)过程以特征化在训练脸部图像之间的统计量。在一个实施例中，可使用径向基函数来实现地标点检测模块。在一个实施例中，可在离线模型扫描和创建过程中定义3D地标点的数量和方位。由于与通用3D脸部模型104中的面部组件有关的网格信息是已知的，因此，通过变换稠密表面可内插个性化化身的面部部分。[0031 ] 在一个实施例中，3D形变模型的3D地标点可至少部分通过3D面部部分特征化模块114来生成。3D面部部分特征化模块可至少部分根据在数个示例脸部上计算的统计导出3D形变模型的部分，并可在形状和纹理空间方面得到描述。可通过将脸部分成独立形变的独立子区域(例如眼睛、鼻子、嘴巴和周围区域)来增加模型的表现力。由于所有脸部都被假设是对应的，因此，在参考脸部上定义这些区域就已足够。这种分割相当于将脸部的向量空间细分成独立的子空间。通过单独计算每个分段的线性组合并在边界处混合它们来生成完整的3D脸部。
[0032]假定，用形状向量S = (X1, Y1, Z1, X2,…,Yn,e 雙 3n 表
示脸部的几何图形，其含有它的η个顶点的X、Y、Z坐标。为了简化，假设，纹理图(texture map)中有效纹理值的数量等于顶点的数量。T脸部纹理可由纹理向量
T= (Rb Gb Bb R2,Gm Bn) 3n表示，其含有于是对应的顶点的RG颜
色值。分割的形变模型将由四个不相交集特征化，其中
【权利要求】
1.一种生成用户的脸部的个性化3D形变模型的方法，所述方法包括:通过摄像机捕获场景的至少一个2D图像；在所述至少一个2D图像中检测所述用户的脸部；在所述至少一个2D图像中检测所述用户的脸部的2D地标点；将每一个所述2D地标点配准到通用3D脸部模型；以及至少部分基于配准到所述通用3D脸部模型的2D地标点来实时生成表示映射到所述通用3D脸部模型的所述用户的脸部的个性化面部组件，以形成所述个性化3D形变模型。
2.如权利要求1所述的方法，还包括:向所述用户显示所述个性化3D形变模型。
3.如权利要求2所述的方法，还包括:允许所述用户交互地控制:改变在所述个性化3D形变模型中表示的所选个体面部特征，实时重新生成包含改变的个体面部特征的个性化3D形变模型，以及向所述用户显示重新生成的个性化3D形变模型。
4.如权利要求2所述的方法，还包括:对于作为从所述摄像机捕获的直播视频帧的2D图像序列，实时重复所述捕获、检测所述用户的脸部、检测所述2D地标点、配准和生成步骤，并向所述用户显示接连生成的个性化3D形变模型。
5.一种生成表示用户的脸部的个性化3D形变模型的系统，所述系统包括:2D地标点检测组件，用于接受来自摄像机的至少一个2D图像，以及检测所述用户的脸部在所述至少一个2D图像中的2D地标点，其中所述至少一个2D图像包含所述用户的脸部的表示；3D面部部分特征化组件，用于接受通用3D脸部模型，并便于所述用户与已分割3D脸部区域交互；耦合到所述2D地标点检测组件和所述3D面部部分特征化组件的3D地标点配准组件，其用于接受所述通用3D脸部模型和所述2D地标点、将每一个所述2D地标点配准到所述通用3D脸部模型并估计在将每一个所述2D地标点配准到所述通用3D脸部模型时的重新投射误差；以及率禹合到所述2D地标点检测组件和所述3D地标点配准组件的个性化化身生成组件,其用于接受来自所述摄像机的至少一个2D图像、配准到所述通用3D脸部模型的所述一个或多个2D地标点和所述重新投射误差，并实时生成表示映射到所述3D个性化形变模型的所述用户的脸部的个性化面部组件。
6.如权利要求5所述的系统，其中所述用户交互地控制:实时改变在映射到所述个性化3D形变模型的所述个性化面部组件中表示的所选个体面部特征。
7.如权利要求5所述的系统，其中所述个性化化身生成组件包括脸部检测组件以在来自所述摄像机的所述至少一个2D图像中检测至少一个用户的脸部。
8.如权利要求7所述的系统，其中所述脸部检测组件要检测所述至少一个2D图像中每个所检测脸部的方位和大小。
9.如权利要求5所述的系统，其中所述2D地标点检测组件要估计在多个2D图像中检测的2D地标点的变换和对齐对应关系。
10.如权利要求5所述的系统，其中所述2D地标点包括在所述至少一个2D图像中表示的所述用户的脸部的眼角和嘴角中至少一个的位置。
11.如权利要求5所述的系统，其中所述个性化化身生成组件包括立体匹配组件以执行2D图像对的立体匹配，从而恢复所述用户的拍照姿势。
12.如权利要求5所述的系统，其中所述个性化化身生成组件包括稠密匹配和束优化组件，以至少部分基于校准的摄像机参数来校正2D图像对使得核线对应于扫描线。
13.如权利要求5所述的系统，其中所述个性化化身生成组件包括去噪/定向传播组件以平滑所述3D个性化形变模型并增强形状几何。
14.如权利要求5所述的系统，其中所述个性化化身生成组件包括纹理映射/图像混合组件以产生表示所述用户的脸部的化身参数，从而为每个个体用户生成具照片真实感的效果。
15.如权利要求14所述的系统，其中所述个性化化身生成组件将所述化身参数映射到所述通用3D脸部模型以生成所述个性化面部组件。
16.如权利要求5所述的系统，还包括:用户接口应用组件，用于向所述用户显示所述个性化3D形变模型。
17.—种生成表示用户的脸部的个性化3D形变模型的方法，所述方法包括:接受来自摄像机的至少一个2D图像，所述至少一个2D图像包含所述用户的脸部的表示；在所述至少一个2D图像中检测所述用户的脸部；检测在所述至少一个2D图像中所检测的用户的脸部的2D地标点；接受通用3D脸部模型和所述2D地标点，将每一个所述2D地标点配准到所述通用3D脸部模型，并估计在将每一个所述2D地标点配准到所述通用3D脸部模型时的重新投射误执行2D图像对的立体匹配以恢复所述用户的拍照姿势；执行稠密匹配和束优化操作以至少部分基于校准的摄像机参数校正2D图像对使得核线对应于扫描线；执行去噪/定向传播操作以用足够数量的点云表示所述个性化3D形变模型，同时描绘具有类似外观的几何形状；执行纹理映射/图像混合操作以产生表示所述用户的脸部的化身参数，从而在各种照明条件和视角下增强所述化身参数具照片真实感的视觉效果；将所述化身参数映射到所述通用3D脸部模型以生成所述个性化面部组件；以及至少部分根据所述个性化面部组件来实时生成所述个性化3D形变模型。
18.如权利要求17所述的方法，还包括:向所述用户显示所述个性化3D形变模型。
19.如权利要求18所述的方法，还包括:允许所述用户交互地控制:改变在所述个性化3D形变模型中表示的所选个体面部特征，实时重新生成包含改变的个体面部特征的所述个性化3D形变模型，并向所述用户显示重新生成的个性化3D形变模型。
20.如权利要求17所述的方法，还包括:估计在多个2D图像中检测的2D地标点的变换和对齐对应关系。
21.如权利要求17所述的方法，还包括:对于作为从所述摄像机捕获的直播视频帧的2D图像序列实时重复权利要求17的步骤，并向所述用户显示接连生成的个性化3D形变模型。
22.机器可读指令，设置成当执行时实施如以上任一权利要求中所述的方法或实现以上任一权利要求中所述的设备。
23.机器可读存储装置，存储如权利要求22中所述的机器可读指令。
【文档编号】G06T17/00GK103430218SQ201180069410
【公开日】2013年12月4日申请日期:2011年3月21日优先权日:2011年3月21日
【发明者】P.王, Y.张申请人:英特尔公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：P.王;Y.张
技术所有人：英特尔公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。