综合运动捕捉的制作方法

文档序号：6478212阅读：307来源：国知局

专利名称：综合运动捕捉的制作方法
技术领域：
本发明总地涉及运动捕捉，更具体而言涉及综合运动捕捉，其中身体运动捕捉和
脸部运动捕捉被基本同时地执行，并且结果被综合成单个运动捕捉输出。
背景技术：
现有的用于运动捕捉("MOCAP")的方法和系统利用了某些专用技术来进行脸部和身体运动捕捉。这些技术共享某些共同的元素，例如利用多个MOCAP相机获取运动，重建捕捉运动的物理空间的三维("3-D")虚拟空间模拟，并且通过构成该虚拟空间的体积性帧的时间序列来跟踪和标注被耦合在演员身体各处的标志的图像。然而，每类运动捕捉都具有能够以不同方式克服的独特固有难点。

发明内容
这里公开的某些实现方式提供了综合运动捕捉。在一个方面中，公开了一种综合运动捕捉方法。该方法包括向演员的身体和脸部施加具有已知图案的标记材料；将至少一个第一视频运动捕捉相机配置为捕捉所述演员的身体上的标记材料；将至少一个第二视频运动捕捉相机配置为捕捉所述演员的脸部上的标记材料；基本同时地利用所述至少一个第一视频运动捕捉相机捕捉身体运动数据并利用所述至少一个第二视频运动捕捉相机捕捉脸部运动数据；以及综合所述身体运动数据和所述脸部运动数据。在另一方面中，公开了一种综合运动捕捉系统。该系统包括施加到演员的身体和脸部的具有已知图案的标记材料；用于捕捉所述演员的身体上的标记材料的至少一个第一视频运动捕捉相机；用于捕捉所述演员的脸部上的标记材料的至少一个第二视频运动捕捉相机；处理器，其被配置为基本同时地利用所述至少一个第一视频运动捕捉相机捕捉身体运动数据并利用所述至少一个第二视频运动捕捉相机捕捉脸部运动数据；以及综合所述身体运动数据和所述脸部运动数据。在检阅以下详细描述和附图后，本领域的普通技术人员将更容易清楚本发明的其他特征和优点。

通过研究附图可以部分掌握本发明的结构和操作方面的细节，附图中图1示出了根据本发明一种实现方式用于身体运动捕捉的专用"已知图案"标志
的样本收集；图2示出了具有用于充分地解析脸部表情的165个以上的标志(或特征)的人脸的二维("2-D")"展开"扫描；图3示出了墨水标志在演员脸部的模型上的示例性放置；
图4是具有根据一种实现方式的标志放置位置的人体的图示；
4
图5是在图4所示的人体上的标志放置的后视图；图6A和6B示出了基本上定义了身体上表达运动的主要肢体(片段)和区域(例如，头部、肩部、臀部、踝部等等)的3-D模型的标志放置；图7示出了采取与图6A和6B所示基本相同的姿势的同一人体的侧视图；图8示出了采取与图6A和6B所示基本相同的姿势的同一人体的顶视图和底视
图；图9是根据一种实现方式的综合运动捕捉系统的功能框图；并且图10是描述根据一种实现方式用于综合脸部和身体运动捕捉的方法的流程图。
具体实施例方式
这里公开的本发明的某些实现方式提供了综合运动捕捉。一种实现方式利用了稀疏相机覆盖。在该实现方式中，一个高清("HD")运动捕捉("M0CAP")视频相机被用于演员的身体，另一 HD M0CAP视频相机被用于演员的脸部，并且一胶片相机被用于捕捉整个表演(例如，"胶片板")。在运动捕捉表演期间，通过基本同时地获取脸部和身体数据两者，以及胶片板，来实现综合运动捕捉。在阅读此说明书后，本领域的技术人员将会清楚在各种替换实现方式和替换应用中如何实现本发明。然而，虽然这里将描述本发明的各种实现方式，但是应当理解，这些实施例仅是通过示例方式而不是限制方式给出的。这样，这里对各种替换实现方式的详细描述不应当被解释为限制所附权利要求中记载的本发明的范围或广度。身体运动捕捉通常包括捕捉演员的驱干、头部、四肢、手部和足部的运动。这些运动可被认为是相对粗大的运动。M0CAP相机被放置在大到足以涵盖演员的表演的"捕捉体积"附近。所得到的重建的3-D虚拟空间模拟该捕捉体积，并且耦合到演员身体的标志的图像通过重建的虚拟空间的帧而在时间上被跟踪。因为演员身体运动相对粗大，所以大标志可用于标识演员身体、头部、四肢、手部和足部上的点。大标志比起较小的标志来更容易在所得到的体积帧中定位。与之不同，脸部运动捕捉包括仅捕捉演员脸部的运动。由于表达各种人类表情所需的脸部肌肉的微妙使用，这些运动被认为是相对细微的运动。因此，捕捉体积通常只大到足以涵盖头部，或者甚至只涵盖脸部。另外，与更粗大的身体运动不同，捕捉微妙的表情性脸部运动需要多得多的相对较小的标志。如人脸的二维("2-D")"展开"扫描的图2所示，165个以上的标志或者更多个被用于充分地解析脸部表情。因为这些类型的运动捕捉中的差异，以及对多个专用相机和捕捉体积的精细要求，用于提高捕捉脸部和身体运动两者的效率的MOCAP系统和方法极大地提升了技术水平。图9所示的一种实现方式利用了稀疏相机覆盖。在该实现方式中，一个高清 ("HD")运动捕捉("M0CAP")视频相机920被用于演员的身体，另一HD MOCAP视频相机 922被用于演员的脸部，并且一胶片相机924被用于捕捉整个表演(例如，"胶片板")。在一另实现方式中，一个或多个HD相机被用于演员的身体，另一个或多个HD相机被用于演员的脸部，并且一个或多个胶片相机被用于捕捉整个表演。在另一实现方式中，对于每个演员的身体使用一个HD相机，对于每个演员的脸部使用一个HD相机，并且使用捕捉整个表演的一个或多个胶片相机，来捕捉多个演员的运动。在另一实现方式中，对于每个演员的身体使用一个或多个HD相机，对于每个演员的脸部使用另一个或多个HD相机，并且用一个或多个胶片相机来捕捉整个表演。在运动捕捉表演期间，通过基本同时的获取脸部和身体数据，以及胶片板，来实现综合运动捕捉。图9是根据一种实现方式的综合运动捕捉系统900的功能框图。综合运动捕捉系统900包括运动捕捉处理器910、运动捕捉相机920、922、胶片相机924、用户工作站930、以及按预定图案适当配备有标志/涂绘材料960的演员的身体940和脸部950。在一些实现方式中，可以使用其他材料或特征。虽然图9只示出了 11个标志960B-960F，但在身体940 和脸部950上可使用多得多的标志。运动捕捉处理器910通过线路或无线地连接到工作站 930。运动捕捉处理器910通常被配置为接收来自工作站930控制数据分组。
如图所示，两个运动捕捉相机920、922和一个胶片相机924连接到运动捕捉处理器910。一个HD M0CAP视频相机920用于演员的身体，另一HD MOCAP视频相机922用于演员的脸部，并且一胶片相机924用于捕捉整个表演。MOCAP视频相机920聚焦于施加有标志 960B-960F的演员身体940，并且MOCAP视频相机922聚焦于施加有墨水标志960A的演员脸部950。在一些实现方式中，被配置为聚焦于演员脸部950的相机922可被附着于演员的头部(例如，附着在演员佩戴的头盔上)。在其他实现方式中，相机922可以跟踪脸部950 上的其他标志或脸部特征。标志/特征960A的放置被配置为捕捉脸部950的运动，而标志960B-960F的放置被配置为捕捉包括演员的手部970、臂部972、腿部974、978和足部976在内的身体940的运动。墨水标志在演员脸部的模型上的示例性放置在图3中示出。在该实现方式中，脸部标志包括演员脸部上的墨水标志，这些标志作为视频中的"特征"(特征还包括例如斑点或眼角)被跟踪。随后从所跟踪的特征创建运动捕捉数据。该方法可通过预先扫描演员脸部并且执行FACS调查(例如参见2007年7月27日提交的题为"FACS Cleaning"的美国专利申请No. 11/829,711)来得到增强。还可以在获取MOCAP数据的同时获取表面数据。在其他实现方式中，脸部墨水标志是利用红外("IR")墨水、发光涂料和/或化妆品、和/或量子纳米点、纳米点墨水和/或纳米点化妆品来作成的。脸部表面捕捉扫描也可从用于捕捉脸部运动的HD视频中获取。在一种实现方式中，一种特殊的图案被投影到演员脸部上，并且与MOCAP数据一起被捕捉。该图案可包括可见光、IR光、或几乎任何波长的光，并且匹配的带通滤波器可用于实时地或者在后期处理期间隔离出该图案。该图案可以仅被投影在第一帧和另一帧上，或者被周期性地投影，例如每隔一帧投影。取决于情况可使用许多不同的投影频率。该图案还可包括例如已知的(可识别的)随机图案、网格，或者几乎任何类型的图案。除了利用HD相机获取的墨水标记外，反光标志也可结合传统的MOCAP相机配置使用。这种配置可提供实时的脸部(和身体)捕捉和显示，而HD相机布置则提供了后期处理期间的更高分辨率和改进的标注。在一种实现方式中，利用以一个HD相机获得的视频数据来执行2-D跟踪，以捕捉脸部运动。例如，在HD视频数据的帧与帧之间跟踪脸部上的墨水标志。通过利用HD相机可获得的高分辨率，促进了对相对较小的墨水点的跟踪。在另一实现方式中，使用两个或更
6多个HD相机，据此可执行2-D跟踪。此外，可执行3-D跟踪，包括重建如上所述的3-D虚拟空间，并且获得源自于HD相机的高分辨率的额外益处。另外，FACS类型处理可以增强3-D中的跟踪和脸部模型重建。在图9所示的实现方式中，标志960B捕捉臂部972的运动；标志960C捕捉身体940的运动；标志960D、960E捕捉腿部974的运动；并且标志960F捕捉足部976的运动。另外，标志960A-960F上的图案的独特性提供了可用于获得标志的标识和朝向的信息。标志960D被配置为缠绕在演员腿部的一条图案。图1示出了根据本发明一种实现方式用于身体运动捕捉的专用"已知图案"标志的样本收集。每个标志包括小的黑白方块的6X6矩阵。标识和朝向信息通过6X6矩阵内白方块的独特放置而被编码在每个标志中。这些标志的特征在于，在任何旋转状态中都是可识别的。这些标志特有的旋转不变性使得能够得出位置和朝向信息两者。标志的朝向随后可用于确定可被模拟为"片段"的物体或者说耦合有标志的肢体或其他身体附肢的朝向。即，处于上前臂的一个标志和处于腕部的另一标志可用于基于标志的朝向来确定前臂本身的朝向。另外，模拟前臂的骨骼基本结构的棒状片段的运动可被模拟。在每种情况下，旋转标志不会导致在确定标志的身份和朝向方面的含糊，从而证明了此方案对于编码信息的有效性。将会认识到，使用除这里通过示例公开的黑白元素的6X6矩阵之外的布置的编码方案也可被实现。例如，标志可以不被配置为矩阵，而是被配置为圆形碰撞测试图案，其中对于每个标志具有不同的设计，以便能够区分位置和朝向。在其他示例中，标志形状可以是平坦的矩形矩阵。在另一示例中，形状本身就可以是代码。在另一实现方式中，标志的编码方案包括"主动"以及"被动"编码。例如，如上所述，被动编码的图案包括被运动捕捉相机捕捉并被解码的代码。经解码的数据可被进一步用于数字字符的运动的综合。然而，在要捕捉的标志的视觉/光信号临时变化的情况下，可使用主动编码。在另一实现方式中，图案可使用荧光材料。这些图案用作"主标志"，其具有"主动身份"，但却被"被动供能"。(与之相比，"主动供能"的标志通常发出某种能量，例如LED，其发光)。图4是具有根据一种实现方式的标志放置位置的人体的图示。所示出的标志利用与图l所示类似的方案编码了标识和朝向信息。它们被基本对称地定位，并且使得身体的每个主要肢体(即，片段)都被至少一个标志所定义。所示出的标志中大约一半位于在所示出的正面视图中不可见的身体表面上，并且改为包括指向其近似的封闭位置(occludedposition)的箭头。在模型背面上标志的放置的视图在图5中示出。参考图9，运动捕捉相机920、922涵盖一捕捉空间，在该捕捉空间中演员的身体940和脸部950在运动中。即使当任何标志的视图相对于运动捕捉相机920、922的某个子集被封闭时，另一子集也将保留被封闭的标志的视图并捕捉其运动。从而，这样配备了标志的演员的几乎所有运动都可利用联系图9描述的系统来捕捉。图6A和6B分别示出了如图4所述的配备有标志的人体模型的正视图和后视图。如图所示，只有模型的向着前方的表面上的标志是可见的。其余标志被部分或全部封闭。图7示出了采取与图6所示基本相同的姿势的同一人体的侧视图，图8示出了其顶视图和底视图。从而，在任何给定时刻，放置在捕捉空间附近的运动捕捉相机920、922可见到大量标志。如图所示，标志不仅可以图案不同，还可以大小不同。例如，一些标志是3英寸的方块，而其他的是2英寸的方块。另外，图6A和6B所示的3-D模型上的标志放置基本上定义了身体上表达运动的主要肢体(片段)和区域(例如，头部、肩部、臀部、踝部等等)。当对所捕捉的数据执行跟踪时，放置有标志的身体位置是可定位的，并且其朝向是可确定的。另外，由标志放置所定义的身体的片段，例如肘部和肩部之间的上臂片段，由于基本放置在该片段每端的标志也将是可定位的。上臂片段的位置和朝向也可以根据从定义上臂的各个标志得出的朝向来确定。返回参考图9，运动捕捉相机920、922被运动捕捉处理器910控制，以捕捉标志的二维("2-D")图像的同步序列。这些同步图像被综合成图像帧，每个图像帧表示图像帧的时间序列中的一帧。即，每个个体图像帧包括综合的多个同时获取的2-D图像，每个2-D图像由一个体运动捕捉相机920或922生成。这样捕捉的2-D图像能够可被存储，或在用户工作站930处被实时查看，或者既被存储又在用户工作站930处被实时查看。
运动捕捉处理器910执行2-D图像的综合(即，执行"重建")，以生成三维("3-D"或"体积性")标志数据的帧序列。体积性帧的这个序列常被称为一"拍"(beat)，其也可被认为是电影技术中的一个"镜头"(take)。传统上，标志是分立的物体或可视点，并且重建的标志数据包括多个分立的标志数据点，其中每个标志数据点表示耦合到对象(例如，演员)的一标志的空间(即，3-D)位置。从而，每个体积性帧包括表示对象的空间模型的多个运动数据点。运动捕捉处理器910取得体积性帧序列，并且执行跟踪功能，以将每个帧的标志数据点与该序列中先前和随后帧的标志数据点相关联(或者说"映射")。
在一种实现方式中，一个或多个已知图案被印刷到条带960D上。条带960D随后被缠绕在演员的每个肢体(即，附肢)上，以使得每个肢体具有至少两个条带。例如，在图9中示出了两个条带960D，它们缠绕在演员的左大腿978上。然而，只要用一个条带就足以标记末端效应体(例如，手部、足部、头部)。一旦被捕捉，如上所述，缠绕的条带960D的印刷图案就使得运动捕捉处理器910能够从任何角度跟踪表示演员肢体的每个"片段"的位置和朝向，其中一片段上只有少达一个标志可见。如图9所示，演员的大腿978在运动捕捉处理器910被视为一片段。通过将具有多个标志的带图案条带960D以基本上圆形的方式缠绕在一肢体上，可以确定肢体(即，片段)的"质点"。利用标志的多个带图案条带960D，可以确定质心，以提供肢体内的骨骼的估计或模型。另外，可以根据施加在片段上的一个(或多个，如果可见的话)标志和/或条带来确定关于整个片段的朝向、平移和旋转信息。
图10是根据一种实现方式的综合脸部和身体运动捕捉的方法1000的流程图。在框IOIO，具有已知图案或可识别的随机图案的标记材料被施加到一表面。在一种实现方式，该表面是演员身体的一个表面，并且图案包括耦合到演员身体的多个标志。在另一实现方式中，图案包括耦合到演员身体的单个标志(例如，标志条带)。该图案还可形成为条带960D，并且附着于演员的四肢、手部和足部周围，如联系图9所述。标志还包括反射性球体、粘着在演员身体上的纹身、涂绘在演员身体上材料、或者演员的固有特征(例如，痣或皱纹)。在另一实现方式中，该表面是演员脸部的表面，并且标记材料包括施加到演员脸部的墨水或涂料标记；天然脸部特征，例如斑点或脸角；或者施加到脸部的任何其他标志或标记。
8
除了已知图案标志外，演员还可在身体上被装备以大量LED。在一种实现方式中，演员穿着其上部署有LED的特殊套装。在一个示例中，LED被部署成包括线条的图案。LED的线条可以相隔已知的距离，从而形成网格。LED的这种网格结合已知图案标志被跟踪(在
一种实现方式，与已知图案标志同时被跟踪)。已知图案标志用于通过向在其他方面基本统一部署的多个相同LED提供独特的身份信息，来改进网格图案的跟踪分辨率和标注。从而，改进了虚拟空间中的时间跟踪和标注的连续性。在另一实现方式中，通过对构成网格的线条使用不同颜色的LED，来实现LED的跟踪分辨率和标注的进一步改进。不同颜色的线条的交点(即，网格的顶点)因此在跟踪期间获得更高的可识别性。与之相比，构成网格的相似颜色的LED个体上将是难以跟踪的，并且旋转和朝向信息将难以得出。即，相似颜色的LED可被认为是"被动身份"、"主动供能"、"次标志"。然而，在一种实现方式中，通过将LED配置为根据可识别的时间序列而脉动或闪烁，来向LED赋予"主动身份"特性。然后在捕捉空间中设立起运动捕捉相机。在一种实现方式中，至少一个HD M0CAP视频相机被配置为用于对演员身体进行运动捕捉(在框1020处)，并且至少一个另外的HDM0CAP视频相机被配置为用于对演员脸部进行运动捕捉(在框1030处)。另外，一胶片相机被设立来在胶片板上捕捉整个表演。然后，在框1040，身体运动数据和脸部运动数据被基本上同时地捕捉。所捕捉到的身体运动数据和脸部运动数据在框1050处被综合。
在一种实现方式中，利用以一个HD获得的视频运动数据来执行2-D跟踪，以捕捉身体运动。例如，在HD视频数据的帧与帧之间跟踪身体和四脚上的已知图案标志。通过利用HD相机可获得的高分辨率，促进了对已知图案的跟踪。在另一实现方式中，使用两个或更多个HD相机，据此可执行2-D跟踪。此外，可执行3-D跟踪，包括重建如上所述的3-D虚拟空间，并且获得源自于HD相机的高分辨率的额外益处。另外，FACS类型求解可以增强3-D中的跟踪和脸部模型重建。预定的骨骼模型可用于帮助利用多个HD相机获得的实际数据进行的骨骼模拟的构造，以捕捉身体运动数据。在一种实现方式中，实现以上描述的脸部和身体运动捕捉方法的系统被用改进的跟踪方法来增强。多点跟踪器被实现来跟踪主图案和次图案两者。求解器随后解析出来自次标志的平移信息(次标志不提供旋转或朝向信息)，并且将来自主标志的平移和旋转解析到骨骼模型上。求解器可用于把主标志和次标志的骨骼数据和位置信息重投影到原始胶片板上。从而，通过确保解析出的数据与在胶片板上获取的图像同步，可以在较早阶段识别和/或矫正跟踪、标注和处理的其他阶段中的不一致。已经描述了本发明的各种示例性实现方式。然而，本领域的普通技术人员将会认识到，其他实现方式也是可能的，并且在本发明的范围内。例如，已知且可识别的随机图案可被印刷、涂绘或墨涂到演员或物体的表面上。另外，印刷、涂绘、墨涂、纹身、量子纳米点和固有身体特征的任何组合都可用于获得期望的图案。
因此，本发明并不仅限于以上描述的那些实施例。
权利要求
一种方法，包括向演员的身体和脸部施加具有已知图案的标记材料；将至少一个第一视频运动捕捉相机配置为捕捉所述演员的身体上的标记材料；将至少一个第二视频运动捕捉相机配置为捕捉所述演员的脸部上的标记材料；基本同时地利用所述至少一个第一视频运动捕捉相机捕捉身体运动数据并利用所述至少一个第二视频运动捕捉相机捕捉脸部运动数据；以及综合所述身体运动数据和所述脸部运动数据。
2. 如权利要求1所述的方法，其中所述至少一个第二视频运动捕捉相机被配置为被佩戴在所述演员的头部上。
3. 如权利要求1所述的方法，其中所述演员的身体上的标记材料包括编码有一代码的标志。
4. 如权利要求3所述的方法，其中所述代码包括标识和朝向信息。
5. 如权利要求3所述的方法，其中所述标志是独特点图案的矩阵。
6. 如权利要求3所述的方法，其中所述标志是圆形碰撞测试图案。
7. 如权利要求1所述的方法，其中所述演员的脸部上的标记材料包括涂绘在所述脸部上的墨水标记。
8. 如权利要求7所述的方法，其中涂绘在所述脸部上的墨水标记包括红外墨水、发光涂料/化妆品以及量子纳米点中的至少一种。
9. 如权利要求1所述的方法，其中所述演员的脸部上的标记材料包括所述演员的脸部上的固有特征。
10. 如权利要求9所述的方法，其中所述固有特征包括痣、皱纹、斑点和眼角中的至少一种。
11. 如权利要求1所述的方法，其中所述脸部运动数据包括通过执行脸部表面捕捉扫描而获得的数据。
12. 如权利要求1所述的方法，还包括将一胶片相机配置为捕捉整个表演。
13. 如权利要求1所述的方法，其中施加标记材料包括将某种图案的光投影到所述演员的脸部上。
14. 一种系统，包括施加到演员的身体和脸部的具有已知图案的标记材料；用于捕捉所述演员的身体上的标记材料的至少一个第一视频运动捕捉相机；用于捕捉所述演员的脸部上的标记材料的至少一个第二视频运动捕捉相机；处理器，其被配置为基本同时地利用所述至少一个第一视频运动捕捉相机捕捉身体运动数据并利用所述至少一个第二视频运动捕捉相机捕捉脸部运动数据；以及综合所述身体运动数据和所述脸部运动数据。
15. 如权利要求14所述的系统，还包括头盔，用于佩戴在所述演员的头部上并且安装所述至少一个第二视频运动捕捉相机。
16. 如权利要求14所述的系统，其中所述演员的身体上的标记材料包括具有编码的标识和朝向信息的标志。
17. 如权利要求14所述的系统，其中所述演员的脸部上的标记材料包括涂抹在所述脸部上的墨水标记。
18. 如权利要求14所述的系统，其中所述脸部运动数据包括通过执行脸部表面捕捉扫描而获得的数据。
全文摘要
一种方法包括向演员的身体和脸部施加具有已知图案的标记材料；将至少一个第一视频运动捕捉相机配置为捕捉所述演员的身体上的标记材料；将至少一个第二视频运动捕捉相机配置为捕捉所述演员的脸部上的标记材料；基本同时地利用所述至少一个第一视频运动捕捉相机捕捉身体运动数据并利用所述至少一个第二视频运动捕捉相机捕捉脸部运动数据；以及综合所述身体运动数据和所述脸部运动数据。
文档编号G06T17/00GK101796545SQ200880105669
公开日2010年8月4日申请日期2008年9月4日优先权日2007年9月4日
发明者保劳格·哈瓦尔达尔, 德曼·乔丹申请人:索尼公司;索尼电影娱乐公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：德曼.乔丹;保劳格.哈瓦尔达尔
技术所有人：索尼公司;索尼电影娱乐公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。