用于捕获场景的深度数据并且应用计算机动作的方法

文档序号:6593405阅读:616来源:国知局

专利名称::用于捕获场景的深度数据并且应用计算机动作的方法用于捕获场景的深度数据并且应用计算机动作的方法
背景技术
:视频游戏工业这些年已经发生了许多改变。随着计算能力的扩展,视频游戏的开发人员同样已经编制出利用这些增加的计算能力的游戏软件。为此,视频游戏开发人员一直在编码结合复杂操作和数学运算的游戏,来产生很逼真的游戏体验。示例的游戏平台可以是索尼Playstation、索尼Playstation2(PS2)以及索尼Playstation3(PS3),其每一个都以游戏控制台的形式出售。正如所公知的,游戏控制台被设计为连接到监视器(通常是电视)并且支持通过手持控制器的用户交互。游戏控制台使用专门的处理硬件设计,包括CPU、用于处理密集图像操作的图形合成器、用于执行几何转换的矢量单元,以及其他的粘合硬件(gluehardware)、固件和软件。游戏控制台还被设计具有光盘托盘,用来接收通过游戏控制台本地播放的游戏光盘。还可以是在线游戏,其中用户可以通过因特网与其他用户以交互方式比赛或一起进行游戏。和互联网连接的具有一直增加的处理能力的游戏控制台开始用作娱乐门户(portal),其可以提供对于供应流式传输和可下载媒体的在线交互和在线商场的访问。在一个在线环境中,家长通常为有效和高效的家长控制而努力。家长控制的逐段实现会产生让家长控制存在间隙的低效、过度或部分的实现。例如,当电缆盒可以提供对电视频道的家长控制时,可以要求对保存在光学媒介上的视频的单独的家长控制,诸如DVD或者蓝光光盘。本发明的实施例在此上下文中提出。
发明内容广义来说,本发明使得可以使用深度感应摄像机识别和跟踪情景中的用户。基于情景中被识别和跟踪的用户,对于用户的识别和跟踪可以使得能够自动应用访问控制到多个媒体源。用户可以将访问控制配置为用户轮廓的一部分。用户还可以将虚拟模型(avatar)和虚拟模型动画配置为用户轮廓的一部分。虚拟模型动画可以用来显示场景中和通过场景的用户动作。在一个实施例中,披露了用于自动应用预定权限给具有一个或者多个媒体源的空间中的所识别和跟踪的用户的计算机实现方法。该方法包括定义用户轮廓并且将其保存到存储器的操作。用户轮廓可以包括使用深度感应摄像机识别和跟踪用户的数据。在另一个操作中,定义和保存用于定义对于该用户轮廓而言访问特定媒体的权限级别。该方法还包括用深度感应摄像机捕获空间中的场景的图像和深度数据的操作。在又一个操作中,根据图像和深度数据来跟踪和识别场景中的用户。仍在另一个操作中,所定义的权限自动应用到一个或者多个媒体源,从而当该用户在场景中被识别出和跟踪到时该用户被授权访问一个或者多个媒体源中所选出的内容。在另一个实施例中,披露用于识别和跟踪真实对象以自动将预定义的计算机产生的效果应用到真实世界对象的虚拟世界表现的计算机实现的方法。该方法包括定义用户轮廓并且将其保存到存储器的操作,该用户轮廓包括使用深度感应摄像机来识别和跟5踪用户的数据。该方法还包括定义动画且将其保存在存储器中的操作,该动画结合在和用户轮廓相关的虚拟世界场景中。在另一个操作中,深度感应摄像机捕获场景,其中用户在该场景中被识别和跟踪。在又一个操作中,基于所识别出和跟踪到的用户,自动应用所定义的动画,使得显示屏示出结合的动画。在又一个实施例中,披露用于识别和跟踪真实世界空间中真实世界用户的计算机实现的方法。在一个操作中,根据深度感应摄像机捕获的图像和深度数据来定义用户轮廓。用户轮廓可以包括和真实世界的用户的物理特征相关的图像和深度数据。在另一个操作中,场景的图像和深度数据可以使用深度感应摄像机捕获。该方法还可以包括识别场景中移动对象的操作。在另一个操作中,移动对象的图像和深度数据允许真实世界的用户的头部在场景中被锁定和跟踪。在又一个操作中,实时分析头部的图像和深度数据。该分析可以包括将头部的图像和深度数据与和该物理特征相关的用户轮廓图像和深度数据相比较,其中,当用户轮廓中的图像和深度数据基本上匹配头部的图像和深度数据时该用户被识别出来。通过下面结合附图、以例子的方式示出本发明原理的详细描述,本发明的其它方面和优点将变得更加清楚。通过参考与附图相结合的下列描述,本发明及其更多的优点可以被最好地理解。图IA是根据本发明的一个实施例的包括用来识别和跟踪真实世界对象的示例性操作的流程图,用来将预定的计算机产生的效果应用到真实世界对象的虚拟世界表现中。图IB示出根据本发明的一个实施例的连接到计算机系统的深度感应摄像机的视场中的场景。图2A-2D示出根据本发明一个实施例可用于定义用户轮廓的示例屏幕。图2E是根据本发明一个实施例的示出实现添加另外的用户母亲的示例屏幕。图2F-1示出根据本发明的一个实施例的可用来识别用户的深度感应摄像机捕获的面部特征。图2F-2示出根据本发明一个实施例捕获在多个位置的用户头部250的图像和深度数据。图2G示出根据本发明的一个实施例的由通过深度感应摄像机捕获的不同视图所构建的模拟用户面部251的多个姿态的矩阵。图2H是示出根据本发明一个实施例多个面部特征的相对位置变化的三个图像序列。图21是示出根据本发明一个实施例获取用户头部的图像和深度数据的程序的示例流程图。图2J是示出根据本发明的一个实施例识别深度感应摄像机的视场中的用户的程序的示例操作的流程图。图3A-3C示出根据本发明一个实施例可用于建立宠物的用户轮廓的一组简化示6例屏幕。图4A示出根据本发明一个实施例的分配给用户的不同权限的示例图表。图4B示出根据本发明一个实施例的用户建立的动画的示例图表。图5A示出根据本发明一个实施例包括作为所处理视频显示在屏幕上的真实世界场景的空间。图5B示出根据本发明实施例的示例性的所处理的视频。图6示出根据本发明一个实施例的真实世界的场景和如何将真实世界的场景作为所处理视频IOc显示在屏幕上。图7是示出应用点跟踪的操作的示例流程图,用来改进所认识对象的识别和跟S示。图8是根据本发明的一个实施例的示出点跟踪的场景的示例视图。图9示意性示出索&PlayStati0n3乐装置的整体系统架构,这是根据本发明一个实施例的可使用动态三维对象映射来建立用户定义的控制器的计算机系统。具体实施例方式本发明披露了在使用来自深度感应摄像机的图像和深度数据识别出用户之后自动应用针对一计算机系统的用户轮廓的方案。广义来讲,计算机系统可以是从用户获取输入的任一类型的系统,无论其是通用计算机(例如,桌面型、笔记本、便携装置、智能电话等)还是如同游戏控制台一样的专用计算机。深度感应摄像机可以捕获几何深度数据和图像数据。深度感应摄像机可以提供图像和深度数据给计算机系统,用于分析和处理。在一个实施例中,深度感应摄像机是单镜头摄像机,并且在其他实施例中,可以使用多个摄像机镜头来捕获来自不同位置或者场景的图像和深度数据。在以下描述中,提出多个特定细节以便对本发明全面理解。然而本领域普通技术人员应该清楚,本发明不使用这些特定细节的一些或者全部也可以实现。在其它实例中,为了避免不必要地混淆本发明,公知的处理步骤没有详细描述。图IA是根据本发明的一个实施例的包括可用来识别和跟踪真实世界对象以将预定的计算机产生的效果应用到真实世界对象的虚拟世界表现中的示例性操作的流程图。操作100用来定义要识别和跟踪的用户。在一个实施例中,使用和计算机系统相连的深度感应摄像机来执行操作100。各个用户可通过由深度感应摄像机捕获的个人特征来加以区分并由计算机系统执行的软件来进行识别。在多个实施例中,可以捕获包括但不限于诸如眼部、鼻子和嘴部的面部特征之间的不同距离的面部特性。在其他实施例中,可以使用摄像机的深度感应特征来识别用户的特征,诸如用户的鼻子、眼部、头部尺寸、特征的相对位置等。用户还可以定义虚拟世界的虚拟模型作为操作100的一部分。作为定义要识别和跟踪的用户的一部分,用户可以配置表示虚拟世界中的用户的自定义虚拟模型。用户可以将其虚拟模型配置为类似于其真实世界的外表或者选择不受其真实世界外表限制的所想象的虚拟模型。为此,虚拟模型可以包括但不限于身体、头部、眼部、鼻子、耳部、嘴部、臂部、腿部和头发的尺寸和形状的配置。还可以允许用户为其虚拟模型配置虚拟衣服和鞋子,以及诸如珠宝和太阳镜的时尚配饰。操作102被用来为所识别用户定义权限和动画。当所识别的用户处于深度感应摄像机前时,该权限允许对经由计算机系统可访问的内容的类型进行限制。在一个实施例中,计算机系统连接到互联网并且提供对不同媒体源的访问,诸如但不限于流式传输的或者可下载的音乐和多媒体,诸如电影、电视剧和视频片段。此外,计算机系统可提供对在线或者可下载游戏的访问,并且提供web浏览器来访问可以流式传输视频的web站点,诸如YcmTube。计算机系统还可以包括集成的媒体源,其可以播放DVD或者其它光学存储媒体,诸如蓝光或HD-DVD盘。分配给所定义用户的权限可以限制对特定类型的电影、电视剧、游戏和web站点的访问。操作102还可以被用来为所识别用户定义动画。响应于通过深度感应摄像机和计算机系统检测的真实世界的动作,可以使用动画来在屏幕上使所识别的用户的虚拟模型动起来。例如,在一个实施例中,当用户移动速度超过阈值速度时,可以将动画应用到用户的虚拟模型。在一个实施例中,用户的低速运动会导致在用户的虚拟世界虚拟模型上动画显示蜘蛛网。在另一个实施例中,用户的快速运动会导致强调用户的高速率的动画,诸如模糊虚拟模型或者其它动画,诸如动作云或者云效应。用户虚拟模型以及所定义的权限和动画可以保存,用于在深度感应摄像机和计算机系统认出所识别的用户时被调用。操作104可以被用来识别和跟踪进入到深度感应摄像机的视场中的移动对象。如果在摄像机的视场中移动的对象被识别为所定义的用户时,操作106可以自动应用权限和/或动画。在移动对象未被识别为所定义的用户的情况下,操作106可以自动载入默认的权限和/或动画。操作104还可以利用计算机系统和深度感应摄像机来随时间跟踪和制作被识别的和未被识别的用户的运动动画。在一个实施例中,当深度感应摄像机识别运动时,可以开始建立随时间变化的运动日志文件。在实施例中,当所识别的用户进入深度感应摄像机的视场时,使用用户的预设动画来建立日志文件。日志文件可以回放,来示出所识别用户在深度感应摄像机的视场中随时间的运动。图IB示出根据本发明的一个实施例的连接到计算机系统120的深度感应摄像机110的视场152中的场景150。深度感应摄像机110可以使用RGB图像模块114来捕获图像数据,而深度数据模块112可以捕获对象在视场152中的相对深度数据。在一个实施例中,深度感应摄像机110可以基于三维对象的反射光量来确定相对深度。在一些实施例中,深度感应摄像机包括可以发射脉冲红外光的红外发光二极管(LED)的阵列。深度数据模块112可以基于反射回到深度感应摄像机110中的脉冲红外光的量来确定对象在视场中的相对深度。在其他实施例中,图像和深度数据从深度感应摄像机110发送到计算机系统120来处理。聚焦模块118和逻辑处理单元116可以包括在深度感应摄像机110中。在一些实施例中,逻辑处理单元116可用来关联来自RGB图像模块114和深度数据模块112的数据。在其他实施例中,逻辑处理单元116可以协助控制聚焦模块118。聚焦模块118可以改变RGB图像模块114的焦点和深度数据模块112的焦点。增加红外LED阵列中的各个红外LED的强度和持续时间可以改变深度数据模块112的焦点。深度感应摄像机所捕获的图像和深度数据可以由计算机系统120大体实时处理。除了从深度感应摄像机110接受并且处理图像和深度数据外,计算机系统120可以包括或者接受来自多个其它源的输入。例如,TV源122、DVD/蓝光介质124、游戏126和互联网128都可以通过计算机系统120来访问。用户可以经由计算机系统120的用户接口选择不同的媒体源130a/b。场景150包括用户140、灯142和沙发144。计算机系统120可以区分用户140和诸如灯142和沙发144的静止对象。响应于来自计算机系统120的命令,深度感应摄像机110可以聚焦到用户140周围的区域146。为了识别用户140,深度感应摄像机110可以将其焦点精确到用户140的头部区域148。聚焦在头部区域148可以允许深度感应摄像机来捕获用户140的图像和深度数据,其可以被分析并且和计算机系统120相关的轮廓数据相比较。图2A-2D示出根据本发明一个实施例可用于定义包括虚拟模型的用户的示例屏幕。图2A示出计算机系统的示例屏幕200,其中已经建立父亲202、女儿204和儿子206的用户。屏幕200上还示出按钮208,该按钮允许建立新的用户。图2B示出根据本发明一个实施例的作为选择按钮208的结果的示例屏幕200b。屏幕200b显示对于本发明的一个实施例可以建立的不同类型的用户轮廓。例如,通过选择人类图标210可以建立基于人的轮廓。在用户期望跟踪房间内宠物移动的实施例中,选择狗图标212或者猫图标214可以建立狗或者猫的轮廓。可以包括其它类型的轮廓,并且所列出的不应该理解为限制性的。图2C示出根据本发明一个实施例的作为选择人类图标210的结果的示意性屏幕200C。屏幕200C允许用户在男性图标216或者女性图标218之间选择。在此例中,用户选择女性图标218。图2D示出根据本发明不同实施例的用于配置虚拟模型的两个不同屏幕200d/e。屏幕200d示出可以用来配置虚拟模型的菜单系统。如图所示,菜单系统可以包括对于姓名、身高、体型、眼部、头发、鼻子和嘴部的选择。本领域技术人员应该理解,屏幕200d上所示的每个菜单选项可以调用另一个屏幕或子菜单,允许用户更细粒度地配置虚拟模型。屏幕200e示出根据本发明的一个实施例的替代的虚拟模型的自定义屏幕。使用该替代的虚拟模型自定义,深度感应摄像机可以用来捕获用户的图像。所捕获的用户图像随后可以通过计算机系统处理,以基于所捕获的用户图像自动建立虚拟模型。在一些实施例中,自动建立的虚拟模型是基本的虚拟模型,用户可以修改自动建立的虚拟模型的特征。在两个实施例中,用户可以使用衣服或者时尚配饰来自定义或者调整自己建立的或者自动建立的虚拟模型。图2E是示出根据本发明一个实施例的完成添加另外的用户母亲220的示例屏幕200f。屏幕200f是如图2A-2D中描述的完成建立母亲220用户轮廓的结果。这使得在屏幕200f中示出父亲202、女儿204、儿子206和母亲220的用户轮廓。图2E还示出被选择来增加另一个用户轮廓的按钮208。图2F-1示出根据本发明的一个实施例的可用来识别用户的深度感应摄像机捕获的面部特征。在配置用户的虚拟模型时,深度感应摄像机可以用来捕获用户头部250和面部特征的图像和深度数据。计算机系统可以分析图像和相关的深度数据,用来识别允许计算机系统识别用户的特征。多个识别性特征包括但不限于面部特征之间的距离、面部特征的相对尺寸和面9部特征的相对位置。在其他实施例中,可以识别用户头部的特征,诸如耳部的相对位置和尺寸。例如,图2F中示为ζ平面的距离的深度数据可以用来确定和识别用户的鼻尖和用户上嘴唇之间的距离Z115深度数据还可以用来确定和识别用户的鼻尖和用户眼部之间的距离Z2。类似地,图像数据可用来识别用户眼部之间的距离,示为图2F-1中的距离X。同样,可以测量用户鼻子和其嘴部之间的距离B,并且可以将其用作识别性特征。图像数据和相关的深度数据可以确定深度数据和图像的测量值之间的比例,用来识别和认识用户。图2F-2示出根据本发明一个实施例捕获多个位置的用户头部250的图像和深度数据。在一些实施例中,当建立用户轮廓时,用户可以被提示(例如,通过GUI、语音/声音命令或者文本)来转动或旋转它们的头部到多个位置。这允许深度感应摄像机来捕获用户整个头部的图像和深度数据,或者具有可识别面部特征的头部的至少大部分前面部分。计算机系统可以分析图像和深度数据来建立用户头部的线框模型。在一些实施例中,用户头部的线框模型可以用作用户虚拟世界虚拟模型的一部分。如下详细讨论的,计算机系统可以分析线框模型来确定多个角度的面部和头部特征之间的用户特定的比例。已经讨论的特定的面部特征和测量值意为示例性的而不应认为是限制性的。可以分析图像和深度数据的更多测量值用来识别和认识用户。在其他实施例中,深度感应摄像机可以用来捕获用户在各个姿态下整个身体的图像和深度数据。类似于面部识别,计算机系统可以分析图像和相关的深度数据来识别用户。如结合图8和图9详细描述的,场景中的静止对象可以通过计算机系统来识别并且通过提供用户在场景中的相对位置来协助识别和跟踪用户。图2G示出根据本发明的一个实施例的至少部分地根据由深度感应摄像机捕获的不同视图构建的所模拟的用户面部251的多个姿态的矩阵。在一些情况中,通过接近的维度和深度数据(例如,使用图2F-2中所捕获的数据)来产生所构建的姿态。当系统在使用或者操作时,因为用户可以从多个角度进入深度感应摄像机的视场,所以深度感应摄像机可能并不总是获取用户的直接前视图。因此,为了识别和跟踪用户,计算机系统可以使用用户头部的线框模型来推断多个位置的用户头部的面部和头部特征的不同比例。行262示出如同用户从右向左转动头部并且头部不倾斜时捕获的用户头部线框模型的图像序列。行260示出类似的图像序列,其中线框模型定位成使得头部向后倾斜,而在行264中,线框模型向前倾斜。列272示出各行面向前方的线框模型,而列270和列274示出在对深度感应摄像机分别向右和向左1/3视角的用户的图像数据。类似地,列268和列276示出对深度感应摄像机分别向右和向左2/3视角的用户,而列266和列278示出对深度感应摄像机分别向右和向左的侧轮廓的用户。图2G中所示矩阵已经简化并且应该理解为示例性的。真实世界的实施例可以不同帧率采样视频图像,来编辑各个用户的更多或者更少的图像和深度数据。如下所讨论的,在用户的不同视图中,可以分析多个面部特征的相对位置的图像和深度数据。在一个实施例中,根据图像和深度数据可以识别和跟踪右耳氏、右眼ei、鼻子N、左眼e2和左耳E2。图2H是示出根据本发明一个实施例的多个面部特征的相对位置变化(例如,德10尔塔值)的一系列三个图像。在轮廓280中,用户直接正对深度感应摄像机。从该角度,可以确定用户鼻子N相对于用户眼部^和^以及耳部E1和E2位置的位置。对于一些用户,在轮廓280中不能确定耳部E1和E2的相对位置。在这些情况中,根据用户眼部和鼻子的相对位置可以确定该识别。为了识别用户,用户的面部特征和耳部的相对位置可以和线框模型的矩阵相比。如果用户被识别出的话,计算机系统可以自动应用合适的用户轮廓。此外,在一些实施例中,计算机系统可以监控来自深度感应摄像机的图像和深度数据以监控和跟踪用户头部的位置。在进一步的实施例中,图像和深度数据还可以跟踪用户的眼部运动,来确定用户在观看空间中的何处。轮廓282示出旋转用户头部250到左边如何改变用户的面部特征的相对位置。比较轮廓280和轮廓282,用户的左耳E2对于深度感应摄像机不再可见,而右耳E1更加明显。同样,左眼e2当前更加远离深度感应摄像机并且右眼ei和左眼e2之间的纵横比已经改变。根据这样的实时图像和深度数据,计算机系统可以尝试将用户和保存在存储器中的线框模型相比较。在轮廓282中,深度感应摄像机数据可以指示左眼e2的深度位置。同时,可以分析深度感应摄像机所捕获的图像数据并且可以确定左眼e2的相对尺寸。类似地,深度感应摄像机可以感知用户鼻子N相对于右耳氏、右眼ei和左眼&的变化。轮廓284示出旋转其头部的用户的左侧轮廓视图。在此视图中,深度感应摄像机捕获完整轮廓的用户的右耳氐、右眼ei和鼻子N。对于深度感应摄像机可见的面部特征的相对位置可以被确定并且用来根据线框模型矩阵识别和跟踪的用户。图2H中所示轮廓应该被简化并且应该理解为示例性的。在一些实施例中,每秒可以捕获多帧图像和深度数据来建立面部特征比例的范围。采样的范围随后可以和线框模型矩阵中的运动范围相比较。如图2H中所示,可以在用户将其头部侧向转动时跟踪面部位置的不同比例。类似地,在其他实施例中,当用户将其头部向前或者向后倾斜时,使用将用户的眼部、鼻子和嘴部的相对位置分界的水平线-可确定不同的比例。当用户将其头部向前或者向后倾斜时,可以计算深度感应摄像机所捕获的水平线之间的相对距离,来确定头部向后或者向前倾斜多少。图21是示出根据本发明一个实施例获取用户头部的图像和深度数据的过程的示例流程图。当建立或者修改用户的轮廓时可以使用以下的操作,使得计算机系统可以在未来认识用户。操作285开始用户的头部扫描。当如图2F-2所示建立或者修改用户轮廓时开始该操作。操作285将深度感应摄像机聚焦到用户的头部区域。在一个实施例中,用户可以被指示站在相对于深度感应摄像机的特定位置。在另一个实施例中,深度感应摄像机可以将成像和深度感应元件的焦点转移朝向用户。如果多个人出现在深度感应摄像机的前面,则可以使用屏幕显示提示用户选择哪个人来进行扫描。操作287用来收集头部区域的图像和深度数据。如前所述,该操作可以指示用户来将其头部向多个方向转动。这可以允许深度感应摄像机来捕获处于多个位置的用户头部。操作288基于图像和深度数据来产生用户头部的模型。在一个实施例中,可以使用深度数据来构建用户头部的三维线框模型。计算机程序可以使用线框模型确定多个面部特征的相对位置和头部特征。在操作289可以保存位置数据和模型并且将其与用户轮廓相关联。结束操作290完成该流程图,尽管还可以有其他操作。图2J是示出根据本发明的一个实施例识别深度感应摄像机的视场中的用户的过11程的示例操作的示例流程图。操作291识别深度感应摄像机的视场中的移动对象。如下所讨论的,移动对象可以是诸如猫或者狗的宠物。当识别和跟踪宠物时,可能需要不同的操作。以下操作涉及识别和跟踪人类用户,但是也可以修改为跟踪非人类用户。操作292尝试检测移动对象中用户的头部。在一个实施例中,计算机系统可以使用诸如眼部的通用面部特征来整体识别头部。在其他实施例中,可以使用诸如但不限于眼部和嘴部或者眼部和鼻子的面部特征的组合来识别头部。操作293开始跟踪头部,直到基于和所保存的用户模型相比较找到可识别的面部轮廓。锁定并且跟踪头部使得计算机系统可比较实时图像和深度数据与所保存的用户头部和面部数据。为了识别用户,深度感应摄像机可以比较实时图像和深度数据的框架和线框模型的可识别的面部轮廓。在一个实施例中,计算机系统分析图像数据来确定实时图像中头部的角度并且将面部和头部数据与所保存的线框模型的类似位置的数据相比较。操作294尝试使用在实时用户上检测的特征来验证所保存的用户轮廓深度和图像数据。如果深度和图像数据被验证,则操作295确定用户已经被验证并且应用所保存的用户轮廓。结束操作299完成该程序,尽管还可以有其他操作。如果操作294中的深度和图像数据没有被验证通过,则操作296认识到实时用户还没有被识别。操作298用来确定计算机系统是否进行另一个尝试来锁定和跟踪用户。在一些实施例中,可以设置阈值使得计算机系统尝试识别用户预定的次数。在其他实施例中,计算机系统可以持续尝试无限制地识别用户。仍在其他实施例中,可以基于可用的计算资源可变次数地尝试识别用户。如果进行另一次尝试来锁定用户,则程序返回操作293。如果不进行锁定用户的其他尝试,则操作297维持默认的轮廓。图3A-3C示出根据本发明一个实施例可用于为宠物建立用户轮廓的示例屏幕的简化图。图3A示出作为从图2E选择按钮208所得到的屏幕200b。屏幕200b还示出选择了狗图标212。图3B示出表示根据本发明实施例建立狗的虚拟模型的不同方法的屏幕300a/b。屏幕300a示出使用深度感应摄像机来捕获狗的多个方面的图像以建立虚拟模型。计算机系统可以处理不同图像,来自动建立狗的虚拟模型以及轮廓信息,这些信息允许狗在深度感应摄像机的视场中时被识别出来。屏幕300b是根据本发明的一个实施例的替代的狗的虚拟模型的建立屏幕。屏幕300b可以允许用户选择狗的不同特征来建立其狗的虚拟模型。例如,在一个实施例中,用户可以通过选择狗的虚拟模型的相对尺寸来开始。图4A示出根据本发明一个实施例的示出分配给用户的不同媒体源权限的示例图表400。视频游戏权限402可以基于通过娱乐软件分级委员会(ESRB)分配给游戏的级别来分配给不同的用户。类似地,可以基于电视家长指南来设置每个用户的电视权限404。在多个实施例中,基于计算机系统所安装的国家,可以载入不同的电视家长指南。对于安装在美国的计算机系统,可以根据美国电影协会(MPAA)分级系统来将电影权限406分配给每个用户。同样,互联网权限408可以配置为过滤和限制访问用户专用的内容。在计算机系统配置为提供对音乐410访问的实施例中,可以设置权限来允许或者拒绝用户访问带有家长指导标签(PAL)的音乐。图4A中所示的权限类型仅是示例性的并且不应该认为是限制性的,并且可以分配这里没有讨论的其他权限。分配给用户的权限可以自动应用到通过计算机系统可访问的多种格式的媒体。12例如,当儿子206进入深度感应摄像机的视场并且通过计算机系统认识出时,计算机系统将自动加载图4A中列出的权限。因此,儿子406仅被允许访问ESRB分级为E的视频游戏、家长指南为TV-Y7的电视剧以及使用MPAA分级为G的电影。此外,通过计算机系统访问互联网将应用特定网络过滤器并且阻止访问带有PAL的音乐。在计算机系统识别出超过一个所认可用户的情况中,可以启用最小限制权限。因此,如果识别了儿子206和父亲202,则计算机系统将启用为父亲202所列出的权限。类似地,如果识别出女儿204和儿子206,则启用为女儿204所列出的权限。图4B是示出根据本发明一个实施例由用户建立的动画的示例图表。在相应的所识别的用户在深度感应摄像机的视场中行走412时,用户可以选择或者建立可以显示在屏幕上的各个图标。如图4B所示,当儿子在深度感应摄像机前行走时,蓝色的运动鞋416可以显示在屏幕上跟踪儿子通过房间的真实路径。类似地,女儿的行走路径可以被分配粉色的脚印418,而狗Sparky的行走路径可以被分配黑色爪印420。还可针对诸如跑动414的动作为用户分配动画。例如,当儿子跑动时,虚拟模型动画可以自动从蓝色运动鞋416转换到骑行滑板422的儿子的虚拟模型。以同样方式,当女儿被计算机识别为跑动时,其粉色脚印418可以在其在摄像机的视场内跑动期间和距离内改变成滑轮靴414。甚至在Sparky跑动位置也可以将其黑色爪印420变为红色爪印424。可以配置的其它类型的动画包括但不限于,用户和场景中特定对象交互的动画,甚至在所识别的用户的组合处于房间内时的动画。具体的动画目的是提供可能的动画的例子,其不应该理解为限制。图5A示出根据本发明一个实施例包括作为所处理视频lOa/b显示在屏幕上的真实世界场景500的空间501。真实世界的场景500包括深度感应摄像机110的视场中的狗502和沙发504。深度感应摄像机110提供图像数据给计算机系统120。计算机系统120随后提供经处理的视频lOa/b给屏幕508。在真实世界的场景500中,狗502跳到沙发504上。图5B示出根据本发明一个实施例的示例性的所处理的视频lOa/b。所处理的视频IOa示出计算机系统跟踪狗502随时间在沙发504上行走的结果。如图所示,由狗的虚拟模型502a在虚拟世界的沙发504a上产生由爪印512构成的历史路径。所处理的视频IOa是计算机系统根据场景110中深度感应摄像机捕获的图像和深度数据来识别狗的结果。作为定义狗502以便通过计算机系统进行识别的一部分,用户可以将爪印512动画和狗502相关联并且将其保存。在其他实施例中,可以使用狗的实时视频图像来替代狗的虚拟模型502a。在计算机系统未识别狗502的实施例中,可以载入一组默认的跟踪符号或者图标并且作为所处理的视频IOa来显示。所处理的视频IOb示出根据本发明的一个实施例的专属于和沙发504交互的狗502的替代动画。在此实施例中,用户已经配置动画来示出在真实世界的狗行走在真实世界的沙发上的地方虚拟世界的沙发504a示为被撕破。如前所述,计算机系统可以建立能够重放和保存的在深度感应摄像机前发生的用户动作的日志或者历史路径。在此情况中,用户可以使计算机系统监控场景并且回放真实世界的狗的移动。为了简化起见,所处理的视频lOa/b没有示出狗跳到沙发上之前的所跟踪的狗的移动。然而,在多个实施例中,可以经由所记录的动画来跟踪狗的移动并且建立示出地上多个爪印和沙发上撕裂13处的随时间的视频。图6示出根据本发明一个实施例的真实世界的场景600和如何将真实世界的场景600作为所处理视频IOc显示在屏幕上。真实世界的场景600包括在深度感应摄像机110前跑动的用户602。深度感应摄像机110捕获跑动的用户602的视频图像并将其发送给计算机系统120来处理。所处理的视频数据从计算机系统608发送给屏幕604并且作为所处理的视频IOc来显示。所处理的视频IOc的详细视图包括表示用户602的虚拟模型602'。详细视图中还示出响应于跑动的用户602的虚拟模型602'的动画。在一个实施例中,动画包括虚拟模型602'的运动模糊610,用来表示速度感。在另一个实施例中,云雾612可以出现在检测到跑动之前虚拟模型602初始站立的地方。在另一个实施例中,动画的火焰可以响应于跑动而出现在虚拟模型602'的鞋子或者脚部。在一个实施例中,图5A-6中所讨论的历史路径和动画还可以保存到和计算机系统相关的存储器用于回放。在一些实施例中,存储器可以是本地存储装置,诸如硬盘驱动器或者其他非易失性存储器。在其他实施例中,历史路径和动画可以经由因特网上传到远程存储装置。图7是示出应用点跟踪的操作的示例流程图,用来改进所认识对象的识别和跟踪。操作700使用深度感应摄像机来捕获场景的第一图像。操作702使用深度感应摄像机来捕获场景的第二图像。当目标是为了识别静止对象时,捕获第一和第二图像之间的时间量是可变的。在一些实施例中,可以间隔几分之一秒或者几秒采样图像,而在其他实施例中,可以间隔几分钟、几小时甚至几天采样图像。操作704用来通过比较第一图像和第二图像来确定场景中的静止对象。该比较可以尝试将第一图像中的识别点匹配到第二图像中的对应点。如果识别点在第一图像和第二图像之间没有移动,可以确定识别的点为静止的。在一个实施例中,深度感应摄像机周期性采样图像以持续更新静止对象并且降低计算消耗。操作706将场景中的所识别的静止对象的固定点相关联,用来构件场景中静止对象的模型。操作708将相关的固定点保存到存储器来协助跟踪和识别深度感应摄像机的视场中的对象。图8是根据本发明的一个实施例的示出点跟踪的场景800的示例视图。场景800包括提供图像数据给计算机系统120的深度感应摄像机110。计算机系统120处理图像数据并且提供经处理的视频显示在屏幕802上。场景还包括诸如沙发806和灯812的静止对象。在一个实施例中,计算机系统810通过比较深度感应摄像机800所捕获的两个图像可以确定场景800中的哪个对象是静止的。计算机系统120可以执行软件,该软件能够识别第二图像中没有移动的第一图像中的点。未移动的点可以标识为静止点。在图8中,识别到沙发806上的静止点808,并且识别到灯812上的静止点814。计算机系统120还可以将静止点互相关来限定场景800中的对象的相对位置。根据已知的相对位置,计算机系统120可以更有效地处理来自深度感应摄像机110的图像数据,来允许更快地渲染表示真实世界对象的虚拟模型,诸如在场景800中移动的用户。在其他实施例中,图像和深度数据以及点跟踪可以允许为静止对象建立部分线框或者骨架。例如,和沙发806相关的静止点808可以用来建立沙发806的部分线框模型。纹理图可以应用到线框模型,以允许用户修改和自定义根据其真实沙发806的图像和深度数据所建立的虚拟沙发。例如,用户可以将沙发材料从任意多种机织或纹理织物修改为皮革和合成材料。纹理图可以应用到任何场景中的任意静止对象,包括但不限于场景800的墙壁和灯812。用户可以使用深度感应摄像机110来扫描房间,捕获真实世界房间的图像和深度数据并且随后自定义真实世界房间的虚拟世界表现。可以使用图像和深度数据来修改墙壁的颜色或者甚至应用多种类型的墙面覆盖层,包括诸如壁纸或者木墙板的具有纹理的墙面覆盖层。图9示意性示出索尼游戏站3代娱乐装置的整体系统架构,这是根据本发明一个实施例可以使用动态三维物体映射建立用户定义的控制器的计算机系统。提供了系统单元1000以及可连接到系统单元1000的各种外围设备。系统单元1000包括单元处理器(Cellprocessor)1028;Rambus动态随机存取存储器(XDRAM)单元1026;具有专用的视频随机存取存储器(VRAM)单元1032的真实性合成器图形单元1030和I/O桥1034。系统单元1000还包括可通过I/O桥1034访问的蓝光光盘BD-ROM光盘读装置1040,用于读光盘1040a,以及可拆卸插槽式硬盘驱动器(HDD)1036。可选地,系统单元1000还包括存储器读卡器1038,用于读小型闪速存储器卡、存储棒存储卡等,类似地,这些设备也可通过I/O桥1034访问。I/O桥1034还连接六个通用串行总线(USB)2.0端口1024、千兆以太网端口1022、IEEE802.1lb/g无线网络(Wi_Fi)端口1020和最多可以支持七个蓝牙连接的蓝牙无线链接端口1018。操作时,I/O桥1034处理所有无线、USB和以太网数据,这包括来自一个或多个游戏控制器1002的数据。例如,用户玩游戏时,I/O桥1034通过蓝牙链接从游戏控制器1002接收数据,并将数据发送到单元处理器1028,单元处理器1028相应地更新游戏的当前状态。无线、USB和以太网端口还提供到除了游戏控制器10023以外的其他外围设备的连接,例如,遥控器1004、键盘1006、鼠标1008、便携式娱乐设备1010(如索尼游戏站便携式@娱乐设备)、视频摄像头1012(如EyeToy视频摄像头)以及头戴式耳麦1014。因而,原则上这些外围设备可以无线连接到系统单元1000,例如,便携式娱乐设备1010可以通过Wi-Fi自组连接通信,同时,头戴式耳麦1014可以通过蓝牙链接通信。提供这些接口意味着游戏站3代装置还可以和其他外围设备兼容,如数字视频刻录器(DVR)、机顶盒、数码相机、便携式媒体播放器、语音IP电话、移动电话、打印机和扫描仪。此外,现有的存储器读卡器1016可以通过USB端口1024连接到系统单元,使得可读取游戏站或游戏站2代设备所使用的那类存储卡。本实施例中,游戏控制器1002用于通过蓝牙链接和系统单元1000进行无线通信。然而,游戏控制器1002可以连接到USB端口,从而供电,由此为游戏控制器1002的电池充电。除了一个或多个模拟游戏杆和传统控制按钮外,游戏控制器对六自由度运动是敏感的,六自由度运动对应于每个轴的平移和旋转。因而,游戏控制器用户的姿态和运动可以转换成游戏的输入,这可以是除了传统按钮或游戏杆命令之外的输入,或者作为传统按钮或游戏杆命令的替代。可选地,其他支持无线模式的外围设备,例如PlaystationPortable装置,可用作控制器。在PlaystationPortable装置的情况下,可以在装置的屏幕上提供额外的游戏或控制信息(例如,控制指令或生命数)。也可以使用其他替代或补充控制设备,例如跳舞毯(未示出)、光枪(未示出)、方向盘和踏板(未示出)或者定做的控制器,例如快速反应答问游戏的一个或多个大按钮(也未示出)。遥控器1004还用于通过蓝牙链接和系统单元1000进行无线通信。遥控器1004包括适用于蓝光光盘BD-ROM读装置1040的操作的控制和用于导航光盘内容的控制。除了传统的预先刻录的以及可刻录的CD以及所谓的超级音频CD以外,蓝光光盘BD-ROM读装置1040还用于读和Playstation以及Playstation2装置兼容的CD-ROM。除了传统的预先刻录的以及可刻录的DVD外,读装置1040还用于读和PlayStati0n2以及Playstation3装置兼容的DVD-ROM。读装置1040还用于读和Playstation3兼容的BD-ROM以及传统的预先刻录和可刻录蓝光光盘。系统单元1000用于通过音频和视频连接器将视频和音频提供给显示和声音输出装置1042,音频和视频是Playstati0n3装置通过真实合成图形单元1030产生或解码的,显示和声音输出装置1042如具有显示屏1044以及一个或多个扬声器1046的电视机或者监视器。音频连接器1050可以包括传统模拟和数字输出,视频连接器1052可以不同地包括分量视频、S-视频、复合视频和一个或多个高清多媒体接口(HDMI)输出。因而,视频输出的格式可以如PAL或NTSC、或者为720p、1080i或1080p的高清晰度。单元处理器1028执行音频处理(产生、解码等)。Playstation装置的操作系统支持杜比5.1环绕声音、杜比院环绕立体声(DTS)以及从蓝光@光盘解码7.1环绕声曰o本实施例中,视频摄像头1012包括一个电荷耦合装置(CCD)、LED指示器、基于硬件的实时数据压缩和编码装置,这样,可以例如用基于帧内图像的MPEG(运动图像专家组)标准的适当的格式发送压缩的视频数据,以由系统单元1000进行解码。摄像头LED指示器设置为响应于来自系统单元1000的适当控制数据而点亮,例如,以指示不利的照明条件。视频摄像头1012的不同实施例可以通过USB、蓝牙或者Wi-Fi通信端口连接到系统单元1000。视频摄像头的实施例可包括一个或多个也可发送音频数据的相关麦克风。视频摄像头的实施例中,CCD可具有适用于高清视频捕获的分辨率。使用时,例如,由视频摄像头捕获的图像可以包括在游戏内,或者解释成游戏控制输入。总体而言,为了通过系统单元1000的一个通信端口和如视频摄像头或者遥控器的外围设备进行成功的数据通信,应该提供适当的软件,如设备驱动。设备驱动技术是公知的,在此不做详细描述,但是本领域技术人员将会明白所描述的本实施例可能需要设备驱动或类似的软件接口。实施例可包括,捕获深度数据以更好地标识现实世界的用户,并指引虚拟模型或场景的活动。物体可以是人拿着的东西,或者是人的手。本说明书中,术语“深度摄像头”和“三维摄像头”指可以获得距离或深度信息以及二维像素信息的任何摄像头。例如,深度摄像头可以使用受控的红外照明来获得距离信息。另一个示例深度摄像头可以是立体摄像机对,其使用两个标准摄像头对距离信息做三角测量。类似地,术语“深度感应装置”指可以获得距离信息以及二维像素信息的任何类型的装置。三维成像技术的最新进展打开了增加实时交互式计算机动画的可能性之门。具体而言,除了普通的二维视频成像以外,新的“深度摄像头”提供了捕获和映射三维图像的能力。利用新的深度数据,本发明的实施例使得可将计算机产生的物体实时放置在16视频场景的各个位置,包括放在其他物体后面。此外,本发明的实施例为用户提供实时交互式游戏体验。例如,用户可以和各种计算机产生的物体进行实时交互。此外,可以实时改变视频场景,以增强用户的游戏体验。例如,可将计算机产生的服装插在用户的衣服上,可以用计算机产生的光源在视频场景内投射虚拟影子。因而,使用本发明的实施例和深度摄像头,用户可以在自己的客厅内体验交互式游戏环境。和普通摄像头类似,深度摄像头捕获包括视频图像的多个像素的二维数据。这些值是像素的颜色值,通常是每个像素的红色、绿色和蓝色(RGB)值。这样,摄像头捕获的物体在显示器上显示成二维物体。本发明的实施例还考虑到了分布式图像处理结构。例如,本发明不限于在一个或甚至两个位置进行捕获的图像和显示图像处理,例如,在CPU中或者在CPU和另一个元件中。例如,输入图像处理可以随时在相关CPU、处理器或者可执行处理的装置中进行,实质上,所有的图像处理可以分布在互联的系统中。因而,本发明不限于任何具体的图像处理硬件电路和/或软件。这里描述的实施例也不限于通用硬件电路和/或软件的任何具体组合,也不限于用于处理部件执行的指令的任何特定源。理解了上述实施例,应该理解,本发明可采用涉及存储在计算机系统中的数据的各种计算机实现的操作。这些操作包括需要对物理量进行物理处理的操作。通常,虽然这不是必须的,但这些量的形式是可以存储、传输、组合、比较和进行其他操作的电信号或磁信号。此外,执行的操作通常称为产生、标识、确定或比较。上述发明可用其他计算机系统结构实现,这包括手持式设备、微处理器系统、基于微处理器或可编程的消费电子产品、小型计算机、大型计算机等。本发明还可在分布式计算环境中实现,其中,由通过通信网络连接的远程处理装置执行任务。本发明还可实现成计算机可读介质上的计算机可读代码。计算机可读介质是可以存储数据的任何数据存储装置,包括电磁波,该数据之后由计算机系统读取。计算机可读介质的示例包括硬盘驱动器、网络附加存储(NAS)、只读存储器、随机存取存储器、CD-ROM、CD-R、CD-RW、磁带以及其他光学和非光学数据存储设备。计算机可读介质也可以分布在耦合到计算机系统的网络上,这样,计算机可读代码以分布方式存储和执行。虽然描述了前述本发明的一些细节以供清楚理解之需,显而易见的是,可以不脱离所附权利要求的范围而进行一些变化和修改。因而,这些实施例只是示例性的而非限制性的,本发明不限于这里描述的细节,而是可在所附权利要求及其等价内容的范围内进行修改。1权利要求1.一种用于自动应用预定权限给在具有一个或者多个媒体源的空间中的所识别和跟踪的用户的计算机实现方法,包括(a)定义用户轮廓并且将其保存到存储器,用户轮廓包括用于使用深度感应摄像机识别和跟踪用户的数据;(b)定义权限并将其保持到存储器,其中所述权限定义了对于所述用户轮廓而言访问特定媒体的权限级别;(c)使用所述深度感应摄像机捕获空间中的场景以产生图像和深度数据;(d)使用图像和深度数据识别场景中的用户;(e)自动应用所定义的权限到一个或者多个媒体源,使得当在场景中识别出并跟踪到该用户时,该用户被授权访问从一个或者多个媒体源中选出的内容。2.权利要求1的方法,其中,捕获所述场景包括滤除静止对象,使得聚焦在移动对象,并且聚焦在移动对象包括确定是否在场景中找到头部对象;使用图像和深度数据来分析头部的面部特征;确定所识别的面部特征是否对应于用户;并且应用用于定义对于所述用户轮廓而言访问特定媒体的权限级别。3.权利要求2的方法,其中,跟踪包括跟踪场景中所述用户的移动,所述跟踪协助确定所识别的面部特征是否对应于所述用户。4.权利要求2的方法,其中,所述深度数据被用来识别用户的物理特征的相对三维位置。5.权利要求2的方法,其中,当确定所述头部对象是否存在于所述场景中时从所述场景中去掉所述静止对象的深度数据。6.权利要求1的方法,还包括确定在所述场景中是否存在多于一个的用户;如果存在多于一个的用户,则应用和受限制最低的用户轮廓相关的权限。7.权利要求1的方法,其中,一个或者多个媒体源包括提供多媒体内容的装置。8.权利要求7的方法,其中,所述多媒体内容部分呈现在存在于所述空间中的显示屏眷上ο9.一种用于识别和跟踪真实世界对象来自动把预定的计算机产生的效果应用到所述真实世界对象的虚拟世界表现的计算机实现方法,包括(a)定义用户轮廓并且将其保存到存储器,用户轮廓包括用于使用深度感应摄像机识别和跟踪所述用户的数据;(b)定义用来结合到和用户轮廓相关的虚拟世界场景中的动画并将其保存到存储器中;(c)使用所述深度感应摄像机捕获场景;(d)使用所述深度感应摄像机识别所述场景中的用户;(e)基于所识别和跟踪的用户,自动应用所述定义的动画,使得显示屏幕示出结合的动画。10.权利要求9的方法,其中,捕获所述场景包括滤除静止对象,使得聚焦在移动对象,并且聚焦在移动对象包括聚焦在所述场景中的移动对象上;使用所述图像和深度数据来分析所述移动对象的特征;以及确定所述移动对象是否对应于所述用户。11.权利要求10的方法,其中,该用户是人类或者宠物的其中一个。12.权利要求11的方法,其中,跟踪所述用户还包括显示所述用户的历史路径以及和该移动相关的动画,该用户的历史路径识别随时间的移动。13.权利要求12的方法,还包括将所述历史路径保存到存储器中,并且启用所述历史路径的重放。14.权利要求9的方法,其中,基于所捕获的深度数据,将该动画应用到在所述场景中找到的对象的轮廓上。15.权利要求9的方法,还包括由用户提前选择该动画。16.权利要求9的方法,其中,基于该识别的用户,将多媒体内容和动画呈现在显示屏上。17.权利要求9的方法,其中,捕获场景使用点跟踪来定义所述场景中的静止对象。18.权利要求9的方法,其中,跟踪所述用户包括识别相对位置、方向和速度。19.权利要求9的方法,其中,所述深度数据用来识别静止对象上的点,所述点用来绘制在所述场景中找到的对象的轮廓。20.一种用于识别和跟踪真实世界空间中的真实世界用户的计算机实现方法,包括(a)定义用户轮廓,该用户轮廓包括和真实世界用户的物理特征相关的图像和深度数据,该图像和深度数据通过深度感应摄像机来获取;(b)使用所述深度感应摄像机来获取场景的图像和深度数据;(c)识别所述场景中的移动对象;(d)使用图像和深度数据来锁定所述移动对象的头部;并且(e)实时分析头部的所述图像和深度数据,该分析包括将头部的图像和深度数据和与物理特征相关的用户轮廓图像和深度数据相比较,其中当用户轮廓中的图像和深度数据大体匹配于头部的图像和深度数据时该用户被识别出来。21.权利要求20的方法,其中定义用户轮廓包括(a)使用深度感应摄像机来开始扫描;(b)将所述扫描聚焦到人身体的特定部分;(c)收集所述人身体的特定部分的图像和深度数据;(d)处理所收集的图像和深度数据来产生所述人身体的特定部分的三维模型;并且(e)将所述三维模型保存到存储器,该三维模型还和用户轮廓相关联。22.权利要求20的方法,还包括当识别出该用户时,应用和所述用户轮廓相关联的用户许可。23.权利要求20的方法,还包括当识别出该用户时,应用和所述用户轮廓相关联的用户动画。全文摘要本发明提供一种用于自动应用预定权限给具有一个或者多个媒体源的空间中的所识别和跟踪的用户的计算机实现方法。该方法包括定义用户轮廓并且将其保存到存储器的操作。用户轮廓可以包括使用深度感应摄像机识别和跟踪用户的数据。或者,定义和保存用来定义对于该用户轮廓而言访问特定媒体的权限级别的权限。该方法还包括用深度感应摄像机捕获空间场景中的图像和深度数据的操作。在又一个操作中,根据图像和深度数据在场景中跟踪和识别用户。或者,所定义的权限被自动应用到媒体源,使得用户在场景中被识别出和跟踪到时,该用户被授权访问从一个或者多个媒体源中选出的内容。文档编号G06K9/00GK102016877SQ200980114823公开日2011年4月13日申请日期2009年2月24日优先权日2008年2月27日发明者G·M·札莱夫斯基,M·海格申请人:索尼计算机娱乐欧洲有限公司,索尼计算机娱乐美国有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1