用于设备激活的音频模式匹配的制作方法

文档序号:2833609阅读:258来源:国知局
专利名称:用于设备激活的音频模式匹配的制作方法
技术领域
本发明涉及用于设备激活的音频模式匹配。
背景技术
空转或关闭待机功率模式下的电设备是一般惯例,其中该设备消耗降低的电量。 电设备的典型待机功率例如可以高达大约8瓦。然而,对于几十亿个使用中的电子设备消 耗而言,即使这个小的量仍然合计得到世界总耗电的可观的一小部分。诸如国际能源机构 (IEA)提出的I瓦倡议(One Watt Initiative)之类的倡议正在尝试到2013年为止将电设 备的待机功率减少到O. 5瓦。可能有利的是,在待机功率模式下,即使在以O. 5瓦运行时仍 然允许电设备的简化的激活。发明内容
本技术总体上涉及电设备中所包括的用于将该设备从待机功率模式激活到全功 率模式的系统。该系统包括一个或多个话筒和待机激活单元。待机激活单元包括诸如微处 理器之类的处理器和相关联的非易失性存储器。一个或多个数字化激活短语可以存储在非 易失性存储器中,其要么在用户首次使用之前被预先记录,要么被用户选择和输入。
当电设备在待机功率模式下运行时,所述一个或多个话筒被供电以感测话筒附近 的声音。为了激活处于待机功率模式时的电设备,用户可以讲出与非易失性存储器中存储 的短语匹配的预先记录或用户选择的激活短语。音频流被一个或多个话筒检测,并且数字 化成音频模式。然后,音频模式由待机激活单元的处理器与存储在非易失性存储器中的一 个或多个激活短语相比较。如果所讲出的短语匹配所存储的激活短语,则处理器将标识出 匹配,并且向功率电路发送信号以将该电设备激活到全功率模式。当处理器在所接收的音 频模式与所存储的激活短语之间未标识出匹配时,电设备保持在待机功率模式。
话筒和待机激活单元能够接收音频流,将其数字化成音频模式并且执行匹配操作 以将传入音频模式与所存储的激活短语相比较,这些全部是利用在待机模式下可用的功率 进行的。在一个示例中,该功率可以是O. 5瓦。
在实施例中,本技术涉及一种用于将电设备从待机功率模式激活的方法,包括 Ca)在处于待机功率模式时在所述电设备中接收音频流;(b)在处于待机功率模式时将所 述音频流数字化成音频模式;(C)在处于待机功率模式时将在所述步骤(b)中数字化的音 频模式与存储在非易失性存储器中的数字化激活短语相比较;以及(d)在所述音频模式在 预定义的公差内与所述激活短语匹配时激活所述电设备。
在另一示例中,本技术涉及一种用于将电设备从待机功率模式激活的待机激活系 统,该待机激活系统包括一个或多个话筒,所述话筒用于检测所述一个或多个话筒附近的 音频流;以及待机激活单元,包括非易失性存储器,所述非易失性存储器包括一个或多个 所存储的激活模式;以及处理器,所述处理器用于使用在待机功率模式下对所述电设备可 用的功率将从所述一个或多个话筒接收的数字化音频模式与存储在所述非易失性存储器中的一个或多个激活模式相比较,所述处理器在数字化音频模式在预定义的公差内与存储 在所述非易失性存储器中的所述一个或多个激活短语中的一个激活短语匹配时激活所述 设备。
在另一示例中,本技术涉及一种具有计算机可执行指令的计算机可读存储介质, 所述指令用于将处理器编程为执行一种用于将自然用户界面(NUI)系统的计算设备从待机 功率模式激活的方法,包括(a)在处于待机功率模式时在与NUI系统相关联的一个或多个 话筒中接收音频流;(b)在处于待机功率模式时将所述音频流数字化成音频模式;(C)在处 于待机功率模式时处理数字化音频流以促进数字化音频流与存储在计算设备的非易失性 存储器中的一个或多个数字化激活短语的匹配;(d)在处于待机功率模式时将在所述步骤 (C)处理的音频模式与存储在计算设备的非易失性存储器中的一个或多个数字化激活短语 相比较;以及(e)当音频模式在预定义的公差内与所述一个或多个激活短语中的一个激活 短语匹配时激活所述计算设备。
提供本发明内容以便以简化形式介绍将在以下具体实施方式
中进一步描述的一 些概念。本发明内容并非旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用 于帮助确定所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任 一部分中所提及的任何或所有缺点的实现。


图1A — IB示出了用户正玩游戏的目标识别、分析及跟踪系统的示例实施例。
图2示出了可在目标识别、分析和跟踪系统中使用的捕捉设备的示例实施例。
图3A示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算 环境的示例实施例。
图3B示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算 环境的另一不例实施例。
图4是用于教导和存储激活短语的实施例的流程图。
图5是样本数字化激活模式。
图6是用于在处于待机功率模式时激活电设备的实施例的流程图。
图7是用于在处于待机功率模式时激活电设备的实施例的框图。
具体实施方式
现在将参考附图1A-7来描述本技术的实施例,所述实施例总体上涉及电设备中 所包括的一种用于将该设备从待机功率模式激活到全功率模式的系统。在一个示例中,电 设备可以是下面被描述为目标识别、分析和跟踪系统10的NUI系统。NUI系统可以是一种 系统,在该系统中检测、解释用户姿势并将其用于控制屏幕上人物或软件应用的其他方面。 然而,如下面进一步描述的那样,电设备可以是多种其他计算设备和仪器。在实施例中,本 公开的系统包括用于监测电设备附近的音频信号的一个或多个话筒、以及包括低功率微处 理器和非易失性存储器的待机功率激活单元。当该设备处于待机功率模式时,话筒捕捉音 频,并且将该音频转换成数字音频模式。然后由微处理器将该音频模式与存储在非易失性 存储器中的预定义的激活模式相比较。如果检测到数字音频模式与预定义的激活模式之间的模式匹配,则电设备被激活。
所述一个或多个话筒、微处理器和非易失性存储器一起能够获得音频模式并且使 用少量功率(例如O. 5瓦)将它们与所存储的激活模式相比较。因此,本系统可以用于在电 设备处于待机功率模式时(即要么为空闲、要么为关闭时)激活该电设备。当处于待机功率 模式时,下面描述的电设备接收待机功率,该待机功率例如在示例中可以为O. 5瓦。能够理 解,待机功率可以在另外的实施例中高于或低于此,并且本系统将能够以这样的更高或更 低的待机功率设置来运行。
最初参考图1A-2,用于实现本技术的一个示例的硬件包括目标识别、分析和跟踪 系统10,该系统可用于识别、分析和/或跟踪诸如用户18之类的人类目标。目标识别、分析 和跟踪系统10的实施例包括用于执行游戏或其他应用的计算设备12。计算设备12可包 括硬件组件和/或软件组件,使得计算设备12可用于执行诸如游戏之类的应用和非游戏应 用。在一个实施例中,计算设备12可以包括可执行存储在处理器可读存储设备上的指令的 处理器,比如标准化处理器、专用处理器、微处理器等等,所述指令用于在设备10为活动并 以全功率运行时执行该设备10的过程。
如后面所述,计算设备12还可以包括可执行存储在非易失性存储器中的指令的 第二低功率处理器或微处理器,所述指令用于在设备10运行在待机模式时执行该设备10 的激活过程。
系统10还包括捕捉设备20,捕捉设备20用于捕捉与捕捉设备所感测的一个或多 个用户和/或对象有关的图像和音频数据。在实施例中,捕捉设备20可用于捕捉与一个或 多个用户的身体和手移动和/或姿势和话音相关的信息,该信息由计算环境接收并且用于 呈现游戏或其他应用的各方面、与这些方面交互和/或控制这些方面。下面更详细地解释 计算设备12和捕获设备20的示例。
目标识别、分析和跟踪系统10的各个实施例可连接到具有显示器14的音频/视 觉(A/V)设备16。设备16可以例如是可向用户提供游戏或应用视觉和/或音频的电视机、 监视器、高清电视机(HDTV)等。例如,计算设备12可包括诸如图形卡之类的视频适配器和 /或诸如声卡之类的音频适配器,这些适配器可提供与游戏或其他应用相关联的音频/视 觉信号。A/V设备16可从计算设备12接收音频/视觉信号,并且随后可向用户18输出与 这些音频/视觉信号相关联的游戏或应用视觉和/或音频。根据一个实施例,音频/视觉 设备16可经由例如S-视频电缆、同轴电缆、HDMI电缆、DVI电缆、VGA电缆、分量视频电缆 等连接到计算设备12。
在实施例中,计算设备12、A/V设备16和捕捉设备20可协作以在显示器14上呈 现化身或屏幕上人物19。例如,图1A示出用户18正在玩足球游戏应用。跟踪并使用用户 的移动来使化身19的移动动画化。在各个实施例中,化身19模仿用户18在现实世界空间 中的移动,使得用户18可执行控制化身19在显示器14上的移动和动作的移动和姿势。在 图1B中,在NUI系统中使用捕捉设备20,其中例如,用户18正在滚动和控制具有呈现在显 示器14上的各种菜单选项的用户界面21。在图1B中,计算设备12和捕捉设备20可用于 识别和分析用户身体的移动和姿势,并且此类移动和姿势可被解释为对用户界面的控制。
系统10及其组件的合适的示例在以下共同待审的专利申请中找到,这些专利申 请全部特此通过引用结合于此于2009年5月29日提交的名称为“Environment And/OrTarget Segmentation(环境和/或目标分割)”的美国专利申请序列号12/475,094 ;于2009 年7月29日提交的名称为“Auto Generatinga Visual Representation (自动生成视觉 表示)”的美国专利申请序列号12/511,850;于2009年5月29日提交的名称为“Gesture Tool (姿势工具)”的美国专利申请序列号12/474,655;于2009年10月21日提交的名称 为“PoseTracking Pipeline (姿态跟踪流水线)”的美国专利申请序列号12/603,437 ;于 2009年5月 29 日提交的名称为“Device for Identifying and Tracking MultipleHumans Over Time (用于随时间标识和跟踪多个人类的设备)”的美国专利申请序列号12/475,308 ; 于2009年10月7日提交的名称为“Human Tracking System (人类跟踪系统)”的美国 专利申请序列号12/575,388 ;于2009年4月13日提交的名称为“Gesture Recognizer System Architecture (姿势识别器系统架构)”的美国专利申请序列号12/422,661 ;以及 于2009年2月23日提交的名称为“Standard Gestures (标准姿势)”的美国专利申请序 列号 12/391,150。
图2示出可在目标识别、分析和跟踪系统10中使用的捕捉设备20的一个示例实 施例。在一个示例实施例中,捕捉设备20可被配置成经由任何合适的技术来捕捉具有可包 括深度值的深度图像的视频,这些技术包括例如飞行时间、结构化光、立体图像等。根据一 个实施例,捕捉设备20可以将所计算的深度信息组织成“Z层”,即与从深度相机沿其视线 延伸的Z轴相垂直的层。X和Y轴可被定义为与Z轴垂直。Y轴可以是垂直的,而X轴可以 是水平的。X、Y和Z轴一起定义捕捉设备20所捕捉的3-D真实世界空间。
如图2所示,捕捉设备20可包括图像相机组件22。根据一个示例实施例,图像相 机组件22可以是可捕捉场景的深度图像的深度相机。深度图像可以包括所捕捉场景的二 维(2-D)像素区域,其中2-D像素区域中的每个像素都可表示深度值,比如例如所捕捉场景 中的对象距相机的以厘米、毫米等为单位的长度或距离。
如图2所示,根据一个示例实施例,图像相机组件22可包括可用于捕捉场景的深 度图像的IR光组件24、三维(3-D)相机26,以及RGB相机28。例如,在飞行时间分析中,捕 捉设备20的IR光组件24可将红外光发射到场景上,并且随后可使用传感器(未示出)、用 例如3-D相机26和/或RGB相机28来检测从场景中的一个或多个目标和物体的表面反向 散射的光。
在一些实施例中,可以使用脉冲红外光,使得可以测量出射光脉冲与相应入射光 脉冲之间的时间,并且将其用于确定从捕捉设备20到场景中的目标或物体上的特定位置 的物理距离。附加地,在其他示例性实施例中,可以将出射光波的相位与入射光波的相位相 比较来确定相移。该相移然后可以用于确定从捕获设备20到目标或物体上的特定位置的 物理距离。
根据另一示例性实施例,可以使用飞行时间分析来通过经由包括例如快门式光脉 冲成像在内的各种技术分析反射光束随时间的强度来间接地确定从捕捉设备20到目标或 物体上的特定位置的物理距离。
在另一示例性实施例中,捕捉设备20可以使用结构化光来捕捉深度信息。在这样 的分析中,图案化光(即被显示成诸如网格图案或条纹图案的已知图案的光)可以经由例如 IR光组件24被投射到场景上。在落到场景中的一个或多个目标或物体的表面上以后,作 为响应,图案可以变为变形的。图案的这样的变形可以被例如3-D相机26和/或RGB相机28捕捉,并且随后可被分析以确定从捕捉设备20到目标或物体上的特定位置的物理距离。
根据另一实施例,捕捉设备20可包括可以从不同的角度观察场景的两个或更多 个在物理上分开的相机,以获取可以被解析以生成深度信息的视觉立体数据。在另一示例 实施例中,捕捉设备20可使用点云数据(point cloud data)和目标数字化技术来检测用 户的特征。
捕捉设备20还可包括话筒30。话筒30可包括可接收声音并将其转换成电信号 的变换器或传感器。根据一个实施例,话筒30可用来减少在目标识别、分析和跟踪系统10 中的捕捉设备20与计算设备12之间的反馈。附加地,话筒30可用来接收也可由用户提供 的音频信号,以控制可由计算设备12执行的诸如游戏应用、非游戏应用等应用。替代于单 个话筒30,本系统还可以采用两个或更多话筒。多个话筒允许声源定位以标识出声音的来 源。
在一示例实施例中,捕捉设备20还可包括能与图像相机组件22通信的处理器32。 处理器32可包括可执行指令的标准处理器、专用处理器、微处理器等,这些指令可包括用 于接收深度图像的指令、用于确定合适的目标是否可包括在深度图像中的指令、用于将合 适的目标转换成该目标的骨架表示或模型的指令、或任何其他合适的指令。
捕捉设备20还可包括存储器组件34,存储器组件34可存储可由处理器32执行的 指令、3-D相机或RGB相机捕捉到的图像或图像的帧、或任何其他合适的信息、图像等。根据 一示例实施例,存储器组件34可包括随机存取存储器(RAM)、只读存储器(ROM)、高速缓存、 闪存、硬盘、或任何其他合适的存储组件。如图2所示,在一个实施例中,存储器组件34可 以是与图像相机组件22和处理器32通信的分开组件。根据另一个实施例,可将存储器组 件34集成到处理器32和/或图像相机组件22中。
如图2所示,捕捉设备20可以通过通信链路36与计算设备12通信。通信链路36 可以是包括例如USB连接、火线连接、以太网电缆连接等有线连接和/或诸如无线802. lib、 802. llg、802.1la或802.1ln连接等无线连接。根据一个实施例,计算设备12可以通过通 信链路36向捕捉设备20提供可用于确定例如何时捕捉场景的时钟。
另外,捕捉设备20可提供由例如3-D照相机26和/或RGB照相机28所捕捉的深 度信息和图像。有了这些设备的帮助,可根据本发明的技术开发部分骨架模型,其中经由通 信链路36将所得到的数据提供给计算设备12。
计算设备12还可包括用于识别姿势的姿势识别引擎190。根据本系统,计算设备 12还可以包括模式匹配引擎192,并且在实施例中包括语音识别引擎194,这两个引擎都在 下面予以说明。
图3A示出了可用于在目标识别、分析和跟踪系统中解释一个或多个姿势的计算 环境的示例实施例。上面参考图1A-2所描述的诸如计算设备12等计算环境可以是诸如 游戏控制台等多媒体控制台100。如图3A所示,多媒体控制台100包括具有一级高速缓存 102、二级高速缓存104和闪存ROM 106的中央处理单元(CPU)lOl。一级高速缓存102和二 级高速缓存104临时存储数据,并且因此减少存储器访问周期的数量,由此改进处理速度 和吞吐量。CPU 101可被提供为具有一个以上的核,并且由此具有附加的一级高速缓存102 和二级高速缓存104。闪存ROM 106可存储在多媒体控制台100通电时引导过程的初始阶 段期间加载的可执行代码。
尽管图3A中未示出,但是多媒体控制台100还可以包括诸如微处理器之类的处理 器以及非易失性存储器以用于将该系统从待机功率模式中激活。在另外的实施例中,用于 将该系统从待机功率模式中激活的处理器和存储器分别可以是处理单元101和ROM 106。
图形处理单元(GPU) 108和视频编码器/视频编解码器(编码器/解码器)114形 成用于高速和高分辨率图形处理的视频处理流水线。经由总线从GPU108向视频编码器/ 视频编解码器114运送数据。视频处理流水线向A/V (音频/视频)端口 140输出数据,用 于传输至电视机或其他显示器。存储器控制器110连接到GPU 108,以便于处理器对各种类 型的存储器112 (诸如,但不限于RAM)的访问。
多媒体控制台100包括优选地在模块118上实现的I/O控制器120、系统管理控制 器122、音频处理单元123、网络接口控制器124、第一 USB主控制器126、第二 USB主控制器 128以及前面板I/O子部件130。USB控制器126和128用作外围控制器142 (I)-142 (2)、 无线适配器148、以及外置存储器设备146 (例如,闪存、外置⑶/DVD ROM驱动器、可移动介 质等)的主机。网络接口 124和/或无线适配器148提供对网络(例如,因特网、家庭网络 等)的访问,并且可以是包括以太网卡、调制解调器、蓝牙模块、电缆调制解调器等的各种不 同的有线或无线适配器组件中的任何一种。
提供系统存储器143来存储在引导过程期间加载的应用数据。提供媒体驱动器 144,且其可包括DVD/⑶驱动器、硬盘驱动器、或其他可移动媒体驱动器等。媒体驱动器144 可以是对多媒体控制器100内置的或外置的。应用数据可经由媒体驱动器144访问,以供 多媒体控制台100执行、回放等。媒体驱动器144经由诸如串行ATA总线或其他高速连接 (例如IEEE 1394)等总线连接到I/O控制器120。
系统管理控制器122提供与确保多媒体控制台100的可用性相关的各种服务功 能。音频处理单元123和音频编解码器132形成具有高保真度和立体声处理的相应音频处 理流水线。音频数据经由通信链路在音频处理单元123与音频编解码器132之间传输。音 频处理流水线将数据输出到A/V端口 140,以供外置音频播放器或具有音频能力的设备再 现。
前面板I/O子部件130支持暴露在多媒体控制台100的外表面上的电源按钮150 和弹出按钮152、以及任何LED (发光二极管)或其他指示器的功能。系统供电模块136向 多媒体控制台100的组件供电。风扇138冷却多媒体控制台100内的电路。
多媒体控制台101内的CPU 100、GPU 108、存储器控制器110、以及各种其他组件 经由一条或多条总线互连,该总线包括串行和并行总线、存储器总线、外围总线、以及使用 各种总线体系结构中的任一种的处理器或局部总线。作为示例,这些架构可以包括外围部 件互连(PCI)总线、PC1-Express总线等。
当多媒体控制台100通电时,应用数据可从系统存储器143加载到存储器112和/ 或高速缓存102、104中,并且可在CPU 101上执行。应用可在导航到多媒体控制台100上 可用的不同媒体类型时呈现提供一致的用户体验的图形用户界面。在操作中,媒体驱动器 144中所包含的应用和/或其他媒体可从媒体驱动器144启动或播放,以将附加功能提供给 多媒体控制台100。
多媒体控制台100可通过简单地将该系统连接到电视机或其他显示器而作为独 立系统来操作。在该独立模式中,多媒体控制台100允许一个或多个用户与该系统交互、看电影、或听音乐。然而,在通过网络接口 124或无线适配器148可用的宽带连接集成的情况 下,多媒体控制台100还可作为更大网络社区中的参与者来操作。
当多媒体控制台100通电时,可以保留设定量的硬件资源以供多媒体控制台操作 系统作系统使用。这些资源可包括存储器的保留量(诸如,16MB)、CPU和GPU周期的保留量 (诸如,5%)、网络带宽的保留量(诸如,8kbs),等等。因为这些资源是在系统引导时间保留 的,所保留的资源从应用的视角而言是不存在的。
具体而言,存储器保留量优选地足够大,以包含启动内核、并发系统应用程序和驱 动程序。CPU保留量优选地为恒定,使得若所保留的CPU用量不被系统应用使用,则空闲线 程将消耗任何未使用的周期。
对于GPU保留量,通过使用GPU中断来调度代码以将弹出窗口渲染为覆盖图,从而 显示由系统应用生成的轻量消息(例如,弹出窗口)。覆盖图所需的存储器量取决于覆盖区 域大小,并且覆盖图优选地与屏幕分辨率成比例缩放。在完整的用户界面被并发系统应用 使用的情况下,优选使用独立于应用分辨率的分辨率。定标器可用于设置该分辨率,从而无 需改变频率和引起TV重新同步。
在多媒体控制台100引导且系统资源被保留之后,执行并发系统应用来提供系统 功能。系统功能被封装在上述所保留的系统资源内执行的一组系统应用中。操作系统内核 标识出作为系统应用线程而非游戏应用线程的线程。系统应用优选地被调度为在预定时间 并以预定时间间隔在CPU 101上运行,以便提供对应用而言一致的系统资源视图。调度是 为了使在控制台上运行的游戏应用的高速缓存中断最小化。
当并发系统应用需要音频时,由于时间敏感性而将音频处理异步地调度给游戏应 用。多媒体控制台应用管理器(如下所描述的)在系统应用活动时控制游戏应用的音频级别 (例如,静音、衰减)。
输入设备(例如,控制器142(1)和142(2))由游戏应用和系统应用共享。输入设 备不是保留资源,而是在系统应用和游戏应用之间切换以使其各自具有设备的焦点。应用 管理器优选控制输入流的切换,而无需知道游戏应用的知识,并且驱动器维护关于焦点切 换的状态信息。相机26、28和捕捉设备20可为控制台100定义附加输入设备。
图3B示出了计算环境220的另一示例实施例,该计算环境220可以是用来解释目 标识别、分析,及跟踪系统中的一个或多个姿势的图1A-2所示出的计算设备12。计算系统 环境220只是合适的计算环境的一个示例,并且不旨在对当前公开的主题的使用范围或功 能提出任何限制。也不应该将计算环境220解释为对示例性操作环境220中示出的任一组 件或其组合有任何依赖性或要求。在一些实施例中,各个所示的计算元素可包括被配置成 实例化本公开的特定方面的电路。例如,本公开中使用的术语“电路”可包括被配置成通过 固件或开关来执行功能的专用硬件组件。在其他示例实施例中,术语“电路”可包括通过体 现可操作以执行功能的逻辑的软件指令来配置的通用处理单元、存储器等。在电路包括硬 件和软件的组合的示例实施例中,实施者可以编写体现逻辑的源代码,且源代码可以被编 译为可以由通用处理单元处理的机器可读代码。因为本领域技术人员可以明白现有技术已 经进化到硬件、软件或硬件/软件组合之间几乎没有差别的地步,因而选择硬件或是软件 来实现具体功能是留给实现者的设计选择。更具体地,本领域技术人员可以明白软件进程 可被变换成等价的硬件结构,而硬件结构本身可被变换成等价的软件进程。由此,对于硬件实现还是软件实现的选择是设计选择之一并留给实现者。
在图3B中,计算环境220包括通常包括各种计算机可读介质的计算机241。计 算机可读介质可以是能被计算机241访问的任何可用介质,而且包含易失性和非易失性介 质、可移动和不可移动介质。系统存储器222包括诸如ROM 223和RAM 260之类的易失性 和/或非易失性存储器形式的计算机存储介质。包含诸如在启动期间帮助在计算机241内 的元件之间传输信息的基本例程的基本输入/输出系统224 (BIOS)通常储存储在ROM 223 中。RAM 260通常包含中央处理单元259可立即访问和/或当前正在操作的数据和/或程 序模块。作为示例而非限制,图3B示出了操作系统225、应用程序226、其他程序模块227, 以及程序数据228。
该计算环境还可以包括用于将该系统从待机功率模式中激活的处理器468 (该处 理器468在实施例中可以是微处理器)以及非易失性存储器470。存储器470可以是多种 非易失性存储器中的任何存储器,例如包括ROM,PROM、EPROM、EEPROM以及闪存。在实施例 中,用于将该系统从待机功率模式中激活的处理器468和存储器470可以分别作为处理单 元259和ROM 223的一部分被集成。在另外的实施例中,处理器468和处理器470可以一 起集成在所谓的片上系统中。
计算机241也可以包括其他可移动/不可移动、易失性/非易失性计算机存储介 质。只作为示例,图3B示出了读写不可移动非易失性磁性介质的硬盘驱动器238、读写可移 动非易失性磁盘254的磁盘驱动器239、以及读写诸如CDROM或其他光学介质之类的可移动 的非易失性光盘253的光盘驱动器240。可在示例性操作环境中使用的其他可移动/不可 移动、易失性/非易失性计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数 字录像带、固态RAM、固态ROM等。硬盘驱动器238通常通过诸如接口 234之类的不可移动 存储器接口连接到系统总线221,并且磁盘驱动器239和光盘驱动器240通常通过诸如接口 235之类的可移动存储器接口连接到系统总线221。
上面所讨论的并且在图3B中所示出的驱动器以及它们的相关联的计算机存储介 质,为计算机241提供了计算机可读的指令、数据结构、程序模块及其他数据的存储。例如, 在图3B中,硬盘驱动器238被示为存储了操作系统258、应用程序257,其他程序模块256, 以及程序数据255。注意,这些组件可与操作系统225、应用程序226、其他程序模块227和程 序数据228相同,也可与它们不同。在此操作系统258、应用程序257、其他程序模块256以 及程序数据255被给予了不同的编号,以说明至少它们是不同的副本。用户可通过诸如键 盘251和定点设备252 (通常称为鼠标、跟踪球或触摸垫)之类的输入设备将命令和信息输 入计算机241。其他输入设备(未示出)可包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫 描仪等。这些以及其他输入设备通常通过耦合到系统总线的用户输入接口 236连接到中央 处理单元259和微处理器468,但也可通过诸如并行端口、游戏端口或通用串行总线(USB) 之类的其他接口和总线结构来连接。相机26、28和捕捉设备20可为控制台100定义附加 输入设备。监视器242或其他类型的显示设备也通过诸如视频接口 232之类的接口连接至 系统总线221。除了监视器以外,计算机还可包括诸如扬声器244和打印机243之类的其他 外围输出设备,它们可通过输出外围接口 233来连接。
计算机241可使用到一个或多个远程计算机(诸如,远程计算机246)的逻辑连接 而在联网环境中操作。远程计算机246可以是个人计算机、服务器、路由器、网络PC、设备或其他常见网络节点,并且通常包括许多或所有以上相对计算机241所描述的元件,但在图 3B中仅示出了存储器存储设备247。图3B中所描绘的逻辑连接包括局域网(LAN)245和广 域网(WAN) 249,但是也可以包括其他网络。此类联网环境在办公室、企业范围的计算机网 络、内联网和因特网中是常见的。
当在LAN联网环境中使用时,计算机241通过网络接口或适配器237连接到LAN 245。当在WAN联网环境中使用时,计算机241通常包括调制解调器250或用于通过诸如因 特网等WAN 249建立通信的其他手段。调制解调器250可以是内置的或外置的,可经由用 户输入接口 236或其他适当的机制连接到系统总线221。在联网环境中,相对于计算机241 所示的程序模块或其部分可被存储在远程存储器存储设备中。作为示例而非限制,图3B示 出了驻留在存储器设备247上的远程应用程序248。应当理解,所示的网络连接是示例性 的,并且可使用在计算机之间建立通信链路的其他手段。
计算设备12结合捕捉设备20可以每帧都生成用户身体位置的计算机模型。例如 在 2010 年 9 月 7 日提交的名称为 “System For Fast, Probabilistic SkeletalTracking (用于快速概率骨架跟踪的系统)”的美国专利申请序列号12/876,418中公开了生成捕捉设 备20的视野中的一个或多个用户的骨架模型的这样的流水线的一个示例,该申请的全部 内容通过引用结合于此。
骨架模型然后可被提供给计算设备12,使得计算环境可跟踪骨架模型并呈现与该 骨架模型相关联的化身。计算环境还可基于例如从骨架模型中识别出的用户的姿势来确定 在计算机环境上执行的应用中要执行哪些控制。例如,如图所示,在图2中,计算设备12可 包括姿势识别引擎190。姿势识别引擎190 —般可包括姿势过滤器集合,每个姿势过滤器都 包括关于骨架模型(在用户移动时)可执行的姿势的信息。
可以将由照像机26、28和设备20以骨架模型的形式捕捉的数据以及与它相关联 的移动与姿势识别引擎190中的姿势过滤器进行比较,以标识(如由骨架模型所表示的)用 户何时执行了一个或多个姿势。那些姿势可与应用的各种控制相关联。因此,计算设备12 可使用姿势识别引擎190来解释骨架模型的移动并基于该移动来控制应用。
为了节省功率并有效利用能量,系统10可以在预定时间段内停留在空闲状态的 情况下下电(power down)为待机功率模式。可替代地,用户可以在用完系统10时手动地 关闭该系统。当被关闭时,该系统也在待机功率模式下运行。当在待机功率模式下时,电源 474(图6)向计算设备12供应待机功率。在实施例中,该待机功率例如可以是O. 3瓦至5. O 瓦,并且在另一示例中可以为O. 5瓦。能够理解,在另外的实施例中,在待机功率模式下供 应给系统10的功率可以高于或低于该范围。
根据本系统,用户能够利用可听激活短语来激活系统10的计算设备12。在识别 该激活短语以后,计算设备12可以从待机功率模式切换到全功率模式,其中在全功率模式 中,所有系统资源都可用。下面描述使用待机激活单元464激活计算设备12。关于A/V设 备16和捕捉设备20,只要这些设备也可以处于待机功率模式,则它们就可以在计算设备12 被激活的时刻被激活。A/V设备16和/或捕捉设备20可以通过从计算设备12接收“唤醒” 信号被激活。可替代地,A/V设备16和/或捕捉设备20也可以包括待机激活单元464,该 待机激活单元464以下面所述与计算设备12相同的方式激活它们。
本系统的一个特征是,本系统能够利用仅靠在待机功率模式期间所供应的待机功率运行的组件来识别激活短语。这些特征在下面予以说明,但是总的来说,仅仅使用待机功 率,处理器468和存储器470 (图3B和6)就能够接收数字化音频模式并且对照存储在存储 器470中的激活模式执行受限的模式匹配以确定激活短语是否被讲出。
激活短语可以是简单的两单词短语,比如“激活系统(activate system)”。当系统 10例如是来自微软公司的Xbox 视频游戏控制台时,激活短语例如可以是“Xbox打开”。举 例来说,这些短语以及激活短语例如可以是存储在存储器470中的任何预定义的短语。在 另外的实施例中,激活短语可以短于两个单词或长于两个单词。与较长的短语相比,较短的 短语可能更频繁地导致错误的肯定匹配,但是较长的短语可能需要来自待机功率的更多功 率以供处理器468执行匹配操作。在实施例中,激活短语可以被设置成针对可用待机功率 优化过的长度。也就是说,激活短语可以长得足以最小化错误肯定匹配,但是短得足以使得 处理器468和存储器470能够使用可用待机功率来确定激活短语何时被接收。
在实施例中,激活短语可以由系统10的用户讲出以便将系统10从待机模式中激 活。然而,能够理解,激活短语可以是通过除话音以外的方法讲出或生成的任何有区别的音 频模式。此外,在被讲出时,激活短语不需要是已知词汇表中的单词。激活短语可以是由 任何有区别的声音模式构成的音频模式。当激活短语包括一个或多个诸如“激活系统”或 “Xbox打开”之类的单词时,激活短语可以以单种语言或以多种语言来存储。
在实施例中,激活短语可以由系统10供应者预先编程在处理器470中(即在最终 用户最初使用系统10以前)。可替代地,激活短语可以是用户定义的。图4是示出了步骤 序列的流程图,其中一个或多个用户各自可以生成和存储激活短语。在步骤400,当系统10 为活动时,用户可以执行控制姿势或选择以进入激活短语学习模式。一旦处于学习模式,用 户就可以在步骤406讲出所期望的激活短语。用户可以单次讲出所期望的激活短语,或者 系统可以在步骤410提示用户多次讲出该短语。
在步骤414,把由用户提供的激活短语处理成数字激活模式。具体而言,所述一个 或多个所接收的激活短语的实例可以经过A到D (模数)转换器以提供短语的数字流。例 如,当短语被多次提供时,反常的频率和/或发音可以被滤除以得到最佳地逼近由用户在 所述多个学习实例中提供的激活短语的数字激活模式。可替代地,来自多个学习实例的激 活短语的每次讲出都可以分开地存储并且之后用于下述比较。一旦所接收的激活短语已经 被处理成数字激活模式,就可以在步骤418将该激活模式存储在存储器470中。
图5中示出了所存储的数字化激活短语的示意性表示。图5中所示的示意性表示 是模拟音频流的数字化表示,其可以被表示成话筒的振动膜随时间(t)的位移(D)的绘图, 其中由声波造成气压改变。图5中所示的数字激活模式仅仅是示例性的,并且该模式将根 据上面参照图4的流程图所述那样所讲出和处理的激活短语而变化。
单个激活短语可以通过图4的步骤来生成和存储。可替代地,可以生成和存储多 个激活短语。如所述那样,单个用户可以生成通过多次讲出相同短语所得到的多个数字化 激活短语。可替代地,不同的用户可以生成不同的激活短语。例如,某家庭或组的成员各自 使用系统10,每个用户都可以生成和存储他/她自己的激活短语。由每个用户生成和存储 的激活短语可以彼此相同或彼此不同。
在这样的实施例中,每个用户都可以基于他们的特定激活短语被识别。因此,当系 统激活时,NUI系统10可以被个人化为所标识出的用户,比如例如提供个人化的问候。此夕卜,在这样的实施例中,待机激活单元464可以基于从所感知的激活短语中标识出哪个用户而采取不同的动作。作为一个示例,计算设备12可以被设置为在家长不想要计算设备12 被儿童使用的一天的特定时间忽略来自该儿童的激活命令。
在激活短语已经被用户预编程或存储为数字激活模式以后,用户可以使用该激活短语来将计算设备12从待机模式激活为活动模式。图6是示出了用于使用激活短语激活计算设备12的步骤序列的流程图,并且图7是示出了用于使用激活短语激活计算设备12 的组件的框图。图7示出了一个或多个话筒462,所述一个或多个话筒462耦合到包括微处理器468和非易失性存储器470的待机激活单元464。话筒462可以在计算设备12中提供,或者它们可以是上面参照图2描述的一个或多个话筒30。图7还示出了电源474。电源474在计算设备12处于活动模式时向计算设备12的所有组件供电,包括所述一个或多个话筒462、待机激活单元464以及CPU 101/259。电源474在计算设备12处于待机模式时向一个或多个话筒462和待机激活单元464供电。
如上所述,待机激活单元464可以在单个片上系统上实现。可替代地,话筒468 和存储器470可以是彼此通信的单独组件。在另外的实施例中,可以省略单独的微处理器 468,相反,下面所述的待机激活过程由系统10的CPU (图3A的多媒体控制台100的CPU 101、图3B的计算环境220的CPU 259)来执行。在这样的实施例中,CPU 101/259在计算设备12处于待机功率模式时接收待机功率,例如O. 5瓦。当处于待机功率模式时,CPU 101/259将具有有限的处理能力。然后,当计算设备12被激活时,CPU 101/259将以更高功率运彳丁以提供完全的系统功能。
在另外的实施例中,可以省略单独的存储器270,相反,激活短语的存储可以由计算设备12中的其他非易失性存储器来完成,比如多媒体控制台100的ROM 106或者计算环境220的ROM 223。在这样的实施例中,ROM 106/223可以被分割,使得在待机模式下运行时,非易失性存储器的仅仅一小部分对处理器可用。
现在参考图6的流程图,在步骤420,所述一个或多个话筒462监测周围环境以监听音频流。如果在步骤424检测到声音,则在步骤430对音频进行过滤。例如,可以使用多路回波对消技术来从所接收的音频流中过滤背景噪声。可以在步骤430使用其他噪声过滤技术来过滤所接收的音频流。
在步骤432,通过A到D转换器将所接收的音频流数字化成数字音频模式。然后将该模式与存储在存储器470中的激活模式相比较。该比较是由在处理器468中运行的模式匹配引擎192执行的。如果在步骤440,在某个预定义公差内找到流式传输数字化音频模式的任何部分与所存储的激活模式之间的模式匹配,则模式匹配引擎192向电源474发送向计算设备12提供全功率的信号,以便激活该设备。
另一方面,如果在步骤440未找到模式匹配,则模式匹配引擎192可以在步骤444 尝试进一步处理所接收的数字化音频模式。如果未找到模式匹配(步骤440)并且模式匹配引擎192不能进一步处理音频模式(步骤444),则计算设备12保持在待机功率模式,并且流程返回到步骤420以监听另外的音频。如果模式匹配引擎192在步骤444能够进一步处理所接收的数字化音频模式,则在步骤446处理音频模式,并且在步骤440再次将其与所存储的激活模式相比较。
作为可以在步骤446对所接收的数字化音频模式执行的处理的一个示例,模式匹配引擎192可以在时间上拉伸和/或收缩所接收的音频模式以查看该音频模式那时是否匹 配所存储的激活模式。可以将各种过滤和噪声对消技术应用于音频模式以查看该音频模式 那时是否匹配所存储的激活模式。构思了对音频模式的其他处理。
上面参照步骤446所述的对音频模式的处理可以替代于或附加于上述流程在步 骤436将数字音频模式与所存储的数字激活模式相比较以前进行,(其中步骤446的处理是 仅在步骤440的比较失败以后才执行的)。还构思了可以省略步骤444和446。在该实施例 中,未执行对音频模式的处理。如果在步骤440未找到所接收的数字音频模式与所存储的 激活短语之间的匹配,则不激活设备12。
如果在步骤440找到模式匹配,则在步骤450激活计算设备12。在此时,待机激活 单元464用信号通知电源向计算设备12提供全功率,并且所有设备资源于是变得可用。
能够识别话音(例如激活短语)的富语音识别系统是已知的。然而,语音识别系统 需要比在待机功率模式下对计算设备12可用的处理功率更大量的处理功率。另一方面, 由待机激活单元464将所接收的数字化音频模式与一个或多个所存储的激活模式进行的 有限的比较需要相对少量的处理功率,并且可以在例如O. 5瓦功率可用时在待机模式下执 行。
在步骤436将所接收的音频模式与若干所存储的激活模式进行的比较可能由处 理器468消耗大量功率。类似地,在步骤446对所接收的音频模式的显著处理可能由处理 器468消耗大量功率。当本系统的特定实施方式以低待机功率水平运行时,具有若干所存 储的激活模式和对所接收的音频模式的显著处理两者也许是不可能的。在该实例中,不同 的实施例可以不同地分配资源。例如,一实施例可以具有大量所存储的激活模式和相对少 的对所接收数字音频模式的处理。相反,另一实施例可以具有仅仅一个或相对少的所存储 的激活模式,但是具有对所接收数字化音频模式的更稳健的处理。所存储的激活模式的数 目和长度以及可用于所接收的音频模式的处理的量可以基于在计算设备12处于待机功率 模式时可用于这些过程的功率量来设置。
如上所述,所接收的音频模式可以在两个数字模式在某个公差内彼此匹配时被认 为是与所存储的激活短语匹配。在此,公差是指所接收的数字化音频模式需要与所存储的 激活模式匹配的程度。公差可以在不同实施例中以几种不同方式来测量。公差可以在数字 音频模式中的每个数据点与所存储的激活模式之间测量,或者所有点合在一起测量,以具 有不小于某个预定幅度的差异。可替代地,该比较可以在数字化音频模式的数据点组与所 存储的激活模式之间进行。
在一个示例中,所构思的是,数字化音频模式与所存储的激活模式之间的匹配需 要是完美的或者近似完美的。然而,由于相同的人可能在不同的时间不同地讲出相同的短 语,从而要求完美匹配可能导致用户难以尝试激活计算设备12。因此,在实施例中,公差可 以相对低。这可能导致错误的肯定激活。也就是说,待机激活单元464在未提供真实激活 短语时激活计算设备12。这将捕捉到用户打算激活计算设备12的实例,但是也可能在没有 用户或用户不打算激活计算设备12时激活该系统。
当公差为低使得发生错误肯定激活时,本系统的实施例还可以包括激活确认过 程,其一个示例在图6的步骤454和456中予以示出。如上所述,富语音识别引擎可能不以 在待机模式下可用的稀少功率运行。然而,一旦计算系统12如上所述被待机激活单元464激活,语音视频引擎194 (图2)于是可以在步骤454确认该用户是否实际上讲出了正确的 激活短语。如果是这样,则计算设备可以保持为激活的。如果否,则可以在步骤456向电源 474发送信号以回复到待机模式。然后,流程返回到步骤420以再次监听可能的激活短语。
在步骤454,语音识别引擎194可以处理在步骤420接收的模拟音频流以确定是否 讲出了合适的激活短语。可替代地,所激活的计算设备12可以提示用户讲出附加的短语以 供语音识别引擎194进行分析。语音识别引擎可以使用比由待机激活单元464所执行的模 式匹配更复杂的算法来以高得多的确定性确认激活。
能够理解,在另外的实施例中,激活确认过程可以替代于或附加于语音识别引擎 194使用组件和/或软件引擎。例如,一旦被激活,可以提示用户执行预定义的激活确认姿 势,该姿势被NUI系统10识别以确认用户激活计算系统12并与系统10交互的期望。构思 了其他激活确认过程。
此外,能够理解,步骤454和456的确认过程可以一起被省略。当确认过程被省略 时,计算设备12可能在检测到认为接收到激活短语以后激活。然后,如果在预定的时间段 内未检测到与系统10的进一步交互,则计算设备12可以再次进入待机功率模式。
上述的样本实施例描述了 NUI系统10的计算设备12中所包括的待机激活单元 464。然而,如上所述,待机激活单元464可以作为其他电设备的一部分来提供,包括在图3A 和3B分别描述的通用游戏控制台或计算环境。这样的系统可以是PC、膝上型计算机、智能 电话、控制器和/或其他手持计算设备。在另外的实施例中,待机激活单元464可以包括在 电器内,比如但不限于洗衣机/干燥器、咖啡机、电视和立体音响系统和电车库门。具有待 机激活单元的电设备还可以包括但不限于汽车、防盗警报系统和照明系统。能够理解,在另 外的实施例中,使用模式匹配的待机激活单元464可以用在多种其他电设备中。
上述实施例公开了检测计算设备12附近的音频的一个或多个话筒。然而,可能发 生的是,包括待机激活单元464的设备也能够在待机功率模式下运行时发送和/或接收数 据流的传输。在这样的实施例中所构思的是,音频源可以处于计算设备12的远程。
例如,音频源可以在第一位置被检测到,并且然后例如通过诸如无线网络、局域 网、宽带网和/或因特网之类的网络被传输给第二位置处的设备。音频源可以由第一或第 二位置处的设备来数字化和/或处理。然后,第二位置处的设备中的待机激活单元464可 以执行上述匹配比较以确定从第一位置处的设备接收的音频是否是合适的激活短语。如果 是这样,则可以激活第二位置处的设备。可替代地,第二位置处的设备可以向第一位置处的 设备发送回传输或者向不同于第一或第二位置的第三位置处的设备发送传输以激活第一 或第三位置处的设备。
本发明系统的前述详细描述是出于说明和描述的目的而提供的。这并不旨在穷举 本发明系统或将本发明系统限于所公开的精确形式。鉴于上述教导,许多修改和变型都是 可能的。选择所述实施例以最好地解释本发明系统的原理及其实践应用,从而允许本领域 技术人员能够在各种实施例中并采用各种适于所构想的特定用途的修改来最好地利用本 发明系统。本发明系统的范围旨在由所附权利要求书来定义。
权利要求
1.一种用于将电设备(12)从待机功率模式激活的方法,包括 (a)在处于待机功率模式时在所述电设备(12)中接收(步骤424)音频流; (b)在处于待机功率模式时将所述音频流数字化(步骤432)成音频模式; (c)在处于待机功率模式时将在所述步骤(b)中数字化的音频模式与存储在非易失性存储器中的数字化激活短语相比较(步骤436);以及 (d)在所述音频模式在预定义的公差内与所述激活短语匹配时激活(步骤450)所述电设备。
2.如权利要求1所述的方法,其特征在于,话筒连续地监测周围环境以获得所述步骤Ca)的音频流。
3.如权利要求1所述的方法,其特征在于,还包括在将数字化音频模式与数字化激活短语相比较以前从所接收的音频流中滤除噪声的步骤。
4.如权利要求1所述的方法,其特征在于,在用户最初使用所述电设备以前将数字化激活模式存储在所述电设备的非易失性存储器中。
5.如权利要求1所述的方法,其特征在于,在所述电设备提示以后由用户选择数字化激活模式。
6.一种用于将电设备(12)从待机功率模式激活的待机激活系统,待机激活系统包括 一个或多个话筒(30,462),所述一个或多个话筒(30,462)用于检测所述一个或多个话筒附近的音频流;以及 待机激活单元(464),包括 包括一个或多个所存储的激活模式的非易失性存储器(470);以及 处理器(468),所述处理器(468)用于使用在待机功率模式下对所述电设备可用的功率将从所述一个或多个话筒接收的数字化音频模式与存储在所述非易失性存储器中的一个或多个所存储的激活模式相比较,所述处理器在数字化音频模式在预定义的公差内与存储在所述非易失性存储器中的一个或多个激活短语中的一个激活短语匹配时激活所述设备。
7.如权利要求6所述的待机激活系统,其特征在于,用于在待机功率模式下将数字化音频模式与所述一个或多个所存储的激活模式相比较的处理器是第一处理器,所述电设备包括与第一处理器分开的第二处理器,所述第二处理器用于在所述设备在被激活的全功率模式下运行时控制所述电设备的功能。
8.如权利要求6所述的待机激活系统,其特征在于,包括一个或多个所存储的激活模式的非易失性存储器是第一非易失性存储器,所述电设备包括与第一非易失性存储器分开的第二非易失性存储器,所述第二非易失性存储器包括在所述设备在被激活的全功率模式下运行时存储所述电设备的数据。
9.如权利要求6所述的待机激活系统,其特征在于,在待机功率模式下对所述电设备可用的功率为O. 5瓦。
10.一种具有计算机可执行指令的计算机可读存储介质(112,143,470,238),所述指令用于将处理器(101,468)编程为执行一种用于将NUI系统的计算设备(12)从待机功率模式激活的方法,包括 (a)在处于待机功率模式时在与所述NUI系统相关联的一个或多个话筒中接收(步骤424)音频流; (b)在处于待机功率模式时将所述音 频流数字化(步骤432)成音频模式; (c)在处于待机功率模式时处理(步骤430)数字化音频流以促进数字化音频流与存储在所述计算设备的非易失性存储器中的一个或多个数字化激活短语的匹配; (d)在处于待机功率模式时将在所述步骤(c)处理的音频模式与存储在所述计算设备的非易失性存储器中的一个或多个数字化激活短语相比较(步骤436);以及 (e)当所述音频模式在预定义的公差内与所述一个或多个激活短语中的一个激活短语匹配时激活(步骤450)所述计算设备。
全文摘要
本发明涉及用于设备激活的音频模式匹配。公开了用于将电设备从待机功率模式激活到全功率模式的系统和方法。该系统可以包括用于监测电设备附近的音频信号的一个或多个话筒、以及包括低功率微处理器和非易失性存储器的待机功率激活单元。由所述一个或多个话筒捕捉的音频被微处理器数字化并与存储在非易失性存储器中的预定义的激活模式相比较。如果检测到数字音频模式与预定义的激活模式之间的模式匹配,则电设备被激活。
文档编号G10L15/26GK103019373SQ201210462279
公开日2013年4月3日 申请日期2012年11月16日 优先权日2011年11月17日
发明者R·默蒂, E·C·贾伊默三世 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1