基于深度的语境识别的制作方法
【技术领域】
[0001]本发明涉及使用姿势或手势信息识别语音命令以提高语音识别的准确性。
【背景技术】
[0002]车辆的驾驶员或乘客通常用手指或手使用开关、屏幕、键盘或其它输入机构来操作车辆中的各种设备。这样的输入机构可以用于操作例如导航系统、娱乐系统、空调系统或电话系统。有时,必须要对输入机构执行一系列复杂的操作来向设备发出期望的命令。然而对于驾驶员来说,将双手保持在方向盘上并且仅用短暂的时间通过手间歇地操作这些输入设备是更为可取的。根据操作的复杂性,在驾驶员能够执行期望的操作之前可能需要多次尝试来操作输入设备。
[0003]因此,使用较少的利用驾驶员的双手的操作模式是有利的。一种这样的操作模式是语音识别。语音识别是将声音信号转化成语音元素(例如,音素、词语以及句子)的处理过程。语音识别已经应用在从电话操作到车辆操作的各种领域。在语音识别系统中,由输入设备(例如,传声器)采集音频信号并将其转化成数字信号,然后使用一种或多种算法将其处理成包含在音频信号中的输出语音元素。根据应用领域,识别出的语音元素可以是语音识别的最终结果或者是用于进一步处理的中间信息。
[0004]在车辆中使用语音识别的问题之一是,类似的或者相同的言语命令可以用于不同的设备。类似的或相同的言语命令的共用导致言语命令中的歧义。例如,诸如“定位XYZ”的命令可表示在导航的情况下特定兴趣点(POI)的定位,而相同的命令还可表示娱乐系统中音轨的识别。如果用户的命令的语境没有被正确地识别,用户意图之外的操作可被车辆中的设备执行。
[0005]由于歧义性的言语命令所造成的无意操作以及随后的补救措施所花费的时间会损害用户体验并且导致用户恢复人工操作。
【发明内容】
[0006]本发明的实施例提供基于用户的姿势或手势识别言语命令的系统或方法。通过表示用户的姿势或手势的手势信息选择有可能被用户定为目标用于操作的多个设备中的一个或多个设备。根据所接收的手势信息选择与被用户定为目标的一个或多个设备关联的多个言语命令。使用选择的多个言语命令处理音频信号以确定用于操作所述一个或多个设备的设备命令。
[0007]在本发明的一种实施例中,深度相机用于拍摄至少一个深度影像。各个深度影像覆盖用户的至少部分并且包括表示从深度相机到用户的所述至少部分的距离的像素。处理所述至少一个深度影像以确定用户的姿势或手势。根据所识别的姿势或手势生成手势信息。
[0008]在一种实施例中,用户的所述至少部分包括用户的手或前臂。
[0009]在一种实施例中,深度相机安装在带有覆盖用户的视野的车辆中的头顶控制台中。
[0010]在一种实施例中,所述多个设备包括车辆中的至少导航系统以及娱乐系统。
[0011]在一种实施例中,手势信息表示用户的手或前臂是否定位在自深度相机的距离之内或者是否定位在自深度相机的所述距离之外。响应于表示手或前臂定位在所述距离之内的手势信息选择第一组言语命令。响应于表示手或前臂定位在所述距离之外的手势信息选择第二组言语命令。
[0012]在一种实施例中,第一组言语命令与在车辆中执行导航操作相关联。第二组言语命令与操作娱乐系统、空调控制系统或诊断系统相关联。
[0013]说明书中描述的特征和优点不是包括一切的,并且特别地,许多额外的特征和优点对于查看了附图、说明书以及权利要求书的本领域技术人员来说将是显而易见的。此外,应当注意的是,本说明书中使用的语言主要选择用于可读性和指导的目的,而不是选择用来描绘或限制发明主题。
【附图说明】
[0014]通过结合附图考虑下面的详细描述可以容易地理解本发明的教导。
[0015]图1A为根据一种实施例的装备有命令处理系统的车辆的侧视图。
[0016]图1B为根据一种实施例的图1A的车辆的俯视图。
[0017]图2为根据一种实施例的命令处理系统的框图。
[0018]图3为根据一种实施例的语音识别模块的框图。
[0019]图4为根据一种实施例的说明用于兴趣点的搜索区域的概念图。
[0020]图5为根据一种实施例的基于由相机拍摄的深度影像执行语音识别的方法的流程图。
【具体实施方式】
[0021]现在参考附图描述优选实施例,附图中相似的附图标记表示完全相同或功能上相似的元素。
[0022]说明书中提到的“一种实施例”或“实施例”表示结合所述实施例描述的特定的特征、结构或特性包括在至少一种实施例中。在说明书中多处出现的短语“在一种实施例中”不一定都指的是相同的实施例。
[0023]下面的详细描述的某些部分以计算机存储器内数据位的操作的算法和符号表示的形式给出。这些算法描述和表示是由数据处理领域的技术人员用来最有效地将他们工作的实质传达给本领域的其他技术人员的方法。在这里,算法通常被看作是导致期望的结果的自洽的步骤(指令)序列。所述步骤是需要物理量的物理处理的那些步骤。尽管不是必须的,但这些量通常采取能够被存储、传送、组合、比较以及以其它方式处理的电信号、磁信号或光信号的形式。主要是出于通用的原因,有时将这些信号称为比特、值、元素、符号、字符、项、数字等是方便的。此外,有时将需要物理量的物理操作的步骤的某些安排称为模块设备或编码设备也是方便的,而且不失一般性。
[0024]然而,所有这些和类似的术语都与合适的物理量相关联,并且仅仅是应用于这些量的方便的标号。除非以下讨论中明显地另有特别声明,否则应当理解的是,在整个说明书中,利用诸如“处理”或“计算(computing) ”或“计算(calculating) ”或“确定”或“显示”或“确定”等术语的讨论是指计算机系统或类似的电子计算设备对在计算机系统存储器或寄存器或其它这种信息存储、传输或显示设备内表示为物理(电子)量的数据进行操纵和变换的动作和过程。
[0025]实施例的某些方面包括本文中以算法形式描述的处理步骤和指令。应该注意的是,处理步骤和指令可体现在软件、固件或硬件中,并且当体现在软件中时,其可以被下载以驻留在由各种操作系统所使用的不同的平台上并从所述不同的平台进行操作。
[0026]实施例还可涉及用于执行本发明的操作的装置。此装置可以是为需要的目的具体构造的,或者其可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的一般用途的计算机。这样的计算机程序可储存在计算机可读存储介质中,例如但不限于包括软盘、光盘、只读光盘存储器(⑶-ROMs)、磁光盘、只读存储器(ROMs)、随机存取存储器(RAMs)、电可编程只读存储器(EPROMs)、电可擦除只读存储器(EEPROMs)、磁卡或光卡、专用集成电路(ASICs)或适合于存储电子指令并且每个都连接至计算机系统总线的任何类型的介质的任何类型的盘。此外,说明书中涉及的计算机可包括单处理器或者可以是设计用来提高计算能力的使用多个处理器的架构。
[0027]本文所述的算法和显示并不固有地涉及任何特定的计算机或其它装置。各种通用系统也可与根据本文的教导的程序一起使用,或者其可便于构造更专用的装置来执行所需的方法步骤。用于各种这样的系统的所需结构将从以下描述中显而易见。此外,实施例并不参照任何特定的编程语言来描述。可以理解的是,各种编程语言可用于实现本文所述的教导,并且下面所提供的对于特定语言的任何引用是用于实现和最佳模式的公开。
[0028]此外,说明书中使用的语言主要是出于