一种基于视觉唤醒的语音控制方法
【技术领域】
[0001]本发明涉及智能控制技术领域,尤其涉及一种基于视觉唤醒的语音控制方法。
【背景技术】
[0002]随着科技的发展,从手控到音控,智能语音技术正逐步渗透至电视、家居、汽车、可穿戴设备等多个领域,越来越多的设备支持语音控制。未来的智能家庭很可能是完全或大部分地基于语音控制的。
[0003]图1示出一个典型的语音控制设备的结构,其包含语音接收单元1,通常为麦克风,还包含语音识别单元2和处理单元3。语音识别单元2获取来自语音接收单元I的语音信号,并进行语音信号识别,将识别的结果发送给处理单元3,处理单元3指令该语音控制设备执行对应该语音信号的命令。
[0004]在控制身边的多个诸如图1所示的语音控制设备时,与这些设备的语音交互中的一个重要功能是语音唤醒。这是可以理解的,为了区别地对待这多个语音控制设备,能将命令准确地发送给其中确定的一个设备而使其他设备不受影响,只唤醒这个设备使它接收命令是必要的前提。目前唤醒语音控制设备的语音唤醒一般基于唤醒词,例如设备的名称、代号等。
[0005]但目前的这种语音唤醒方式具有很多先天缺陷,比如当用户说了和唤醒词相同/相近的词,那么虽然实际上用户并没有唤醒该设备的意思,设备也会被唤醒。另外,每次用户唤醒设备时都要说唤醒词,这对于用户来说并不是什么好的使用体验。
[0006]由于人在语音交互中的一个普遍习惯是注视与其语音交互的对象,在用语音控制语音控制设备时,使用者也是习惯于注视着该设备。因此相比于目前的语音唤醒,通过检测使用者的目光确定唤醒的目标设备是更为符合使用者的日常体验的。
[0007]因此,本领域的技术人员致力于开发一种基于视觉唤醒的语音控制方法,以更智能地唤醒目标设备。
【发明内容】
[0008]为实现上述目的,本发明提供了一种基于视觉唤醒的语音控制方法,用于唤醒语音控制设备以使所述语音控制设备对其接收的语音信号做出回复,其特征在于,所述语音控制方法包括:
[0009]步骤一、语音控制设备接收到至少部分的所述语音信号后,启动安装在其上的图像接收单元;
[0010]步骤二、所述图像接收单元获取图像并传送到图像识别单元;
[0011]步骤三、所述图像识别单元识别所述图像,当在所述图像中检测到视线朝向所述语音控制设备的人脸时,所述语音控制设备被唤醒以识别所述语音信号。
[0012]可选地,所述图像接收单元为摄像头。
[0013]进一步地,所述摄像头为广角摄像头。
[0014]可选地,所述图像接收单元为可旋转摄像头,所述可旋转摄像头包括云台,所述云台安装在所述语音控制设备上。
[0015]进一步地,所述云台是2轴驱动的。
[0016]进一步地,所述步骤一包括:所述语音控制设备根据接收到的所述至少部分的所述语音信号,分辨所述语音信号的来源方向;当所述语音控制设备能确定所述语音信号的来源方向时,所述语音控制设备指令所述摄像头转向所述语音信号的来源方向获取图像,当所述语音控制设备不能确定所述语音信号的来源方向时,所述语音控制设备指令所述摄像头在其最大旋转角度范围内转动并获取图像。
[0017]进一步地,所述步骤三包括:
[0018]对于所述语音控制设备能确定所述语音信号的来源方向的情况,当所述图像识别单元在所述图像中检测到视线朝向所述语音控制设备的人脸时,所述语音控制设备接收完毕所述语音信号后识别所述语音信号,并做出回复;
[0019]对于所述语音控制设备不能确定所述语音信号的来源方向的情况,当所述图像识别单元在所述图像中检测到视线朝向所述语音控制设备的人脸且所述人脸正在说话且所述语音信号后未接收完毕时,所述语音控制设备接收完毕所述语音信号后识别所述语音信号,并做出回复;当所述图像识别单元在所述图像中检测到视线朝向所述语音控制设备的人脸且所述人脸不在说话且所述语音信号已接收完毕时,所述语音控制设备识别所述语音信号并做出回复,如果语音控制设备不能识别所述语音信号则不做回复。
[0020]进一步地,当在所述步骤三中,所述图像中未检测到视线朝向所述语音控制设备的人脸时,所述语音控制设备不被唤醒。
[0021]进一步地,所述语音控制设备通过语音接收单元接收所述语音信号,通过语音识别单元识别所述语音信号。
[0022]进一步地,所述语音接收单元为麦克风。
[0023]本发明的基于视觉唤醒的语音控制方法使语音控制设备在开始接收到来源于使用者的语音信号时启动视觉唤醒功能,通过使用图像接收单元和图像识别单元在语音信号的来源方向搜索视线朝向该语音控制设备的人脸或者在整个区域搜索视线朝向该语音控制设备的人脸来判断是否唤醒该语音控制设备;被唤醒的语音控制设备通过语音识别单元识别接收的语音信号,做出相应的回复。本发明通过上述的视觉唤醒功能来唤醒语音识别单元,更符合使用者的日常语音交互习惯,使用更为方便、智能。
[0024]以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
【附图说明】
[0025]图1是现有技术的语音控制设备的结构框图。
[0026]图2是本发明的基于视觉唤醒的语音控制方法所应用的语音控制设备的一种形式的结构框图。
[0027]图3是本发明的基于视觉唤醒的语音控制方法所应用的语音控制设备的另一种形式的结构框图。
[0028]图4是应用图3所示的语音控制设备的本发明的基于视觉唤醒的语音控制方法的流程图。
【具体实施方式】
[0029]如图2所示,在本发明的一个较佳的实施例中,本发明的基于视觉唤醒的语音控制方法所应用的语音控制设备包括语音接收单元1、图像接收单元11、语音识别单元2、图像识别单元12和处理单元13。其中,语音接收单元I为麦克风;图像接收单元11为摄像头,较佳地为广角摄像头;语音接收单元I和图像接收单元11安装在语音控制设备的外壳上。语音识别单元2获取来自语音接收单元I的语音信号,并进行语音信号识别,将识别的结果发送给处理单元13。本示例中采用的语音识别单元2可以是任何现有技术的具有语音识别功能的软件(和硬件)。图像识别单元12获取来自图像接收单元11的图像,并进行图像识别,将识别的结果发送给处理单元13,本示例中采用的图像识别单元12可以是任何现有技术的具有人脸及视线方向的识别功能的软件,例如中国专利申请“一种基于视线判断的人机交互方法及系统”(申请号:CN201210261378.8)、中国专利申请“快速精确的人眼定位方法及基于人眼定位的视线估计方法”(申请号:CN201510152613.1)等。另外,处理单元13能够向语音识别单元2和图像识别单元12发出指令,指示其工作。
[0030]应用图2所示的语音控制设备的本发明的基于视觉唤醒的语音控制方法包括:
[0031]步骤一、语音控制设备的语音接收单元I接收到至少部分的语音信号后,例如刚开始接收到1-2个音节后,启动图像接收单元11。
[0032]步骤二、图像接收单元11获取图像并传送到图像识别单元12,即作为图像接收单元11的摄像头获取其视野范围内的图像,并将该图像发送给图像识别单元12。
[0033]步骤三、图像识别单元12识别该图像,当在图像中检测到视线朝向语音控制设备的人脸时,图像识别单元12将此识别结果发送给处理单元13,处理单元13使语音控制设备被唤醒。继而处理单元13使语音识别单元2工作,语音识别单元2接收完整的语音信号并对其进行识别,语音识别单元2将识别结果发送给处理单元3,处理单元3使语音控制设备对该语音信号做出回复。
[0034]更优选地,如图3所示,在本发明的一个较佳的实施例中,本发明的基于视觉唤醒的语音控制方法所应用的语音控制设备包括语音接收单元1、图像接收单元21、语音识别单元2、图像识别单元22和处理单元23。其中,语音接收单元I为麦克风;图像接收单元21为可旋转摄像头,如具有能够绕水平轴和竖直轴转动的2轴驱动的云台的可旋转摄像头;语音接收单元I和图像接收单元21安装在语音控制设备的外壳上,其中可旋转摄像头的云台安装在语音控制设备的外壳上。语音识别单元2获取来自语音接收单元I的语音信号,并进行语音信号识别,将识别的结果发送给处理单元23。本示例中采用的语音识别单元2可以是任何现有技术的具有语音识别功能并且能辨别语音的来源方向的软件(和硬件)。图像识别单元22获取来自图像接收单元21的图像,并进行图像识别,将识别的结果发送给处理单元23,本示例中采用的图像识别单元22可以是和前一示例中相同的任何现有技术的具有人脸及视线方向的识别功能的软件。另外,处理单元23能够向语音识别单元2和图像识别单元22发出指令,指示其工作;处理单元23还能够控制作为图像接收单元21的可旋转摄像头的云台的转动,由此控制可旋转摄像头的转动方向和角度。
[0035]应用图3所示的语音控制设备的本发明的基于视觉唤醒的语音控制方