唤醒语音助手的方法及装置的制造方法
【技术领域】
[0001]本发明涉及通信技术领域,特别是涉及一种唤醒语音助手的方法、唤醒语音助手的装置。
【背景技术】
[0002]语音识别技术从20世纪50年代开始出现,刚开始发展比较缓慢,只能识别少量的孤立的词汇,直至90年代,这项技术开始在应用和产品化方面取得了比较大的突破,成为了技术研宄的重点,其中应用较广泛的有苹果公司的Siri (苹果智能语音助手),国内的科大讯飞、百度语音、搜狗语音助手等。
[0003]在现有的各语音助手中,一般需要输入特定的语音完成触发,从而使语音助手处于语音待输入状态。例如在接电源的情况下,只要对着带Siri的1s(苹果公司的移动操作系统)设备说一声Hey Siri,就会唤醒Siri服务。语音触发作为语音输入的开启动作,不需要接触设备,很好地解决了在特定环境下进行语音输入的问题。
[0004]但是,现有的语音助手在使用时需要特定语音唤醒,而长时间开启语音唤醒功能会消耗较多的电量,并且用户需要先通过特定语音唤醒语音助手,然后再向语音助手输入相应的语音操作指令,过程较为冗余。
【发明内容】
[0005]基于此,有必要针对上述问题,提供一种操作简单的唤醒语音助手的方法及装置。
[0006]一种唤醒语音助手的方法,包括步骤:
[0007]获取人脸图像以及对应的环境声音;
[0008]检测所述人脸图像是否满足第一预设条件;
[0009]若所述人脸图像满足第一预设条件,检测所述环境声音是否满足第二预设条件;
[0010]若所述环境声音满足第二预设条件,则唤醒语音助手,并将所述环境声音作为语音操作指令输入语音助手。
[0011]一种唤醒语音助手的装置,包括:
[0012]人脸图像获取模块,用于获取人脸图像;
[0013]环境声音获取模块,用于获取与人脸图像对应的环境声音;
[0014]人脸图像检测模块,用于检测所述人脸图像是否满足第一预设条件;
[0015]环境声音检测模块,用于在所述人脸图像满足第一预设条件时,检测所述环境声音是否满足第二预设条件;
[0016]唤醒模块,用于在所述环境声音满足第二预设条件时,唤醒语音助手,并将所述环境声音作为语音操作指令输入语音助手。
[0017]本发明唤醒语音助手的方法及装置,在人脸图像和环境声音满足相应的预设条件时,自动唤醒语音助手,并同时将所述环境声音作为语音操作指令输入语音助手,也即是用户可以直接下发操作指令,免去了语音触发的冗余步骤,实现了通信的简化,并节省了安装有语音助手的设备的电量。
【附图说明】
[0018]图1为本发明方法实施例的流程示意图;
[0019]图2为本发明步骤S120具体实施例的流程示意图;
[0020]图3为本发明步骤S130具体实施例的流程示意图;
[0021]图4为本发明装置实施例的结构示意图;
[0022]图5为本发明人脸图像检测模块实施例的结构示意图;
[0023]图6为本发明第一判断单元实施例的结构示意图;
[0024]图7为本发明环境声音检测模块实施例的结构示意图。
【具体实施方式】
[0025]下面结合附图对本发明唤醒语音助手的方法的【具体实施方式】做详细描述。
[0026]如图1所示,一种唤醒语音助手的方法,包括步骤:
[0027]S110、获取人脸图像以及对应的环境声音;
[0028]S120、检测所述人脸图像是否满足第一预设条件;
[0029]S130、若所述人脸图像满足第一预设条件,检测所述环境声音是否满足第二预设条件;
[0030]S140、若所述环境声音满足第二预设条件,则唤醒语音助手,并将所述环境声音作为语音操作指令输入语音助手。
[0031]人脸图像可以根据摄像头获取,环境声音可以根据麦克风等获取。获取的摄像头图像和环境声音需进行存储,以便后续的条件检测。为了节省存储空间,可以设置人脸图像和环境声音的保留存储时间,以便一次操作完成后,无用的数据及时清除,腾出存储空间。
[0032]获取人脸图像和环境声音后,可以先检测人脸图像是否满足第一预设条件,其中第一预设条件可以根据用户需要设置为各种具体形式。例如,如图2所示,步骤S120可以包括步骤:
[0033]S1201、判断人脸图像是否为正面人脸图像,若是,进入步骤S1202,否则返回步骤SllO ;
[0034]S1202、判断人脸图像中的嘴部是否有动作,若有动作,进入步骤S1203,否则返回步骤SllO ;
[0035]S1203、判定所述人脸图像满足第一预设条件。
[0036]用户在使用语音助手时,一般正面面对智能手机或平板等,然后通过嘴部发出语音指令,也即是摄像头捕捉到的人脸图像是正面人脸图像,且检测到嘴部有动作时,按照经验,一般使用语音助手的可能性较大。判断人脸图像是否为正面人脸图像的方式有很多种,例如,步骤S1201包括步骤:
[0037]获取人脸图像中双眼的距离;
[0038]判断双眼的距离是否在预设范围内;
[0039]若是,则判定人脸图像是正面人脸图像,否则判定人脸图像不是正面人脸图像。
[0040]由于现实中使用语音助手时,用户不可能完全正向摄像头,所以本发明检测时允许一定的偏值,即本发明不限制于确定人脸图像是正面人脸图像,也可以判断人脸图像是不是近似正面人脸图像。同时确定人脸图像是不是正面人脸图像也不仅仅限制于上述提供的方法,还可以根据现有技术中其它方式实现。
[0041]嘴部是人的主要声音源,当需要向语音助手发出语音指令时,会伴随着嘴部的动作。所以在判定人脸图像是正面人脸图像后,加入嘴部动作特征的判定,能够提高准确性。根据获取的人脸图像判断嘴部是否有动作可以根据现有技术中已有的方式实现。
[0042]在检测到人脸图像时正面人脸图像且嘴部有动作时,即可以进入环境声音的检测步骤。当然用户可以根据需要添加其它的面部验证条件,从而进一步提高准确性,本发明在此不予详述。
[0043]如图3所示,步骤S130可以包括步骤:
[0044]S1301、判断所述环境声音的音量是否在预设范围内;
[0045]S1302、判断与所述环境声音的声源的距离是否小于预设阈值;
[0046]S1303、若所述音量在预设范围内且与所述声源的距离小于预设阈值,则判定所述环境声音满足第二预设条件,否则返回步骤S110。
[0047]一般用户使用语音助手时,声音的音量不会太大或者太小,而且距离设备的距离不会太大,所以本发明加入了音量大小以及距离的判断。音量可以根据现有技术中的音量检测仪等得到,设备距离声源的距离可以根据声音在空气中的定性的衰减公式确定。在根据环境声音得到音量和距离后,即可以判断音量是否在预设范围内,距离是否小于预设阈值,从而确定环境声音是否满足第二预设条件,其中预设范围和预设阈值均可以根据经验自行设定。
[0048]在环境声音满足第二预设条件时,确定用户需要对智能设备进行语音输入,唤醒语音助手,并同时将环境声音作为语音操作指令输入语音助手,语音助手直接执行相应的操作,免去了特定语音唤醒语音助手的步骤,用户操作简单。
[0049]需要说明的是,本发明并不对人脸图像及环境声音的检测顺序加以限定,另外,用户可以根据实际情况进行其他对话特征的排查,例如检测到用户是在哼歌或自言自语时认为不满足第二预设条件等,本发明并不对判定条件加以限定。
[0050]为了更好的理解本发明的实施过程,下面结合一个具体应用场景进行说明。
[0051]在厨房中做菜时,我们想借助平板电脑进行菜谱展示,从而按照上面的步骤完成一道自己不熟悉的菜式。当做完一道工序之后我们希望平板电脑中的软件能够展示下一道工序,这时候便要向它输入指令,但是这时候有可能双手都在忙或者沾上油渍不方便触碰平板电脑,这时我们只需要脸转向平板电脑说一声“下一步”,然后本发明提供的语音唤醒软件判断出我们是在向平板电脑的语音助手输入指令,而不是对别的人说话,这样便直接完成了语音助手的唤醒步骤,并且语音助手可以立即将语音解析出来,并使菜谱软件的展示翻到下一步。
[0052]基于同一发明构思,本发明还提供一种唤醒语音助手的装置,下面结合附图对本发明装置的【具体实施方式】做详细描述。
[0053]如图4所示,一种唤醒语音助手的装置,包括:
[0054]人脸图像获取模块410,用于获取人脸图像;
[0055]环境声音获取模块420,用于获取与人脸图像对应的环境声音;