全双工语音控制方法、装置、存储介质及语音设备与流程

文档序号:23422914发布日期:2020-12-25 11:49阅读:179来源:国知局
全双工语音控制方法、装置、存储介质及语音设备与流程

本公开涉及语音交互技术领域,尤其涉及一种全双工语音控制方法、装置、存储介质及语音设备。



背景技术:

语音交互已经成为人们必不可少的人家交互方式,可实现一句话开灯、调电视台等,因此如何提高语音交互的体验,让语音交互更自然,已成为用户关注的话题,而全双工语音就是让语音交互更自然的一个方向。

相关技术中,全双工语音的原理是始终打开mic收音,或者将收音时间延长在一定的收音时间段内,存在容易受环境因素影响,导致误识别误执行的问题。



技术实现要素:

为克服相关技术中存在的技术问题,本公开提供一种全双工语音控制方法、装置、存储介质及语音设备。

根据本公开实施例的第一方面,提供一种全双工语音控制方法,包括:

在语音设备处于收音状态的情况下,响应于接收到目标对象发出的语音指令,采集所述目标对象的生物特征信息;

在所述生物特征信息与预设特征信息相匹配的情况下,获取所述目标对象的发音方向信息;

根据所述发音方向信息确定所述目标对象的发音方向是否朝向所述语音设备;

在所述目标对象的发音方向朝向所述语音设备的情况下,执行所述语音指令对应的操作,并延长所述语音设备的收音时长;

在所述目标对象的发音方向未朝向所述语音设备的情况下,丢弃所述语音指令对应的操作,并缩短所述语音设备的收音时长。

可选的,所述采集所述目标对象的生物特征信息,包括:

根据所述语音指令采集所述目标对象的声纹信息。

可选的,所述获取所述目标对象的发音方向信息,包括:

通过摄像头采集所述目标对象的影像信息,并根据所述影像信息确定所述目标对象的人脸特征信息以及口型特征信息;

根据所述影像信息确定所述目标对象的面部朝向,所述发音方向信息包括所述面部朝向。

可选的,所述采集所述目标对象的生物特征信息,包括:

通过摄像头采集所述目标对象的影像信息,并根据所述影像信息确定所述目标对象的人脸特征信息以及口型特征信息;

采集所述目标对象的人脸特征信息以及口型特征信息。

可选的,所述获取所述目标对象的发音方向信息,包括:

获取所述采集的所述目标对象的人脸特征信息以及口型特征信息;

根据所述影像信息确定所述目标对象的面部朝向,所述发音方向信息包括所述面部朝向。

可选的,所述延长所述语音设备的收音时长,包括:

根据预设的增长梯度延长所述收音时长,所述增长梯度包括多个增长比例,并且后一次的增长比例大于前一次的增长比例;

所述缩短所述语音设备的收音时长,包括:

根据预设的缩短梯度缩短所述收音时长,所述缩短梯度包括多个缩短比例,并且后一次的缩短比例大于前一次的缩短比例。

可选的,在缩短所述语音设备的收音时长之后,所述方法还包括:

在缩短后的收音时长小于预设的最短收音时长阈值的情况下,控制所述语音设备停止收音。

根据本公开实施例的第二方面,提供一种全双工语音控制装置,包括:

第一信息获取模块,被配置成在语音设备处于收音状态的情况下,响应于接收到目标对象发出的语音指令,采集所述目标对象的生物特征信息;

第二信息获取模块,被配制成在所述生物特征信息与预设特征信息相匹配的情况下,获取所述目标对象的发音方向信息;

判断模块,被配置成根据所述发音方向信息确定所述目标对象的发音方向是否朝向所述语音设备;

第一执行模块,被配置成在所述目标对象的发音方向朝向所述语音设备的情况下,执行所述语音指令对应的操作,并延长所述语音设备的收音时长;

第二执行模块,被配置成在所述目标对象的发音方向未朝向所述语音设备的情况下,丢弃所述语音指令对应的操作,并缩短所述语音设备的收音时长。

可选的,所述第一信息获取模块被配置成根据所述语音指令采集所述目标对象的声纹信息。

可选的,所述第二信息获取模块被配置成通过摄像头采集所述目标对象的影像信息,并根据所述影像信息确定所述目标对象的人脸特征信息以及口型特征信息;

根据所述影像信息确定所述目标对象的面部朝向,所述发音方向信息包括所述面部朝向。

可选的,所述第一信息获取模块被配置成通过摄像头采集所述目标对象的影像信息,并根据所述影像信息确定所述目标对象的人脸特征信息以及口型特征信息;

采集所述目标对象的人脸特征信息以及口型特征信息。

可选的,所述第二信息获取模块被配置成获取所述采集的所述目标对象的人脸特征信息以及口型特征信息;

根据所述影像信息确定所述目标对象的面部朝向,所述发音方向信息包括所述面部朝向。

可选的,所述第一执行模块被配置成根据预设的增长梯度延长所述收音时长,所述增长梯度包括多个增长比例,并且后一次的增长比例大于前一次的增长比例;

所述第二执行模块被配置成根据预设的缩短梯度缩短所述收音时长,所述缩短梯度包括多个缩短比例,并且后一次的缩短比例大于前一次的缩短比例。

可选的,所述装置还包括第一收音控制模块,所述第一收音控制模块被配置成在缩短后的收音时长小于预设的最短收音时长阈值的情况下,控制所述语音设备停止收音。

根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的全双工语音控制方法的步骤。

根据本公开实施例的第四方面,提供一种全双工语音控制装置,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:

在语音设备处于收音状态的情况下,响应于接收到目标对象发出的语音指令,采集所述目标对象的生物特征信息;

在所述生物特征信息与预设特征信息相匹配的情况下,获取所述目标对象的发音方向信息;

根据所述发音方向信息确定所述目标对象的发音方向是否朝向所述语音设备;

在所述目标对象的发音方向朝向所述语音设备的情况下,执行所述语音指令对应的操作,并延长所述语音设备的收音时长;

在所述目标对象的发音方向未朝向所述语音设备的情况下,丢弃所述语音指令对应的操作,并缩短所述语音设备的收音时长。

根据本公开实施例的第五方面,提供一种语音设备,所述语音设备包括本公开第二方面所提供的全双工语音控制装置。

本公开的实施例提供的技术方案可以包括以下有益效果:通过对发出语音指令的目标对象的生物特征信息进行识别,使得语音设备在与用户进行连续对话的过程中,能够仅响应该预设特征信息指定的用户(该用户例如可以是语音设备的唤醒人)的语音指令,降低了误识别误执行的概率,并且,在出现非预设特征信息指定的用户发出语音指令的情况下,语音设备能够缩短收音时长,减少了语音设备在环境噪音过多的情况下的收音时长,进一步降低了误识别误执行的概率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种全双工语音控制方法的流程图。

图2是根据一示例性实施例示出的一种全双工语音控制方法的另一流程图。

图3是根据一示例性实施例示出的一种全双工语音控制方法的另一流程图。

图4是根据一示例性实施例示出的一种全双工语音控制装置的框图。

图5是根据一示例性实施例示出的一种全双工语音控制装置的另一框图。

图6是根据一示例性实施例示出的一种全双工语音控制装置的另一框图。

图7是根据一示例性实施例示出的一种全双工语音控制装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种全双工语音控制方法的流程图,其中,该全双工语音控制方法例如可以用于语音设备中,该语音设备可以为移动终端,智能音箱、语音电视等,本公开对此不作限定。如图1所示,该方法包括以下步骤:

在步骤s110中,在语音设备处于收音状态的情况下,响应于接收到目标对象发出的语音指令,采集所述目标对象的生物特征信息;

在步骤s120中,在所述生物特征信息与预设特征信息相匹配的情况下,获取所述目标对象的发音方向信息;

在步骤s130中,根据所述发音方向信息确定所述目标对象的发音方向是否朝向所述语音设备;

在步骤s140中,在所述目标对象的发音方向朝向所述语音设备的情况下,执行所述语音指令对应的操作,并延长所述语音设备的收音时长;

在步骤s150中,在所述目标对象的发音方向未朝向所述语音设备的情况下,丢弃所述语音指令对应的操作,并缩短所述语音设备的收音时长。

可选的,所述生物特征信息可以包括不同类型的特征信息,如声纹信息、面部信息、口型特征信息等;

所述预设特征信息可以包括与所述生物特征信息对应的预设声纹信息、预设面部信息、预设口型特征信息中等。

本实施例通过对目标对象的声纹识别、面部识别、口型识别来确定目标对象为预设特征信息指定的用户(该用户例如可以是语音设备的唤醒人),然后根据目标对象的发音方向确定目标对象是否正在向语音设备发送指令;在目标对象的发音方向朝向语音设备的情况下,执行语音指令对应的操作,并延长语音设备的收音时长;在目标对象的发音方向未朝向语音设备的情况下(例如可以是目标对象在和其他用户交谈的情况),丢弃语音指令对应的操作,并缩短语音设备的收音时长,从而实现语音设备的智能收音,减少了语音设备在环境噪音过多的情况下的收音时长,在交互过程中语音设备只响应设特征信息指定的用户发起的指令,降低了误识别误执行的概率。在对语音设备收音时间窗判断的基础上,结合声纹识别、面部识别、口型识别,使得语音设备在一次唤醒后,可与设特征信息指定的用户进行连续的对话,提高语音交互的体验。

可选的,在步骤s110中采集目标对象的生物特征信息,可以通过以下步骤实现:

根据所述语音指令采集所述目标对象的声纹信息。

可选的,在步骤s110中采集目标对象的生物特征信息,还可以通过以下步骤实现:

通过摄像头采集所述目标对象的影像信息,并根据所述影像信息确定所述目标对象的人脸特征信息以及口型特征信息;

所述预设特征信息包括预设的所述语音设备的唤醒人的声纹信息、人脸特征信息以及口型特征信息。

可选的,在步骤s120中,在所述生物特征信息与预设特征信息相匹配的情况下,获取所述目标对象的发音方向信息,可以通过以下步骤实现:

通过摄像头采集所述目标对象的影像信息,并根据所述影像信息确定所述目标对象的人脸特征信息以及口型特征信息;

根据所述影像信息确定所述目标对象的面部朝向,所述发音方向信息包括所述面部朝向。

可选的,在步骤s120中,在所述生物特征信息与预设特征信息相匹配的情况下,获取所述目标对象的发音方向信息,还可以通过以下步骤实现:

获取所述采集的所述目标对象的人脸特征信息以及口型特征信息;

根据所述影像信息确定所述目标对象的面部朝向,所述发音方向信息包括所述面部朝向。

本实施例中在目标对象未在摄像头采集范围内时,通过声纹识别来确定目标对象为语音设备的唤醒人;或者在目标对象在摄像头采集范围内时,通过面部识别结合口型识别来确定目标对象为语音设备的唤醒人;使得语音设备仅响应唤醒人发起的指令。根据语音设备与目标对象在当前场景中的实际情况,采用对应的方式来验证目标对象的身份信息,提升了语音设备对唤醒人进行身份验证的灵活性,避免了其他对象对语音设备和唤醒人交互过程的干扰。

进一步的,在目标对象向语音设备发送指令的情况下,获取的目标对象的发音方向朝向语音设备,此时语音设备执行目标对象当前发出的语音指令对应的操作,并延长语音设备的收音时长;在目标对象和其它对象进行交流的情况下,获取的目标对象的面部朝向未朝向语音设备,此时语音设备丢弃目标对象当前的发出的语音指令对应的操作,并缩短语音设备的收音时长。使得语音设备可智能识别目标对象是否发出指令,避免语音设备根据目标对象与其他对象的交流内容进行误识别误操作。

可选的,在步骤s140中延长所述语音设备的收音时长,可以根据预设的增长梯度延长所述收音时长,所述增长梯度包括多个增长比例,并且后一次的增长比例大于前一次的增长比例;

在步骤s150中缩短所述语音设备的收音时长,可以根据预设的缩短梯度缩短所述收音时长,所述缩短梯度包括多个缩短比例,并且后一次的缩短比例大于前一次的缩短比例。

其中,预设的增长梯度和预设的缩短梯度可以根据人机交互过程中的具体情况进行预设,本公开不做具体限定。

举例说明,在本实施例中预设的增长梯度为5%、10%、15%、30%,预设的缩减梯度为5%、10%、15%、30%,语音设备的初始收音时长为10s;

在第一次接收目标对象发送指令,并确定目标对象的发音方向朝向语音设备的情况下,执行语音指令对应的操作,并延长语音设备的收音时长为10.5s;在第二次接收目标对象发送指令,并确定目标对象的发音方向还是朝向语音设备的情况下,执行语音指令对应的操作,并延长语音设备的收音时长为11.5s;在第三次接收目标对象发送指令,并确定目标对象的发音方向未朝向语音设备的情况下,丢弃语音指令对应的操作,并缩短所述语音设备的收音时长为11s。

在步骤s140中延长所述语音设备的收音时长,还可以将所述语音设备的收音时长延长至第一预设收音时长;

在步骤s150中缩短所述语音设备的收音时长,还可以将所述语音设备的收音时长缩短至第二预设收音时长;

其中,第一预设收音时长大于所述第二预设收音时长。

第一预设收音时长和第二预设收音时长可以根据人机交互过程中的具体情况进行预设,本公开不做具体限定。

举例说明,在本实施例中第一预设收音时长为30s,第二预设收音时长为8s,语音设备的初始收音时长为10s。

在确定目标对象的发音方向朝向语音设备的情况下,执行语音指令对应的操作,并延长语音设备的收音时长为30s;在确定目标对象的发音方向未朝向语音设备的情况下,执行语音指令对应的操作,并缩短语音设备的收音时长为8s。

本实施例根据目标对象的发音方向是否朝向语音设备来调整语音设备的收音时长,使得语音设备可以更加智能的进行收音,从而更加灵活地响应目标对象发送的语音指令,提高语音交互的体验。

图2是根据一示例性实施例示出的一种全双工语音控制方法的另一流程图,如图2所示,全双工语音控制方法例如可以用于语音设备中,该语音设备例如可以为移动终端,智能音响,语音电视等,本公开对此不做限定,该方法包括以下步骤:

在步骤s110中,在语音设备处于收音状态的情况下,响应于接收到目标对象发出的语音指令,采集所述目标对象的生物特征信息;

在步骤s120中,在所述生物特征信息与预设特征信息相匹配的情况下,获取所述目标对象的发音方向信息;

在步骤s130中,根据所述发音方向信息确定所述目标对象的发音方向是否朝向所述语音设备;

在步骤s140中,在所述目标对象的发音方向朝向所述语音设备的情况下,执行所述语音指令对应的操作,并延长所述语音设备的收音时长;

在步骤s150中,在所述目标对象的发音方向未朝向所述语音设备的情况下,丢弃所述语音指令对应的操作,并缩短所述语音设备的收音时长。

在步骤s160中,在缩短后的收音时长小于预设的最短收音时长阈值的情况下,控制所述语音设备停止收音。

其中,在步骤s160中最短收音时长阈值可以是根据语音设备的能力设定的该语音设备采集到有效语音指令的最短时长,可以根据人机交互过程中的具体情况进行预设的时长,本公开不做具体限定。

举例说明,在此种情况下,若执行步骤s150后,收音时长缩短为1.5s,则可以直接控制语音设备停止收音。

在本实施例中,通过最短收音时长阈值的限制,可避免语音设备的收音时间太短,不能接受到目标对象发出的完整的指令,节省语音设备的功耗。

图3是根据一示例性实施例示出的一种全双工语音控制方法的另一流程图,如图3所示,全双工语音控制方法例如可以用于语音设备中,该语音设备例如可以为移动终端,智能音响,语音电视等,本公开对此不做限定,该方法包括以下步骤:

在步骤s110中,在语音设备处于收音状态的情况下,响应于接收到目标对象发出的语音指令,采集所述目标对象的生物特征信息;

在步骤s120中,在所述生物特征信息与预设特征信息相匹配的情况下,获取所述目标对象的发音方向信息;

在步骤s130中,根据所述发音方向信息确定所述目标对象的发音方向是否朝向所述语音设备;

在步骤s140中,在所述目标对象的发音方向朝向所述语音设备的情况下,执行所述语音指令对应的操作,并延长所述语音设备的收音时长;

在步骤s150中,在所述目标对象的发音方向未朝向所述语音设备的情况下,丢弃所述语音指令对应的操作,并缩短所述语音设备的收音时长。

在步骤s170中,在收音时长的结束时刻,控制所述语音设备停止收音。

举例说明,在本实施例中,语音设备的收音时长可以为10s,在0s时刻时,控制语音设备停止收音。

在本实施例中,在收音时长结束时刻,控制语音设备停止收音,可避免在收音时长结束时刻后语音设备还在进行收音,节省语音设备的功耗。

图4是根据一示例性实施例示出的一种全双工语音控制装置的框图,该全双工语音控制装置可以以软件、硬件或者两者相结合的方式实现语音设备的部分或全部,如图4所示,全双工语音控制装置400包括:

第一信息获取模块401,被配置成在语音设备处于收音状态的情况下,响应于接收到目标对象发出的语音指令,采集所述目标对象的生物特征信息;

第二信息获取模块402,被配制成在所述生物特征信息与预设特征信息相匹配的情况下,获取所述目标对象的发音方向信息;

判断模块403,被配置成根据所述发音方向信息确定所述目标对象的发音方向是否朝向所述语音设备;

第一执行模块404,被配置成在所述目标对象的发音方向朝向所述语音设备的情况下,执行所述语音指令对应的操作,并延长所述语音设备的收音时长;

第二执行模块405,被配置成在所述目标对象的发音方向未朝向所述语音设备的情况下,丢弃所述语音指令对应的操作,并缩短所述语音设备的收音时长。

本实施例中全双工语音控制装置通过目标对象的生物特征信息来确定目标对象为预设特征信息指定的用户(该用户例如可以是语音设备的唤醒人),然后根据目标对象的发音方向确定目标对象是否正在向语音设备发送指令;在目标对象的发音方向朝向语音设备的情况下,执行语音指令对应的操作,并延长语音设备的收音时长;在目标对象的发音方向未朝向语音设备的情况下(例如可以是目标对象在和其他用户交谈的情况),丢弃语音指令对应的操作,并缩短语音设备的收音时长,从而实现语音设备的智能收音,减少了语音设备在环境噪音过多的情况下的收音时长,在对话过程中语音设备只响应设特征信息指定的用户发起的指令,避免了误识别误执行,提高语音交互的体验。

可选的,第一信息获取模块401具体可以根据所述语音指令采集所述目标对象的声纹信息。

可选的,第一信息获取模块401具体还可以用于获取模块被配置成通过摄像头采集所述目标对象的影像信息,并根据所述影像信息确定所述目标对象的人脸特征信息以及口型特征信息;

采集所述目标对象的人脸特征信息以及口型特征信息。

可选的,第二信息获取模块402具体可以用于通过摄像头采集所述目标对象的影像信息,并根据所述影像信息确定所述目标对象的人脸特征信息以及口型特征信息;

根据所述影像信息确定所述目标对象的面部朝向,所述发音方向信息包括所述面部朝向。

可选的,第二信息获取模块402具体还可以用于获取所述采集的所述目标对象的人脸特征信息以及口型特征信息;

根据所述影像信息确定所述目标对象的面部朝向,所述发音方向信息包括所述面部朝向。

可选的,第一执行模块404具体可以根据预设的增长梯度延长所述收音时长,所述增长梯度包括多个增长比例,并且后一次的增长比例大于前一次的增长比例。

可选的,第二执行模块405具体可以根据预设的缩短梯度缩短所述收音时长,所述缩短梯度包括多个缩短比例,并且后一次的缩短比例大于前一次的缩短比例。

图5是根据一示例性实施例示出的一种全双工语音控制装置的另一框图,该全双工语音控制装置可以以软件、硬件或者两者相结合的方式实现语音设备的部分或全部,如图5所示,全双工语音控制装置400还可以包括:

第一信息获取模块401,被配置成在语音设备处于收音状态的情况下,响应于接收到目标对象发出的语音指令,采集所述目标对象的生物特征信息;

第二信息获取模块402,被配制成在所述生物特征信息与预设特征信息相匹配的情况下,获取所述目标对象的发音方向信息;

判断模块403,被配置成根据所述发音方向信息确定所述目标对象的发音方向是否朝向所述语音设备;

第一执行模块404,被配置成在所述目标对象的发音方向朝向所述语音设备的情况下,执行所述语音指令对应的操作,并延长所述语音设备的收音时长;

第二执行模块405,被配置成在所述目标对象的发音方向未朝向所述语音设备的情况下,丢弃所述语音指令对应的操作,并缩短所述语音设备的收音时长。

第一收音控制模块406,被配置成在缩短后的收音时长小于预设的最短收音时长阈值的情况下,控制所述语音设备停止收音。

其中,第一收音控制模块406通过限定最短收音时长阈值,控制所述语音设备停止收音,可避免语音设备的收音时间太短,不能接受到目标对象发出的完整的指令。

图6是根据一示例性实施例示出的一种全双工语音控制装置的另一框图,该全双工语音控制装置可以以软件、硬件或者两者相结合的方式实现语音设备的部分或全部,如图6所示,全双工语音控制装置400还可以包括:

第一信息获取模块401,被配置成在语音设备处于收音状态的情况下,响应于接收到目标对象发出的语音指令,采集所述目标对象的生物特征信息;

第二信息获取模块402,被配制成在所述生物特征信息与预设特征信息相匹配的情况下,获取所述目标对象的发音方向信息;

判断模块403,被配置成根据所述发音方向信息确定所述目标对象的发音方向是否朝向所述语音设备;

第一执行模块404,被配置成在所述目标对象的发音方向朝向所述语音设备的情况下,执行所述语音指令对应的操作,并延长所述语音设备的收音时长;

第二执行模块405,被配置成在所述目标对象的发音方向未朝向所述语音设备的情况下,丢弃所述语音指令对应的操作,并缩短所述语音设备的收音时长。

第二收音控制模块407,被配置成在所述收音时长的结束时刻,控制所述语音设备停止收音。

其中,第二收音控制模块407在收音时长结束时刻,控制语音设备停止收音,可避免在收音时长结束时刻后语音设备还在进行收音。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的全双工语音控制方法的步骤。

具体的,该计算机可读存储介质可以是闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘、服务器等等。

关于上述实施例中的计算机可读存储介质,其上存储的计算机程序被执行时的方法步骤已将在有关该方法的实施例中进行了详细描述,此处不做详细阐述。

本公开还提供一种全双工语音控制装置,该装置可以是计算机,平台设备等,全双工语音控制装置包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:

在语音设备处于收音状态的情况下,响应于接收到目标对象发出的语音指令,采集所述目标对象的生物特征信息;

在所述生物特征信息与预设特征信息相匹配的情况下,获取所述目标对象的发音方向信息;

根据所述发音方向信息确定所述目标对象的发音方向是否朝向所述语音设备;

在所述目标对象的发音方向朝向所述语音设备的情况下,执行所述语音指令对应的操作,并延长所述语音设备的收音时长;

在所述目标对象的发音方向未朝向所述语音设备的情况下,丢弃所述语音指令对应的操作,并缩短所述语音设备的收音时长。

全双工语音控制装置通过对目标对象的生物特征信息的识别来确定目标对象为预设特征信息指定的用户(该用户例如可以是语音设备的唤醒人),然后根据目标对象的发音方向确定目标对象是否正在向语音设备发送指令;在目标对象的发音方向朝向语音设备的情况下,执行语音指令对应的操作,并延长语音设备的收音时长;在目标对象的发音方向未朝向语音设备的情况下(例如可以是目标对象在和其他用户交谈的情况),丢弃语音指令对应的操作,并缩短语音设备的收音时长,从而实现语音设备的智能收音,减少了语音设备在环境噪音过多的情况下的收音时长,在对话过程中语音设备只响应设特征信息指定的用户发起的指令,避免了误识别误执行,提高语音交互的体验

图7是根据一示例性实施例示出的一种全双工语音控制装置800的框图。如图7所示,全双工语音控制装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。

其中,处理组件802通常控制装置800的整体操作,诸如摄像操作和交互记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的全双工语音控制方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在装置800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,唤醒人的声纹信息、人脸特征信息、口型特征信息等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电力组件806为装置800的各种组件提供电力。电力组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。

在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当装置800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以采集目标对象的影像信息。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当装置800处于操作模式,如语音识别模式时,麦克风被配置为接收目标对象发出的语音指令。所接收的语音指令可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出响应于语音指令的音频信号。

i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到装置800与目标对象的相对定位。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,所述通信组件816包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述全双工语音控制方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述全双工语音控制方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

在另一示例性实施例中,还提供一种语音设备,该语音设备包括上述的全双工语音控制装置。

该语音设备通过对目标对象的生物特性信息的识别来确定目标对象为预设特征信息指定的用户(该用户例如可以是语音设备的唤醒人),然后根据目标对象的发音方向确定目标对象是否正在向语音设备发送指令;在目标对象的发音方向朝向语音设备的情况下,执行语音指令对应的操作,并延长语音设备的收音时长;在目标对象的发音方向未朝向语音设备的情况下(例如可以是目标对象在和其他用户交谈的情况),丢弃语音指令对应的操作,并缩短语音设备的收音时长,从而实现语音设备的智能收音,减少了语音设备在环境噪音过多的情况下的收音时长,在对话过程中语音设备只响应设特征信息指定的用户发起的指令,避免了误识别误执行,提高语音交互的体验。

可选的,上述语音设备可以是音箱、空调、电视等。

本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1