一种语音唤醒方法及电子设备与流程

文档序号：21091158发布日期：2020-06-12 17:14阅读：271来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及语音处理技术领域，尤其涉及一种语音唤醒方法及电子设备。

背景技术：

语音唤醒技术的应用领域较为广泛，例如手机、可穿戴设备、智能音箱、智能家居、车载等。几乎很多带有语音功能的设备，都会需要语音唤醒技术作为人机互动的一个开始或入口，不同的产品会有不同的唤醒词，用户可通过特定的唤醒词唤醒电子设备。

目前，在语音唤醒的过程中，为了避免误唤醒，往往会对唤醒语音的匹配精度要求较高，即通常会将唤醒阈值固定设为的较高的唤醒阈值，可见，这种唤醒方式不够灵活。

技术实现要素：

本发明实施例提供一种语音唤醒方法及电子设备，以解决现有语音唤醒方式不够灵活的问题。

为解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音唤醒方法，应用于包括摄像头的电子设备，其特征在于，所述方法包括：

获取所述摄像头采集的第一图像；

在识别到所述第一图像中包括人脸图像的情况下，获取所述人脸图像对应的对象的位置信息；

根据所述位置信息，调整所述电子设备的唤醒阈值；

基于调整后的唤醒阈值，控制所述电子设备响应用户的语音唤醒指令。

可选的，所述获取所述人脸图像对应的对象的位置信息，包括：

获取所述人脸图像在所述第一图像中的坐标位置信息；

所述根据所述位置信息，调整所述电子设备的唤醒阈值，包括：

基于所述坐标位置信息，获取所述人脸图像对应的对象相对于所述电子设备中心的偏移距离；

根据目标距离，调整所述电子设备的唤醒阈值，其中，所述目标距离为所述偏移距离。

可选的，所述获取所述人脸图像对应的对象的位置信息，包括：

获取所述人脸图像对应的对象相对于所述电子设备的直线距离；

所述根据所述位置信息，调整所述电子设备的唤醒阈值，包括：

根据目标距离，调整所述电子设备的唤醒阈值，其中，所述目标距离为所述直线距离。

可选的，所述根据目标距离，调整所述电子设备的唤醒阈值，包括：

在所述目标距离小于或等于第一距离阈值的情况下，调整所述电子设备的唤醒阈值为第一唤醒阈值，其中，所述目标距离为所述偏移距离或所述直线距离；

在所述目标距离大于所述第一距离阈值且小于或等于第二距离阈值的情况下，调整所述电子设备的唤醒阈值为第二唤醒阈值，其中，所述第二距离阈值大于所述第一距离阈值，所述第二唤醒阈值高于所述第一唤醒阈值；

在所述目标距离大于所述第二距离阈值的情况下，调整所述电子设备的唤醒阈值为第三唤醒阈值，其中，所述第三唤醒阈值高于所述第二唤醒阈值。

可选的，所述在识别到所述第一图像中包括人脸图像的情况下，获取所述人脸图像对应的对象的位置信息，包括：

识别所述第一图像中的对象，确定所述第一图像的类别，所述类别包括人物类或者非人物类；

在确定所述第一图像的类别为人物类的情况下，返回所述第一图像中的人物对象的人脸位置信息。

第二方面，本发明实施例提供一种电子设备，包括摄像头，所述电子设备还包括：

第一获取模块，用于获取所述摄像头采集的第一图像；

第二获取模块，用于在识别到所述第一图像中包括人脸图像的情况下，获取所述人脸图像对应的对象的位置信息；

调整模块，用于根据所述位置信息，调整所述电子设备的唤醒阈值；

唤醒模块，用于基于调整后的唤醒阈值，控制所述电子设备响应用户的语音唤醒指令。

可选的，所述第二获取模块具体用于获取所述人脸图像在所述第一图像中的坐标位置信息；

所述调整模块包括：

计算单元，用于基于所述坐标位置信息，获取所述人脸图像对应的对象相对于所述电子设备中心的偏移距离；

调整单元，用于根据目标距离，调整所述电子设备的唤醒阈值，其中，所述目标距离为所述偏移距离。

可选的，所述第二获取模块具体用于获取所述人脸图像对应的对象相对于所述电子设备的直线距离；

所述调整模块用于根据目标距离，调整所述电子设备的唤醒阈值，其中，所述目标距离为所述直线距离。

可选的，所述调整模块具体用于在所述目标距离小于或等于第一距离阈值的情况下，调整所述电子设备的唤醒阈值为第一唤醒阈值，其中，所述目标距离为所述偏移距离或所述直线距离；

在所述目标距离大于所述第二距离阈值的情况下，调整所述电子设备的唤醒阈值为第三唤醒阈值，其中，所述第三唤醒阈值高于所述第二唤醒阈值。

可选的，所述第二获取模块包括：

识别单元，用于识别所述第一图像中的对象，确定所述第一图像的类别，所述类别包括人物类或者非人物类；

返回单元，用于在确定所述第一图像的类别为人物类的情况下，返回所述第一图像中的人物对象的人脸位置信息。

第三方面，本发明实施例提供一种电子设备，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述语音唤醒方法中的步骤。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述语音唤醒方法中的步骤。

本发明实施例中，获取摄像头采集的第一图像；在识别到所述第一图像中包括人脸图像的情况下，获取所述人脸图像对应的对象的位置信息；根据所述位置信息，调整电子设备的唤醒阈值；基于调整后的唤醒阈值，控制所述电子设备响应用户的语音唤醒指令。这样，通过获取用户的位置信息，来适应调整电子设备的唤醒阈值，可使语音唤醒方式较为灵活。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音唤醒方法的流程图；

图2是本发明实施例提供的一种电子设备的结构示意图；

图3是本发明实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，图1是本发明实施例提供的一种语音唤醒方法的流程图，应用于包括摄像头的电子设备，如图1所示，所述方法包括以下步骤：

步骤101、获取摄像头采集的第一图像。

本发明实施例中，所述电子设备可以通过摄像头实时采集第一图像，以实时监测设备附近是否有人物出现，也可以是通过摄像头定时采集第一图像，如每隔5秒或10秒拍摄一次图像，以监测当前设备附近是否有人物出现。

需说明的是，所述电子设备的摄像头可以是固定式摄像头或旋转式摄像头，当为固定式摄像头时，其可以拍摄固定角度的图像，即所述第一图像为所述摄像头从固定角度拍摄的图像；当为旋转式摄像头时，其可以拍摄不同角度的图像，或跟随目标对象进行拍摄，如当监测到人物出现时，对人物进行追踪拍摄。

步骤102、在识别到所述第一图像中包括人脸图像的情况下，获取所述人脸图像对应的对象的位置信息。

本发明实施例中，为保证根据用户的位置信息，对应调整唤醒阈值，可以在获取所述第一图像后，先对所述第一图像进行特征识别，以通过识别结果确定当前设备附近是否存在人物，具体地，可以是识别所述第一图像中是否存在人脸图像，若识别到人脸图像，则可以确定当前设备附近存在人物，进而可以获取该人物的位置信息，若未识别到人脸图像，则可以确定当前设备附近不存在人物，从而可以不用继续后续步骤，即无需对电子设备的唤醒阈值进行调整。

上述获取所述人脸图像对应的对象的位置信息，可以包括两种不同情况，其一可以是获取所述人脸图像对应的对象相对于所述电子设备的中心的偏移位置信息，具体可以通过所述人脸图像在所述第一图像中的位置信息体现，故可以获取所述人脸图像在所述第一图像中的坐标位置信息；其二可以是获取所述人脸图像对应的对象与所述电子设备的相对位置信息，具体可以通过所述人脸图像对应的对象相对于所述电子设备的位置信息体现，故可以获取所述人脸图像对应的对象相对于所述电子设备的位置信息。

可选的，所述步骤102包括：

识别所述第一图像中的对象，确定所述第一图像的类别，所述类别包括人物类或者非人物类；

在确定所述第一图像的类别为人物类的情况下，返回所述第一图像中的人物对象的人脸位置信息。

在获得所述第一图像后，可以先对所述第一图像中的对象进行识别，以根据识别的对象确定所述第一图像的类别，例如，若识别所述第一图像中包括人物对象，则可以确定所述第一图像为人物类，若识别所述第一图像中不包括人物对象，则可以确定所述第一图像为非人物类。

且在确定所述第一图像的类别为人物类的情况下，可以返回所述第一图像中的人物对象的人脸位置信息，以基于所述人脸位置信息，来确定所述人物对象相对所述电子设备中心的偏移距离，进而基于该距离调整所述电子设备的唤醒阈值。

具体地，可以使用目标检测技术识别出所述第一图像中的对象，该实施方式中，可以以人脸为目标检测对象，从而可以依据检测的是否存在人脸的检测结果，获得所述第一图像的类别，并可在为人物类别的情况下，进一步获得检测出的人脸位置信息。

例如，可以使用区域-卷积神经网络(region-convolutionalneuralnetworks，简称r-cnn)技术来识别所述第一图像，得到图像分类和人脸位置信息，其中，r-cnn的训练步骤包括：

首先可以获取大量图片数据(沙发、冰箱、桌子、电视、墙、人等等家居场景的图片)，然后使用这些数据预训练一个cnn的分类模型。其中，包含人的图像数据要求有人脸边框标注，以训练其返回人脸位置信息。

然后利用选择搜索selective-search算法获得包含人图像的候选框，计算与包含候选框与人脸边框的交并比(intersectionoverunion，简称iou)，将iou大于0.5的作为正样本，iou小于0.5的作为负样本。再用新的样本数据对之前训好的cnn模型进行微调fine-tuning训练，迭代优化cnn模型。

接着，去掉cnn模型的最后一层，用cnn模型的倒数第二层输出作为图像特征，将iou大于0.3的作为正样本，iou小于0.3的作为负样本，训练一个支持向量机(supportvectormachine，简称svm)分类模型。

最后，训练一个回归模型：将候选框图像经过cnn模型的最后一层卷积层的输出作为图像特征，使用人脸边框坐标作为标签进行监督训练得到边框回归模型。

r-cnn的检测步骤：

首先，利用selective-search算法得到候选框；

其次，检测侯选框中的是否是目标的得分情况；

接着，按照得分情况对侯选框进行排序，然后按照一定的规则筛除一些框(如筛除得分低的、iou过高的重复边框)；

最后，对最后剩下的框做一个边框回归模型，通过边框回归模型对框的准确位置进行修正。

这样，通过将所述第一图像输入r-cnn模型中，可以输出得到图像分类，且在输出图像分类为人物类的情况下，还会返回其中的人脸位置信息，从而可以快速准确地完成对象识别和人脸位置信息获取。

当然，本发明实施例并不限于使用r-cnn方式实现，也可以使用其他目标检测技术来实现，如快速的区域-卷积神经网络fastr-cnn、更加快速的区域-卷积神经网络fasterr-cnn、单点多盒检测(singleshotmultiboxdetector，简称ssd)，等等。

步骤103、根据所述位置信息，调整电子设备的唤醒阈值。

在获得所述人脸图像对应的对象的位置信息后，便可以根据所述位置信息，对电子设备的唤醒阈值进行适应调整，具体地，可以基于所述位置信息，确定所述人脸图像对应的对象相对于所述电子设备的中心的偏移距离，或相对于所述电子设备的直线距离，然后基于该距离来调整唤醒阈值。更为具体地，可以是该距离越近，唤醒阈值被调整地越小，该距离越大，唤醒阈值被调整地越大，或者，也可以基于该距离所处的距离范围，对应调整唤醒阈值，如处于较小的第一距离范围内时，唤醒阈值较小，处于稍大的第二距离范围之内时，唤醒阈值较大，处于更大的第三距离范围之内时，唤醒阈值更大，等等。

这样，可以使得所述电子设备能够基于用户与其的相对位置，灵活调整对应的唤醒阈值，从而当检测到用户距离其较近时，能够更容易被唤醒，从而可提高语音唤醒率，当检测到用户距离其较远时，能够不轻易被唤醒，从而可防止误唤醒。

步骤104、基于调整后的唤醒阈值，控制所述电子设备响应用户的语音唤醒指令。

该步骤中，可以基于调整后的唤醒阈值，对所述电子设备进行语音唤醒，也即可以接收用户输入的唤醒语音，对所述用户输入的唤醒语音与预设唤醒语音进行语音相似度匹配(如对比用户唤醒语音中的唤醒词与预设唤醒词的相似度)，在语音相似度达到当前唤醒阈值的情况下，控制所述电子设备进入唤醒状态，而在语音相似度未达到当前唤醒阈值的情况下，控制所述电子设备保持休眠状态。

这样，在检测到用户距离所述电子设备相对较近的情况下，通过将唤醒阈值设置得较低，可以使用户更容易唤醒所述电子设备，提高唤醒成功率，且由于结合了人脸检测，使得即便在将唤醒阈值设置得较低的情况下也能较好地避免误唤醒。

可选的，所述步骤102包括：

获取所述人脸图像在所述第一图像中的坐标位置信息；

所述步骤103包括：

基于所述坐标位置信息，获取所述人脸图像对应的对象相对于所述电子设备中心的偏移距离；

根据目标距离，调整所述电子设备的唤醒阈值，其中，所述目标距离为所述偏移距离。

为基于用户相对所述电子设备中心的偏移距离，来调整其唤醒阈值，可以监测用户人脸相对所述电子设备中心的偏移距离。

即该实施方式中，可以在识别到所述第一图像中包括人脸图像的情况下，获取所述人脸图像在所述第一图像中的坐标位置信息，然后基于该坐标位置信息，获取所述人脸图像对应的对象相对于所述电子设备中心的偏移距离，具体可以使用所述人脸图像在所述第一图像中的位置来表征，如基于所述人脸图像在所述第一图像中的坐标位置信息和所述第一图像中心点的坐标位置信息，来计算所述人脸图像与所述第一图像中心点之间的距离，或者计算所述人脸图像相对于所述第一图像中心点的偏移距离(例如水平偏移距离)，更具体地，可以以所述人脸图像的中心点坐标和所述第一图像的中心点坐标来计算。其中，所述第一图像的中心点可以代表所述电子设备的中心点。

例如，获取到所述人脸图像的四个点的坐标位置分别为：[x1,y1]、[x1,y2]、[x2,y1]和[x2,y2]，则所述人脸图像的中心点坐标位置可以通过计算出，设所述第一图像的中心点坐标位置为[xs,ys]，从而基于所述人脸图像的中心点坐标位置和所述第一图像的中心点坐标位置，可以计算出所述人脸图像与所述第一图像中心点之间的距离，也即用户人脸相对于所述电子设备中心的偏移距离

然后，可以基于所述偏移距离，调整所述电子设备的唤醒阈值，为达到提高唤醒率和防止误唤醒的双重目的，所述电子设备的唤醒阈值可以与所述偏移距离正相关，也就是所述偏移距离越大，所述电子设备的唤醒阈值越大，所述偏移距离越小，所述电子设备的唤醒阈值越小，或者，所述偏移距离所处的距离范围越大，所述电子设备的唤醒阈值越大，所述偏移距离所处的距离范围越小，所述电子设备的唤醒阈值越小。具体可以通过预先设定所述偏移距离与唤醒阈值的对应关系或计算公式，来确定调整后的与所述偏移距离对应的唤醒阈值。

这样，可使得所述电子设备在检测到用户越靠近其中心的情况下，将唤醒阈值相应降低，以提高唤醒率，而在检测到用户越远离其中心的情况下，将唤醒阈值相应调高，以防止误唤醒。

其中，需说明的是，该实施方式可以特别针对于采用固定式摄像头的电子设备，由于拍摄角度固定，故较适用于通过获取用户人脸相对于电子设备中心的偏移距离作为调整唤醒阈值的参考依据，且当用户离电子设备中心越近时，可以将唤醒阈值调整地较低，使用户可以轻松地唤醒所述电子设备。

可选的，所述步骤102包括：

获取所述人脸图像对应的对象相对于所述电子设备的直线距离；

所述步骤103包括：

根据目标距离，调整所述电子设备的唤醒阈值，其中，所述目标距离为所述直线距离。

为基于用户与所述电子设备的相对距离，来调整其唤醒阈值，可以监测用户相对于所述电子设备的距离。

即该实施方式中，可以在识别到所述第一图像中包括人脸图像的情况下，获取所述人脸图像对应的对象相对于所述电子设备的直线距离，具体地，可以通过红外测距模块测量所述人脸图像对应的对象相对于所述电子设备的直线距离，或者也可以利用图像测距算法，通过测量所述人脸图像在所述第一图像中的像素大小测量出所述直线距离。

然后，可以基于所述直线距离，调整所述电子设备的唤醒阈值，为达到提高唤醒率和防止误唤醒的双重目的，所述电子设备的唤醒阈值可以与所述直线距离正相关，也就是所述直线距离越大，所述电子设备的唤醒阈值越大，所述直线距离越小，所述电子设备的唤醒阈值越小，或者，所述直线距离所处的距离范围越大，所述电子设备的唤醒阈值越大，所述直线距离所处的距离范围越小，所述电子设备的唤醒阈值越小。具体可以通过预先设定所述直线距离与唤醒阈值的对应关系或计算公式，来确定调整后的与所述直线距离对应的唤醒阈值。

这样，可使得所述电子设备在检测到用户距离所述电子设备越近的情况下，将唤醒阈值相应降低，以提高唤醒率，而在检测到用户距离所述电子设备越远的情况下，将唤醒阈值相应调高，以防止误唤醒。

可选的，所述电子设备包括旋转式摄像头；

可选的，所述步骤102包括：

在识别到所述第一图像中包括人脸图像的情况下，控制所述旋转式摄像头对所述人脸图像对应的对象进行追踪，获取所述人脸图像对应的对象相对于所述电子设备的直线距离；

所述步骤103包括：

根据目标距离，调整所述电子设备的唤醒阈值，其中，所述目标距离为所述直线距离。

即基于用户相对于所述电子设备的直线距离来调整唤醒阈值的实施方式可以用于设置有旋转式摄像头的电子设备，由于其拍摄角度可变；例如可以在检测到人物出现时，对用户进行追踪拍摄，以获得用户相对于电子设备的距离作为调整唤醒阈值的参考依据，且当用户距电子设备越近时，可以将唤醒阈值调整地较低，使用户可以轻松地唤醒所述电子设备。

可选的，所述根据目标距离，调整所述电子设备的唤醒阈值，包括：

在所述目标距离小于或等于第一距离阈值的情况下，调整所述电子设备的唤醒阈值为第一唤醒阈值；

在所述目标距离大于所述第二距离阈值的情况下，调整所述电子设备的唤醒阈值为第三唤醒阈值，其中，所述第三唤醒阈值高于所述第二唤醒阈值。

需说明的是，上述目标距离为前述偏移距离即所述人脸图像相对所述第一图像中心点的距离，或者上述目标距离为前述直线距离即所述人脸图像对应的对象相对于所述电子设备的距离。

为兼顾唤醒率和稳定性，可以对唤醒阈值设置多个档位，不同的距离范围对应不同的档位，例如，设置三个档位，第一唤醒阈值对应第一距离范围、第二唤醒阈值对应第二距离范围和第三唤醒阈值对应第三距离范围，其中，第一唤醒阈值小于第二唤醒阈值，第二唤醒阈值小于第三唤醒阈值，第一距离范围小于第二距离范围，第二距离范围小于第三距离范围，这样，较小的距离范围对应较小的唤醒阈值，较大的距离范围对应较大的唤醒阈值。

其中，第一距离范围可以是小于或等于第一距离阈值的范围，第二距离范围可以是大于第一距离阈值且小于或等于第二距离阈值的范围，第三距离范围可以是大于第二距离阈值的范围。

例如，当d≤d1时，可以设置唤醒阈值为0.2，当d1<d≤d2时，可以设置唤醒阈值为0.3，当d>d2时，可以设置唤醒阈值为0.4；其中，d为目标距离(前述偏移距离或直线距离)，d1为第一距离阈值，d2为第二距离阈值。

需说明的是，由于前述偏移距离和直线距离分别所反应的用户相对所述电子设备的距离尺度不同，故上述第一距离阈值和第二距离阈值可以是与所述目标距离所指的具体距离相关联的，例如，在所述目标距离为所述偏移距离时，所述第一距离阈值和所述第二距离阈值可以为相对较小的距离阈值，而在所述目标距离为所述直线距离时，所述第一距离阈值和所述第二距离阈值可以为相对较大的距离阈值，具体可以根据实际情况进行灵活设定。

这样，在用户越靠近所述电子设备的情况下，唤醒阈值越低，从而越容易唤醒，可提高唤醒率，在用户越偏离所述电子设备的情况下，唤醒阈值越高，从而越难唤醒，可防止误唤醒，且只有在目标距离超出当前范围内时，才会调整唤醒阈值，可避免实时调整唤醒阈值带来的不稳定性。

本发明实施例中，上述电子设备可以是任何支持语音唤醒功能的设备，例如：手机、可穿戴设备、智能音箱、智能家居、车载设备等。

本实施例中的语音唤醒方法，获取摄像头采集的第一图像；在识别到所述第一图像中包括人脸图像的情况下，获取所述人脸图像对应的对象的位置信息；根据所述位置信息，调整电子设备的唤醒阈值。这样，通过获取用户的位置信息，来适应调整电子设备的唤醒阈值，可使语音唤醒方式较为灵活。

参见图2，图2是本发明实施例提供的一种电子设备的结构示意图，该电子设备包括摄像头，如图2所示，电子设备200还包括：

第一获取模块201，用于获取所述摄像头采集的第一图像；

第二获取模块202，用于在识别到所述第一图像中包括人脸图像的情况下，获取所述人脸图像对应的对象的位置信息；

调整模块203，用于根据所述位置信息，调整所述电子设备的唤醒阈值；

唤醒模块204，用于基于调整后的唤醒阈值，控制所述电子设备响应用户的语音唤醒指令。

可选的，第二获取模块202具体用于获取所述人脸图像在所述第一图像中的坐标位置信息；

调整模块203包括：

计算单元，用于基于所述坐标位置信息，获取所述人脸图像对应的对象相对于所述电子设备中心的偏移距离；

调整单元，用于根据目标距离，调整所述电子设备的唤醒阈值，其中，所述目标距离为所述偏移距离。

可选的，第二获取模块202具体用于获取所述人脸图像对应的对象相对于所述电子设备的直线距离；

调整模块203用于根据目标距离，调整所述电子设备的唤醒阈值，其中，所述目标距离为所述直线距离。

可选的，调整模块203具体用于在所述目标距离小于或等于第一距离阈值的情况下，调整所述电子设备的唤醒阈值为第一唤醒阈值，其中，所述目标距离为所述偏移距离或所述直线距离；

在所述目标距离大于所述第二距离阈值的情况下，调整所述电子设备的唤醒阈值为第三唤醒阈值，其中，所述第三唤醒阈值高于所述第二唤醒阈值。

可选的，第二获取模块202包括：

识别单元，用于识别所述第一图像中的对象，确定所述第一图像的类别，所述类别包括人物类或者非人物类；

返回单元，用于在确定所述第一图像的类别为人物类的情况下，返回所述第一图像中的人物对象的人脸位置信息。

电子设备200能够实现图1的方法实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。本发明实施例的电子设备200通过获取用户的位置信息，来适应调整电子设备的唤醒阈值，可使语音唤醒方式较为灵活。

图3为实现本发明各个实施例的一种电子设备的硬件结构示意图，该电子设备300包括但不限于：射频单元301、网络模块302、音频输出单元303、输入单元304、传感器305、显示单元306、用户输入单元307、接口单元308、存储器309、处理器310、电源311、以及摄像头312等部件。本领域技术人员可以理解，图3中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

其中，处理器310，用于获取所述摄像头采集的第一图像；

在识别到所述第一图像中包括人脸图像的情况下，获取所述人脸图像对应的对象的位置信息；

根据所述位置信息，调整所述电子设备的唤醒阈值；

基于调整后的唤醒阈值，控制所述电子设备响应用户的语音唤醒指令。

可选的，处理器310还用于：

获取所述人脸图像在所述第一图像中的坐标位置信息；

基于所述坐标位置信息，获取所述人脸图像对应的对象相对于所述电子设备中心的偏移距离；

根据目标距离，调整所述电子设备的唤醒阈值，其中，所述目标距离为所述偏移距离。

可选的，处理器310还用于：

获取所述人脸图像对应的对象相对于所述电子设备的直线距离；

根据目标距离，调整所述电子设备的唤醒阈值，其中，所述目标距离为所述直线距离。

可选的，处理器310还用于：

在所述目标距离大于所述第二距离阈值的情况下，调整所述电子设备的唤醒阈值为第三唤醒阈值，其中，所述第三唤醒阈值高于所述第二唤醒阈值。

可选的，处理器310还用于：

识别所述第一图像中的对象，确定所述第一图像的类别，所述类别包括人物类或者非人物类；

在确定所述第一图像的类别为人物类的情况下，返回所述第一图像中的人物对象的人脸位置信息。

电子设备300能够实现前述实施例中电子设备实现的各个过程，为避免重复，这里不再赘述。本发明实施例的电子设备300通过获取用户的位置信息，来适应调整电子设备的唤醒阈值，可使语音唤醒方式较为灵活。

应理解的是，本发明实施例中，射频单元301可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行数据接收后，给处理器310处理；另外，将上行的数据发送给基站。通常，射频单元301包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元301还可以通过无线通信系统与网络和其他设备通信。

电子设备通过网络模块302为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元303可以将射频单元301或网络模块302接收的或者在存储器309中存储的音频数据转换成音频信号并且输出为声音。而且，音频输出单元303还可以提供与电子设备300执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元303包括扬声器、蜂鸣器以及受话器等。

输入单元304用于接收音频或视频信号。输入单元304可以包括图形处理器(graphicsprocessingunit，简称gpu)3041和麦克风3042，图形处理器3041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元306上。经图形处理器3041处理后的图像帧可以存储在存储器309(或其它存储介质)中或者经由射频单元301或网络模块302进行发送。麦克风3042可以接收声音，并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元301发送到移动通信基站的格式输出。

电子设备300还包括至少一种传感器305，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板3061的亮度，接近传感器可在电子设备300移动到耳边时，关闭显示面板3061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器305还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元306用于显示由用户输入的信息或提供给用户的信息。显示单元306可包括显示面板3061，可以采用液晶显示器(liquidcrystaldisplay，简称lcd)、有机发光二极管(organiclight-emittingdiode,简称oled)等形式来配置显示面板3061。

用户输入单元307可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元307包括触控面板3071以及其他输入设备3072。触控面板3071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板3071上或在触控面板3071附近的操作)。触控面板3071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器310，接收处理器310发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板3071。除了触控面板3071，用户输入单元307还可以包括其他输入设备3072。具体地，其他输入设备3072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板3071可覆盖在显示面板3061上，当触控面板3071检测到在其上或附近的触摸操作后，传送给处理器310以确定触摸事件的类型，随后处理器310根据触摸事件的类型在显示面板3061上提供相应的视觉输出。虽然在图3中，触控面板3071与显示面板3061是作为两个独立的部件来实现电子设备的输入和输出功能，但是在某些实施例中，可以将触控面板3071与显示面板3061集成而实现电子设备的输入和输出功能，具体此处不做限定。

接口单元308为外部装置与电子设备300连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(i/o)端口、视频i/o端口、耳机端口等等。接口单元308可以用于接收来自外部装置的输入(例如，数据信息、电力等等)并且将接收到的输入传输到电子设备300内的一个或多个元件或者可以用于在电子设备300和外部装置之间传输数据。

存储器309可用于存储软件程序以及各种数据。存储器309可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器309可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器310是电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器309内的软件程序和/或模块，以及调用存储在存储器309内的数据，执行电子设备的各种功能和处理数据，从而对电子设备进行整体监控。处理器310可包括一个或多个处理单元；优选的，处理器310可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器310中。

电子设备300还可以包括给各个部件供电的电源311(比如电池)，优选的，电源311可以通过电源管理系统与处理器310逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

摄像头312可以是固定式摄像头，也可以是旋转式摄像头，当摄像头312为旋转式摄像头时，电子设备300可具备目标追踪功能，如人脸追踪。

另外，电子设备300包括一些未示出的功能模块，在此不再赘述。

优选的，本发明实施例还提供一种电子设备，包括处理器310，存储器309，存储在存储器309上并可在所述处理器310上运行的计算机程序，该计算机程序被处理器310执行时实现上述语音唤醒方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述语音唤醒方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(read-onlymemory，简称rom)、随机存取存储器(randomaccessmemory，简称ram)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：靳源;冯大航;常乐
技术所有人：北京声智科技有限公司
我是此专利的发明人