自动唤醒智能终端摄像功能的方法、系统及智能终端与流程

文档序号:11139042阅读:1321来源:国知局
自动唤醒智能终端摄像功能的方法、系统及智能终端与制造工艺

本发明涉及语音交互技术领域,更具体地,涉及一种自动唤醒智能终端摄像功能的方法、系统及智能终端。



背景技术:

近年来,智能终端(如手机、平板电脑、智能手表等)快速发展,各种功能层出不穷。随着智能终端功能的增多以及完善,人们对于智能终端的依赖性越来越强,智能终端越来越成为人们生活中不可缺少的电子产品。尽管如此,在很多场景下,智能终端的功能还不能满足人们的需求。

现在绝大多数的智能终端都配置有摄像模块,具有摄像功能。在即时语音通话的过程中,需要启用摄像功能,进行相应的摄像操作,如:录制视频进行视频文件的传输、拍摄图片进行并传输等,往往都是手动操作,并不能识别相关的语音信息,让智能终端自动唤醒摄像功能,过程繁琐,操作麻烦。

同时,现有的技术当中,在使用智能终端进行即时语音通话的过程中,人们只能对自己当前的智能终端设备的摄像功能进行相应的摄像操作,并不能对参与即时语音通话的其他人的智能终端的摄像模块进行操作。在很多情形之下,这样往往不利于对对方当前所处的环境进行了解,判断对方当前所处的情形。



技术实现要素:

为了解决上述至少一个方面的技术问题,本发明提供了一种自动唤醒智能终端摄像功能的方法、系统及智能终端。该发明中,当前智能终端获取在即时语音通话过程中对方的语音信息,对所述语音信息进行识别,提取相关的操作指令,从而自动唤醒当前智能终端摄像功能,有效减少了即时语音通话过程中启动摄像功能的手动操作,智能、便捷,能满足多种场景下的需要。

第一方面,提供了一种自动唤醒智能终端摄像功能的方法。所述自动唤醒智能终端摄像功能的方法包括:

获取智能终端即时语音通话过程中所接收到的语音信息;

实时对所述语音信息进行前端处理,提取其特征向量,并将该特征向量与数据库中预设声音样本信号所对应的特征向量进行匹配计算,判断它们之间的相似度;

若所述相似度达到预先设置的阈值,则驱动所述智能终端唤醒处于休眠/关闭状态的摄像功能,执行相应的摄像操作。

具体地,获取智能终端即时语音通话过程中所接收到的语音信息的步骤中,还包括:

调用智能终端的相关通信接口,对所述语音信息进行端点检测。

具体地,实时对所述语音信息进行前端处理之前的步骤当中,还包括:

对所获取到的所述语音信息进行预处理。

优选地,所述预处理包括:使用反混叠带通滤波器去除个体发音差异以及环境引起的噪声影响。

具体地,若所述相似度达到预先设置的阈值,则驱动所述智能终端唤醒处于休眠/关闭状态的摄像功能,执行相应的摄像操作的步骤中,包括:

确定所述相似度达到预先设置的阈值;

检测当前的所述智能终端摄像功能是否处于休眠/关闭状态;

若是,则驱动所述智能终端唤醒摄像功能,执行相应的摄像操作。

优选地,所述执行相应的摄像操作包括录制关于所述智能终端当前的视频,并将该视频发送到参与所述即时语音通话的其他用户的设备上去。

优选地,所述执行相应的摄像操作包括拍摄关于所述智能终端当前的照片,并将该照片发送到参与所述即时语音通话的其他用户的设备上。

具体地,还包括:

驱动所述智能终端唤醒摄像功能时,会向本机设备当前的用户进行语音提示。

优选地,所述语音信息以数据包或数据帧的形式进行接收。

具体地,还包括:

在即时语音通话结束时,关闭当前所述智能终端的摄像功能。

第二方面,提供了一种自动唤醒智能终端摄像功能的系统。所述自动唤醒智能终端摄像功能的系统包括:

获取模块,用于获取智能终端即时语音通话过程中所接收到的语音信息;

判断模块,用于实时对所述语音信息进行前端处理,提取其特征向量,并将该特征向量与数据库中预设声音样本信号所对应的特征向量进行匹配计算,判断它们之间的相似度;

驱动模块,用于若所述相似度达到预先设置的阈值,则驱动所述智能终端唤醒处于休眠/关闭状态的摄像功能,执行相应的摄像操作。

具体地,所述获取模块中,还包括:

调用智能终端的相关通信接口,对所述语音信息进行端点检测。

具体地,实时对所述语音信息进行前端处理之前的步骤当中,还包括:

对所获取到的所述语音信息进行预处理。

优选地,所述预处理包括:使用反混叠带通滤波器去除个体发音差异以及环境引起的噪声影响。

具体地,所述驱动模块被配置为:

确定所述相似度达到预先设置的阈值;

检测当前的所述智能终端摄像功能是否处于休眠/关闭状态;

若是,则驱动所述智能终端唤醒摄像功能,执行相应的摄像操作。

优选地,所述执行相应的摄像操作包括录制关于所述智能终端当前的视频,并将该视频发送到参与所述即时语音通话的其他用户的设备上去。

优选地,所述执行相应的摄像操作包括拍摄关于所述智能终端当前的照片,并将该照片发送到参与所述即时语音通话的其他用户的设备上。

具体地,还包括:

提示模块,用于驱动所述智能终端唤醒摄像功能时,会向本机设备当前的用户进行语音提示。

优选地,所述语音信息以数据包或数据帧的形式进行接收。

具体地,还包括:

关闭模块,用于在即时语音通话结束时,关闭当前所述智能终端的摄像功能。

第三方面,提供了一种智能终端。所述智能终端包括:

触敏显示器,用于显示信息编辑界面,实现人机交互;

一个或多个处理器

存储器;

一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由一个或多个处理器执行;

所述一个或多个程序用于驱动所述一个或多个处理器构造用于执行第一方面所述的方法的模块。

与现有技术相比,本发明具有以下优点:

1.本发明中,当前智能终端获取在即时语音通话过程中对方的语音信息,对所述语音信息进行识别,提取相关的操作指令,从而自动唤醒当前智能终端摄像功能。该发明有效减少了即时语音通话过程中启动摄像功能的手动操作,智能、便捷。

2.本发明对所述语音信息进行前端处理,提取该语音信息与声音样本信号的特征向量进行相似度的判别,提高了语音识别的准确率,减少了摄像操作的误操作,有利于提高用户的体验。

3.本发明中,在当前智能终端允许的权限下,双方进行即时语音通话的过程中,对方能够通过语音信息相似度的判别自动唤醒当前智能终端的摄像功能,执行相应的操作,在很多情形下,在当前用户不方便的情况下,有利于对方对当前用户所处的环境进行一个较为详细的了解。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了本发明一种自动唤醒智能终端摄像功能的方法的一种实施例的流程框图;

图2示出了本发明一种自动唤醒智能终端摄像功能的系统的一种实施例的结构示意图;

图3示出了本发明一种智能终端的一种实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。

本领域普通技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本领域普通技术人员可以理解,本发明所设计的名词的含义至少包括:

语音端点检测(Voice Activity Detection,VAD):又称有声/无声端点检测、语音边界检测等,通常指在复杂的噪声环境背景下的信号流中分辨出语音信号和非语音信号,并确定语音信号的起始点和终止点,为后续信号处理提供必要的技术支持。准确的语音端点检测对多通道传输、语音增强系统以及语音识别系统等具有重要的现实意义。端点检测技术的发展不仅可以提高传输系统的效率,而且能够提升识别系统精度,改善增强语音质量。

数据包(Data Packet):是TCP/IP协议通信传输中的数据单位,工作在网络层、传输层。

本领域普通技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1,示出了本发明自动唤醒智能终端摄像功能的方法一种实施例的流程框图。所述自动唤醒智能终端摄像功能的方法包括步骤S11-S13:

S11.获取智能终端即时语音通话过程中所接收到的语音信息。

使用智能终端进行即时语音通话,是现代人们日常交流的方式之一。所述智能终端为、智能手表、手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意终端设备。在即时语音通话的过程中,参与该通信的双方或多方人员其所使用的智能终端会接收在该通话过程中其他人员的智能终端所传输过来的语音信息。

具体地,获取智能终端即时语音通话过程中所接收到的语音信息的步骤中,还包括:

调用智能终端的相关通信接口,对所述语音信息进行端点检测。

例如,在一个双方参与的即时语音通话中,甲使用智能终端和乙进行即时语音通话。其过程中,甲乙会分别接收到来自对方所发送的语音信息。相对于甲来说,甲所使用的智能终端在即时语音通话的过程中会接收来自乙的智能终端的语音信息。甲的智能终端首先会对来自乙的智能终端的信号流进行识别判断,从中获取语音信息,以便对所述语音信息进行进一步的处理,改善增强语音质量还有提升识别系统的精度。其中,在获取相关的语音信息后,甲的智能终端会调用其上的相关的通信接口,对所述的语音信息进行识别,并确定语音信息的起始点和终止点,提升语音识别的精度。该通信接口可以是采用多参数综合判决的检测方法,其能在较高信噪比的条件下获得很好的检测效果。

优选地,所述语音信息以数据包或数据帧的形式进行接收。

例如,进行即时语音通话的双方,其各自的语音信号经过各自智能终端的处理后,在所建立的通信信道上进行传输。对于其中一方所接收的语音信息而言,该语音信息以数据帧的形式在所述通信信道的数据链路层进行传输,而在网络层和传输层则以数据包的形式进行传输。

S12.实时对所述语音信息进行前端处理,提取其特征向量,并将该特征向量与数据库中预设声音样本信号所对应的特征向量进行匹配计算,判断它们之间的相似度。

本发明实施例中,进行即时语音通话的双方,一方的智能终端获取了另一方的语音信息后,所述智能终端会对所述语音信息经过一个简单的处理识别等。然后,所述智能终端会对所述语音信息进行前端处理,所述前端处理可以包括端点检测和/或语音增强,有利于提高后续对语音信息的处理,如语音编码、语音识别的效果等。其中,有效的端点检测不仅能使对语音信息的处理时间减到最少,而且能排除无声段的噪声干扰。而语音增强则从含噪声信号中提取干净的语音信息,提高语音信息的信噪比。接下来,对经过前端处理后的语音信息进行量化,提取其特征信息。其中,所述声音信息的量化可以通过两种方式进行实现,其一是标量量化,其二是矢量量化。应当注意的是,本机设备中是具有一个关于声音样本信号的数据库,或者本机设备与云端的声音样本信号的数据库中建立有映射关系,能在需要的时候,调用该数据库的相关内容。该数据库可以是本机设备上系统所提供的,也可以是通过人为进行操作设置的。跟所述语音信息一样,对数据库中预设的声音样本信号进行量化、提取特征向量,并将该声音样本信号与被识别的即时语音通话中所接收的语音信息所对应的特征向量进行一致性的判断,判断它们之间的相似度。本发明中,通过对所接收到的所述语音信息进行前端处理,提取特征向量等,有效地提高了语音信息识别的准确率,减少了误操作的可能性,提高了用户的体验。

其中,所预设声音样本信号可以系统提供的,也可以人为设置的。其来源可以是多途径的,并不局限于某种固定的方式。智能终端根据所预设声音样本信号,对所接收到的语音信息进行有效地识别,从而执行相应的操作。

例如,预设声音样本信号可以是与摄像模块的开闭状态、摄像操作等有关,如:“我怎么看不见你了”、“你那边怎么回事啊,黑漆漆的”、“你怎么把摄像头关了”、“开一下摄像装置,给我发一个小视频/给我发几张照片”等表征的需要。即时语音通话的双方,其中一方接收到来自对方的语音信息,然后通过识别所接收到的语音信息是否包含有类似或相关的信息。对预设的声音样本信号的特征向量以及所述的语音信息的特征向量进行一致性的判断,以确定它们二者之间的相似度,进行下一步操作。在它们的相似度满足一定的要求,则会执行相关的操作,开启/关闭摄像头,执行相关的摄像操作等。

再例如,所述声音样本信号可以是人为预先设置好的语音信号或者相关文本内容所对应的语音信息,如“最近怎么样”、“我想你了”等自定义的数据,并在当前智能终端设置相应的语音信息的相似度。现在很多父母给年纪比较小的孩子买一些智能终端,这样不在孩子身边的时候,一方面可以方便联系孩子,另一方面可以清楚地知道孩子在干什么。可往往很多小孩子比较淘气,在很多时候无法清楚地认清现实情况和自己所处的环境,在使用这些智能终端进行即时语音通话过程中,孩子往往又不配合这时候作为父母,往往比较担心。这时候,父母便可利用预先设置的语音信号,通过发出相关的语音信息被孩子使用的智能终端识别,并满足预先设置的语音信息的相似度,从而调用孩子使用的智能终端的摄像功能,进行相应的摄像操作,以了解孩子当前所处的情形,当孩子处于比较危险的状态下,有助于及时做出反应。

具体地,实时对所述语音信息进行前端处理之前的步骤当中,还包括:

对所获取到的所述语音信息进行预处理。

本发明实施例中,进行即时语音通话,通话双方的语音信息由于所处的环境,往往混杂着很多噪声。一种优选的方案中,进行声音识别之前,需要对所述语音信息进行预处理,一方面,要对人的声音信息与环境噪声区别开来,另一方面,对原有的人的声音信息进行增强。一般来说,所述语音信息的频谱,往往低频的部分高于高频部分的能量,加强高频部分的能量能使声学模型更好地利用高频共振峰,从而提高识别的准确率。

优选地,所述预处理包括:使用反混叠带通滤波器去除个体发音差异以及环境引起的噪声影响。

S13.若所述相似度达到预先设置的阈值,则驱动所述智能终端唤醒处于休眠/关闭状态的摄像功能,执行相应的摄像操作。

具体地,若所述相似度达到预先设置的阈值,则驱动所述智能终端唤醒处于休眠/关闭状态的摄像功能,执行相应的摄像操作的步骤中,包括:

确定所述相似度达到预先设置的阈值;

检测当前的所述智能终端摄像功能是否处于休眠/关闭状态;

若是,则驱动所述智能终端唤醒摄像功能,执行相应的摄像操作。

本发明实施例中,当前的智能终端在即时语音通话过程中,接收来自对方的语音信息,根据预先的设置,将需要被识别的声音信息的特征向量与数据库中的样本声音信号的特征向量进行一致性判别,判断对方是否想唤醒当前的智能终端的摄像模块,进行相应的摄像操作。若它们两者之间的相似度接近一定的数值,将会触发相关的操作指令。该相似度的阈值的设置可以是本机设备预先设置好的,也可以是用户自行设置的。通常而言,相似度越高,越有助于准确判断并执行准确的摄像操作。当前智能终端所接收到对方的语音信息满足所述相似度的要求,则会对当前本机设备上的摄像模块的状态先进行检测,以确定其是否处于休眠或关闭的状态。若当前的智能终端的摄像功能已经被启用,则直接执行相应的摄像操作;若检测当前的智能终端的摄像功能确实处于休眠或关闭的状态,则会唤醒该智能终端的摄像功能,进而执行相应的摄像操作。

当然,本发明所述的摄像操作的执行方式和执行时间可以是预先设置好的,能够进行选择的,在能保证人们的基本需求的同时,节约智能终端电源的支出。进一步地,该摄像操作可以是间歇性有规律的操作,也可以是一次性的触发并运行一段时间。对于一些电池储能较低的智能终端/当前电源较低的智能终端(如智能手表等)而言,长时间启动摄像功能进行摄像操作并不利于智能终端的长时间持续使用。在基本能满足人们的需求的时候,可选择性的摄像操作有助于减少智能终端的耗能,增强智能终端的实用性。

例如,所述执行相应的摄像操作包括录制关于所述智能终端当前的视频,并将该视频发送到参与所述即时语音通话的其他用户的设备上去。应当注意的是,这种录制视频的操作不仅仅局限于先录制完视频后发送,其也可以是实时进行,边录制视频边发送。换句话,在即时语音通话的双方,可以直接从即时语音通话切换到即时视频通话。在即时语音通话的过程中,参与语音通话的甲,发出相关的语音信息,对乙进行提醒,以便对方能录制一段视频发送给他。这时,乙的智能终端接收到甲的语音信息,识别出甲想让乙启动摄像功能录制一段视频给他。那么,在乙的智能终端允许的权限和所设置的内容的范围内,会唤醒处于休眠/关闭状态的摄像功能,录制一段视频并发送给甲。这段录制视频的操作可以是一次触发执行一次,也可以是间歇性地执行多次。所述视频的时长可以是30秒,也可以是60秒。这种录制视频的时长以及次数的操作,是根据智能终端上的设置而进行的。这种设置是系统提供选择和/或用户自行设置的。通过这种录制视频并发送的操作,可以让与当前智能设备进行即时语音通话的一方,切实感受到当前用户所处的环境。

又例如,所述执行相应的摄像操作包括拍摄关于所述智能终端当前的照片,并将该照片发送到参与所述即时语音通话的其他用户的设备上。可以理解的是,对于同样的智能终端设备,拍摄一张照片所消耗的电源远少于录制一段视频。在当前智能终端的电源的蓄能不高或者所剩余的电源不足的时候,录制一段视频,往往不太现实,这会影响智能终端的使用时长,会给用户带来诸多不便。这时候,比起录制视频,拍摄照片会是更好的解决方案,其都能真实地反映当前智能终端的用户所处的环境,也能实现节能,减少功耗的需要。同样地,这种拍摄照片的摄像操作可以是一次触发执行一次,也可以是间歇性地执行多次。

同时,这种录制视频、拍摄照片等摄像操作,可以是由于当前剩余电源的多少,而进行切换的。例如,当智能终端的电源高于电源的储能能力的40%的时候,进行录制视频的摄像操作,而低于40%的时候,进行拍摄照片的摄像操作。

应当注意的是,接收对方相关的语音信息开启当前智能终端摄像功能,是由于当前智能终端摄像功能本身的设置所赋予的权限。这种默认开启的方式,并不需要用户及时反应并进行相关的手动操作,其本身自动运作,并执行相应的摄像操作,智能、高效、便捷。在某些特定的环境中,由于手动操作的不方便,其由进行即时语音通话的对方自动唤醒,往往能带来意想不到的效果。

具体地,还可以包括:

驱动所述智能终端唤醒摄像功能时,会向本机设备当前的用户进行语音提示。

例如,当前智能终端设备唤醒摄像功能时,会向当前的用户发送类似“已应对方要求,唤醒了摄像功能,正准备执行摄像操作”等提示性句子的语音。

当然,也存在这本机设备上的智能终端上的摄像模块损坏等情形,这时候,可以对本机设备的当前使用用户对该情况进行语音提示或者反馈给对方,以便当前使用者和/或参与即时语音通话的其他人能根据该提示和/或反馈信息做出应对。

具体地,还包括:

在即时语音通话结束时,关闭当前所述智能终端的摄像功能。

智能终端启动了摄像功能,执行了相应的摄像操作之后,通常会进入睡眠状态,等待下一次的语音信息识别的触发,在即时语音通话过程避免频繁的启动和关闭的操作的大量耗能。在通话结束时,摄像功能可以还处于睡眠状态,因此,通话结束时,需要将该摄像功能关闭,以节约能源,减少损耗。

如图2,示出了本发明自动唤醒智能终端摄像功能的系统的一种实施例的结构示意图。所述自动唤醒智能终端摄像功能的系统包括:获取模块S101、判断模块S102、驱动模块S103。

获取模块S101,用于获取智能终端即时语音通话过程中所接收到的语音信息。

使用智能终端进行即时语音通话,是现代人们日常交流的方式之一。所述智能终端为、智能手表、手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑等任意终端设备。在即时语音通话的过程中,参与该通信的双方或多方人员其所使用的智能终端会接收在该通话过程中其他人员的智能终端所传输过来的语音信息。

具体地,所述获取模块中,还包括:

调用智能终端的相关通信接口,对所述语音信息进行端点检测。

例如,在一个双方参与的即时语音通话中,甲使用智能终端和乙进行即时语音通话。其过程中,甲乙会分别接收到来自对方所发送的语音信息。相对于甲来说,甲所使用的智能终端在即时语音通话的过程中会接收来自乙的智能终端的语音信息。甲的智能终端首先会对来自乙的智能终端的信号流进行识别判断,从中获取语音信息,以便对所述语音信息进行进一步的处理,改善增强语音质量还有提升识别系统的精度。其中,在获取相关的语音信息后,甲的智能终端会调用其上的相关的通信接口,对所述的语音信息进行识别,并确定语音信息的起始点和终止点,提升语音识别的精度。该通信接口可以是采用多参数综合判决的检测方法,其能在较高信噪比的条件下获得很好的检测效果。

优选地,所述语音信息以数据包或数据帧的形式进行接收。

例如,进行即时语音通话的双方,其各自的语音信号经过各自智能终端的处理后,在所建立的通信信道上进行传输。对于其中一方所接收的语音信息而言,该语音信息以数据帧的形式在所述通信信道的数据链路层进行传输,而在网络层和传输层则以数据包的形式进行传输。

判断模块S102,用于实时对所述语音信息进行前端处理,提取其特征向量,并将该特征向量与数据库中预设声音样本信号所对应的特征向量进行匹配计算,判断它们之间的相似度。

本发明实施例中,进行即时语音通话的双方,一方的智能终端获取了另一方的语音信息后,所述智能终端会对所述语音信息经过一个简单的处理识别等。然后,所述智能终端会对所述语音信息进行前端处理,所述前端处理可以包括端点检测和/或语音增强,有利于提高后续对语音信息的处理,如语音编码、语音识别的效果等。其中,有效的端点检测不仅能使对语音信息的处理时间减到最少,而且能排除无声段的噪声干扰。而语音增强则从含噪声信号中提取干净的语音信息,提高语音信息的信噪比。接下来,对经过前端处理后的语音信息进行量化,提取其特征信息。其中,所述声音信息的量化可以通过两种方式进行实现,其一是标量量化,其二是矢量量化。应当注意的是,本机设备中是具有一个关于声音样本信号的数据库,或者本机设备与云端的声音样本信号的数据库中建立有映射关系,能在需要的时候,调用该数据库的相关内容。该数据库可以是本机设备上系统所提供的,也可以是通过人为进行操作设置的。跟所述语音信息一样,对数据库中预设的声音样本信号进行量化、提取特征向量,并将该声音样本信号与被识别的即时语音通话中所接收的语音信息所对应的特征向量进行一致性的判断,判断它们之间的相似度。本发明中,通过对所接收到的所述语音信息进行前端处理,提取特征向量等,有效地提高了语音信息识别的准确率,减少了误操作的可能性,提高了用户的体验。

其中,所预设声音样本信号可以系统提供的,也可以人为设置的。其来源可以是多途径的,并不局限于某种固定的方式。智能终端根据所预设声音样本信号,对所接收到的语音信息进行有效地识别,从而执行相应的操作。

例如,预设声音样本信号可以是与摄像模块的开闭状态、摄像操作等有关,如:“我怎么看不见你了”、“你那边怎么回事啊,黑漆漆的”“你怎么把摄像头关了”“开一下摄像装置,给我发一个小视频/给我发几张照片”等表征的需要。即时语音通话的双方,其中一方接收到来自对方的语音信息,然后通过识别所接收到的语音信息是否包含有类似或相关的信息。对预设的声音样本信号的特征向量以及所述的语音信息的特征向量进行一致性的判断,以确定它们二者之间的相似度,进行下一步操作。在它们的相似度满足一定的要求,则会执行相关的操作,开启/关闭摄像头,执行相关的摄像操作等。

再例如,所述声音样本信号可以是人为预先设置好的语音信号或者相关文本内容所对应的语音信息,如“最近怎么样”、“我想你了”等自定义的数据,并在当前智能终端设置相应的语音信息的相似度。现在很多父母给年纪比较小的孩子买一些智能终端,这样不在孩子身边的时候,一方面可以方便联系孩子,另一方面可以清楚地知道孩子在干什么。可往往很多小孩子比较淘气,在很多时候无法清楚地认清现实情况和自己所处的环境,在使用这些智能终端进行即时语音通话过程中,孩子往往又不配合这时候作为父母,往往比较担心。这时候,父母便可利用预先设置的语音信号,通过发出相关的语音信息被孩子使用的智能终端识别,并满足预先设置的语音信息的相似度,从而调用孩子使用的智能终端的摄像功能,进行相应的摄像操作,以了解孩子当前所处的情形,当孩子处于比较危险的状态下,有助于及时做出反应。

具体地,实时对所述语音信息进行前端处理之前的步骤当中,还包括:

对所获取到的所述语音信息进行预处理。

本发明实施例中,进行即时语音通话,通话双方的声音信息由于所处的环境,往往混杂着很多噪声。一种优选的方案中,进行声音识别之前,需要对所述语音信息进行预处理,一方面,要对人的声音信息与环境噪声区别开来,另一方面,对原有的人的声音信息进行增强。一般来说,所述的声音信息的频谱,往往低频的部分高于高频部分的能量,加强高频部分的能量能使声学模型更好地利用高频共振峰,从而提高识别的准确率。

优选地,所述预处理包括:使用反混叠带通滤波器去除个体发音差异以及环境引起的噪声影响。

驱动模块S103,用于若所述相似度达到预先设置的阈值,则驱动所述智能终端唤醒处于休眠/关闭状态的摄像功能,执行相应的摄像操作。

具体地,所述驱动模块被配置为:

确定所述相似度达到预先设置的阈值;

检测当前的所述智能终端摄像功能是否处于休眠/关闭状态;

若是,则驱动所述智能终端唤醒摄像功能,执行相应的摄像操作。

本发明实施例中,当前的智能终端在即时语音通话过程中,接收来自对方的语音信息,根据预先的设置,将需要被识别的声音信息的特征向量与数据库中的样本声音信号的特征向量进行一致性判别,判断对方是否想唤醒当前的智能终端的摄像模块,进行相应的摄像操作。若它们两者之间的相似度接近一定的数值,将会触发相关的操作指令。该相似度的阈值的设置可以是本机设备预先设置好的,也可以是用户自行设置的。通常而言,相似度越高,越有助于准确判断并执行准确的摄像操作。当前智能终端所接收到对方的语音信息满足所述相似度的要求,则会对当前本机设备上的摄像模块的状态先进行检测,以确定其是否处于休眠或关闭的状态。若当前的智能终端的摄像功能已经被启用,则直接执行相应的摄像操作;若检测当前的智能终端的摄像功能确实处于休眠或关闭的状态,则会唤醒该智能终端的摄像功能,进而执行相应的摄像操作。

当然,本发明所述的摄像操作的执行方式和执行时间可以是预先设置好的,能够进行选择的,在能保证人们的基本需求的同时,节约智能终端电源的支出。进一步地,该摄像操作可以是间歇性有规律的操作,也可以是一次性的触发并运行一段时间。对于一些电池储能较低的智能终端/当前电源较低的智能终端(如智能手表等)而言,长时间启动摄像功能进行摄像操作并不利于智能终端的长时间持续使用。在基本能满足人们的需求的时候,可选择性的摄像操作有助于减少智能终端的耗能,增强智能终端的实用性。

例如,所述执行相应的摄像操作包括录制关于所述智能终端当前的视频,并将该视频发送到参与所述即时语音通话的其他用户的设备上去。应当注意的是,这种录制视频的操作不仅仅局限于先录制完视频后发送,其也可以是实时进行,边录制视频边发送。换句话,在即时语音通话的双方,可以直接从即时语音通话切换到即时视频通话。在即时语音通话的过程中,参与语音通话的甲,发出相关的语音信息,对乙进行提醒,以便对方能录制一段视频发送给他。这时,乙的智能终端接收到甲的语音信息,识别出甲想让乙启动摄像功能录制一段视频给他。那么,在乙的智能终端允许的权限和所设置的内容的范围内,会唤醒处于休眠/关闭状态的摄像功能,录制一段视频并发送给甲。这段录制视频的操作可以是一次触发执行一次,也可以是间歇性地执行多次。所述视频的时长可以是30秒,也可以是60秒。这种录制视频的时长以及次数的操作,是根据智能终端上的设置而进行的。这种设置是系统提供选择和/或用户自行设置的。通过这种录制视频并发送的操作,可以让与当前智能设备进行即时语音通话的一方,切实感受到当前用户所处的环境。

又例如,所述执行相应的摄像操作包括拍摄关于所述智能终端当前的照片,并将该照片发送到参与所述即时语音通话的其他用户的设备上。可以理解的是,对于同样的智能终端设备,拍摄一张照片所消耗的电源远少于录制一段视频。在当前智能终端的电源的蓄能不高或者所剩余的电源不足的时候,录制一段视频,往往不太现实,这会影响智能终端的使用时长,会给用户带来诸多不便。这时候,比起录制视频,拍摄照片会是更好的解决方案,其都能真实地反映当前智能终端的用户所处的环境,也能实现节能,减少功耗的需要。同样地,这种拍摄照片的摄像操作可以是一次触发执行一次,也可以是间歇性地执行多次。

同时,这种录制视频、拍摄照片等摄像操作,可以是由于当前剩余电源的多少,而进行切换的。例如,当智能终端的电源高于电源的储能能力的40%的时候,进行录制视频的摄像操作,而低于40%的时候,进行拍摄照片的摄像操作。

应当注意的是,接收对方相关的语音信息开启当前智能终端摄像功能,是由于当前智能终端摄像功能本身的设置所赋予的权限。这种默认开启的方式,并不需要用户及时反应并进行相关的手动操作,其本身自动运作,并执行相应的摄像操作,智能、高效、便捷。在某些特定的环境中,由于手动操作的不方便,其由进行即时语音通话的对方自动唤醒,往往能带来意想不到的效果。

具体地,还包括:

提示模块,用于驱动所述智能终端唤醒摄像功能时,会向本机设备当前的用户进行语音提示。

例如,当前智能终端设备唤醒摄像功能时,会向当前的用户发送类似“已应对方要求,唤醒了摄像功能,正准备执行摄像操作”等提示性句子的语音。

当然,也存在这本机设备上的智能终端上的摄像模块损坏等情形,这时候,可以对本机设备的当前使用用户对该情况进行语音提示或者反馈给对方,以便当前使用者和/或参与即时语音通话的其他人能根据该提示和/或反馈信息做出应对。

具体地,还包括:

关闭模块,用于在即时语音通话结束时,关闭当前所述智能终端的摄像功能。

智能终端启动了摄像功能,执行了相应的摄像操作之后,通常会进入睡眠状态,等待下一次的语音信息识别的触发,在即时语音通话过程避免频繁的启动和关闭的操作的大量耗能。在通话结束时,摄像功能可以还处于睡眠状态,因此,通话结束时,需要将该摄像功能关闭,以节约能源,减少损耗。

本发明实施例还提供了一种智能终端。所述智能终端包括:

触敏显示器,用于显示信息编辑界面,实现人机交互;

一个或多个处理器

存储器;

一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由一个或多个处理器执行;

所述一个或多个程序用于驱动所述一个或多个处理器构造用于执行自动唤醒智能终端摄像功能的方法的模块。所述模块包括:获取模块S101、判断模块S102、驱动模块S103。

该智能终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant,个人数字助理)、POS(Point of Sales,销售终端)、车载电脑、智能手表等任意终端设备,以终端为手机为例:

图3示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图3,手机包括:射频(Radio Frequency,RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity,WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图3中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

下面结合图3对手机的各个构成部件进行具体的介绍:

RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。通常,RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low Noise Amplifier,LNA)、双工器等。此外,RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。

存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1530可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1580,并能接收处理器1580发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1541。进一步的,触控面板1531可覆盖显示面板1541,当触控面板1531检测到在其上或附近的触摸操作后,传送给处理器1580以确定触摸事件的类型,随后处理器1580根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图3中,触控面板1531与显示面板1541是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1531与显示面板1541集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1541和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

音频电路1560、扬声器1561,传声器1562可提供用户与手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比如另一手机,或者将音频数据输出至存储器1520以便进一步处理。

WiFi属于短距离无线传输技术,手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图3示出了WiFi模块1570,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1580是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。

手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。

以上对本发明所提供的一种智能终端进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1