一种语音识别的方法及系统的制作方法

文档序号：10513509阅读：567来源：国知局

一种语音识别的方法及系统的制作方法
【专利摘要】本发明公开了一种语音识别的方法及系统。该方法，包括：一种语音识别的方法，其特征在于，包括：检测出与用户脸部的距离小于等于预置距离；识别出用户脸部的嘴型发生变化；对录取的语音进行识别。本发明能够在用户对着设备进行语音时，自动开启语音识别，对用户的语音进行识别，减少了开启的操作，提高了用户体验。
【专利说明】
一种语音识别的方法及系统
技术领域
[0001]本发明涉及数据存储技术领域，尤其涉及一种语音识别的方法及系统。
【背景技术】
[0002]语音的开启模块对整个语音识别的体验是至关重要的，同时好的开启模式还对避免噪音干扰起着很大的帮助。现有的语音识别开启模式主要有两种:一种是触摸操作之后开启语音识别，如:按屏幕上的开启按钮，或是定义滑屏等操作来开启，或是按实体钮键来开启一个功能的语音识别功能，但这种方式在开启语音识别功能时，需要用手操作，显得不够便捷、智能，影响了用户的使用意愿，在有些场合，如开车时更显得不方便;另一种是用户讲规定好的简单命令来开启，如华为的智能手表，就是通过对手表说:“hello，安卓”这样简单且规定好的命令来开启它的语音识别模式。但是这种方式显得不自然，智能感降低，并且在在语音识别之前都要有个命令识别过程，也会让效率降低。
[0003]如何在用户对着设备进行讲话后，系统就能自动识别，不需要用户有一个语音的开启动作，能自动在用户开始讲话时就自动开启，使语音识别更便捷、智能，提高用户体验是急需解决的冋题。

【发明内容】

[0004]本发明提供了一种语音识别的方法及系统，通过根据与用户脸部的距离和嘴型的变化来进行语音识别，实现了在用户对着设备进行语音时，自动开启语音识别，对用户的语音进行识别，减少了开启的操作，提高了用户体验。
[0005]为实现上述设计，本发明采用以下技术方案:
[0006]—方面，提供了一种语音识别的方法，包括:
[0007]检测出与用户脸部的距离小于等于预置距离；
[0008]识别出用户脸部的嘴型发生变化；
[0009]对录取的语音进行识别。
[0010]优选地，所述检测出与用户脸部的距离小于等于预置距离，包括:通过摄像头检测出与用户脸部的距离小于等于预置距离；
[0011]所述检测出与用户脸部的距离小于等于预置距离之前，还包括:检测出抬手动作，开启摄像头。
[0012]优选地，所述检测出与用户脸部的距离小于等于预置距离，包括:
[0013]利用红外传感器检测与物体的距离小于等于预置距离；
[0014]通过摄像头确定所述物体为用户脸部。
[0015]优选地，所述检测出与用户脸部的距离小于等于预置距离之后，还包括:开启录
■~>V.曰O
[0016]优选地，所述对录取的语音进行识别，包括:去除识别出用户脸部的嘴型发生变化之前的录音，从识别出用户脸部的嘴型发生变化时的录音作为起始点，对录取的语音进行识别。
[0017]优选地，所述对录取的语音进行识别之后，还包括:对识别出的语音命令进行响应。
[0018]另一方面，提供了一种语音识别的系统，该系统，包括:
[0019]距离检测模块，用于检测出与用户脸部的距离小于等于预置距离；
[0020]嘴型识别模块，用于识别出用户脸部的嘴型发生变化；
[0021 ]语音识别模块，用于对录取的语音进行识别。
[0022]优选地:
[0023]所述距离检测模块具体用于:通过摄像头检测出与用户脸部的距离小于等于预置距离；
[0024]还包括:开启模块，用于检测出抬手动作，开启摄像头。
[0025]优选地，所述距离检测模块具体用于:
[0026]利用红外传感器检测出与物体的距离小于等于预置距离；
[0027]通过摄像头确定所述物体为用户脸部。
[0028]优选地，还包括:
[0029]录音开启模块，用于在距离检测模块检测出与用户脸部的距离小于等于预置距离之后开启录首；
[0030]响应模块，用于对识别出的语音命令进行响应；
[0031]所述语音识别模块，具体用于:去除识别出用户脸部的嘴型发生变化之前的录音，从识别出用户脸部的嘴型发生变化时的录音作为起始点，对录取的语音进行识别。
[0032]与现有技术相比，本发明的有益效果为:检测出与用户脸部的距离小于等于预置距离;识别出用户脸部的嘴型发生变化;对录取的语音进行识别。本发明通过根据与用户脸部的距离和嘴型的变化来进行语音识别，实现了在用户对着设备进行语音时，自动开启语音识别，对用户的语音进行识别，减少了开启的操作，提高了用户体验。
【附图说明】
[0033]为了更清楚地说明本发明实施例中的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据本发明实施例的内容和这些附图获得其他的附图。
[0034]图1是本发明【具体实施方式】中提供的一种语音识别的方法的第一实施例的方法流程图。
[0035]图2是本发明【具体实施方式】中提供的一种语音识别的方法的第二实施例的方法流程图。
[0036]图3是本发明【具体实施方式】中提供的一种语音识别的方法的第三实施例的方法流程图。
[0037]图4是本发明【具体实施方式】中提供的一种语音识别的系统的第一实施例的结构方框图。
[0038]图5是本发明【具体实施方式】中提供的一种语音识别的系统的第二实施例的结构方框图。
[0039]图6是本发明【具体实施方式】中提供的一种语音识别的系统的第三实施例的结构方框图。
【具体实施方式】
[0040]为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚，下面将结合附图对本发明实施例的技术方案作进一步的详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0041]请参考图1，其是本发明【具体实施方式】中提供的一种语音识别的方法的第一实施例的方法流程图。如图所示，该方法，包括:
[0042]步骤SlOl:检测出与用户脸部的距离小于等于预置距离。
[0043]当用户需要对设备进行语音控制时，用户会靠近设备进行讲话，也相当于用户脸部靠近设备，为提高语音的录取质量，需检测设备与用户脸部的距离是否小于等于预置距离，所述预置距离为5cm、10cm或15cm等，可根据不同设备和实际使用环境来进行设置。所述设备包括:大型智能设备，如智能手表、智能手环等的穿戴便携设备，如手机、平板等的非穿戴便携设备等等。
[0044]步骤S102:识别出用户脸部的嘴型发生变化。
[0045]为避免在脸部靠近但还没发音时，录入环境噪音，影响识别率，需要进行嘴型识另IJ，如果识别出用户的嘴型有发音的变化与动作，就以当前时间点为控制语音的起始点。
[0046]步骤S103:对录取的语音进行识别。
[0047]所述对录取的语音进行识别，包括:去除识别出用户脸部的嘴型发生变化之前的录音，从识别出用户脸部的嘴型发生变化时的录音作为起始点，对录取的语音进行识别。去除起始点之前的录音，在一定程度上去除环境噪声对语音识别的影响，提高识别率。
[0048]综上所述，本实施例通过根据与用户脸部的距离和嘴型的变化来进行语音识别，以识别出用户脸部的嘴型发生变化时的录音作为语音识别的起始点，在一定程度上去除了环境噪声对语音识别的影响，提高了识别率，本实施例实现了在用户对着设备进行语音时，自动开启语音识别，对用户的语音进行识别，减少了开启的操作，提高了用户体验。
[0049]请参考图2，其是本发明【具体实施方式】中提供的一种语音识别的方法的第二实施例的方法流程图。如图所示，该方法，包括:
[0050]步骤S201:检测出抬手动作，开启摄像头。
[0051]对于智能手表、智能手环等的穿戴便携设备来说，当用户需要语音控制时，是需要抬手的，对应的会有一个抬手动作，但抬手不一定会进行语音控制，因此，当检测出抬手动作时，还需要进行脸部识别，检测出有抬手动作，也识别出脸部，则说明用户需要进行语音控制。本实施例利用摄像头进行脸部识别和距离的监测，所以当检测出抬手动作时，开启摄像头。可以利用加速度传感器检测出抬手动作，这是现有技术，此处不再赘述。
[0052]步骤S202:通过摄像头检测出与用户脸部的距离小于等于预置距离。
[0053]当用户脸部与设备的距离小于等于预置距离，说明用户需要进行语音控制。利用摄像头进行脸部识别和距离的检测，以检测出与用户脸部的距离小于等于预置距离，所述预置距离为5cm、10cm或15cm等，可根据不同设备和实际使用环境来进行设置。步骤S202为本发明【具体实施方式】中提供的一种语音识别的方法的第一实施例中步骤S101:检测出与用户脸部的距离小于等于预置距离的针对智能手表、智能手环等穿戴便携设备的更具体的实施方案。
[0054]步骤S203:开启录音。
[0055]当检测出与用户脸部的距离小于等于预置距离之后，就开启录音。
[0056]步骤S204:识别出用户脸部的嘴型发生变化。
[0057]为避免在脸部靠近但还没发音时，录入环境噪音，影响识别率，需要进行嘴型识另IJ，如果识别出用户的嘴型有发音的变化与动作，就以当前时间点为控制语音的起始点。
[0058]步骤S205:对录取的语音进行识别。
[0059]所述对录取的语音进行识别，包括:去除识别出用户脸部的嘴型发生变化之前的录音，从识别出用户脸部的嘴型发生变化时的录音作为起始点，对录取的语音进行识别。去除起始点之前的录音，在一定程度上去除环境噪声对语音识别的影响，提高识别率。
[0060]步骤S206:对识别出的语音命令进行响应。
[0061]对识别出的语音命令进行响应，所述语音命令可以是打开某个应用程序、关闭某个应用程度、打电话、发信息等。
[0062]本实施例当检测出抬手动作时就开启摄像头，利用摄像头来进行脸部识别和距离的监测，当摄像头检测出与用户脸部的距离小于等于预置距离时，开启录音，去除识别出用户脸部的嘴型发生变化之前的录音，以识别出用户的嘴型有发音的变化与动作的时间点作为控制语音的起始点，对录取的语音进行识别，并对识别出的语音命令进行响应。本实施例在用户有抬手动作，靠近设备进行发音后，能立即进行语音命令的响应，不用事先做开启的动作，整个过程自然，操作效率高，在一定程度上去除环境噪声对语音识别的影响，提高识别率。
[0063]请参考图3，其是本发明【具体实施方式】中提供的一种语音识别的方法的第三实施例的方法流程图。如图所示，该方法，包括:
[0064]步骤S301:利用红外传感器检测与物体的距离小于等于预置距离。
[0065]当用户需要对设备进行语音控制时，用户会靠近设备进行讲话，因此可利用红外传感器检测在预置距离范围内是否有物体接近，也就相当于利用红外传感器检测设备与物体的距离是否小于等于预置距离。
[0066]步骤S302:通过摄像头确定所述物体为用户脸部。
[0067]当红外传感器检测设备与物体的距离小于等于预置距离，说明有物体接近，但不代表一定是需要进行语音控制，还可能会是其他情况，例如刚好有个物体摆放在设备前面，或是设备放在了一个物体上面，因此还需要通过摄像头确定所述物体为用户脸部，说明是用户在靠近设备，需要对设备进行语音控制。步骤S301与步骤S302为本发明【具体实施方式】中提供的一种语音识别的方法的第一实施例中步骤SlOl:检测出与用户脸部的距离小于等于预置距离的更具体的实施方案。
[0068]所述设备包括:大型智能设备，如智能手表、智能手环等的穿戴便携设备，如手机、平板等的非穿戴便携设备等等。所述预置距离为5cm、10cm或15cm等，可根据不同设备和实际使用环境来进行设置。利用红外传感器检测与物体的距离小于等于预置距离之后，开启摄像头，通过摄像头确定所述物体为用户脸部。
[0069]步骤S303:开启录音。
[0070]当检测出与用户脸部的距离小于等于预置距离之后，就开启录音。
[0071]步骤S304:识别出用户脸部的嘴型发生变化。
[0072]为避免在脸部靠近但还没发音时，录入环境噪音，影响识别率，需要进行嘴型识另IJ，如果识别出用户的嘴型有发音的变化与动作，就以当前时间点为控制语音的起始点。
[0073]步骤S305:对录取的语音进行识别。
[0074]所述对录取的语音进行识别，包括:去除识别出用户脸部的嘴型发生变化之前的录音，从识别出用户脸部的嘴型发生变化时的录音作为起始点，对录取的语音进行识别。去除起始点之前的录音，在一定程度上去除环境噪声对语音识别的影响，提高识别率。
[0075]步骤S306:对识别出的语音命令进行响应。
[0076]对识别出的语音命令进行响应，所述语音命令可以是打开某个应用程序、关闭某个应用程度、打电话、发信息等。
[0077]本实施例利用红外传感器检测与物体的距离小于等于预置距离，通过摄像头确定所述物体为用户脸部，利用红外传感器和摄像头的结合来检测出设备与用户脸部的距离小于等于预置距离后，开启录音，去除识别出用户脸部的嘴型发生变化之前的录音，以识别出用户的嘴型有发音的变化与动作的时间点作为控制语音的起始点，对录取的语音进行识另IJ，并对识别出的语音命令进行响应。本实施例在用户靠近设备进行发音后，能立即进行语音命令的响应，不用事先做开启的动作，整个过程自然，操作效率高，在一定程度上去除环境噪声对语音识别的影响，提高识别率。
[0078]以下是本发明【具体实施方式】中提供的一种语音识别的系统的实施例，系统的实施例基于上述的方法的实施例实现，在系统中未尽的描述，请参考前述方法的实施例。
[0079]请参考图4，其是本发明【具体实施方式】中提供的一种语音识别的系统的第一实施例的结构方框图。如图所示，该系统，包括:
[0080]距离检测模块41，用于检测出与用户脸部的距离小于等于预置距离。
[0081]当用户需要对设备进行语音控制时，用户会靠近设备进行讲话，也相当于用户脸部靠近设备，为提高语音的录取质量，需检测设备与用户脸部的距离是否小于等于预置距离，所述预置距离为5cm、10cm或15cm等，可根据不同设备和实际使用环境来进行设置。所述设备包括:大型智能设备，如智能手表、智能手环等的穿戴便携设备，如手机、平板等的非穿戴便携设备等等。
[0082]嘴型识别模块42，用于识别出用户脸部的嘴型发生变化。
[0083]为避免在脸部靠近但还没发音时，录入环境噪音，影响识别率，需要进行嘴型识另IJ，如果识别出用户的嘴型有发音的变化与动作，就以当前时间点为控制语音的起始点。
[0084]语音识别模块43，用于对录取的语音进行识别。
[0085]所述语音识别模块43，具体用于:去除识别出用户脸部的嘴型发生变化之前的录音，从识别出用户脸部的嘴型发生变化时的录音作为起始点，对录取的语音进行识别。去除起始点之前的录音，在一定程度上去除环境噪声对语音识别的影响，提高识别率。
[0086]综上所述，本实施例通过根据与用户脸部的距离和嘴型的变化来进行语音识别，以识别出用户脸部的嘴型发生变化时的录音作为语音识别的起始点，在一定程度上去除了环境噪声对语音识别的影响，提高了识别率，本实施例实现了在用户对着设备进行语音时，自动开启语音识别，对用户的语音进行识别，减少了开启的操作，提高了用户体验。
[0087]请参考图5，其是本发明【具体实施方式】中提供的一种语音识别的系统的第二实施例的结构方框图。如图所示，该系统，包括:
[0088]开启模块51，用于检测出抬手动作，开启摄像头。
[0089]对于智能手表、智能手环等的穿戴便携设备来说，当用户需要语音控制时，是需要抬手的，对应的会有一个抬手动作，但抬手不一定会进行语音控制，因此，当检测出抬手动作时，还需要进行脸部识别，检测出有抬手动作，也识别出脸部，则说明用户需要进行语音控制。本实施例利用摄像头进行脸部识别和距离的监测，所以当检测出抬手动作时，开启摄像头。可以利用加速度传感器检测出抬手动作，这是现有技术，此处不再赘述。
[0090]距离检测模块52，用于通过摄像头检测出与用户脸部的距离小于等于预置距离。
[0091]当用户脸部与设备的距离小于等于预置距离，说明用户需要进行语音控制。利用摄像头进行脸部识别和距离的检测，以检测出与用户脸部的距离小于等于预置距离，所述预置距离为5cm、10cm或15cm等，可根据不同设备和实际使用环境来进行设置。
[0092]录音开启模块53，用于在距离检测模块52检测出与用户脸部的距离小于等于预置距离之后开启录音。
[0093]嘴型识别模块54，用于识别出用户脸部的嘴型发生变化。
[0094]为避免在脸部靠近但还没发音时，录入环境噪音，影响识别率，需要进行嘴型识另IJ，如果识别出用户的嘴型有发音的变化与动作，就以当前时间点为控制语音的起始点。
[0095]语音识别模块55，用于对录取的语音进行识别。
[0096]所述语音识别模块55，具体用于:去除识别出用户脸部的嘴型发生变化之前的录音，从识别出用户脸部的嘴型发生变化时的录音作为起始点，对录取的语音进行识别。去除起始点之前的录音，在一定程度上去除环境噪声对语音识别的影响，提高识别率。
[0097]响应模块56，用于对识别出的语音命令进行响应。
[0098]本实施例利用摄像头检测出与用户脸部的距离小于等于预置距离，以识别出用户的嘴型有发音的变化与动作的时间点作为控制语音的起始点，对录取的语音进行识别，并对识别出的语音命令进行响应。本实施例在用户有抬手动作，靠近设备进行发音后，能立即进行语音命令的响应，不用事先做开启的动作，整个过程自然，操作效率高，在一定程度上去除环境噪声对语音识别的影响，提高识别率。
[0099]请参考图6，其是本发明【具体实施方式】中提供的一种语音识别的系统的第三实施例的结构方框图。如图所示，该系统，包括:
[0100]距离检测模块61，用于利用红外传感器检测出与物体的距离小于等于预置距离；通过摄像头确定所述物体为用户脸部。
[0101]当用户需要对设备进行语音控制时，用户会靠近设备进行讲话，因此可利用红外传感器检测在预置距离范围内是否有物体接近，也就相当于利用红外传感器检测设备与物体的距离是否小于等于预置距离。所述设备包括:大型智能设备，如智能手表、智能手环等的穿戴便携设备，如手机、平板等的非穿戴便携设备等等。所述预置距离为5cm、10cm或15cm等，可根据不同设备和实际使用环境来进行设置。利用红外传感器检测与物体的距离小于等于预置距离之后，开启摄像头，通过摄像头确定所述物体为用户脸部。
[0102]录音开启模块62，用于在距离检测模块检测出与用户脸部的距离小于等于预置距尚之后开启录首。
[0103]嘴型识别模块63，用于识别出用户脸部的嘴型发生变化。
[0104]为避免在脸部靠近但还没发音时，录入环境噪音，影响识别率，需要进行嘴型识另IJ，如果识别出用户的嘴型有发音的变化与动作，就以当前时间点为控制语音的起始点。
[0105]语音识别模块64，用于对录取的语音进行识别。
[0106]响应模块65，用于对识别出的语音命令进行响应。
[0107]对识别出的语音命令进行响应，所述语音命令可以是打开某个应用程序、关闭某个应用程度、打电话、发信息等。
[0108]综上所述，本实施例提供语音识别的系统在用户靠近设备进行发音后，能立即进行语音命令的响应，不用事先做开启的动作，整个过程自然，操作效率高，在一定程度上去除环境噪声对语音识别的影响，提高识别率。
[0109]以上结合具体实施例描述了本发明的技术原理。这些描述只是为了解释本发明的原理，而不能以任何方式解释为对本发明保护范围的限制。基于此处的解释，本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它【具体实施方式】，这些方式都将落入本发明的保护范围之内。
【主权项】
1.一种语音识别的方法，其特征在于，包括: 检测出与用户脸部的距离小于等于预置距离；识别出用户脸部的嘴型发生变化；对录取的语音进行识别。2.根据权利要求1所述的方法，其特征在于，所述检测出与用户脸部的距离小于等于预置距离，包括:通过摄像头检测出与用户脸部的距离小于等于预置距离；所述检测出与用户脸部的距离小于等于预置距离之前，还包括:检测出抬手动作，开启摄像头。3.根据权利要求1所述的方法，其特征在于，所述检测出与用户脸部的距离小于等于预置距离，包括: 利用红外传感器检测与物体的距离小于等于预置距离；通过摄像头确定所述物体为用户脸部。4.根据权利要求1所述的方法，其特征在于，所述检测出与用户脸部的距离小于等于预置距离之后，还包括:开启录音。5.根据权利要求1所述的方法，其特征在于，所述对录取的语音进行识别，包括:去除识别出用户脸部的嘴型发生变化之前的录音，从识别出用户脸部的嘴型发生变化时的录音作为起始点，对录取的语音进行识别。6.根据权利要求1所述的方法，其特征在于，所述对录取的语音进行识别之后，还包括:对识别出的语音命令进行响应。7.一种语音识别的系统，其特征在于，包括: 距离检测模块，用于检测出与用户脸部的距离小于等于预置距离；嘴型识别模块，用于识别出用户脸部的嘴型发生变化；语音识别模块，用于对录取的语音进行识别。8.根据权利要求7所述的系统，其特征在于: 所述距离检测模块具体用于:通过摄像头检测出与用户脸部的距离小于等于预置距离；还包括:开启模块，用于检测出抬手动作，开启摄像头。9.根据权利要求7所述的系统，其特征在于，所述距离检测模块具体用于: 利用红外传感器检测出与物体的距离小于等于预置距离；通过摄像头确定所述物体为用户脸部。10.根据权利要求7所述的系统，其特征在于，还包括: 录音开启模块，用于在距离检测模块检测出与用户脸部的距离小于等于预置距离之后开启录首；响应模块，用于对识别出的语音命令进行响应；所述语音识别模块，具体用于:去除识别出用户脸部的嘴型发生变化之前的录音，从识别出用户脸部的嘴型发生变化时的录音作为起始点，对录取的语音进行识别。
【文档编号】G10L15/25GK105869639SQ201610165978
【公开日】2016年8月17日
【申请日】2016年3月21日
【发明人】房少杰
【申请人】广东小天才科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：房少杰;
技术所有人：广东小天才科技有限公司;
我是此专利的发明人