一种语音控制的方法与流程

文档序号:17596504发布日期:2019-05-07 19:32阅读:413来源:国知局
一种语音控制的方法与流程

本发明涉及一种语音控制的方法。



背景技术:

语音命令作为智能化交互的手段,已经成为了用户和手机、电器等各种具有语音识别功能设备的常用交流方式。语音识别的精确度与功耗一般状态成正比的关系,大型设备不在乎功耗的,语音识别基本可以全面识别(甚至会植入方言数据库),但是对于底功耗的设备,功耗为各种功能集成的时候必须需要考虑的问题。目前的手机上大多具有这种语音识别的模块,如苹果的siri,当语音识别到内容之后可关联手机的程序进行特定程序的执行。目前的手机中集成的语音识别的模块功能强大,需要的功耗也较大。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

本发明针对上述的技术问题,提供一种语音识别的方法,通过该方法,在集成有较为准确的控制命令的情况下,通过有限次数的本发明独特的逻辑计算,可以较为准确的识别出用户的指令,最大的优点是实现非常低地功耗。

一种语音控制的方法,包括,

采集语音信息;

语音识别单元识别语音信息,得到第一内容信息;

将第一内容信息与预存储的语音控制启动指令对比,若所述第一内容信息与所述语音控制启动指令相匹配,则启动语音控制;

采集语音信息经语音识别单元得到第二内容信息;

将所述第二内容信息与预存储的控制指令对比,若所述第二内容信息与所述控制指令相匹配,则执行所述控制指令对应的动作。

进一步地,所述预存储的语音控制启动指令和控制指令的学习方法包括:用户启动学习模块并选择指令内容;

采集语音数据;

语音识别单元识别语音数据,得到第一学习内容;

在第二时间阈值后,所述学习模块提示再次输入语音数据;

采集语音数据;

语音识别单元识别语音数据,得到第二学习内容;

在第二时间阈值后,所述学习模块提示再次输入语音数据;

采集语音数据;

语音识别单元识别语音数据,得到第三学习内容;

若所述第一学习内容、第二学习内容和第三学习内容的特征一致或者基本一致,则所述学习模块将第一学习内容、第二学习内容和第三学习内容中的任一学习内容作为所述指令内容对应的指令。

进一步地,所述的预存储的语音控制启动指令为第一语音数据库;所述的预存储的控制指令为第二语音数据库,所述第一和第二语音数据库为系统预先存储的或者用户预先存储的语音数据。

进一步地,所述语音识别单元判断所述第一/第二内容信息中的每个字的语音数据是否存在于所述第一/第二语音数据库中。

进一步地,所述处理器判断所述第一/第二内容信息中连续被识别且存储在所述第一/第二语音数据库中的两个字是否为相邻或者间隔的前后关系,若否,则处理器判断匹配失败,若是,则持续进行匹配。

进一步地,所述处理器判断所述第一/第二内容信息中被识别的字数和与被识别字数对应的手表控制指令的总字数的比例是否大于比例阈值,若小于,则所述处理器判断匹配失败,若大于,则所述处理器判断匹配成功。

进一步地,启动语音控制之后,若在第一时间阈值范围内,未采集到任何语音信息,则终止语音控制。

通过上述的技术方案,用户可以通过语音控制对设备进行简单控制,且可以对控制指令进行学习,控制方法简单,功耗非常低。

附图说明

通过参照附图详细描述其示例实施例,本发明的上述和其它目标、特征及优点将变得更加显而易见。

图1是本发明的流程图。

图2是本发明匹配判断的流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知结构、方法、装置、实现或者操作以避免喧宾夺主而使得本发明的各方面变得模糊。

实施例一。

如附图1所示,语音控制的方法首先采集语音信息。

设备包括语音识别单元,语音识别单元可识别语音信息,得到第一内容信息。对于识别语音信息的具体研究已经比较熟练,本发明基于目前的语音识别的模块能识别出语音的基础上而开展的算法。

语音识别单元识别语音信息,得到第一内容信息。

设备的存储模块中存储有语音控制启动指令,该语音控制启动指令存储在第一语音数据库中。

语音控制启动指令默认(出厂设置)为“语音控制”,用户可以根据自己的语言习惯设置多个语音控制启动指令,甚至可以采用方言的形式设置。如“启动语音”、“开启语音”等等。

当所述的第一内容信息与所述语音控制启动指令相匹配时,设备启动语音控制。

设备继续采集语音信息,所述语音识别单元对该语音信息进行识别,得到第二内容信息。

设备的存储模块中存储有一个或者多个控制指令,一个或者多个控制指令均存储在第二语音数据库中。

控制指令可以是默认(出厂设置)的一些控制指令。用户也可以对语音控制指令进行自定义。

当所述第二内容信息与所述控制指令相匹配时,所述的设备执行所述控制指令对应的动作。

启动语音控制之后,若在第一时间阈值范围内,未采集到任何语音信息,则终止语音控制。

实施例二。

对所述语音控制启动指令和控制指令统称为指令,所述设备包括学习模块,所述学习模块可以学习所述指令。学习的方法如下:

用户启动学习模块并选择指令内容;

采集语音数据;

语音识别单元识别语音数据,得到第一学习内容;

在第二时间阈值后,所述学习模块提示再次输入语音数据;

采集语音数据;

语音识别单元识别语音数据,得到第二学习内容;

在第二时间阈值后,所述学习模块提示再次输入语音数据;

采集语音数据;

语音识别单元识别语音数据,得到第三学习内容;

若所述第一学习内容、第二学习内容和第三学习内容的特征一致或者基本一致,则所述学习模块将第一学习内容、第二学习内容和第三学习内容中的任一学习内容作为所述指令内容对应的指令。

启动模块中可以选择的指令内容包括语音控制启动指令和控制指令,其中控制指令中又包括用户想对设备进行控制的一些指令,如拍照、打电话等等。

如,当用户选择学习模块中的语音控制启动指令的内容时,用户可以输入语音“1”,在第二时间阈值后,如3秒后,用户再次说“1”,在第二时间阈值后,如3秒后,用户再次说“1”。当三次输入的一致或者基本一致时(本发明主要描述语音控制的方法,具体语音相似度的判断已经是现有技术,一致或者基本一致的误差范围给予判断的参数控制可以在正负5-10%的范围),判定为该输入的语音指令合乎要求,作为语音控制启动指令的语音指令。

当然,用户也可以选择控制指令中的任一控制指令进行学习。

实施例三。

如附图2所示,在实施例一的基础上,对其中的相匹配做出如下算法限制。

所述的预存储的语音控制启动指令为第一语音数据库;所述的预存储的控制指令为第二语音数据库,所述第一和第二语音数据库为系统预先存储的或者用户预先存储的语音数据。所述语音识别单元判断所述第一/第二内容信息中的每个字的语音数据是否存在于所述第一/第二语音数据库中。所述处理器判断所述第一/第二内容信息中连续被识别且存储在所述第一/第二语音数据库中的两个字是否为相邻或者间隔的前后关系,若否,则处理器判断匹配失败,若是,则持续进行匹配。所述处理器判断所述第一/第二内容信息中被识别的字数和与被识别字数对应的手表控制指令的总字数的比例是否大于比例阈值,若小于,则所述处理器判断匹配失败,若大于,则所述处理器判断匹配成功。

例如:

语音识别单元判断所述内容信息中的每个字的语音数据是否存在于所述语音数据库中。

若某个字存在于所述语音数据库中,则认为从接收到的语音信号中识别出了这个字,记为第一字。

所述处理器根据已经识别的所述第一字,映射出存储在所述语音数据库中包括第一字的控制指令。

语音识别单元继续判断内容信息中第一字后续的语音字,当所述语音识别单元识别到另一个字,且该字存在于所述语音数据库中,则记为第二字;若否,则继续识别下一个字。

所述处理器根据已经识别的所述第二字,在所述包括第一字的所有控制指令中寻出包括所述第二字的控制指令。

若该已经找出的控制指令中第一字和第二字为前后挨着的位置关系,且该控制指令只包括两个字,则所述处理器判断所述内容信息与该控制指令相匹配。

若该已经找出的控制指令中的第一字和第二字为前后间隔一个字的位置关系,且该控制指令只包括三个字,则所述处理器仍然判断所述内容信息与该控制指令相匹配。

若该已经找出的控制指令中第一字和第二字为前后挨着或者前后间隔一个字的位置关系,且该控制指令包括大于等于四个字,则所述语音识别单元继续识别所述第二字之后的内容信息。

若该已经找出的控制指令中第一字和第二字之间的距离大于等于两个字,则该次语音匹配失败。

所述语音识别单元至多间隔一个字识别其余的字,当间隔大于等于两个字时,所述处理器判断所述语音识别单元匹配失败。

实施例四。

如附图2所示,所述语音识别单元至少识别出手表控制指令总字数的【66%*总字数】才能确定想匹配,否则认定匹配失败。【】表示取整的意思,如两个字的指令,必须全部识别;三个字的指令,必须识别至少两个;四个字的指令,必须识别至少三个字。

如当要识别“延时拍照”,当第一字识别为“延”时,第二字必须识别出“时”或者“拍”,才能被处理器认定为匹配。

如当要识别“云端数据同步”时,如果仅仅识别“云”、“端”和“数”三个字,或者“云”、“数”、“同”三个字,由于识别的总字数只有50%,因此,处理器认定匹配不成功。

通过上述的技术方案,用户可以通过语音控制对设备进行简单控制,且可以对控制指令进行学习,控制方法简单,功耗非常低。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1