本发明涉及语音识别技术领域,特别是涉及一种语音识别方法、装置及电子设备。
背景技术:
目前,很多智能设备具有语音识别功能。通常语音识别的功能可以通过以下2种方式来实现:
一种是:由智能设备接收语音信息,并对语音信息进行识别,获得识别出的语音识别信息。
另一种是:由智能设备接收语音信息,并将该语音信息发送至云端服务器,由云端服务器对语音信息进行识别,获得识别出的语音识别信息。
在现有的语音识别过程中,经常会出现由于外界短噪声的干扰,导致无法准确识别用户语音的情况。例如,智能设备在检测语音信息的时候,会出现有人突然咳嗽了一声或者有人敲了下桌子的情况。
这种情况下,不论是上述那种语音识别的方式,智能设备会将这些干扰声音作为语音信息接收下来进行语音识别,从而导致语音识别出错。这是因为这些干扰声音通常被识别为短音节词,然而短音节词没有任何意义,现有的语音识别过程无法得到有意义的信息,因此经常会出现报错,这影响了智能设备的语音识别效果。
技术实现要素:
本发明的目的在于提供一种语音识别方法、装置及电子设备,以减小外界短噪声对语音识别过程的影响,提高语音识别效果。
为达到上述目的,本发明实施例提供了一种语音识别方法,应用于电子设备,所述方法包括:
获取待识别语音信息;
对所述待识别语音信息进行识别,得到该待识别语音信息对应的语音识别信息;
确定所述语音识别信息是否为无意义短音节词;
如果所述语音识别信息为无意义短音节词,则丢弃所述语音识别信息。
可选地,所述确定所述语音识别信息是否为无意义短音节词的步骤,包括:
判断预先构建的无意义短音节词集合中是否存在与所述语音识别信息相同的无意义短音节词;
如果是,确定所述语音识别信息为无意义短音节词;
如果否,确定所述语音识别信息不为无意义短音节词。
可选地,在确定出所述语音识别信息不为无意义短音节词后,所述方法还包括:
记录所述语音识别信息。
可选地,在所述获取待识别语音信息的步骤之后,所述方法还包括:
若对所述待识别语音信息识别失败,则丢弃该待识别语音信息。
可选地,所述电子设备为智能设备;
所述获取待识别语音信息的步骤,包括:
实时检测语音信息;
在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为待识别语音信息。
可选地,所述电子设备为与智能设备通信连接的云端服务器;
所述获取待识别语音信息的步骤,包括:接收所述智能设备发送的待识别语音信息;所述智能设备发送的待识别语音信息为:所述智能设备在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为待识别语音信息后发送至所述云端服务器的。
本发明实施例还提供了一种语音识别装置,应用于电子设备,所述装置包括:
获取模块,用于获取待识别语音信息;
识别模块,用于对所述待识别语音信息进行识别,得到该待识别语音信息对应的语音识别信息;
确定模块,用于确定所述语音识别信息是否为无意义短音节词;
第一丢弃模块,用于当所述确定模块确定出所述语音识别信息为无意义短音节词时,则丢弃所述语音识别信息。
可选地,所述确定模块,包括:
判断单元,用于判断预先构建的无意义短音节词集合中是否存在与所述语音识别信息相同的无意义短音节词;
第一确定单元,用于当所述判断单元的判断结果为是时,确定所述语音识别信息为无意义短音节词;
第二确定单元,用于当所述判断单元的判断结果为否时,确定所述语音识别信息不为无意义短音节词。
可选地,所述装置还包括:
记录模块,用于当所述确定模块确定出所述语音识别信息不为无意义短音节词时,记录所述语音识别信息。
可选地,所述装置还包括:
第二丢弃模块,用于若对所述待识别语音信息识别失败,则丢弃该待识别语音信息。
可选地,所述电子设备为智能设备;
所述获取模块,包括:
检测单元,用于实时检测语音信息;
确定单元,用于在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为待识别语音信息。
可选地,所述电子设备为与智能设备通信连接的云端服务器;
所述获取模块,具体用于接收所述智能设备发送的待识别语音信息;所述智能设备发送的待识别语音信息为:所述智能设备在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为待识别语音信息后发送至所述云端服务器的。
本发明实施例还提供了一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行所述的语音识别方法。
本发明实施例提供的一种语音识别方法、装置及电子设备,获取待识别语音信息,对待识别语音信息进行识别,得到该待识别语音信息对应的语音识别信息,确定语音识别信息是否为无意义短音节词,如果语音识别信息为无意义短音节词,则丢弃语音识别信息。本发明实施例通过采用判断语音识别信息是否为无意义短音节词的方式,当语音识别信息为无意义短音节词时,丢弃该语音识别信息,从而能够减小外界短噪声对语音识别过程的影响,提高了语音识别效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音识别方法的流程图;
图2为本发明实施例提供的语音识别装置的结构示意图;
图3为本发明实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为达到上述目的本发明实施例提供了一种语音识别方法,该方法可以应用于电子设备,该电子设备可以为智能设备,也可以为与智能设备通信连接的云端服务器。本发明实施例中,智能设备可以是智能手机、智能音箱、智能机器人或智能平板电脑等带有语音识别功能的设备。
图1为本发明实施例提供的语音识别方法的流程图,该方法包括:
s110,获取待识别语音信息。
本实施例中,语音信息为包含用户发出语音的语音信息。
具体地,电子设备可监听其周围的声音,获取相应的语音信息并将其作为待识别语音信息。
在本发明实施例的一种具体实现方式中,当电子设备为智能设备时,步骤s110可以包括:
a1、实时检测语音信息。
a2、在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为待识别语音信息。
具体地,处于工作状态的智能设备,实时检测周围的语音信息。设初始时刻周围的声音的音量较小,此时处于静音状态,当突然检测到声音的音量大与某一个预设值的时候,则可确定当前有用户输入语音信息,此时进入语音阶段,智能设备采集语音阶段的语音信息。经过一段时间的语音后,声音的音量小于预设值,语音再次进入静音阶段,当进入静音阶段达到预设语音停顿时长时,将用户输入的语音信息(即智能设备采集到的语音信息)确定为待识别语音信息。本实施例中,预设语音停顿时长可自由设定,预设语音停顿时长优选为500毫秒。
在本发明实施例的另一种具体实现方式中,当电子设备为与智能设备通信连接的云端服务器时,步骤s110可以包括:
接收所述智能设备发送的待识别语音信息;所述智能设备发送的待识别语音信息为:所述智能设备在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为待识别语音信息后发送至所述云端服务器的。
具体地,当智能设备在检测到声音的音量大与某一个预设值的时候,开始获取语音信息,经过一段时间的语音后,声音的音量小于预设值,语音再次进入静音阶段,且静音达到预设语音停顿时长时,智能设备停止获取语音信息,并将已经获取的语音信息确定为待识别语音信息后,将其发送给云端服务器,云端服务器接收智能设备发送的待识别语音信息。
s120,对所述待识别语音信息进行识别,得到该待识别语音信息对应的语音识别信息。
具体地,在获取了待识别语音信息后,电子设备对其进行语音识别,得到该待识别语音信息对应的语音识别信息。本实施例中,语音识别的具体过程为现有技术此处不再赘述。
s130,确定所述语音识别信息是否为无意义的短音节词。如果所述语音识别信息为无意义短音节词,执行步骤s140;如果所述语音识别信息不为无意义短音节词,则记录所述语音识别信息。
在本发明实施例的一种具体实现方式中,步骤s130可包括如下步骤:
b1、判断预先构建的无意义短音节词集合中是否存在与所述语音识别信息相同的无意义短音节词。如果是,执行步骤b2;如果否,执行步骤b3。
本实施例中,研究人员可预先将一些可能无意义的短音节词进行存储,构建无意义短音节词集合,并将该集合上传至电子设备中。无意义短音节词可以为单字的发语词或感叹词等;例如,无意义短音节词可以为“嗯”、“啊”、“嘭”、“唉”或“咳”等。无意义短音节词还可以为两个字的词;例如,无意义短音节词可以为“嗯嗯”、“那个”或“阿嚏”等。
进一步地,无意义短音节词不仅可以是用户发出的,周围环境产生的,还可以是电子设备自身产生的,例如,当用户唤醒电子设备时,电子设备会语音响应用户“哎”,一般情况下会对自身发出的声音进行降噪处理。但有些情况下,降噪不够彻底,会有些残留的声音,此时电子设备可能会将这些残留的声音确定为待识别语音信息,为了避免智能设备会对自身产生影响,这类音节“哎”也可以规定为无意义短音节词。
可选地,无意义短音节词还可根据实际情况具体设定。例如,当前时刻为早上时,“早”字不可以作为无意义短音节词,而其他时间(如晚上)“早”字可以作为无意义短音节词。
具体地,当获取语音识别信息后,电子设备会查询无意义短音节词集合,判断是否存在语音识别信息相同的无意义短音节词。本实施例中,语音识别信息与无意义短音节词相同是指:语音识别信息与无意义短音节词的词中字的数量、字的顺序字的字形均相同。
b2、确定所述语音识别信息为无意义短音节词。
b3、确定所述语音识别信息不为无意义短音节词。
具体地,如果无意义短音节词集合中存在与语音识别信息相同的无意义短音节词,则确定语音识别信息为无意义短音节词;反之,如果无意义短音节词集合中不存在与语音识别信息相同的无意义短音节词,则确定语音识别信息不为无意义短音节词。
s140,丢弃所述语音识别信息。
具体地,如果语音识别信息为无意义短音节词,为了避免无意义短音节词对语音识别效果的影响,则丢弃该语音识别信息,并继续获取语音信息。如果语音识别信息不为无意义短音节词,则表明语音识别信息为用户想要表达的意思,则电子设备成功完成语音识别过程,识别过程结束,此时可记录语音识别信息,将记录的语音识别信息确定为语音识别结果。
另外,在步骤s110之后,所述方法还可以包括:若对所述待识别语音信息识别失败,则丢弃该待识别语音信息。
具体地,当电子设备获取到的语音信息模糊不清,电子设备无法识别出该语音信息包含的语音识别信息时,电子设备确定待识别语音信息识别失败,丢弃该语音信息,避免了由于语音信息模糊不清而对语音识别效果带来的影响。
需要说明的是,在确定了语音识别结果后,电子设备可以对语音识别结果进行语义解析,根据语义解析确定为用户提供对应的服务。
举例而言,若电子设备为智能设备,在确定了语音识别结果后,智能设备可以对语音识别结果进行语义解析,根据语义解析确定为用户提供对应的服务。假设解析结果是播放智能设备中音频的指令,则执行该指令,播放相应的音频。
再例如:若电子设备为与智能设备通信连接的云端服务器,在确定了语音识别结果后,云端服务器可以对语音识别结果进行语义解析,根据语义解析确定为用户提供对应的服务。假设解析结果是播放云端服务器中音频的指令,则执行该指令,将相应的音频发送至所述智能设备进行播放。
本发明实施例提供的一种语音识别方法,通过采用判断语音识别信息是否为无意义短音节词的方式,当语音识别信息为无意义短音节词时,丢弃该语音识别信息,从而能够减小外界短噪声对语音识别过程的影响,提高了语音识别效果。
与方法实施例相对应的,本发明实施例还提供了一种语音识别装置。图2为本发明实施例提供的语音识别装置的结构示意图,所述装置包括:
获取模块210,用于获取待识别语音信息;
识别模块220,用于对所述待识别语音信息进行识别,得到该待识别语音信息对应的语音识别信息;
确定模块230,用于确定所述语音识别信息是否为无意义短音节词;
第一丢弃模块240,用于当所述确定模块确定出所述语音识别信息为无意义短音节词时,则丢弃所述语音识别信息。
本发明实施例提供的一种语音识别装置,获取待识别语音信息,对待识别语音信息进行识别,得到该待识别语音信息对应的语音识别信息,确定语音识别信息是否为无意义短音节词,如果语音识别信息为无意义短音节词,则丢弃语音识别信息。本发明实施例通过采用判断语音识别信息是否为无意义短音节词的方式,当语音识别信息为无意义短音节词时,丢弃该语音识别信息,从而能够减小外界短噪声对语音识别过程的影响,提高了语音识别效果。
可选地,所述确定模块330,包括:
判断单元,用于判断预先构建的无意义短音节词集合中是否存在与所述语音识别信息相同的无意义短音节词;
第一确定单元,用于当所述判断单元的判断结果为是时,确定所述语音识别信息为无意义短音节词;
第二确定单元,用于当所述判断单元的判断结果为否时,确定所述语音识别信息不为无意义短音节词。
可选地,所述装置还包括:
记录模块,用于当所述确定模块230确定出所述语音识别信息不为无意义短音节词时,记录所述语音识别信息。
可选地,所述装置还包括:
第二丢弃模块,用于若对所述待识别语音信息识别失败,则丢弃该待识别语音信息。
可选地,所述电子设备为智能设备;
所述获取模块210,包括:
检测单元,用于实时检测语音信息;
确定单元,用于在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为待识别语音信息。
可选地,所述电子设备为与智能设备通信连接的云端服务器;
所述获取模块210,具体用于接收所述智能设备发送的待识别语音信息;所述智能设备发送的待识别语音信息为:所述智能设备在检测到用户输入语音信息后,当静音时长达到预设语音停顿时长时,将用户输入的语音信息确定为待识别语音信息后发送至所述云端服务器的。
与上述方法实施例相对应的,本发明实施例还提供了一种电子设备。图3为本发明实施例提供的电子设备的结构示意图,所述电子设备包括:
壳体310、处理器320、存储器330、电路板340和电源电路350,其中,电路板340安置在壳体310围成的空间内部,处理器320和存储器330设置在电路板340上;电源电路350,用于为电子设备的各个电路或器件供电;存储器330用于存储可执行程序代码;处理器320通过读取存储器330中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行上述方法实施例中所述的语音识别方法。
一种实现方式中,上述语音识别方法可以包括:
获取待识别语音信息;
对所述待识别语音信息进行识别,得到该待识别语音信息对应的语音识别信息;
确定所述语音识别信息是否为无意义短音节词;
如果所述语音识别信息为无意义短音节词,则丢弃所述语音识别信息,并继续执行所述获取语音信息的步骤。
上述语音识别方法的其他实现方式参见前述方法实施例部分的说明,这里不再赘述。
处理器320对上述步骤及上述语音信号处理方法的其他实现方式的具体执行过程以及处理器320通过运行可执行程序代码来进一步执行的过程,可以参见本发明实施例中图1及图2所示实施例的描述,在此不再赘述。
需要说明的是,该电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
可见,本发明实施例所提供的方案中,电子设备的处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,获取待识别语音信息,对待识别语音信息进行识别,得到该待识别语音信息对应的语音识别信息,确定语音识别信息是否为无意义短音节词,如果语音识别信息为无意义短音节词,则丢弃语音识别信息。本发明实施例通过采用判断语音识别信息是否为无意义短音节词的方式,当语音识别信息为无意义短音节词时,丢弃该语音识别信息,从而能够减小外界短噪声对语音识别过程的影响,提高了语音识别效果。
对于电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。