一种语音识别的后处理方法及装置和语音识别系统的制作方法
【技术领域】
[0001]本发明涉及语音技术领域,特别涉及一种语音识别的后处理方法及装置和语音识别系统。
【背景技术】
[0002]当用户在进行搜索操作时,常常会利用语音识别来进行。例如,在视频搜索服务中,用户可以在搜索栏中输入语音命令来搜索需要的电视剧或电影片名。其具体过程是,用户发出语音命令,语音识别引擎接收该语音命令,并根据语音识别引擎内部的语言模型来识别语音命令,从而给出识别结果。但是,由于所搜索的内容不一定符合自然语言的语法,并且语音识别引擎中的语言模型不一定能及时地扩充词汇,因此,由于发音的相似性,用户搜索的内容可能会被识别成另外的词,导致搜索结果出现错误,识别精度不高。例如,搜索电影名《左耳》、电视剧名《花千骨》,搜索结果可能分别出现“卓尔”、“花千古”的错误。
[0003]现有技术中,为了提高语音识别的精度,通常是修改语音识别引擎内部的语言模型。
[0004]但是,通过修改语音识别引擎内部的语言模型来提高识别精度,其时效性差。对于调用第三方语音识别引擎的情况,由于无法修改识别引擎内部的语言模型,因此很难提高识别精度。
【发明内容】
[0005]本发明实施例的目的在于提供一种语音识别的后处理方法及装置和语音识别系统,无需修改语音识别引擎内部的语言模型,提高语音识别的精度。
[0006]为达到上述目的,本发明实施例公开了一种语音识别的后处理方法,包括步骤:
[0007]获得语音识别引擎识别出的汉字短语;
[0008]根据预存的汉字与拼音的对应关系,将所述识别出的汉字短语转化为第一拼音序列;
[0009]计算所述第一拼音序列与预设的关键词数据库中所有拼音序列的各个编辑距离;所述预设的关键词数据库中存储有汉字短语及与其对应的拼音序列;
[0010]获得关键词数据库中与所述第一拼音序列的编辑距离最近的第二拼音序列;
[0011]将关键词数据库中与所述第二拼音序列对应的汉字短语确定为语音识别结果。
[0012]较佳的,所述计算所述第一拼音序列与预设的关键词数据库中所有拼音序列的各个编辑距离,为:
[0013]计算将所述第一拼音序列转化成所述预设的关键词数据库中所有拼音序列时所需的各个最少编辑操作次数,得到各个编辑距离。
[0014]较佳的,所述获得关键词数据库中与所述第一拼音序列的编辑距离最近的第二拼首序列,为:
[0015]对所述各个编辑距离进行排序,将编辑距离最小的拼音序列确定为第二拼音序列。
[0016]较佳的,所述预设的关键词数据库中存储的汉字短语包括:影视片名、音乐片名、节目片名和/或视频类别名;
[0017]所述获得语音识别引擎识别出的汉字短语,包括:获得语音识别引擎针对视频语音命令识别出的汉字短语;
[0018]所述将关键词数据库中与所述第二拼音序列对应的汉字短语确定为语音识别结果,为:将关键词数据库中与所述第二拼音序列对应的影视片名或音乐片名或节目片名或视频类别名,确定为语音识别结果。
[0019]为达到上述目的,本发明实施例还公开了一种语音识别的后处理装置,包括:
[0020]汉字短语识别模块,用于获得语音识别引擎识别出的汉字短语;
[0021]第一拼音序列转化模块,用于根据预存的汉字与拼音的对应关系,将所述识别出的汉字短语转化为第一拼音序列;
[0022]编辑距离计算模块,用于计算所述第一拼音序列与预设的关键词数据库中所有拼音序列的各个编辑距离;所述预设的关键词数据库中存储有汉字短语及与其对应的拼音序列;
[0023]第二拼音序列获得模块,用于获得关键词数据库中与所述第一拼音序列的编辑距离最近的第二拼音序列;
[0024]语音识别结果确定模块,用于将关键词数据库中与所述第二拼音序列对应的汉字短语确定为语音识别结果。
[0025]较佳的,所述编辑距离计算模块具体用于:
[0026]计算将所述第一拼音序列转化成所述预设的关键词数据库中所有拼音序列时所需的各个最少编辑操作次数,得到各个编辑距离。
[0027]较佳的,所述第二拼音序列获得模块具体用于:
[0028]对所述各个编辑距离进行排序,将编辑距离最小的拼音序列确定为第二拼音序列。
[0029]较佳的,所述预设的关键词数据库中存储的汉字短语包括:影视片名、音乐片名、节目片名和/或视频类别名;
[0030]所述汉字短语识别模块,具体用于:获得语音识别引擎针对视频语音命令识别出的汉字短语;
[0031]所述语音识别结果确定模块,具体用于:将关键词数据库中与所述第二拼音序列对应的影视片名或音乐片名或节目片名或视频类别名,确定为语音识别结果。
[0032]为达到上述目的,本发明实施例还公开了一种语音识别系统,包括:
[0033]客户端、语音识别云服务器、语音识别引擎和关键词数据库;
[0034]所述的客户端,用于接收语音;
[0035]所述的语音识别引擎,用于将语音识别为汉字短语;
[0036]所述的关键词数据库,用于存储汉字短语及与其对应的拼音序列;
[0037]所述的语音识别云服务器,用于将从客户端接收的语音发送至语音识别引擎,获得语音识别引擎识别出的汉字短语;根据预存的汉字与拼音的对应关系,将所述识别出的汉字短语转化为第一拼音序列;计算所述第一拼音序列与存储在关键词数据库中所有拼音序列的各个编辑距离;获得关键词数据库中与所述第一拼音序列的编辑距离最近的第二拼音序列;将关键词数据库中与所述第二拼音序列对应的汉字短语确定为语音识别结果。
[0038]较佳的,所述关键词数据库中存储的汉字短语包括:影视片名、音乐片名、节目片名和/或视频类别名;
[0039]所述的语音识别云服务器,将从客户端接收的视频语音命令发送至语音识别引擎,获得语音识别引擎针对视频语音命令识别出的汉字短语;将关键词数据库中与所述第二拼音序列对应的影视片名或音乐片名或节目片名或视频类别名,确定为语音识别结果。
[0040]由上述技术方案可见,本发明实施例是在获得语音识别引擎识别出的汉字短语之后,根据预存的汉字与拼音的对应关系,将所述识别出的汉字短语转化为第一拼音序列,然后计算第一拼音序列与预设的关键词数据库中所有拼音序列的各个编辑距离。所述预设的关键词数据库中存储有汉字短语及与其对应的拼音序列。最后,将关键词数据库中与所计算出的编辑距离中最近的第二拼音序列所对应的汉字短语确定为语音识别结果。
[0041]也就是说,本发明实施例能够在语音识别引擎识别出汉字短语之后,根据拼音之间的编辑距离,将关键词数据库中的对应汉字短语确定为语音识别结果,无需修改语音识别引擎内部的语言模型,从而提高了语音识别的精度。当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
【附图说明】
[0042]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0043]图1为本发明实施例提供的一种语音识别的后处理方法的流程图;
[0044]图2为本发明实施例提供的一种语音识别的后处理装置的结构示意图;
[0045]图3为本发明实施例提供的一种语音识别系统的结构示意图。
【具体实施方式】
[0046]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0047]本发明实