语音识别方法、设备及存储介质与流程

文档序号:34448419发布日期:2023-06-13 12:38阅读:56来源:国知局
语音识别方法、设备及存储介质与流程

本技术涉及一种语音识别方法、设备及存储介质,属于语音识别。


背景技术:

1、随着人工智能的发展,许多的电子设备都增加了语音控制功能,比如:智能手环、手表、电风扇、电视机、空调等。这些电子设备通常使用离线实时的语音识别技术,实时识别使用者输出的语音数据并根据识别结果进行反馈交互。反馈的准确率和识别延时会影响电子设备的使用效果。其中,准确率可以通过识别率和串词率衡量。识别率是指语音数据中能够被正确识别出为词表中某个词的次数与音频中实际说该词的数量的比值。串词率是指语音数据被误识别成词表中其他词的次数与音频中实际说该词的数量的比值。词表是指电子设备能支持进行识别的词的列表。识别延时是指说话人说完某个词到电子设备识别出该词经过的时长。

2、为了提高电子设备识别语音数据的准确性,一般通过下述两种方式实现:

3、第一种:调整语音识别模型的网络结构。具体地,语音识别模型的数据量越大,输出的后验结果的准确性越高,因此,可以通过增加语音识别模型的网络参数,来提高语音识别结果的准确性。另外,由于语音识别模型计算每帧语音帧的识别结果时,会考虑过去和未来的信息,这些信息越多理论上输出的结果也会越准确,因此,还可以通过增加语音识别模型所使用的信息量,来提高语音识别结果的准确性。

4、但是,在第一种方式中,若增加模型参数,则需要重新进行模型训练,之后还要使用测试集进行重新验证,耗费的时间较长。同时,模型参数或模型使用的信息量变大后会影响模型计算速度,导致识别延时变长,影响电子设备的使用效果。

5、第二种:增加语音识别模型的解码延迟时间。具体地,语音识别模型在解码后的出的结果不一定是正确的,有可能是音频中有些噪音导致的突变使得识别出来的结果受到了影响而输出的错误结果。因此,在语音识别模型第一次出现识别结果后,会进行一段时间的等待以确认这次的结果是由于一些特殊情况而输出的还是真实结果。基于此,可以通过增加等待的时长来提高语音识别结果的准确性。

6、但是,第二种方式中需要延长语音识别模型的等待时间,也会导致识别延时变长,影响电子设备的使用效果。


技术实现思路

1、本技术提供了一种语音识别方法、设备及存储介质,由于第二语音识别模型的模型复杂度低于第一语音识别模型的模型复杂度,且第二语音识别模型使用相似词表训练得到;而相似词表为通用词表的子集,即相似词表的数据量小于通用词表的数据量,且相似词表包括通用词表中具有相似关系的至少两个词汇,因此,第二语音识别模型的训练效率和计算效率均较高,同时,还可以保证对相似词汇识别的准确性,可以解决增加第一识别语音模型的网络参数和/或输入量时,导致识别延时较大的问题;可以在保证识别结果准确性的前提下,减少识别延时。本技术提供如下技术方案:

2、第一方面,提供一种语音识别方法,所述方法包括:

3、获取待识别语音数据,所述待识别语音数据包括多帧语音帧;

4、将所述待识别语音数据流式输入预先训练的第一语音识别模型,得到当前输入至所述第一语音识别模型的第n帧语音帧对应的第一词汇;n为正整数;

5、确定所述第一词汇是否与相似词表中的词汇匹配,所述相似词表为所述通用词表的子集,且所述相似词表包括所述通用词表中具有相似关系的至少两个词汇;

6、在所述第一词汇与相似词表中的词汇匹配的情况下,将所述第n帧语音帧输入预先训练的第二语音识别模型,得到所述第n帧语音帧对应的第二词汇;所述第二语音识别模型的模型复杂度低于所述第一语音识别模型的模型复杂度,且所述第二语音识别模型使用所述相似词表训练得到;

7、在第二词汇与所述第一词汇不同的情况下,将所述第n帧语音帧之后的语音帧输入所述第二语音识别模型,得到所述第n帧语音帧对应的第三词汇;

8、在存在预设个数的第三词汇相同的情况下,输出相同的第三词汇得到所述第n帧语音帧的词汇识别结果。

9、可选地,所述方法还包括:

10、在所述第二词汇与所述第一词汇相同的情况下,输出所述第二词汇得到所述第n帧语音帧的词汇识别结果。

11、可选地,所述方法还包括:

12、在所述第一词汇与相似词表中的词汇不匹配的情况下,输出所述第一词汇得到所述第n帧语音帧的词汇识别结果。

13、可选地,所述第二语音识别模型的训练过程包括:

14、对于所述通用词表中的每个词汇,确定所述词汇与所述通用词表中的其它词汇是否存在所述相似关系;

15、若所述词汇与所述其它词汇存在所述相似关系,则将所述词汇和所述其它词汇添加至所述相似词表;

16、基于所述相似词表中的词汇对应的音频样本输入预先建立的第一网络模型,得到模型结果;

17、基于所述模型结果与所述相似词表中的词汇之间的差异更新所述第一网络模型的网络参数,得到所述第二语音识别模型。

18、可选地,所述确定所述词汇与所述通用词表中的其它词汇是否存在所述相似关系,包括:

19、确定所述词汇与所述其它词汇是否存在包含关系;在存在包含关系的情况下确定存在所述相似关系;

20、和/或,

21、确定所述词汇的音素序列与所述其它词汇的音素序列之间的编辑距离是否小于距离阈值;在编辑距离小于距离阈值的情况下确定存在所述相似关系。

22、可选地,所述第一网络模型为前馈神经网络。

23、可选地,所述第一语音识别模型的训练过程包括:

24、基于所述通用词表中的词汇对应的音频样本输入预先建立的第二网络模型,得到模型结果;

25、基于所述模型结果与所述通用词表中的词汇之间的差异更新所述第二网络模型的网络参数,得到所述第一语音识别模型。

26、可选地,所述在存在预设个数的第三词汇相同的情况下,输出相同的第三词汇得到所述第n帧语音帧的词汇识别结果,包括:

27、在存在连续两个相同的第三词汇的情况下,输出所述相同的第三词汇得到所述第n帧语音帧的词汇识别结果。

28、第二方面,提供一种电子设备,所述设备包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现第一方面提供的语音识别方法。

29、第三方面,提供一种计算机可读存储介质,所述存储介质中存储有程序,所述程序被处理器执行时用于实现第一方面提供的语音识别方法。

30、本技术的有益效果至少包括:通过将待识别语音数据的多帧语音帧流式输入预先训练的第一语音识别模型,得到当前输入至第一语音识别模型的第n帧语音帧对应的第一词汇;确定第一词汇是否与相似词表中的词汇匹配;在第一词汇与相似词表中的词汇匹配的情况下,将第n帧语音帧输入预先训练的第二语音识别模型,得到第n帧语音帧对应的第二词汇;在第二词汇与第一词汇不同的情况下,将第n帧语音帧之后的语音帧输入第二语音识别模型,得到第n帧语音帧对应的第三词汇;在存在预设个数的第三词汇相同的情况下,输出相同的第三词汇得到第n帧语音帧的词汇识别结果;由于第二语音识别模型的模型复杂度低于第一语音识别模型的模型复杂度,且第二语音识别模型使用相似词表训练得到;而相似词表为通用词表的子集,即相似词表的数据量小于通用词表的数据量,且相似词表包括通用词表中具有相似关系的至少两个词汇,因此,第二语音识别模型的训练效率和计算效率均较高,同时,还可以保证对相似词汇识别的准确性,可以解决增加第一识别语音模型的网络参数和/或输入量时,导致识别延时较大的问题;可以在保证识别结果准确性的前提下,减少识别延时。

31、上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,并可依照说明书的内容予以实施,以下以本技术的较佳实施例并配合附图详细说明如后。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1